推理模型 - WWW.YOUINFO.SITE

cnBeta全文版 · 2026-06-03 07:06:00+08:00 · tech

在 2026 年 Build 开发者大会上，微软宣布大幅扩充其由 Microsoft AI Superintelligence 团队打造的自研 MAI 模型家族，新推出首个通用推理模型 MAI-Thinking-1、一款面向 GitHub Copilot 的代码模型 MAI-Code-1，以及多款语音、转写和图像生成模型更新版本，进一步完善其端到端 AI 技术版图。这标志着微软在基础模型领域从语音、图像向复杂推理和开发者生产力场景加速延伸。微软表示，过去一年中 MAI 模型家族持续扩容，先后发布了 MAI-Voice-1、MAI-1-preview，以及今年早些时候的 MAI-Transcribe-1 和 MAI-Image-2，之后又推出在文本渲染、风格化插画和商用图像质量方面均有提升的 MAI-Image-2.5。本次在此基础上新增推理与代码模型，并同步升级语音、转写和图像产品线，形成更完整的产品组合。 MAI-Thinking-1 是微软官方公布的首款推理模型，由 Microsoft AI 团队自零开始训练，没有采用其他模型蒸馏而来。微软强调，该模型使用经过清洗、且具有商业许可的企业级数据训练，旨在满足企业用户对数据合规和可商用性的要求。 MAI-Thinking-1 为中等规模模型，拥有 350 亿个激活参数，支持 128K 上下文窗口，主要面向复杂多步骤指令执行、长上下文推理以及代码生成等场景。尽管微软并未在公告中公开详细基准测试数据，但其在博客中援引独立评审结果称，在盲测中，评审者在整体偏好上更倾向于 MAI-Thinking-1，而非 Anthropic 的 Claude Sonnet 4.6。此外，微软还表示，在 SWE-bench Pro 代码任务测试中，MAI-Thinking-1 在编码表现上可与 Claude Opus 4.6 相当，显示出该模型在开发者和复杂工程任务上的潜力。 MAI-Thinking-1 目前已通过 Microsoft Foundry 向特定客户开启私有预览。在图像生成方面，微软此前发布的 MAI-Image-2.5 及其“闪电版”（flash variant）已通过 Microsoft Foundry 向开发者开放。据微软转引的 Arena 最新文榜单数据，MAI-Image-2.5 在文本生成图像任务上超越了Google的 Nano Banana Pro，进入榜单前三名。该模型已经集成进 PowerPoint，并正逐步向 OneDrive 推出，为 Office 生态提供更高质量的图像生成功能。在语音转写方面，微软今年 4 月曾发布 MAI-Transcribe-1，支持基于其自有产品使用数据统计出的 25 种最常用语言的语音转文本转写。本次微软推出升级版本 MAI-Transcribe-1.5，在语音识别准确率方面达到业界领先水平，覆盖语言数量扩展至 43 种，并计划很快为该模型加入流式转写能力，以满足实时场景需求。语音合成方向上，在今年 4 月宣布 MAI-Voice-1 一般可用之后，微软此次又发布 MAI-Voice-2 以及其闪电版变体。新一代语音生成模型支持额外超过 15 种语言，并提供更多语音风格选项，以适配更丰富的应用场景，例如多语言客服、内容配音和智能助手等。面向开发者的编码场景，微软同步推出 MAI-Code-1，这是一款针对 GitHub 工作负载优化的高效推理代码模型。该模型已经在 GitHub Copilot 和 Visual Studio Code 中上线，面向日常编码、重构和代码补全等场景提供支持。虽然微软尚未披露 MAI-Code-1 的具体基准测试结果，但此次发布被视为一个重要信号——微软在 GitHub Copilot 的底层模型上不再完全依赖 OpenAI 和 Anthropic，而是逐步引入自研模型。在分发渠道上，除通过 Microsoft Foundry 面向企业和开发者提供服务外，微软还宣布其 MAI 系列模型将陆续登陆 Fireworks AI、Baseten 和 OpenRouter 等第三方平台。同时，Fireworks AI 也已在 Microsoft Foundry 内实现一般可用，为企业客户提供更多架构和部署选择。通过与多家平台合作，微软希望进一步降低接入门槛，加速 MAI 模型在不同云和工具生态中的落地。从整体布局来看，微软正以 MAI 推理、编码、语音、转写和图像等多类型模型构建一套完整的企业级 AI 能力矩阵。随着 MAI-Thinking-1 和 MAI-Code-1 的加入，微软在复杂推理以及开发者生产力领域的话语权显著增强，也为 GitHub Copilot、Office 系列及合作平台提供了更具竞争力的技术底座。查看评论

微软发布其首款高级推理模型 MAI-Thinking-1：承诺未蒸馏第三方模型，自研 AI 模型阵容进一步扩充

IT之家 · 2026-06-03 02:22:47+08:00 · tech

IT之家 6 月 3 日消息，在 Build 2026 开发者大会上，微软发布了一系列自研 AI 模型，其中包括旗下首款高级推理模型 MAI-Thinking-1。这也是微软在模型研发领域迈出的重要一步。微软介绍称，MAI-Thinking-1 是一款“中等规模模型”，拥有 350 亿活跃参数，在关键软件工程基准测试中能够达到业界领先模型的水平。微软表示，该模型“完全基于干净数据从零开始训练，未使用来自第三方模型的蒸馏数据”。除 MAI-Thinking-1 外，微软还公布了多款面向不同应用场景的新模型，覆盖图像生成、语音转写、语音合成以及编程辅助等领域。IT之家汇总如下：在图像领域，微软发布了 MAI-Image 2.5 及其 Flash 版本，两者均支持文生图和图像编辑功能。语音转写方面，微软推出 MAI-Transcribe-1.5，并表示该模型“速度可达竞争对手模型的五倍”。语音能力方面，微软发布了 MAI-Voice-2，同时预告其 Flash 版本即将推出。微软称，新模型新增了对 15 种语言的支持，并提供更多语音选项。针对编码场景，微软推出了 MAI-Code-1。微软表示，该模型具备“推理效率优化”特性，并已集成到 GitHub Copilot 和 Visual Studio Code 中。通过此次发布，微软进一步扩展了自研 MAI 模型家族，覆盖推理、图像、语音和编程等多个 AI 应用方向。相关阅读：《微软首个自研推理 AI 模型 MAI-Thinking-1、新 Copilot 超级应用曝光》

英伟达推出 Alpamayo 2 Super 开源推理模型，助力 L4 自动驾驶研发

IT之家 · 2026-06-01 13:03:55+08:00 · tech

IT之家 6 月 1 日消息，英伟达今日正式推出了 Alpamayo 2 Super，这是一款拥有 320 亿参数、基于推理能力的视觉 - 语言 - 动作（VLA）模型，进一步丰富了英伟达 Alpamayo 系列开源人工智能模型、仿真框架与物理人工智能数据集，助力企业研发安全的 L4 自动驾驶出租车。 IT之家注意到，伴随该模型发布，英伟达还推出多款全新工具、模型与智能体技能，打通从真实场景数据采集、闭环训练到车载部署的全流程，其中包括包括 NVIDIA AlpaGym、NVIDIA OmniDreams 以及全新的 NVIDIA Omniverse NuRec 模型。据官方介绍，Alpamayo 2 Super 可免去企业从零搭建自动驾驶核心基础设施的环节，大幅加速自动驾驶车辆研发进程。该模型具备类人的感知、推理与行动能力，同时拥有可解释性，能够满足安全验证与合规监管的相关要求。为适配道路实车部署的模型训练需求，AlpaGym 提供闭环强化学习平台。而英伟达 OmniDreams 作为可生成逼真场景的世界模型，能够大规模仿真各类罕见、长尾驾驶场景。为提升开发者效率，英伟达为旗下所有自动驾驶开发工具配套了物理人工智能智能体能力。例如，依托英伟达 Omniverse NuRec 打造的神经重建能力，可基于真实车队行驶场景开展仿真，并批量生成合成训练数据。英伟达创始人兼首席执行官黄仁勋表示：“Alpamayo 标志着汽车开始具备自主推理能力，不再只是单纯行驶。唯有英伟达能同步提供开源模型、仿真工具、真实场景数据与智能体能力，助力全球自动驾驶出租车生态打造四级自动驾驶能力，让车辆识别极端场景、解释决策逻辑、建立安全信任，并顺利规模化部署至数百万辆汽车。” 依托 Alpamayo 2 Super，英伟达 Alpamayo 系列模型参数规模从 100 亿提升至 320 亿。该模型不再局限于轨迹生成，可在整套驾驶系统中完成推理、规划与执行。其支持多类任务，包括逻辑推理、自动标注、场景理解、模型评估以及大模型知识蒸馏至轻量化模型，为可规模化落地的四级自动驾驶研发与部署奠定基础。核心特性： 1. 参数规模提升至 3 倍：该模型基于英伟达 Cosmos 打造，相较前代 100 亿参数版本升级至 320 亿参数，在长尾场景下的逻辑推理、三维空间感知与轨迹预测能力全面增强。 2. 全车环视感知：从传统前置摄像头感知升级为 360 度全景环境感知，覆盖车辆前、侧、后方视野，为变道、并线、路口通行等操作提供完整环境信息，提升行驶安全性。 3. 元动作输出：新增元动作输出能力，支持礼让、变道、停车等高层级驾驶动作预判。除行驶轨迹与因果链溯源信息外，模型可输出高阶驾驶决策，为后续规划模块提供依据。 4. 推理式自动标注与二维目标定位：搭载结合二维目标定位的推理式自动标注功能。这款 320 亿参数基础大模型可产出高质量推理标注数据，将标注周期从数月缩短至数日，大幅优化自动驾驶数据链路的成本与效率。 5. 优化因果链与轨迹输出：针对传统模仿学习自动驾驶系统难以应对的罕见、复杂及长尾场景，模型的因果链溯源能力与轨迹生成质量均得到显著提升。以上升级让 Alpamayo 2 Super 成为英伟达目前功能最强的开源驾驶基础大模型。该模型定位为教师模型，可通过知识蒸馏压缩为轻量化模型，部署在英伟达 DRIVE Hyperion 旗下车载自动驾驶主控芯片 DRIVE AGX Thor 上运行。从 NVIDIA Alpamayo 1 Nano 和 NVIDIA Alpamayo 1.5 Nano 这类百亿参数模型，到如今 320 亿参数的 Alpamayo 2 Super，整套教师模型完成迭代升级。基于该系列模型搭建的自动驾驶系统，可直接继承高水准的推理与感知能力，各家车企无需重复从零开发。 Alpamayo 系列近期斩获台北国际电脑展（COMPUTEX）最佳选择奖，拿下车载技术与智能座舱类别奖项。自发布以来，该系列模型下载量已接近 40 万次。其开源平台还附带后训练脚本，方便科研人员与开发者结合自有数据集、行驶场景及驾驶策略对模型进行二次适配。 Alpamayo 2 Super 的推理代码预计于今年夏季上线 GitHub，模型权重则将同步发布在 Hugging Face 平台。英伟达同步推出 NVIDIA AlpaGym，这是一款开源、高算力吞吐的闭环强化学习框架。开环训练仅依托历史录制数据评估模型，单次输出动作；而 AlpaGym 可在英伟达 AlpaSim 中，让模型持续循环完成“决策 - 感知”流程，车辆每一次制动、转向、导航操作都会实时改变仿真环境。借此，平台能够暴露静态数据集无法发现的累积误差与极端场景故障，让模型在实战化模拟中持续学习。 AlpaGym 基于 AlpaSim microservice 架构与英伟达 Omniverse NuRec 搭建，可高效、规模化开展闭环强化学习，持续突破自动驾驶性能上限。结合物理人工智能自动驾驶数据集，Alpamayo 系列模型可实现从开环预训练到闭环精细化调优的完整训练链路。英伟达还在 GitHub 开源因果链自动标注流程。该工具可基于原始行车视频，全自动生成具备决策依据与因果关联的标注数据，无需人工参与，为大规模训练具身推理模型提供核心的因果训练数据。为助力推理型自动驾驶技术研发，英伟达依托 NVIDIA Agent Toolkit 推出多款全新物理人工智能智能体能力，辅助开发者及智能编码程序完成仿真、数据生成、闭环训练等全流程工作，支撑自动驾驶系统的大规模研发与验证。其中包括：依托英伟达 Omniverse NuRec 组件打造的神经重建能力、用于生成逼真驾驶场景的 OmniDreams 能力，以及面向闭环强化学习的 AlpaGym 能力。英伟达称，包括比亚迪、吉利、极氪、小米以及小马智行等在内的中国主流车企和自动驾驶公司，均已采用或正在基于 NVIDIAHyperion 平台开发智驾。

相关专题

佬友们科研写论文是喜欢用 GPT 4.5 还是 5.5 Pro 呢

LinuxDo 最新话题 · 2026-05-28 23:12:03+08:00 · tech

听说 GPT 4.5 写文章比较有真人感，AI 味不重，而 GPT 5.5 Pro 是推理模型，官方声称学术能力强。大家平时搞学术比较倾向于用哪个呢？ GPT 4.5 GPT 5.5 Pro 点击以查看投票。 5 个帖子 - 5 位参与者阅读完整话题

OpenAI的内部模型这么厉害了吗

LinuxDo 最新话题 · 2026-05-23 01:03:21+08:00 · tech

OpenAI宣称其内部推理模型成功解决 Erdős Unit Distance Problem 和一个Nesterov加速收敛问题. 作为一个数学偏微分方向的学生,真让人感叹又焦虑我是23年GPT开放使用的那会就一开始就在使用了,那时候包括在或许很多的大模型数学能力测试中表现都不是很好,也有时候会出现有人发拿数学开放测试题来背答案也还觉得这至少对数学猜想来说还是聊天玩具 ,包括后面的各种cli工具,agent,image2等各种爆发,也只是让我感叹对计算机的冲击,至少是对数学没有很大的冲击力,现在一看,好像是要冲击数学学术圈了吗… wallstreetcn.com 困扰人类80年的数学难题，被AI破解了！奥特曼：感受很复杂 OpenAI一个通用推理模型，自主攻克了困扰数学界近80年的“平面单位距离猜想”难题。更震撼的是，AI动用的突破工具竟来自毫不相关的代数数论领域。数学家Gowers称之为“AI数学的里程碑”，CEO奥特曼称“感受很复杂”。而数学可能只是开始，AI自主产出科学突破的时代可能比所有人预想的都来得更快。 11 个帖子 - 10 位参与者阅读完整话题

OpenAI内部模型推翻近80年数学猜想

LinuxDo 最新话题 · 2026-05-21 19:59:53+08:00 · tech

2026年5月20日，OpenAI宣布其内部的一个通用推理模型成功推翻了埃尔德什单位距离猜想，相关证明已由多位顶尖数学家独立验证菲尔兹奖得主蒂莫西·高尔斯明确表示，若此证明由人类完成，他会毫不犹豫地推荐发表至顶级数学期刊《数学年刊》 5 个帖子 - 4 位参与者阅读完整话题

OpenAI称已解决了一道存在80年的数学难题

cnBeta全文版 · 2026-05-21 07:35:30+08:00 · tech

OpenAI近日表示，其最新通用推理模型自主给出了一条原创数学证明，推翻了一项自1946年由著名数学家保罗·埃尔德什（Paul Erdős）提出、悬而未决的几何猜想。 OpenAI称，这是人工智能首次自主解决一项在某一数学领域中居于核心地位的著名公开难题，而参与背书的多位数学家也认为，这一次并非虚惊一场。值得注意的是，这并非OpenAI首次在“AI攻克埃尔德什难题”上高调发声。大约七个月前，该公司时任副总裁凯文·维尔（Kevin Weil）曾在社交平台X上发文称，“GPT‑5找到了10个此前未解的埃尔德什问题的解，并在另外11个问题上取得进展”。但很快有人指出，模型所谓的“解”其实早已存在于数学文献之中，GPT‑5只是从已有成果中“翻找”出来，而非真正发现新解。在GoogleDeepMind首席执行官德米斯·哈萨比斯（Demis Hassabis）以及Yann LeCun等竞争对手的嘲讽声中，维尔最终删除了这条被批评为“夸大其词”的帖子。或许正因有这段前车之鉴，OpenAI在此次发布中明显更加谨慎。公司在宣布成果的同时，公开了一份由多位数学家撰写的“补充评述”文件，以论证这项几何猜想被推翻的严谨性。这些联名数学家包括诺加·阿隆（Noga Alon）、梅兰妮·伍德（Melanie Wood）以及托马斯·布卢姆（Thomas Bloom）等人。布卢姆维护着“Erdos Problems”网站，曾在上一轮风波中把维尔的言论批评为“一种极具戏剧性的误导”，此次则站在了OpenAI这一边，为新证明背书。 OpenAI在X上发文总结了这一突破的核心意义：近80年来，数学界普遍认为，这类问题的最优构造大体应类似于“方形网格”；而该公司的新推理模型则给出了完全不同的一族构造，在性能上优于传统方格方案，从而推翻了长期占主导地位的直觉。按照OpenAI的说法，这一成果出自一个通用推理模型，而非专门为解题而设计的数学系统，也不是为这道几何难题“定制训练”的算法。 OpenAI认为，这一结果的意义已超出单一命题本身，更在于体现了当前AI系统在“长链条推理”和“跨领域概念连接”上的能力提升。通过在复杂空间中探索人类研究者尚未尝试或未系统化挖掘的构造方式，此类模型有望在生物学、物理学、工程学以及医学等多个领域带来新发现。换言之，AI不再只是验证既有证明或搜索既有文献，而是开始在“提出全新结构和思路”方面扮演更积极的角色。布卢姆在一份声明中表示，人工智能正在帮助人类“更充分地探索我们几百年来共同建造的数学大教堂”。他提出发问：“还有多少未被看见的奇迹，正静静等待登场？” 在“AI能否真正做出原创科学发现”的讨论尚未平息之际，这次经数学界审查后仍获得认可的几何猜想反例，或许会成为后续争论的一个重要参照点。查看评论

GPT 网页端推理模型的思考链是否缩短

linux.do · 2026-05-06 17:03:36+08:00 · tech

最近使用gpt网页端，采用gpt5.5thinking模式，感觉思考时间缩短，上下文结合能力变差，思考链可见内容也很少， openai是不是对算力的自适应分配进行微调了，使在网页端query 上降低推理深度了？还是我个人错觉，只是现在模型建立思考链推理的速度变快了？ 5 个帖子 - 3 位参与者阅读完整话题

DeepSeek公开多模态模型技术报告公布：超越GPT-5.4

plink.anyfeeder.com · 2026-05-01 12:05:44+08:00 · tech

DeepSeek在GitHub上发布了多模态推理模型及技术报告，题为《Thinking with Visual Primitives（以视觉原语思考）》。该模型基于DeepSeek V4-Flash（284B总参数、推理时激活13B的MoE架构）构建，提出了一种全新的多模态推理范式。论文指出现有多模态大模型存在一个被忽视的根本性瓶颈：“指代鸿沟”（Reference Gap），即模型能够“看见”图片内容，但在推理过程中用自然语言构建思维链时，左边那个大的、靠近中央的红色物体这类模糊描述在密集场景中无法精确定位视觉对象，导致注意力漂移并得出错误结论。此前学界的主流应对方向是提升感知分辨率，但论文认为看见和能说清楚在说哪个是两件不同的事。该模型的核心创新在于将点坐标和边界框嵌入推理过程本身，使其成为思维链的基本单元。模型在推理时每提到一个视觉对象就同步输出其坐标。例如“找到一只熊[452，23，804，411]，正在爬树，排除，再往左下看，找到另一只[50，447，647，771]，站在岩石边缘，符合条件。”坐标不再是事后标注的答案，而是推理过程中消除歧义的空间锚点。架构层面，模型实现了7056倍的视觉压缩，一张756×756的图片经ViT处理后生成2916个图像块token，经3×3空间压缩合并为324个token，再通过压缩稀疏注意力（CSA）机制将KV缓存进一步压缩4倍，最终仅剩81个视觉KV条目。作为参照，同等尺寸图片Claude Sonnet 4.6约需870个、Gemini-3-Flash约需1100个。训练数据方面，团队从近10万个目标检测数据集中筛选出约3.17万个高质量数据源，生成超过4000万条训练样本，覆盖计数、空间推理、迷宫导航和路径追踪四类任务。后训练采用先专家化、后统一策略，分别训练边界框和点坐标两个专家模型，经强化学习优化后通过在线策略蒸馏合并为统一模型。实验结果在11个基准测试上与Gemini-3-Flash、GPT-5.4、Claude Sonnet 4.6等主流模型进行了对比。计数任务上，Pixmo-Count精确匹配得分89.2%，超过Gemini-3-Flash的88.2%，大幅领先GPT-5.4的76.6%和Claude Sonnet 4.6的68.7%。最具代表性的差距出现在拓扑推理上：迷宫导航得分66.9%，GPT-5.4为50.6%、Gemini-3-Flash为49.4%、Claude Sonnet 4.6为48.9%，提升约17个百分点；路径追踪得分56.7%，GPT-5.4为46.5%。不过论文同时指出了当前局限性：模型需要明确触发词才会启用视觉原语机制，极细粒度场景下坐标精度有限，跨场景泛化能力仍有提升空间。查看评论