改卷 - WWW.YOUINFO.SITE - WWW.YOUINFO.SITE

www.v2ex.com · 2026-04-26 07:27:06+08:00 · tech

这两天我刷帖子刷得有点懵。 4 月 20 号，Kimi 悄悄放出 K2.6 。4 月 23 号，腾讯混元 3.0 开源，小米 MiMo-V2.5 同一天公测。4 月 24 号，DeepSeek V4 Preview 上线。大洋彼岸那边，GPT-5.5 、Claude Opus 4.7 接连发出，image2 火遍全网。我数了一下，就这 7 天，至少 6 个万亿参数级别或者准万亿级别的模型同时在线。这种密度，大模型火了这三年，一共都没见过几次。热闹归热闹，我发现一件有意思的事。大家聊的东西变了。以前一个新模型出来，讨论区清一色的「几分」「跑分第几」「 MMLU 多少」。现在呢？我刷了两天帖子，发现讨论最多的不是谁更聪明，而是两个特别具体的问题。一个是「它能帮我干什么活」。一个是「用它要花多少钱」。傅盛之前在节目里做过一个大致测算，要想大模型产生生产力，一个人每天花在买 token 上的钱，大约是 10 美元，我的体感与此类似。顶尖的模型做出一流的工作，一流的模型做出二流的工作，其他模型做出来的就很废了。所以你看，这背后其实就是两件事，产能和成本。这两个词，恰好对应了这波神仙打架里我最想聊的两个选手。 DeepSeek V4 和 Kimi K2.6 。一个把「 AI 能帮你干多少活」这件事往前推了一大步，一个把「用 AI 要花多少钱」打到了一个让人不敢相信的地板价。而且这两家之间有一段特别有意思的关系。K2.6 的架构用了 DeepSeek 的 MLA 注意力机制，V4 的训练用了 Kimi 的 Muon 优化器。两家公司最后的深层交汇点，居然是芯片。这不是段子。这是 2026 年中国 AI 行业让人觉得「能打」的那个部分。我觉得这件事值得好好聊聊。先说模型，再聊体验，最后我们聊开源。 DeepSeek 做到了啥先聊 DeeSeek V4 。 DeepSeek 的路线，我给它取了个名字叫「基础设施路线」。单点极致，不做多模态，不做花哨的 C 端交互，所有力气花在推理和编码上，然后把 API 定价打到地板。 V4 Pro 的定价，输入$1.74/百万 token ，输出$3.48/百万 token 。 GPT-5.5 呢？输入$5 ，输出$30 。 Mashable 算了一笔账，V4 比 GPT-5.5 便宜大约 85%。VentureBeat 的说法更直接，大概是 GPT-5.5 的七分之一，Opus 4.7 的六分之一。 V4 Flash 更离谱。输入$0.14/百万 token ，输出$0.28/百万 token 。Cline 的 CEO 算了一笔账说，如果 Uber 用 V4 替代 Claude ，它 2026 年的 AI 预算本来只够用四个月，换成 V4 够用七年。七年。这就是 DeepSeek 的风格。你要造什么都行，我负责把成本给你打下来。（这里说明一下，由于没有查到 K2.6 价格，这里通过公开数据计算得出）这对 Agent 场景的意义太大了。一个 Agent 跑长任务的时候，每个工具返回的结果都会追加到上下文里，上下文越来越长，每生成一个新 token 都要对前面所有内容做一遍注意力计算。如果这个成本降不下来，100 万 token 就是个摆设。V4 在这块做的事情，其实是在给整个 Agent 生态铺路。当一群 AI 开始帮你干活 K2.6 走的是另一条路。坦率的讲，K2.6 让我真正兴奋的不是模型本身有多强。强不强，数据摆两个你自己看。 OpenRouter 编程能力日榜第一。 Artificial Analysis 的 Intelligence Index 给了 54 分，全球第四。前面三个分别是 Claude Opus 4.7 、Gemini 3.1 Pro 、GPT-5.4 ，而这四个里面，仅有 K2.6 是开源模型。火了一段时间了，模型配置我就不摆了，大家应该都看到了。真正让我坐直的，是跑在 K2.6 上面的两个功能。一个叫「 Agent 集群」。一个叫「 Office 文档转 Skill 」。翻译翻译，一个叫产能，一个叫标准。 Agent 集群，这个架构跟 Anthropic 今年 2 月在 Claude Code 里上线的 Agent Teams 异曲同工，但 Claude 那个是给开发者用的，得敲命令行配 settings.json ，产物主要是代码。K2.6 的 Agent 集群面向所有人，说句话就行，交付的是 PDF 、PPT 、Excel 、Word 这些办公产物。同样的群体智能方向，截然不同的答卷。现实世界里，一个真正复杂的项目是怎么完成的？不是一个天才坐在那里从头干到尾。而是一个团队，产品经理定方向，设计师出视觉，工程师写代码，分析师跑数据，每个人各司其职，并行推进，最后汇总交付。 Agent 集群做的就是这件事。它不再是一个 Agent 在那里单打独斗了。K2.6 驱动的 Agent 集群架构迎来一次大升级，现在支持 300 个子 Agent 并行完成 4000 个协作步骤。其实 Agent 集群在 K2.5 就有了，但这次我是真的觉得，它达到了生产级。 Kimi 官方文档里说了，最多可以有 300 个 Agent 一起干活。既然如此，我不客气了。必须拉满。请看我的提示词。从思维链中可以看到，它立刻生成了一堆子 agent 开始安排任务。过程中能够看到，始终有两个子 agent 在总揽全局。第一次跑通的时候，说实话愣了好几秒。因为它输出给我的不是一个数据模拟器，而是有过程、有可视化呈现、有结果报告的全方位展示。甚至还有意见领袖上台演讲。大家可以看一下辩论过程呈现网页中的这一部分，有演讲大纲、说服网络、达成效果。我感觉自己不是在和 AI 对话，更像是站在一个 300 人的报告厅里听辩论。这还没完。总输出物是一个辩论过程网页呈现、一个辩论 PPT 报告，还有一个 33 页的混合架构白皮书。大家可以看一下这个白皮书。我当时的反应不是「哇好厉害」，而是一种很奇怪的恍惚感。当你第一次看到 AI 也开始协作的时候，那种感觉其实挺奇妙的。你不是在用一个工具。你是在旁观一个组织开始工作。甚至它还做了成本分析和对比。 AI 开始雇佣 AI 了？ AI 也开始计算人效比？后来我又试了几个场景。例如我要制作一个包豪斯风格的日历，直接告诉它需求，它就开始分步骤，给不同的 Agent 安排活儿。出来的是中英文配套、审美在线的日历图，并且还配了一个 PPT 产品展示。每次看到这些产物一次性弹出来的时候，我都会想起一个数字。广告公司一个项目组做类似的事情，大概需要 100 个小时。 Agent 集群需要多久？大概 30 分钟。前两天我和一个深度 ChatGPT 用户的朋友聊天，他感叹了一句，Pro 的活儿是真好，慢也是真慢，贵也是真贵。 ChatGPT Pro 之所以有这样的效果，核心原因是它有非常长的思维链，大模型在不断回溯之前的结果，不断修改。此刻我有了使用 Pro 的感觉，Kimi 用多 Agent 的方式做到了同样的事。 100 个小时和 30 分钟。记住这个对比，后面还会用到。回到 Skill 这块。 Skill 满天飞，但我觉得它是最容易被低估的一个东西。因为真正决定交付质量的，往往不是你有没有灵感，而是你有没有稳定的方法。 K2.6 的「 Office 文档转 Skill 」功能，把这件事做得极其简洁。把你认为最好的那份产物，一份顶级研报、一份精美的 PPT 模板、一份专业的财务分析表，直接发给 Kimi Agent ，它会自动深度学习这份产物的结构、风格、排版、配色和逻辑，然后生成一份对应的 Skill 。以后你每次让 Agent 集群干活的时候，调用这个 Skill ，产出的东西就会自动对齐那份顶级产物的标准。Excel 、PDF 、Word 、PPT ，全格式支持。 Skill 加上 Agent 集群，等于标准化批量交付。这两个功能合在一起，才是 K2.6 真正的杀手锏。 DeepSeek V4 vs Kimi K2.6 聊到这儿，一个有趣的问题出现了。 K2.6 和 V4 ，到底谁更强？坦率的讲，这个问题本身就问错了。它们走的是完全不同的路。 K2.6 是系统优化路线。模型加产品加 Agent 一起上，原生多模态，能处理文本、图片和视频，Agent 集群能力是它最重要的差异化。它想做的是 AI 时代的操作系统，让每个人都能调度一个 AI 团队帮自己干活。 V4 是基础设施路线。单点极致，100 万 token 上下文，API 定价打到地板，不做多模态，专注推理和编码。它想做的是 AI 时代的水电煤，让所有开发者和企业都能用最低成本跑最强的模型。一个面向所有人说「你只要开口，剩下的交给我的团队」。一个面向开发者说「我把成本给你打下来」。而且正因为走的不同，才有了我开头提到的那段有意思的关系。 DeepSeek V4 的训练，用了 Kimi 的 Muon 优化器。月之暗面团队在万亿参数规模上验证了 MuonClip 的训练稳定性，预训练全程零 Loss Spike 。DeepSeek 看到效果，直接拿来用了。 Kimi K2.6 的架构，用了 DeepSeek 的 MLA 注意力机制。Multi-head Latent Attention ，通过对投影矩阵做低秩近似，把 KV Cache 的压缩率做到了 93%以上。翻译成人话就是，推理时占的显存大幅降低，同样的硬件能跑更大的模型。这两个技术创新都不是偷来的。是光明正大地、通过论文和 GitHub 拿来用的。你品品这个事。两家中国最顶尖的 AI 公司，各自拿出了自己最核心的技术创新，开源出去，然后对方在下一代模型里直接用上了。开源正在改写游戏规则顺着这个再往深聊一层。很多朋友可能会问，互相用对方的技术，那护城河在哪？如果谁都能用你的东西，你凭什么比别人强？这个问题问得好。但它基于一个旧世界的假设，就是「技术是排他性资产」。在闭源体系里确实是这样。你发明了一个牛逼的注意力机制，那是你的护城河，你得申请专利，设置使用限制。但在开源体系里，逻辑完全不同。你发明了 MLA ，全世界都能用。但你的团队因为最先使用它、最理解它的设计意图、在工程实现上跑得最远，所以你天然领先。护城河不是「你有什么别人没有的」，而是「你能比别人更快地把最新的技术整合到下一代模型里」。这有点像 Linux 。Linux 从来不属于任何一家公司。但基于 Linux 构建的生态，支撑了整个互联网时代。Red Hat 、Google 、Amazon ，都在 Linux 上面建了自己的商业帝国。它们的护城河不是 Linux 本身，而是在 Linux 之上构建的独特能力。 DeepSeek 和 Kimi 正在做的事情，是在共同浇筑中国 AI 的「 Linux 」。回头看看大洋彼岸在干什么。当时看到 OpenAI 创始人和 Claude 创始人两人合照用手势对立的时候，当时第一反应是。。。你们认真的吗？怎么说呢，有点像小学生吵架。我不想把这个事情上升到什么宏大叙事，什么制度优越性，那太扯了。但有一个事实是很难反驳的，当技术通过开源代码自由流动的时候，整个生态的进化速度，是封闭生态没法比的。 DeepSeek 的 MLA 发明出来之后，不只 Kimi 在用，全世界的开源模型都在用。Kimi 的 MuonClip 验证成功之后，不只 DeepSeek 在用，学术界和其他公司也在跟进。每一个技术创新都在被以最快的速度吸收、改进、再释放出去。还有一条很多人没注意到的暗线。 H20 已经断供一年了。推理芯片短期内只有国产一个选项。 Kimi 上周末发了一篇论文，叫 Prefill-as-a-Service 。简单来讲就是，它用 Kimi Linear 混合注意力架构把 KV Cache 的传输需求压到了极低的水平，然后把 Prefill 和 Decode 两个阶段解耦到不同的异构集群，甚至可以跨数据中心。实验结果是吞吐量提升 54%，P90 TTFT 降低 64%。论文里有一句容易被忽略的话。这个方案对「算力强但显存容量和带宽有差距的国产卡」特别友好。与此同时，Fortune 的报道提到 DeepSeek V4 正在跟华为芯片做紧密整合。你看到了吗？两条线又汇到一起了。 Kimi 用新架构为国产芯片打开了推理的大门。DeepSeek 可能成为第一个在国产芯片上大规模部署的万亿参数模型。一个从软件侧降低硬件要求，一个从应用侧直接适配硬件。殊途同归。黄仁勋前阵子在 The Dwarkesh Podcast 上被问到禁止对中国出口芯片这件事，他说了一句很耐人寻味的话，芯片又不是铀浓缩，禁售阻挡不了中国芯片的进步，他们依旧可以通过国产芯片暴力堆叠来开发模型。 DeepSeek 和 Kimi 的下一步，就是标准答案。其实写到这里，我本来想收了。但有一个念头一直在脑子里转。这一周发生的事情，表面上看是几个模型在打架。但往后退一步看，你会发现一个更大的图景正在成型。过去三年，我们一直在跟 AI 「聊天」。一问一答，一来一回。这个交互模式让我们不自觉地把 AI 想象成「一个人」。但这一周的发布，不管是 K2.6 的 300 个子 Agent 并行，还是 V4 的 100 万 token 长上下文，还是 Claude 的 Agent Teams ，它们指向的都是同一个东西。 AI 不再是「一个聪明人」了。它开始变成一个组织。一个能拉群、能分工、能协作的组织。还记得前面那个对比吗？广告公司 100 个小时，Agent 集群 30 分钟。V4 把推理成本打到地板，让这种大规模协作在经济上可行。K2.6 把 Agent 集群做成产品，让普通人也能调度这种协作。一个在铺路，一个在开车。我不确定这到底会走向哪里。但我确定的是，当 DeepSeek 和 Kimi 各自交出这样的答卷，而且还在互相借力往前跑的时候，这场游戏的走向，已经跟很多人想的不一样了。历史不会简单重复。但它会押韵。

大模型终于不卷跑分，改卷打工了！

www.v2ex.com · 2026-04-26 07:27:06+08:00 · tech

这两天我刷帖子刷得有点懵。 4 月 20 号，Kimi 悄悄放出 K2.6 。4 月 23 号，腾讯混元 3.0 开源，小米 MiMo-V2.5 同一天公测。4 月 24 号，DeepSeek V4 Preview 上线。大洋彼岸那边，GPT-5.5 、Claude Opus 4.7 接连发出，image2 火遍全网。我数了一下，就这 7 天，至少 6 个万亿参数级别或者准万亿级别的模型同时在线。这种密度，大模型火了这三年，一共都没见过几次。热闹归热闹，我发现一件有意思的事。大家聊的东西变了。以前一个新模型出来，讨论区清一色的「几分」「跑分第几」「 MMLU 多少」。现在呢？我刷了两天帖子，发现讨论最多的不是谁更聪明，而是两个特别具体的问题。一个是「它能帮我干什么活」。一个是「用它要花多少钱」。傅盛之前在节目里做过一个大致测算，要想大模型产生生产力，一个人每天花在买 token 上的钱，大约是 10 美元，我的体感与此类似。顶尖的模型做出一流的工作，一流的模型做出二流的工作，其他模型做出来的就很废了。所以你看，这背后其实就是两件事，产能和成本。这两个词，恰好对应了这波神仙打架里我最想聊的两个选手。 DeepSeek V4 和 Kimi K2.6 。一个把「 AI 能帮你干多少活」这件事往前推了一大步，一个把「用 AI 要花多少钱」打到了一个让人不敢相信的地板价。而且这两家之间有一段特别有意思的关系。K2.6 的架构用了 DeepSeek 的 MLA 注意力机制，V4 的训练用了 Kimi 的 Muon 优化器。两家公司最后的深层交汇点，居然是芯片。这不是段子。这是 2026 年中国 AI 行业让人觉得「能打」的那个部分。我觉得这件事值得好好聊聊。先说模型，再聊体验，最后我们聊开源。 DeepSeek 做到了啥先聊 DeeSeek V4 。 DeepSeek 的路线，我给它取了个名字叫「基础设施路线」。单点极致，不做多模态，不做花哨的 C 端交互，所有力气花在推理和编码上，然后把 API 定价打到地板。 V4 Pro 的定价，输入$1.74/百万 token ，输出$3.48/百万 token 。 GPT-5.5 呢？输入$5 ，输出$30 。 Mashable 算了一笔账，V4 比 GPT-5.5 便宜大约 85%。VentureBeat 的说法更直接，大概是 GPT-5.5 的七分之一，Opus 4.7 的六分之一。 V4 Flash 更离谱。输入$0.14/百万 token ，输出$0.28/百万 token 。Cline 的 CEO 算了一笔账说，如果 Uber 用 V4 替代 Claude ，它 2026 年的 AI 预算本来只够用四个月，换成 V4 够用七年。七年。这就是 DeepSeek 的风格。你要造什么都行，我负责把成本给你打下来。（这里说明一下，由于没有查到 K2.6 价格，这里通过公开数据计算得出）这对 Agent 场景的意义太大了。一个 Agent 跑长任务的时候，每个工具返回的结果都会追加到上下文里，上下文越来越长，每生成一个新 token 都要对前面所有内容做一遍注意力计算。如果这个成本降不下来，100 万 token 就是个摆设。V4 在这块做的事情，其实是在给整个 Agent 生态铺路。当一群 AI 开始帮你干活 K2.6 走的是另一条路。坦率的讲，K2.6 让我真正兴奋的不是模型本身有多强。强不强，数据摆两个你自己看。 OpenRouter 编程能力日榜第一。 Artificial Analysis 的 Intelligence Index 给了 54 分，全球第四。前面三个分别是 Claude Opus 4.7 、Gemini 3.1 Pro 、GPT-5.4 ，而这四个里面，仅有 K2.6 是开源模型。火了一段时间了，模型配置我就不摆了，大家应该都看到了。真正让我坐直的，是跑在 K2.6 上面的两个功能。一个叫「 Agent 集群」。一个叫「 Office 文档转 Skill 」。翻译翻译，一个叫产能，一个叫标准。 Agent 集群，这个架构跟 Anthropic 今年 2 月在 Claude Code 里上线的 Agent Teams 异曲同工，但 Claude 那个是给开发者用的，得敲命令行配 settings.json ，产物主要是代码。K2.6 的 Agent 集群面向所有人，说句话就行，交付的是 PDF 、PPT 、Excel 、Word 这些办公产物。同样的群体智能方向，截然不同的答卷。现实世界里，一个真正复杂的项目是怎么完成的？不是一个天才坐在那里从头干到尾。而是一个团队，产品经理定方向，设计师出视觉，工程师写代码，分析师跑数据，每个人各司其职，并行推进，最后汇总交付。 Agent 集群做的就是这件事。它不再是一个 Agent 在那里单打独斗了。K2.6 驱动的 Agent 集群架构迎来一次大升级，现在支持 300 个子 Agent 并行完成 4000 个协作步骤。其实 Agent 集群在 K2.5 就有了，但这次我是真的觉得，它达到了生产级。 Kimi 官方文档里说了，最多可以有 300 个 Agent 一起干活。既然如此，我不客气了。必须拉满。请看我的提示词。从思维链中可以看到，它立刻生成了一堆子 agent 开始安排任务。过程中能够看到，始终有两个子 agent 在总揽全局。第一次跑通的时候，说实话愣了好几秒。因为它输出给我的不是一个数据模拟器，而是有过程、有可视化呈现、有结果报告的全方位展示。甚至还有意见领袖上台演讲。大家可以看一下辩论过程呈现网页中的这一部分，有演讲大纲、说服网络、达成效果。我感觉自己不是在和 AI 对话，更像是站在一个 300 人的报告厅里听辩论。这还没完。总输出物是一个辩论过程网页呈现、一个辩论 PPT 报告，还有一个 33 页的混合架构白皮书。大家可以看一下这个白皮书。我当时的反应不是「哇好厉害」，而是一种很奇怪的恍惚感。当你第一次看到 AI 也开始协作的时候，那种感觉其实挺奇妙的。你不是在用一个工具。你是在旁观一个组织开始工作。甚至它还做了成本分析和对比。 AI 开始雇佣 AI 了？ AI 也开始计算人效比？后来我又试了几个场景。例如我要制作一个包豪斯风格的日历，直接告诉它需求，它就开始分步骤，给不同的 Agent 安排活儿。出来的是中英文配套、审美在线的日历图，并且还配了一个 PPT 产品展示。每次看到这些产物一次性弹出来的时候，我都会想起一个数字。广告公司一个项目组做类似的事情，大概需要 100 个小时。 Agent 集群需要多久？大概 30 分钟。前两天我和一个深度 ChatGPT 用户的朋友聊天，他感叹了一句，Pro 的活儿是真好，慢也是真慢，贵也是真贵。 ChatGPT Pro 之所以有这样的效果，核心原因是它有非常长的思维链，大模型在不断回溯之前的结果，不断修改。此刻我有了使用 Pro 的感觉，Kimi 用多 Agent 的方式做到了同样的事。 100 个小时和 30 分钟。记住这个对比，后面还会用到。回到 Skill 这块。 Skill 满天飞，但我觉得它是最容易被低估的一个东西。因为真正决定交付质量的，往往不是你有没有灵感，而是你有没有稳定的方法。 K2.6 的「 Office 文档转 Skill 」功能，把这件事做得极其简洁。把你认为最好的那份产物，一份顶级研报、一份精美的 PPT 模板、一份专业的财务分析表，直接发给 Kimi Agent ，它会自动深度学习这份产物的结构、风格、排版、配色和逻辑，然后生成一份对应的 Skill 。以后你每次让 Agent 集群干活的时候，调用这个 Skill ，产出的东西就会自动对齐那份顶级产物的标准。Excel 、PDF 、Word 、PPT ，全格式支持。 Skill 加上 Agent 集群，等于标准化批量交付。这两个功能合在一起，才是 K2.6 真正的杀手锏。 DeepSeek V4 vs Kimi K2.6 聊到这儿，一个有趣的问题出现了。 K2.6 和 V4 ，到底谁更强？坦率的讲，这个问题本身就问错了。它们走的是完全不同的路。 K2.6 是系统优化路线。模型加产品加 Agent 一起上，原生多模态，能处理文本、图片和视频，Agent 集群能力是它最重要的差异化。它想做的是 AI 时代的操作系统，让每个人都能调度一个 AI 团队帮自己干活。 V4 是基础设施路线。单点极致，100 万 token 上下文，API 定价打到地板，不做多模态，专注推理和编码。它想做的是 AI 时代的水电煤，让所有开发者和企业都能用最低成本跑最强的模型。一个面向所有人说「你只要开口，剩下的交给我的团队」。一个面向开发者说「我把成本给你打下来」。而且正因为走的不同，才有了我开头提到的那段有意思的关系。 DeepSeek V4 的训练，用了 Kimi 的 Muon 优化器。月之暗面团队在万亿参数规模上验证了 MuonClip 的训练稳定性，预训练全程零 Loss Spike 。DeepSeek 看到效果，直接拿来用了。 Kimi K2.6 的架构，用了 DeepSeek 的 MLA 注意力机制。Multi-head Latent Attention ，通过对投影矩阵做低秩近似，把 KV Cache 的压缩率做到了 93%以上。翻译成人话就是，推理时占的显存大幅降低，同样的硬件能跑更大的模型。这两个技术创新都不是偷来的。是光明正大地、通过论文和 GitHub 拿来用的。你品品这个事。两家中国最顶尖的 AI 公司，各自拿出了自己最核心的技术创新，开源出去，然后对方在下一代模型里直接用上了。开源正在改写游戏规则顺着这个再往深聊一层。很多朋友可能会问，互相用对方的技术，那护城河在哪？如果谁都能用你的东西，你凭什么比别人强？这个问题问得好。但它基于一个旧世界的假设，就是「技术是排他性资产」。在闭源体系里确实是这样。你发明了一个牛逼的注意力机制，那是你的护城河，你得申请专利，设置使用限制。但在开源体系里，逻辑完全不同。你发明了 MLA ，全世界都能用。但你的团队因为最先使用它、最理解它的设计意图、在工程实现上跑得最远，所以你天然领先。护城河不是「你有什么别人没有的」，而是「你能比别人更快地把最新的技术整合到下一代模型里」。这有点像 Linux 。Linux 从来不属于任何一家公司。但基于 Linux 构建的生态，支撑了整个互联网时代。Red Hat 、Google 、Amazon ，都在 Linux 上面建了自己的商业帝国。它们的护城河不是 Linux 本身，而是在 Linux 之上构建的独特能力。 DeepSeek 和 Kimi 正在做的事情，是在共同浇筑中国 AI 的「 Linux 」。回头看看大洋彼岸在干什么。当时看到 OpenAI 创始人和 Claude 创始人两人合照用手势对立的时候，当时第一反应是。。。你们认真的吗？怎么说呢，有点像小学生吵架。我不想把这个事情上升到什么宏大叙事，什么制度优越性，那太扯了。但有一个事实是很难反驳的，当技术通过开源代码自由流动的时候，整个生态的进化速度，是封闭生态没法比的。 DeepSeek 的 MLA 发明出来之后，不只 Kimi 在用，全世界的开源模型都在用。Kimi 的 MuonClip 验证成功之后，不只 DeepSeek 在用，学术界和其他公司也在跟进。每一个技术创新都在被以最快的速度吸收、改进、再释放出去。还有一条很多人没注意到的暗线。 H20 已经断供一年了。推理芯片短期内只有国产一个选项。 Kimi 上周末发了一篇论文，叫 Prefill-as-a-Service 。简单来讲就是，它用 Kimi Linear 混合注意力架构把 KV Cache 的传输需求压到了极低的水平，然后把 Prefill 和 Decode 两个阶段解耦到不同的异构集群，甚至可以跨数据中心。实验结果是吞吐量提升 54%，P90 TTFT 降低 64%。论文里有一句容易被忽略的话。这个方案对「算力强但显存容量和带宽有差距的国产卡」特别友好。与此同时，Fortune 的报道提到 DeepSeek V4 正在跟华为芯片做紧密整合。你看到了吗？两条线又汇到一起了。 Kimi 用新架构为国产芯片打开了推理的大门。DeepSeek 可能成为第一个在国产芯片上大规模部署的万亿参数模型。一个从软件侧降低硬件要求，一个从应用侧直接适配硬件。殊途同归。黄仁勋前阵子在 The Dwarkesh Podcast 上被问到禁止对中国出口芯片这件事，他说了一句很耐人寻味的话，芯片又不是铀浓缩，禁售阻挡不了中国芯片的进步，他们依旧可以通过国产芯片暴力堆叠来开发模型。 DeepSeek 和 Kimi 的下一步，就是标准答案。其实写到这里，我本来想收了。但有一个念头一直在脑子里转。这一周发生的事情，表面上看是几个模型在打架。但往后退一步看，你会发现一个更大的图景正在成型。过去三年，我们一直在跟 AI 「聊天」。一问一答，一来一回。这个交互模式让我们不自觉地把 AI 想象成「一个人」。但这一周的发布，不管是 K2.6 的 300 个子 Agent 并行，还是 V4 的 100 万 token 长上下文，还是 Claude 的 Agent Teams ，它们指向的都是同一个东西。 AI 不再是「一个聪明人」了。它开始变成一个组织。一个能拉群、能分工、能协作的组织。还记得前面那个对比吗？广告公司 100 个小时，Agent 集群 30 分钟。V4 把推理成本打到地板，让这种大规模协作在经济上可行。K2.6 把 Agent 集群做成产品，让普通人也能调度这种协作。一个在铺路，一个在开车。我不确定这到底会走向哪里。但我确定的是，当 DeepSeek 和 Kimi 各自交出这样的答卷，而且还在互相借力往前跑的时候，这场游戏的走向，已经跟很多人想的不一样了。历史不会简单重复。但它会押韵。

[程序员] 大模型终于不卷跑分，改卷打工了！

v2ex.com · 2026-04-26 07:27:06+08:00 · tech

这两天我刷帖子刷得有点懵。 4 月 20 号，Kimi 悄悄放出 K2.6 。4 月 23 号，腾讯混元 3.0 开源，小米 MiMo-V2.5 同一天公测。4 月 24 号，DeepSeek V4 Preview 上线。大洋彼岸那边，GPT-5.5 、Claude Opus 4.7 接连发出，image2 火遍全网。我数了一下，就这 7 天，至少 6 个万亿参数级别或者准万亿级别的模型同时在线。这种密度，大模型火了这三年，一共都没见过几次。热闹归热闹，我发现一件有意思的事。大家聊的东西变了。以前一个新模型出来，讨论区清一色的「几分」「跑分第几」「 MMLU 多少」。现在呢？我刷了两天帖子，发现讨论最多的不是谁更聪明，而是两个特别具体的问题。一个是「它能帮我干什么活」。一个是「用它要花多少钱」。傅盛之前在节目里做过一个大致测算，要想大模型产生生产力，一个人每天花在买 token 上的钱，大约是 10 美元，我的体感与此类似。顶尖的模型做出一流的工作，一流的模型做出二流的工作，其他模型做出来的就很废了。所以你看，这背后其实就是两件事，产能和成本。这两个词，恰好对应了这波神仙打架里我最想聊的两个选手。 DeepSeek V4 和 Kimi K2.6 。一个把「 AI 能帮你干多少活」这件事往前推了一大步，一个把「用 AI 要花多少钱」打到了一个让人不敢相信的地板价。而且这两家之间有一段特别有意思的关系。K2.6 的架构用了 DeepSeek 的 MLA 注意力机制，V4 的训练用了 Kimi 的 Muon 优化器。两家公司最后的深层交汇点，居然是芯片。这不是段子。这是 2026 年中国 AI 行业让人觉得「能打」的那个部分。我觉得这件事值得好好聊聊。先说模型，再聊体验，最后我们聊开源。 DeepSeek 做到了啥先聊 DeeSeek V4 。 DeepSeek 的路线，我给它取了个名字叫「基础设施路线」。单点极致，不做多模态，不做花哨的 C 端交互，所有力气花在推理和编码上，然后把 API 定价打到地板。 V4 Pro 的定价，输入$1.74/百万 token ，输出$3.48/百万 token 。 GPT-5.5 呢？输入$5 ，输出$30 。 Mashable 算了一笔账，V4 比 GPT-5.5 便宜大约 85%。VentureBeat 的说法更直接，大概是 GPT-5.5 的七分之一，Opus 4.7 的六分之一。 V4 Flash 更离谱。输入$0.14/百万 token ，输出$0.28/百万 token 。Cline 的 CEO 算了一笔账说，如果 Uber 用 V4 替代 Claude ，它 2026 年的 AI 预算本来只够用四个月，换成 V4 够用七年。七年。这就是 DeepSeek 的风格。你要造什么都行，我负责把成本给你打下来。（这里说明一下，由于没有查到 K2.6 价格，这里通过公开数据计算得出）这对 Agent 场景的意义太大了。一个 Agent 跑长任务的时候，每个工具返回的结果都会追加到上下文里，上下文越来越长，每生成一个新 token 都要对前面所有内容做一遍注意力计算。如果这个成本降不下来，100 万 token 就是个摆设。V4 在这块做的事情，其实是在给整个 Agent 生态铺路。当一群 AI 开始帮你干活 K2.6 走的是另一条路。坦率的讲，K2.6 让我真正兴奋的不是模型本身有多强。强不强，数据摆两个你自己看。 OpenRouter 编程能力日榜第一。 Artificial Analysis 的 Intelligence Index 给了 54 分，全球第四。前面三个分别是 Claude Opus 4.7 、Gemini 3.1 Pro 、GPT-5.4 ，而这四个里面，仅有 K2.6 是开源模型。火了一段时间了，模型配置我就不摆了，大家应该都看到了。真正让我坐直的，是跑在 K2.6 上面的两个功能。一个叫「 Agent 集群」。一个叫「 Office 文档转 Skill 」。翻译翻译，一个叫产能，一个叫标准。 Agent 集群，这个架构跟 Anthropic 今年 2 月在 Claude Code 里上线的 Agent Teams 异曲同工，但 Claude 那个是给开发者用的，得敲命令行配 settings.json ，产物主要是代码。K2.6 的 Agent 集群面向所有人，说句话就行，交付的是 PDF 、PPT 、Excel 、Word 这些办公产物。同样的群体智能方向，截然不同的答卷。现实世界里，一个真正复杂的项目是怎么完成的？不是一个天才坐在那里从头干到尾。而是一个团队，产品经理定方向，设计师出视觉，工程师写代码，分析师跑数据，每个人各司其职，并行推进，最后汇总交付。 Agent 集群做的就是这件事。它不再是一个 Agent 在那里单打独斗了。K2.6 驱动的 Agent 集群架构迎来一次大升级，现在支持 300 个子 Agent 并行完成 4000 个协作步骤。其实 Agent 集群在 K2.5 就有了，但这次我是真的觉得，它达到了生产级。 Kimi 官方文档里说了，最多可以有 300 个 Agent 一起干活。既然如此，我不客气了。必须拉满。请看我的提示词。从思维链中可以看到，它立刻生成了一堆子 agent 开始安排任务。过程中能够看到，始终有两个子 agent 在总揽全局。第一次跑通的时候，说实话愣了好几秒。因为它输出给我的不是一个数据模拟器，而是有过程、有可视化呈现、有结果报告的全方位展示。甚至还有意见领袖上台演讲。大家可以看一下辩论过程呈现网页中的这一部分，有演讲大纲、说服网络、达成效果。我感觉自己不是在和 AI 对话，更像是站在一个 300 人的报告厅里听辩论。这还没完。总输出物是一个辩论过程网页呈现、一个辩论 PPT 报告，还有一个 33 页的混合架构白皮书。大家可以看一下这个白皮书。我当时的反应不是「哇好厉害」，而是一种很奇怪的恍惚感。当你第一次看到 AI 也开始协作的时候，那种感觉其实挺奇妙的。你不是在用一个工具。你是在旁观一个组织开始工作。甚至它还做了成本分析和对比。 AI 开始雇佣 AI 了？ AI 也开始计算人效比？后来我又试了几个场景。例如我要制作一个包豪斯风格的日历，直接告诉它需求，它就开始分步骤，给不同的 Agent 安排活儿。出来的是中英文配套、审美在线的日历图，并且还配了一个 PPT 产品展示。每次看到这些产物一次性弹出来的时候，我都会想起一个数字。广告公司一个项目组做类似的事情，大概需要 100 个小时。 Agent 集群需要多久？大概 30 分钟。前两天我和一个深度 ChatGPT 用户的朋友聊天，他感叹了一句，Pro 的活儿是真好，慢也是真慢，贵也是真贵。 ChatGPT Pro 之所以有这样的效果，核心原因是它有非常长的思维链，大模型在不断回溯之前的结果，不断修改。此刻我有了使用 Pro 的感觉，Kimi 用多 Agent 的方式做到了同样的事。 100 个小时和 30 分钟。记住这个对比，后面还会用到。回到 Skill 这块。 Skill 满天飞，但我觉得它是最容易被低估的一个东西。因为真正决定交付质量的，往往不是你有没有灵感，而是你有没有稳定的方法。 K2.6 的「 Office 文档转 Skill 」功能，把这件事做得极其简洁。把你认为最好的那份产物，一份顶级研报、一份精美的 PPT 模板、一份专业的财务分析表，直接发给 Kimi Agent ，它会自动深度学习这份产物的结构、风格、排版、配色和逻辑，然后生成一份对应的 Skill 。以后你每次让 Agent 集群干活的时候，调用这个 Skill ，产出的东西就会自动对齐那份顶级产物的标准。Excel 、PDF 、Word 、PPT ，全格式支持。 Skill 加上 Agent 集群，等于标准化批量交付。这两个功能合在一起，才是 K2.6 真正的杀手锏。 DeepSeek V4 vs Kimi K2.6 聊到这儿，一个有趣的问题出现了。 K2.6 和 V4 ，到底谁更强？坦率的讲，这个问题本身就问错了。它们走的是完全不同的路。 K2.6 是系统优化路线。模型加产品加 Agent 一起上，原生多模态，能处理文本、图片和视频，Agent 集群能力是它最重要的差异化。它想做的是 AI 时代的操作系统，让每个人都能调度一个 AI 团队帮自己干活。 V4 是基础设施路线。单点极致，100 万 token 上下文，API 定价打到地板，不做多模态，专注推理和编码。它想做的是 AI 时代的水电煤，让所有开发者和企业都能用最低成本跑最强的模型。一个面向所有人说「你只要开口，剩下的交给我的团队」。一个面向开发者说「我把成本给你打下来」。而且正因为走的不同，才有了我开头提到的那段有意思的关系。 DeepSeek V4 的训练，用了 Kimi 的 Muon 优化器。月之暗面团队在万亿参数规模上验证了 MuonClip 的训练稳定性，预训练全程零 Loss Spike 。DeepSeek 看到效果，直接拿来用了。 Kimi K2.6 的架构，用了 DeepSeek 的 MLA 注意力机制。Multi-head Latent Attention ，通过对投影矩阵做低秩近似，把 KV Cache 的压缩率做到了 93%以上。翻译成人话就是，推理时占的显存大幅降低，同样的硬件能跑更大的模型。这两个技术创新都不是偷来的。是光明正大地、通过论文和 GitHub 拿来用的。你品品这个事。两家中国最顶尖的 AI 公司，各自拿出了自己最核心的技术创新，开源出去，然后对方在下一代模型里直接用上了。开源正在改写游戏规则顺着这个再往深聊一层。很多朋友可能会问，互相用对方的技术，那护城河在哪？如果谁都能用你的东西，你凭什么比别人强？这个问题问得好。但它基于一个旧世界的假设，就是「技术是排他性资产」。在闭源体系里确实是这样。你发明了一个牛逼的注意力机制，那是你的护城河，你得申请专利，设置使用限制。但在开源体系里，逻辑完全不同。你发明了 MLA ，全世界都能用。但你的团队因为最先使用它、最理解它的设计意图、在工程实现上跑得最远，所以你天然领先。护城河不是「你有什么别人没有的」，而是「你能比别人更快地把最新的技术整合到下一代模型里」。这有点像 Linux 。Linux 从来不属于任何一家公司。但基于 Linux 构建的生态，支撑了整个互联网时代。Red Hat 、Google 、Amazon ，都在 Linux 上面建了自己的商业帝国。它们的护城河不是 Linux 本身，而是在 Linux 之上构建的独特能力。 DeepSeek 和 Kimi 正在做的事情，是在共同浇筑中国 AI 的「 Linux 」。回头看看大洋彼岸在干什么。当时看到 OpenAI 创始人和 Claude 创始人两人合照用手势对立的时候，当时第一反应是。。。你们认真的吗？怎么说呢，有点像小学生吵架。我不想把这个事情上升到什么宏大叙事，什么制度优越性，那太扯了。但有一个事实是很难反驳的，当技术通过开源代码自由流动的时候，整个生态的进化速度，是封闭生态没法比的。 DeepSeek 的 MLA 发明出来之后，不只 Kimi 在用，全世界的开源模型都在用。Kimi 的 MuonClip 验证成功之后，不只 DeepSeek 在用，学术界和其他公司也在跟进。每一个技术创新都在被以最快的速度吸收、改进、再释放出去。还有一条很多人没注意到的暗线。 H20 已经断供一年了。推理芯片短期内只有国产一个选项。 Kimi 上周末发了一篇论文，叫 Prefill-as-a-Service 。简单来讲就是，它用 Kimi Linear 混合注意力架构把 KV Cache 的传输需求压到了极低的水平，然后把 Prefill 和 Decode 两个阶段解耦到不同的异构集群，甚至可以跨数据中心。实验结果是吞吐量提升 54%，P90 TTFT 降低 64%。论文里有一句容易被忽略的话。这个方案对「算力强但显存容量和带宽有差距的国产卡」特别友好。与此同时，Fortune 的报道提到 DeepSeek V4 正在跟华为芯片做紧密整合。你看到了吗？两条线又汇到一起了。 Kimi 用新架构为国产芯片打开了推理的大门。DeepSeek 可能成为第一个在国产芯片上大规模部署的万亿参数模型。一个从软件侧降低硬件要求，一个从应用侧直接适配硬件。殊途同归。黄仁勋前阵子在 The Dwarkesh Podcast 上被问到禁止对中国出口芯片这件事，他说了一句很耐人寻味的话，芯片又不是铀浓缩，禁售阻挡不了中国芯片的进步，他们依旧可以通过国产芯片暴力堆叠来开发模型。 DeepSeek 和 Kimi 的下一步，就是标准答案。其实写到这里，我本来想收了。但有一个念头一直在脑子里转。这一周发生的事情，表面上看是几个模型在打架。但往后退一步看，你会发现一个更大的图景正在成型。过去三年，我们一直在跟 AI 「聊天」。一问一答，一来一回。这个交互模式让我们不自觉地把 AI 想象成「一个人」。但这一周的发布，不管是 K2.6 的 300 个子 Agent 并行，还是 V4 的 100 万 token 长上下文，还是 Claude 的 Agent Teams ，它们指向的都是同一个东西。 AI 不再是「一个聪明人」了。它开始变成一个组织。一个能拉群、能分工、能协作的组织。还记得前面那个对比吗？广告公司 100 个小时，Agent 集群 30 分钟。V4 把推理成本打到地板，让这种大规模协作在经济上可行。K2.6 把 Agent 集群做成产品，让普通人也能调度这种协作。一个在铺路，一个在开车。我不确定这到底会走向哪里。但我确定的是，当 DeepSeek 和 Kimi 各自交出这样的答卷，而且还在互相借力往前跑的时候，这场游戏的走向，已经跟很多人想的不一样了。历史不会简单重复。但它会押韵。

大模型终于不卷跑分，改卷打工了！

www.v2ex.com · 2026-04-26 07:27:06+08:00 · tech

这两天我刷帖子刷得有点懵。 4 月 20 号，Kimi 悄悄放出 K2.6 。4 月 23 号，腾讯混元 3.0 开源，小米 MiMo-V2.5 同一天公测。4 月 24 号，DeepSeek V4 Preview 上线。大洋彼岸那边，GPT-5.5 、Claude Opus 4.7 接连发出，image2 火遍全网。我数了一下，就这 7 天，至少 6 个万亿参数级别或者准万亿级别的模型同时在线。这种密度，大模型火了这三年，一共都没见过几次。热闹归热闹，我发现一件有意思的事。大家聊的东西变了。以前一个新模型出来，讨论区清一色的「几分」「跑分第几」「 MMLU 多少」。现在呢？我刷了两天帖子，发现讨论最多的不是谁更聪明，而是两个特别具体的问题。一个是「它能帮我干什么活」。一个是「用它要花多少钱」。傅盛之前在节目里做过一个大致测算，要想大模型产生生产力，一个人每天花在买 token 上的钱，大约是 10 美元，我的体感与此类似。顶尖的模型做出一流的工作，一流的模型做出二流的工作，其他模型做出来的就很废了。所以你看，这背后其实就是两件事，产能和成本。这两个词，恰好对应了这波神仙打架里我最想聊的两个选手。 DeepSeek V4 和 Kimi K2.6 。一个把「 AI 能帮你干多少活」这件事往前推了一大步，一个把「用 AI 要花多少钱」打到了一个让人不敢相信的地板价。而且这两家之间有一段特别有意思的关系。K2.6 的架构用了 DeepSeek 的 MLA 注意力机制，V4 的训练用了 Kimi 的 Muon 优化器。两家公司最后的深层交汇点，居然是芯片。这不是段子。这是 2026 年中国 AI 行业让人觉得「能打」的那个部分。我觉得这件事值得好好聊聊。先说模型，再聊体验，最后我们聊开源。 DeepSeek 做到了啥先聊 DeeSeek V4 。 DeepSeek 的路线，我给它取了个名字叫「基础设施路线」。单点极致，不做多模态，不做花哨的 C 端交互，所有力气花在推理和编码上，然后把 API 定价打到地板。 V4 Pro 的定价，输入$1.74/百万 token ，输出$3.48/百万 token 。 GPT-5.5 呢？输入$5 ，输出$30 。 Mashable 算了一笔账，V4 比 GPT-5.5 便宜大约 85%。VentureBeat 的说法更直接，大概是 GPT-5.5 的七分之一，Opus 4.7 的六分之一。 V4 Flash 更离谱。输入$0.14/百万 token ，输出$0.28/百万 token 。Cline 的 CEO 算了一笔账说，如果 Uber 用 V4 替代 Claude ，它 2026 年的 AI 预算本来只够用四个月，换成 V4 够用七年。七年。这就是 DeepSeek 的风格。你要造什么都行，我负责把成本给你打下来。（这里说明一下，由于没有查到 K2.6 价格，这里通过公开数据计算得出）这对 Agent 场景的意义太大了。一个 Agent 跑长任务的时候，每个工具返回的结果都会追加到上下文里，上下文越来越长，每生成一个新 token 都要对前面所有内容做一遍注意力计算。如果这个成本降不下来，100 万 token 就是个摆设。V4 在这块做的事情，其实是在给整个 Agent 生态铺路。当一群 AI 开始帮你干活 K2.6 走的是另一条路。坦率的讲，K2.6 让我真正兴奋的不是模型本身有多强。强不强，数据摆两个你自己看。 OpenRouter 编程能力日榜第一。 Artificial Analysis 的 Intelligence Index 给了 54 分，全球第四。前面三个分别是 Claude Opus 4.7 、Gemini 3.1 Pro 、GPT-5.4 ，而这四个里面，仅有 K2.6 是开源模型。火了一段时间了，模型配置我就不摆了，大家应该都看到了。真正让我坐直的，是跑在 K2.6 上面的两个功能。一个叫「 Agent 集群」。一个叫「 Office 文档转 Skill 」。翻译翻译，一个叫产能，一个叫标准。 Agent 集群，这个架构跟 Anthropic 今年 2 月在 Claude Code 里上线的 Agent Teams 异曲同工，但 Claude 那个是给开发者用的，得敲命令行配 settings.json ，产物主要是代码。K2.6 的 Agent 集群面向所有人，说句话就行，交付的是 PDF 、PPT 、Excel 、Word 这些办公产物。同样的群体智能方向，截然不同的答卷。现实世界里，一个真正复杂的项目是怎么完成的？不是一个天才坐在那里从头干到尾。而是一个团队，产品经理定方向，设计师出视觉，工程师写代码，分析师跑数据，每个人各司其职，并行推进，最后汇总交付。 Agent 集群做的就是这件事。它不再是一个 Agent 在那里单打独斗了。K2.6 驱动的 Agent 集群架构迎来一次大升级，现在支持 300 个子 Agent 并行完成 4000 个协作步骤。其实 Agent 集群在 K2.5 就有了，但这次我是真的觉得，它达到了生产级。 Kimi 官方文档里说了，最多可以有 300 个 Agent 一起干活。既然如此，我不客气了。必须拉满。请看我的提示词。从思维链中可以看到，它立刻生成了一堆子 agent 开始安排任务。过程中能够看到，始终有两个子 agent 在总揽全局。第一次跑通的时候，说实话愣了好几秒。因为它输出给我的不是一个数据模拟器，而是有过程、有可视化呈现、有结果报告的全方位展示。甚至还有意见领袖上台演讲。大家可以看一下辩论过程呈现网页中的这一部分，有演讲大纲、说服网络、达成效果。我感觉自己不是在和 AI 对话，更像是站在一个 300 人的报告厅里听辩论。这还没完。总输出物是一个辩论过程网页呈现、一个辩论 PPT 报告，还有一个 33 页的混合架构白皮书。大家可以看一下这个白皮书。我当时的反应不是「哇好厉害」，而是一种很奇怪的恍惚感。当你第一次看到 AI 也开始协作的时候，那种感觉其实挺奇妙的。你不是在用一个工具。你是在旁观一个组织开始工作。甚至它还做了成本分析和对比。 AI 开始雇佣 AI 了？ AI 也开始计算人效比？后来我又试了几个场景。例如我要制作一个包豪斯风格的日历，直接告诉它需求，它就开始分步骤，给不同的 Agent 安排活儿。出来的是中英文配套、审美在线的日历图，并且还配了一个 PPT 产品展示。每次看到这些产物一次性弹出来的时候，我都会想起一个数字。广告公司一个项目组做类似的事情，大概需要 100 个小时。 Agent 集群需要多久？大概 30 分钟。前两天我和一个深度 ChatGPT 用户的朋友聊天，他感叹了一句，Pro 的活儿是真好，慢也是真慢，贵也是真贵。 ChatGPT Pro 之所以有这样的效果，核心原因是它有非常长的思维链，大模型在不断回溯之前的结果，不断修改。此刻我有了使用 Pro 的感觉，Kimi 用多 Agent 的方式做到了同样的事。 100 个小时和 30 分钟。记住这个对比，后面还会用到。回到 Skill 这块。 Skill 满天飞，但我觉得它是最容易被低估的一个东西。因为真正决定交付质量的，往往不是你有没有灵感，而是你有没有稳定的方法。 K2.6 的「 Office 文档转 Skill 」功能，把这件事做得极其简洁。把你认为最好的那份产物，一份顶级研报、一份精美的 PPT 模板、一份专业的财务分析表，直接发给 Kimi Agent ，它会自动深度学习这份产物的结构、风格、排版、配色和逻辑，然后生成一份对应的 Skill 。以后你每次让 Agent 集群干活的时候，调用这个 Skill ，产出的东西就会自动对齐那份顶级产物的标准。Excel 、PDF 、Word 、PPT ，全格式支持。 Skill 加上 Agent 集群，等于标准化批量交付。这两个功能合在一起，才是 K2.6 真正的杀手锏。 DeepSeek V4 vs Kimi K2.6 聊到这儿，一个有趣的问题出现了。 K2.6 和 V4 ，到底谁更强？坦率的讲，这个问题本身就问错了。它们走的是完全不同的路。 K2.6 是系统优化路线。模型加产品加 Agent 一起上，原生多模态，能处理文本、图片和视频，Agent 集群能力是它最重要的差异化。它想做的是 AI 时代的操作系统，让每个人都能调度一个 AI 团队帮自己干活。 V4 是基础设施路线。单点极致，100 万 token 上下文，API 定价打到地板，不做多模态，专注推理和编码。它想做的是 AI 时代的水电煤，让所有开发者和企业都能用最低成本跑最强的模型。一个面向所有人说「你只要开口，剩下的交给我的团队」。一个面向开发者说「我把成本给你打下来」。而且正因为走的不同，才有了我开头提到的那段有意思的关系。 DeepSeek V4 的训练，用了 Kimi 的 Muon 优化器。月之暗面团队在万亿参数规模上验证了 MuonClip 的训练稳定性，预训练全程零 Loss Spike 。DeepSeek 看到效果，直接拿来用了。 Kimi K2.6 的架构，用了 DeepSeek 的 MLA 注意力机制。Multi-head Latent Attention ，通过对投影矩阵做低秩近似，把 KV Cache 的压缩率做到了 93%以上。翻译成人话就是，推理时占的显存大幅降低，同样的硬件能跑更大的模型。这两个技术创新都不是偷来的。是光明正大地、通过论文和 GitHub 拿来用的。你品品这个事。两家中国最顶尖的 AI 公司，各自拿出了自己最核心的技术创新，开源出去，然后对方在下一代模型里直接用上了。开源正在改写游戏规则顺着这个再往深聊一层。很多朋友可能会问，互相用对方的技术，那护城河在哪？如果谁都能用你的东西，你凭什么比别人强？这个问题问得好。但它基于一个旧世界的假设，就是「技术是排他性资产」。在闭源体系里确实是这样。你发明了一个牛逼的注意力机制，那是你的护城河，你得申请专利，设置使用限制。但在开源体系里，逻辑完全不同。你发明了 MLA ，全世界都能用。但你的团队因为最先使用它、最理解它的设计意图、在工程实现上跑得最远，所以你天然领先。护城河不是「你有什么别人没有的」，而是「你能比别人更快地把最新的技术整合到下一代模型里」。这有点像 Linux 。Linux 从来不属于任何一家公司。但基于 Linux 构建的生态，支撑了整个互联网时代。Red Hat 、Google 、Amazon ，都在 Linux 上面建了自己的商业帝国。它们的护城河不是 Linux 本身，而是在 Linux 之上构建的独特能力。 DeepSeek 和 Kimi 正在做的事情，是在共同浇筑中国 AI 的「 Linux 」。回头看看大洋彼岸在干什么。当时看到 OpenAI 创始人和 Claude 创始人两人合照用手势对立的时候，当时第一反应是。。。你们认真的吗？怎么说呢，有点像小学生吵架。我不想把这个事情上升到什么宏大叙事，什么制度优越性，那太扯了。但有一个事实是很难反驳的，当技术通过开源代码自由流动的时候，整个生态的进化速度，是封闭生态没法比的。 DeepSeek 的 MLA 发明出来之后，不只 Kimi 在用，全世界的开源模型都在用。Kimi 的 MuonClip 验证成功之后，不只 DeepSeek 在用，学术界和其他公司也在跟进。每一个技术创新都在被以最快的速度吸收、改进、再释放出去。还有一条很多人没注意到的暗线。 H20 已经断供一年了。推理芯片短期内只有国产一个选项。 Kimi 上周末发了一篇论文，叫 Prefill-as-a-Service 。简单来讲就是，它用 Kimi Linear 混合注意力架构把 KV Cache 的传输需求压到了极低的水平，然后把 Prefill 和 Decode 两个阶段解耦到不同的异构集群，甚至可以跨数据中心。实验结果是吞吐量提升 54%，P90 TTFT 降低 64%。论文里有一句容易被忽略的话。这个方案对「算力强但显存容量和带宽有差距的国产卡」特别友好。与此同时，Fortune 的报道提到 DeepSeek V4 正在跟华为芯片做紧密整合。你看到了吗？两条线又汇到一起了。 Kimi 用新架构为国产芯片打开了推理的大门。DeepSeek 可能成为第一个在国产芯片上大规模部署的万亿参数模型。一个从软件侧降低硬件要求，一个从应用侧直接适配硬件。殊途同归。黄仁勋前阵子在 The Dwarkesh Podcast 上被问到禁止对中国出口芯片这件事，他说了一句很耐人寻味的话，芯片又不是铀浓缩，禁售阻挡不了中国芯片的进步，他们依旧可以通过国产芯片暴力堆叠来开发模型。 DeepSeek 和 Kimi 的下一步，就是标准答案。其实写到这里，我本来想收了。但有一个念头一直在脑子里转。这一周发生的事情，表面上看是几个模型在打架。但往后退一步看，你会发现一个更大的图景正在成型。过去三年，我们一直在跟 AI 「聊天」。一问一答，一来一回。这个交互模式让我们不自觉地把 AI 想象成「一个人」。但这一周的发布，不管是 K2.6 的 300 个子 Agent 并行，还是 V4 的 100 万 token 长上下文，还是 Claude 的 Agent Teams ，它们指向的都是同一个东西。 AI 不再是「一个聪明人」了。它开始变成一个组织。一个能拉群、能分工、能协作的组织。还记得前面那个对比吗？广告公司 100 个小时，Agent 集群 30 分钟。V4 把推理成本打到地板，让这种大规模协作在经济上可行。K2.6 把 Agent 集群做成产品，让普通人也能调度这种协作。一个在铺路，一个在开车。我不确定这到底会走向哪里。但我确定的是，当 DeepSeek 和 Kimi 各自交出这样的答卷，而且还在互相借力往前跑的时候，这场游戏的走向，已经跟很多人想的不一样了。历史不会简单重复。但它会押韵。

8点1氪丨停服三年后，天涯社区正式恢复访问；广东辟谣高考将用AI改卷；MiniMax拟科创板上市

36氪 · None · tech

今日热点导览 OpenAI称使用AI攻克“80岁”数学难题亚马逊：关停词元跟踪榜单马斯克辟谣SpaceX估值下调三花智控高管“为孩子教育”减持套现超4.3亿哈根达斯中国被曝将被柠季收购 TOP 3大新闻天涯社区正式恢复访问 6月1日起，天涯社区正式恢复访问。据“天涯社区”官方微博发布的《关于天涯社区恢复访问进展的情况说明》，自2023年4月1日起，天涯社区因电信IDC欠费而暂停访问。为了确保涉及上亿用户的天涯数据完整存续以及天涯社区的恢复访问，三年来，天涯社区重启团队持续不懈地展开自救。今年2月份，在新天涯联合工作组的支持下，确立了推进2026年6月1日前恢复天涯社区访问的方案。此外，天涯社区数据迁移仍在等待相关审批流程，根据当前的进程，天涯社区整体数据恢复将在6月份内完成。另外，由于种种原因，tianya.cn域名暂时无法使用。6月1日零时起，www.tianya.net正式开放访问，将首先实现部分天涯社区精华帖子的浏览功能。据了解，天涯社区是中国互联网早期最著名的论坛之一，创办于1999年，最初是炒股爱好者邢明用来交流和学习的股票论坛，后聚集了许多高质量网友与内容，《鬼吹灯》《明朝那些事儿》等小说在天涯社区连载，第一代网红“芙蓉姐姐”也诞生于此。（IT之家）广东辟谣高考将用AI批卷近日，一则“广东夏季高考用AI批卷”的信息在网络空间流传。对此，广东省教育考试院表示，“用AI批卷”为不实传言。事实上，为保障考试公平，自2024年起，广东在全省考场启用实时智能巡查系统，利用人工智能技术分析考试异常行为。而发帖网友将“AI辅助巡考”误解为“AI批卷”，纯属概念误解。广东从未宣称或部署由AI参与评卷的工作。在监考环节，AI巡考主要起到观察、预警、辅助作用，而在评卷环节，广东走的是一条严谨、严格的人工路径。正式评卷中，各科目主观题全部实行双人独立评阅，评分差超过阈值则增加三评环节。此外，进行实时监控，由系统随机抽检评卷结果，及时发现和纠正错评漏评等问题。（南方日报） MiniMax拟科创板上市 5月31日晚间，MiniMax Group Inc.（简称“MiniMax”）公告，董事会宣布已决议探究拟发行人民币股份的初步建议，可能涉及与专业顾问订立协议及与相关证券或其他监管机构进行咨询及磋商。公司已聘请专业顾问就符合在科创板上市条件提供咨询，并签订辅导协议。拟发行人民币股份事宜将取决于市场状况及必要的监管批准。于本公司在香港联交所成功上市后，本公司持续评估资本市场，包括对在科创板上市进行评估。据证监会网站消息，MiniMax已于2026年5月29日同中信证券签署辅导协议，正式启动A股IPO进程。公开资料显示，MiniMax今年1月登陆港交所。从成立到敲钟仅用时四年多，创下全球AI公司从创立至IPO的最快纪录。（每日经济新闻）大公司/大事件柠季回应收购哈根达斯中国传闻 5月28日，有市场消息称，国内柠檬茶连锁品牌柠季正就拿下哈根达斯在华门店业务一事进行洽谈。接近柠季的人士对《每日经济新闻》记者回应称，现在还不方便透露，等对方公布。根据哈根达斯官方小程序，截至2026年5月29日，其在中国内地拥有门店171家。对比2025年6月，其门店数已经减少了92家。此前，2021年9月，哈根达斯高管曾对外透露，全世界有六七百家哈根达斯门店，中国就占了400家。（每日经济新闻） 3C认证实施规则迎来新调整，移动电源新增多项安全测试市场监管总局近日发布《关于增加移动电源等强制性产品认证依据标准并发布新版实施规则的公告》，调整完善CCC认证实施要求。《公告》重点明确了三个方面的内容：一是增加强制性国家标准GB47372—2026《移动电源安全技术规范》作为CCC认证依据。二是修订发布新版CCC认证实施规则，对企业实施分类监管，加大证后监督力度，压紧压实认证活动各相关方主体责任。三是结合强制性国家标准实施日期，明确2027年3月31日前为过渡期，2027年4月1日起，必须全面执行新版规则。其中，对于已获证的移动电源及其内部使用的锂离子电池和电池组，应当在2027年4月1日前完成证书转换。（IT之家）马斯克辟谣SpaceX估值下调据报道，美国太空探索技术公司（SpaceX）正寻求在其首次公开募股（IPO）中获得不低于1.8万亿美元的估值，低于今年4月市场传出的超2万亿美元目标估值。报道称，此次变动是公司与投行顾问及部分投资者沟通后做出的审慎调整，路演阶段仍可能根据市场反馈进一步上调估值。不过，SpaceX首席执行官马斯克29日在社交平台X上发文辟谣，否认相关报道，仅简短回复“不实”（False）。（央视财经）尼康要用便宜光刻机打破ASML垄断在荷兰ASML几乎垄断全球光刻机市场的背景下，日本光刻巨头尼康正准备发起反击。日本尼康新任总裁兼CEO大村泰弘（Yasuhiro Omura）近日接受《日经亚洲》专访时透露，公司将通过大幅降低ArF（氟化氩）沉浸式光刻机的售价，挑战荷兰ASML在全球光刻设备市场的垄断地位。依托核心零部件自主生产的成本优势，尼康目前正与美国和亚洲多家大型芯片厂商展开洽谈，部分合作已接近签署采购订单阶段。（快科技）周六福就“售卖不合格足银手镯”致歉 36氪获悉，近日，周六福珠宝股份有限公司因生产销售抽检不合格的足银手镯，被深圳市市监局处以罚款739.75元并没收违法所得231.17元。5月29日，“周六福珠宝”发布情况说明称，涉事单品仅采用易受氧化等因素影响的GB/T18043-2013表面检测方法，未做破坏性检测，而该标准明确规定表面检测结果不能单独作为判定依据；周六福表示已将同批次产品送至国家珠宝玉石首饰检验集团有限公司按国标GB 11887-2012进行破坏性检测，结果合格。英国外交大臣库珀将访华并举行第十一次中英战略对话据外交部网站消息，5月31日，外交部发言人宣布：应中共中央政治局委员、外交部长王毅邀请，英国外交大臣库珀将于6月1日至3日访华并举行第十一次中英战略对话。（央视新闻）世界杯在即，伊朗所有成员仍未获发美国签证距离美加墨世界杯开幕还有不到两周时间，在参加世界杯的48支球队中，伊朗队的处境充满变数。截至5月30日，伊朗球队、教练及后勤团队的所有成员均未获发美国和墨西哥的签证。据央视新闻报道，2026年足球世界杯定于6月11日至7月19日在美国、加拿大和墨西哥举行，这是首次有48支球队参赛的世界杯，比赛场次也大幅增加至104场。（澎湃新闻）深圳网约车市场已饱和，官方发布风险提示近日，深圳市交通运输局发布，2026年4月份深圳市网约车行业运营动态与风险提示，当前市场总体已饱和，4月全市网约车日均单车完成订单量约为13.01单。官方郑重提醒，拟从业者应充分调研，理性决策，并警惕六大风险：一是部分平台采用“上班/保底模式”代收流水，公司经营不善将导致司机受损；二是未获授权的中间商易引发纠纷；三是警惕“月入过万”等虚假广告，避免退车违约；四是认清“无证不罚”骗局，无证营运将被处罚且保险拒赔；五是防范“免押金”“高回报”等租车套路，签约需核对条款；六是警惕租车公司逾期缴纳保险导致失效的风险。（深圳新闻网）宝鼎科技：公司未与英伟达有过接触或业务合作，目前未有高速覆铜板M7和M9产品销售 36氪获悉，宝鼎科技公告，公司澄清，近期网上关于公司产品纳入英伟达供应链体系认证的信息为不实信息，公司未与英伟达有过接触或业务合作。公司覆铜板产品为常规产品，无AI覆铜板，高速覆铜板M7和M9均无销售；铜箔产品主要为普通铜箔，超低轮廓HVLP铜箔尚处客户认证阶段，2026年第一季度营收约10万元，占比仅0.01%。2025年度公司覆铜板及铜箔业务亏损，净利润为-1,850.99万元。公司基本面未发生重大变化，提醒投资者注意风险。三花智控高管“为孩子教育”减持套现超4.3亿据报道，头顶A股“具身智能”光环的三花智控，近期因一份《投资者关系活动记录表》中高管们“为孩子教育费用和生活需求”的减持理由，被推至舆论风口浪尖。在股价经历2025年的飙涨后，多位核心管理层在股价高位减持，而今年一季度公司业绩增速下滑明显，这与市场对公司机器人业务的高期待形成鲜明对比。在2026年5月26日的业绩说明会上，有投资者询问公司多位高管为何要减持股份。面对投资者对公司多位高管减持股份的疑问，公司回应称，董事长减持主要原因为个人资金需求，本次减持资金将继续用于产业投资。其余5位董事或高级管理人员减持股票主要来源于历年积累的股权激励，本次减持资金主要用于孩子教育费用和生活需求。（每日经济新闻报道）中际旭创紧急辟谣一篇“董事长演讲稿”：未参加相关论坛内容系杜撰 5月30日，中际旭创发布官方声明称，部分网络媒体、自媒体和社交媒体平台传播人为捏造的题为《中际旭创董事长2026光互联论坛（5.28 上海）演讲全文》的文章及相关内容。此文全文皆为杜撰的虚假内容，公司及董事长刘圣从未发表此文中提及的内容，此文与公司无关并完全不代表公司及董事长刘圣立场。敬请广大投资者理性投资，不信谣、不传谣、不造谣、切勿轻信各类不实传言，以公司公告为准，避免因虚假信息带来的影响。（21世纪经济报道）深圳发放800元养老消费券今年1月1日起，民政部、财政部在全国启动实施中度以上失能老年人养老服务消费补贴项目。随着补贴在各地陆续落地，养老服务消费券正“变现”为养老照护服务。杨志宇是街道办工作人员，近期，他的主要工作是上门协助老人领取和使用消费券。老人通过小程序完成注册，选择就近的评估点进行评估，只要符合中度及以上失能等级，就可以每月领取一张800元的消费券，并根据需求选择相应服务，消费券可分次使用。目前，深圳养老服务消费补贴政策覆盖的居家养老服务，可抵扣50%费用，每月最高800元。（央视财经）丰田回应将中止雷克萨斯下一代纯电轿车开发近日有消息称，丰田将中止高档车品牌“雷克萨斯”纯电动轿车“LF-ZC”的量产车型开发。丰田方面回应称，该信息属实，本次车型开发中止的原因是“考虑到市场需求的变化，对公司整体车辆开发项目进行调整的一部分”。丰田还强调，公司只是调整了部分车辆的开发规划，并不代表放弃BEV（纯电动汽车）。（第一财经）新包装矿泉水停止销售，胖东来：系设计方面重大失误，正重新设计 5月29日晚，许昌市胖东来超市有限公司发文表示：胖东来新包装DL饮用天然矿泉水，在上市前发现与市面上现有同品类产品的瓶型外观有视觉近似的可能，我们立即暂停上市并主动与相关品牌生产商进行沟通，经双方沟通后于5月10日上市。此次出现的情况是我们在设计方面的重大失误。基于对知识产权原创的尊重和保护，也为了避免给对方品牌市场造成影响，经过胖东来集团公司商品委员会商议决定：第一批次生产的新包装DL饮用天然矿泉水于5月31日销售完毕后停止销售，原包装DL饮用天然矿泉水继续正常销售。我们也会加快新包装的重新设计，计划3个月完成设计，争取在9月份上市与大家见面。（界面新闻） Meta计划今年下半年售出1000万台可穿戴设备据报道，Meta计划通过推出新品、拓展销售市场等举措在今年下半年售出1000万台可穿戴设备，目标年底实现可穿戴设备月活跃用户达680万人。另外，Meta计划明年启动一款人工智能吊坠的测试工作。（界面新闻）风华高科：不涉及英伟达认证及暂停接单传闻不实 36氪获悉，风华高公告，经核查，公司关注到近期有媒体提及公司“针对代理商0402、0603芯片电阻、MLCC全线暂停接单”，经核查，以上信息不属实，为做好部分数字系统升级及产品结构调整，公司执行部分产品暂缓接单，截至公告日，公司已恢复接单。公司关注到近期有媒体提及公司为“国内唯一通过英伟达全系列MLCC认证的企业”，经核查，以上信息不属实，截至公告日，英伟达未对公司开展任何产品认证。 AI最前沿亚马逊：关停词元跟踪榜单据报道，亚马逊在近期通知员工，旗下“Kirorank”榜单已停止服务。该榜单由内部开发者制作，可用于跟踪员工的Token消耗情况，其设立初衷是推动AI在业务场景的应用。然而事与愿违，部分员工为追求更高的排名和绩效，将AI智能体当作不计成本的“烧Token”工具，导致公司算力资源被浪费。为此，亚马逊高级副总裁戴夫·特雷德韦尔(Dave Treadwell)劝诫员工：“请不要为了用AI而用AI。”（财联社）字节2026资本开支预计达700亿美元，还打算自研CPU 5月27日据知情人士透露，字节跳动正在讨论将2026年资本开支大幅提升至最高700亿美元，较2025年的约250亿美元增长近两倍，主要用于建设大规模数据中心及其他AI基础设施。上述数字尚属初步估算，可能随市场情况每季度调整。5月28日另有报道称，面对英特尔和AMD近几个季度每季度环比提价10%至35%、交货周期长达6个月的压力，字节跳动正在自研CPU以降低成本，同时推进Arm和RISC-V两条架构路线，项目仍处于早期阶段。据今年2月的报道，字节芯片研发团队规模已超千人，其中AI芯片方向逾500人，CPU方向约200人。（第一财经） OpenAI称使用AI攻克“80岁”数学难题 OpenAI近日声称，其人工智能（AI）推理能力再次取得重大进展，成功攻克了一个困扰数学界80年的难题——匈牙利数学家保罗·埃尔德什（Paul Erdős）于1946年提出的“平面单位距离问题”。埃尔德什提出的问题是：如果你在一张纸上画出若干个点，那么有多少对点之间的距离可以恰好相同（具体来说是相距1个单位）？埃尔德什证明：如果把这些点按网格排列，可以得到相当多的单位距离点对。随后他猜想，没有任何其他排列方式能比网格好太多。几十年来，人们都试图证明这个猜想是正确的。然而，OpenAI的模型得出了不同的结论，指出有排列方式比埃尔德什预测的“上界”（不会超过的最大范围）更优。这意味着，它不是证明了猜想，而是推翻了猜想。OpenAI的研究团队指出，模型给出的解决方案极其反直觉，过去大多数数学家都默认埃尔德什的猜想是正确的，因此他们一直在寻找证明。而AI没有这种心理包袱，它会尝试大量看似荒谬的方向，最终正是在这些尝试中发现了突破口。（澎湃新闻）软银承诺斥资750亿欧元在法国建设人工智能设施软银承诺最高投入750亿欧元，在法国打造大型人工智能计算集群网络，该项目将成为欧洲规模最大的数据中心工程。这也是软银在美国以外完成的单笔最大规模人工智能投资。知情人士称，今年4月初法国总统马克龙与孙正义在东京共进晚餐后，双方迅速敲定了此项合作。软银首期将牵头投入450亿欧元，计划到2031年在上法兰西大区建成3.1吉瓦的算力规模，后续还规划新增2吉瓦算力。（新浪财经）全国首个绿色算力全栈AI平台上线 5月30日，全国首个绿色算力全栈AI平台在内蒙古自贸试验区呼和浩特片区正式上线运行，填补了区域一站式算力模型词元综合服务交易的空白。此次上线的绿色算力全栈AI平台，集成算力调度交易、智能模型调用、词元交易结算等一站式核心功能。据了解，平台，全面兼容国产芯片与主流算力架构，首批接入三大通信运营商及头部科技厂商的十余款主流模型。根据用户需求，平台可整合全国接入节点的通算、智算、超算等多元算力资源，通过智能调度算法实现算力资源的弹性分配、高效调度、经济供给，为用户提供便捷易用、低碳绿色、质优价宜的词元（Token）交易服务。上市进行时龙行天下IPO申请获受理上交所官网显示，5月29日，广东龙行天下科技股份有限公司（简称“龙行天下”）申报沪市主板IPO申请获受理，保荐机构为招商证券。资料显示，公司主营业务为运动鞋履的开发设计、生产与销售。2025年，公司实现营业收入58.34亿元，扣非后归母净利润为2.44亿元。（新浪财经）投融资商业载人航天穿越者完成Pre-A轮亿元融资近日，北京穿越者载人航天科技有限公司完成Pre-A轮亿元融资。本轮由头部互联网战投领投，上市公司探路者集团等产业资本跟投，老股东中天汇富、彬复资本持续加码，光源资本担任本轮独家财务顾问。本轮融资资金将重点用于“穿越者壹号（CYZ1）”载人飞船核心系统研发、地面试验验证及关键技术攻关。（科创板日报）整理｜迟雨

/tag/改卷