记一次对 Claude Fable 5、Opus 4.8、Minimax M3、Xiaomi Mimo V2.5 系列、Hy3、Qwen3.7 系列的真实项目需求的横向评测(榜首更迭!)

记一次对 Claude Fable 5、Opus 4.8、Minimax M3、Xiaomi Mimo V2.5 系列、Hy3、Qwen3.7 系列的真实项目需求的横向评测(榜首更迭!)
记一次对 Claude Fable 5、Opus 4.8、Minimax M3、Xiaomi Mimo V2.5 系列、Hy3、Qwen3.7 系列的真实项目需求的横向评测(榜首更迭!)

由于测试的模型越积越多了,表格会删除一些同厂商的旧模型,你可以在之前的评测帖子里找到它们的成绩。

项目

这是一个 Unity C# 项目,我进行测试的是一份皮肤系统需求案,我已经做了好预制体,而模型需要编写代码。

本轮与上两轮评测的项目和环境都完全一致:

模型来源

  • Claude 系列模型: 官方 API
  • Mimo V2.5 系列模型: 官方 Token Plan
  • Hy3 Preview: 官方 API
  • Qwen3.7 系列模型: 官方 API
  • Minimax M3: 官方 API
  • Nex-N2-Pro: OpenRouter Free API
  • Nemotron 3 Ultra: OpenRouter Free API

速度

排名 模型 时间(分钟) 备注 1 Grok 4.20 0309 Reasoning 3 2 Step-3.5-Flash 6 3 Mimo V2 Omni 7 4 Doubao-Seed-2.0-Lite 7 5 Doubao-Seed-2.0-Pro 9 6 Doubao-Seed-2.0-Code 9 7 Qwen3-Coder-Next 9 8 Claude Sonnet 4.6(high) 9 9 Qwen3.5-Plus 9 10 GLM-5 Turbo 10 11 Minimax M2.7 10 Highspeed 版本 12 Qwen3.5-Flash 10 13 Gemini 3 Pro 11 14 Hy3 Preview 13 15 GPT-5.5(low) 13 16 GPT-5.5(medium) 15 17 Mimo V2 Pro 15 18 DeepSeek V4 Flash 17 19 Qwen3.7-Plus 17 20 Qwen3.7-Max 18 21 GPT-5.5(high) 19 22 Claude-Opus-4.7(Max) 20 23 GLM-5 20 24 DeepSeek V4 Pro 21 25 Gemini 3 Flash 22 26 Claude-Fable-5(xhigh) 23 27 Mimo V2.5 24 28 KAT-Coder-Pro V2 24 29 Minimax M3 25 30 Claude-Opus-4.6(Max) 26 31 GPT-5.5(xhigh) 28 32 Gemini 3.1 Pro(high) 29 受 429 请求频率限制影响 33 Claude-Opus-4.8(Max) 33 34 Kimi K2.6 33 35 Qwen3.5 9B GGUF Q4_K_XL 35 MBP M4 Pro 48GB 本地部署 36 Qwen3.5 35B A3B GGUF Q4_K_XL 36 MBP M4 Pro 48GB 本地部署 37 Mimo V2.5 Pro 37

令牌数

  • Claude-Fable-5(xhigh): 7.1M
  • Claude-Opus-4.8(Max): 13M
  • Mimo V2.5 Pro: 未知
  • Mimo V2.5: 未知
  • Hy3 Preview: 1.4M
  • Qwen3.7-Max: 4.6M
  • Qwen3.7-Plus: 4.2M
  • Minimax M3: 未知
  • Nex-N2-Pro: 退赛
  • Nemotron 3 Ultra: 退赛

代码行数

  • Claude-Fable-5(xhigh): +1520, -7
  • Claude-Opus-4.8(Max): +1347, -22
  • Mimo V2.5 Pro: +1682, -14
  • Mimo V2.5: +1270, -8
  • Hy3 Preview: +1246, -8
  • Qwen3.7-Max: +1529, -6
  • Qwen3.7-Plus: +1532, -7
  • Minimax M3: +2284, -137
  • Nex-N2-Pro: 退赛
  • Nemotron 3 Ultra: 退赛

完成度

Claude-Fable-5(xhigh)

审查结论: 完成度非常高,仅有一个细节问题。

详细 (点击了解更多详细信息)

Claude-Opus-4.8(Max)

审查结论: 完成度很高,虽然存在常见错误,但在最后列出了该处理需要确认;另有一个细微实现不一致。

详细 (点击了解更多详细信息)

Mimo V2.5 Pro

审查结论: 存在常见错误,有几处与需求/线上实现不一致的功能缺失。

详细 (点击了解更多详细信息)

Mimo V2.5

审查结论: 无法编译,且存在严重的功能错误和与需求/线上实现不一致的功能缺失。

详细 (点击了解更多详细信息)

Hy3 Preview

审查结论: 无法编译,且存在严重的功能错误和与需求/线上实现不一致的功能缺失。

详细 (点击了解更多详细信息)

Qwen3.7-Max

审查结论: 较多功能错误和与需求/线上实现不一致的功能缺失。

详细 (点击了解更多详细信息)

Qwen3.7-Plus

审查结论: 无法编译,且存在严重的功能错误和与需求/线上实现不一致的功能缺失。

详细 (点击了解更多详细信息)

Minimax M3

审查结论: 存在部分功能错误和与需求/线上实现不一致的功能缺失;但在最后特别说明了协议枚举值调整的破坏性和服务器需要同步更新枚举值这一点,显示了对问题的理解。

详细 (点击了解更多详细信息)

最终总结

排名 模型/层级 说明 Tier 0 该等级的模型实现与线上基线高度一致。 1 Claude-Fable-5 2 GPT 5.5(xhigh) Tier 1 该等级的模型的代码正确完整且可编译,仅少量边界问题或轻微不一致。 3 Claude Opus 4.8(Max) 4 GPT 5.5(high) 5 Kimi K2.6 6 GPT 5.5(low) 7 GPT 5.5(medium) 8 Claude Opus 4.6(Max) 9 Claude Sonnet 4.5 Tier 2 该等级的模型的代码至少可编译或仅极少量的语法错误,但是存在明显功能错误、遗漏或与需求/线上不一致。 10 GLM 5.1 11 Minimax M3 12 Mimo V2.5 Pro 13 GLM 5 14 Kimi K2.5 15 Claude Sonnet 4.6(high) 16 Qwen3.7-Max 17 Qwen3.5-Plus 18 KAT-Coder-Pro V2 19 DeepSeek V4 Pro(max) Tier 3 该等级的模型的问题很多且无法编译,或者存在不少幻觉。 20 DeepSeek V4 Flash(max) 21 Claude Opus 4.7(Max) 22 Qwen3.7-Plus 23 Mimo V2.5 24 Hy3 Preview 25 GLM 5 Turbo 26 Gemini 3.1 Pro(high) 27 Mimo V2 Pro 28 Mimo V2 Omni 29 Minimax M2.7 30 Step-3.5-Flash 31 Qwen3-Coder-Next 32 Gemini 3 Pro 33 Gemini 3 Flash 34 Doubao-Seed-2.0-Code 35 Doubao-Seed-2.0-Pro 36 Doubao-Seed-2.0-Lite 37 Qwen3.5-Flash 38 Qwen3.5 35B A3B GGUF Q4_K_XL 39 Qwen3.5 9B GGUF Q4_K_XL 40 Grok 4.20 0309 Reasoning

Claude-Fable-5(xhigh):

  • 速度超过 Claude-Opus-4.6(max) 与 GPT-5.5(xhigh)
  • 完成度非常高与 GPT-5.5(xhigh) 相当,仅存在一个体验细节问题

终于 Claude 站起来了,不仅是 Claude 的首个 T0 模型,且接替 GPT-5.5 成为榜首。

当然我要重申,它们都能比较完整地做完这个需求,能力差不多,所以是按照模型发布日期来排名的(虽然它其实比 GPT-5.5 要快)。

我已经有点怀疑是否应该将评审员从 GPT-5.5 换为 Claude-Fable-5 了。

Claude-Fable-5 在做完需求后还有一段 “需向你确认的事项”,对某些奇怪的实现细节(比如皮肤配置枚举
值与服务器枚举值不同、时间戳单位猜测)还有自己不确定的地方进行了汇总,给人的感觉是对于这个需求它游刃有余,
一切尽在掌握;需求未说明自己决定的地方都放在最后列出以进行核对,这是比较难得的。

但是 Claude-Fable-5 的安全方面确实非常敏感,测完之后,正好我在做的 VS Code 扩展有一个大需求,
使用 AI 完成后怕遗漏会再用 AI 审查一遍,但 GPT-5.5 会经典地出现自己审查自己永远有问题的情况,
于是我想使用 Fable-5 审查一下,但是由于存在类似反代的功能,Fable-5 思考一半后直接拒绝了,
甚至我还没有要求它编写代码,而 GPT-5.5 对此是完全没有问题的。

后续我会尝试使用 Claude-Fable-5 替代 GPT-5.5 作为我的主力模型,看看它是否真的比 GPT-5.5 更好。

Claude-Opus-4.8 的速度几乎和我之前测试本地部署的模型一样了,对比 Claude-Fable-5,慢了接近 10 分钟,
需要注意的还有消耗的令牌数,Claude-Opus-4.8 消耗的令牌数是 Claude-Fable-5 的将近两倍,
一来一回 Claude-Fable-5 还真像是 Claude-Opus-5 了,消耗的令牌数低,所以实际价格差距不大。

Claude-Opus-4.8 的完成度有了明显提升,之前一直犯的系统注册和界面入口的常见问题都没有了,
它也和 Claude-Fable-5 一样在最后列出了需要确认的事项,虽然枚举值的处理是错了,但它留下了这样的内容:

皮肤类型枚举:以 skinList 表 Type 字段为准分类(1/2/3/4),未采用 skin.proto 中数值不一致的 SkinType(0/1/2/3)。

说明它知道这里需要判断如何处理,但认为采用配置表的值是合理的,而没有编写相互转换的函数。

首先这样的处理在我看来是完全不合理的,因为虽然留下了说明,但编写了错误的代码,没有对比就没有差距,
反观 Fable-5 既写了转换函数,也留下了这样的说明:

皮肤类型编号不一致:协议枚举 SkinType(0=神针 1=称号 2=头像框 3=气泡)与 skinList 表(1=神针 2=头像框 3=气泡 4=称号)顺序、偏移都不同。我已把转换收口在 SkinNetMgr.ToProtoSkinType/ToCfgSkinType,内部数据一律以配置表类型为准(按 skinId 反查表),仅 C2S_SKIN_LIST.skinType 请求参数按协议枚举发送。请与服务器确认线上实际使用哪套编号,若用表编号只需改这两个函数。

Fable-5 给到了一个完全无可挑剔的答卷。

Mimo V2.5 Pro 的速度非常慢,甚至比我之前测试本地部署的模型还慢,但是完成度相对上个版本有了明显提升,
虽然还存在那两个常见错误,

Mimo V2.5 的速度比上代 V2 Pro 慢,与 Claude-Fable-5 的用时几乎一样,首先它没有犯那两个常见错误,
但是无法编译,未实现、功能错误也非常多,属于 T3 级别。

Hy3 Preview 出现编译错误,位于 T3。

Qwen3.7 系列模型与上一代的差距未拉开很大差距,位于 T2 和 T3,Qwen3.7-Plus 出现编译错误,相对上代 3.5 可能有退步。

Nex-N2-Pro 思考内容发生循环,遂中止了对话,遗憾退赛:

maybe "SkinDataMgr GetSkinPreviewPath(int skinId, int type, bool worldPreview = false)".

Need "SkinDataMgr GetSkinPreviewPathForType".

Need "SkinDataMgr GetSkinPreviewPathForType".

Need "SkinDataMgr GetSkinPreviewPathForType".

Need "SkinDataMgr GetSkinPreviewPathForType".

...

Nemotron 3 Ultra 发生上游错误,无法继续,遗憾退赛。

Minimax M3 下出神之一手,它应该是发现了配置枚举值与服务器枚举值不一致的问题,对此它的判断是,
**一定是后端写错了!**于是它直接修改了 proto 的定义,把服务器枚举改成了一致的值!

惊为天人,史无前例,这是首次有模型直接修改了服务器协议定义的内容。

当然这完全是不符合直觉的操作,但是 Minimax M3 在最后特别说明了这一点,代表着它与 Opus 4.8 一样,
都理解了只是处理不同:

> **注意事项**
> - 协议中 `SkinType` 枚举值的调整属于破坏性变更,服务器需要同步更新枚举值(1/2/3/4)。
> - `C2S_SKIN_LIST.totalAttrs` 字段在协议注释中标注为"所有已拥有皮肤的属性总和",目前按各类型分别存储并在客户端聚合;如服务器已按"全部类型"聚合,可直接读取 `_totalAttrs`。

除此之外,M3 犯了未设置页签文案的低级错误,总体而言完成度与 Mimo V2.5 Pro 相当,位于 T2。

最后总结

  • Claude Fable 5 表现非常亮眼,我会替换 GPT-5.5 作为主力模型使用一段时间,但是需要注意该模型非常敏感。
  • Claude Opus 4.8 终于变得像 Opus 了,有明显提升,但是 Fable 5 的价格差不多(因为仅有一半令牌消耗量),速度还更快,效果也更好,感觉并非 Fable,而是 Opus 5,有了 Fable 5,Opus 4.8 存在的意义就不太大了。
  • Mimo V2.5 Pro 相对上代进步明显!
  • Minimax M3 相对上代进步明显!
  • 其余模型则如测了。

本次继续使用自己开发的开源 VS Code 插件 Unify Chat Provider 以实现在 Copilot 中使用以上模型。

6 个帖子 - 6 位参与者

阅读完整话题

来源: LinuxDo 最新话题查看原文