求解惑 Xiaomi MiMo-v2.5Pro 的 api 构造,官网提到 tool_choice 只能填 auto ,在测试我的 agent loop 的时候经常出现 finish_reason=stop, tools=[] 提前停止,SOP 还没走完 (其他不管冷门还是热门的几家 LLM api 都未出现过)。不知道是我操作不对还是 LLM 的问题。参考 https://platform.xiaomimimo.com/docs/zh-CN/welcome 补充:opencode 、claude code 接入 mimo 从来没出现过。
求解惑 Xiaomi MiMo-v2.5Pro 的 api 构造,官网提到 tool_choice 只能填 auto ,在测试我的 agent loop 的时候经常出现 finish_reason=stop, tools=[] 提前停止,SOP 还没走完 (其他不管冷门还是热门的几家 LLM api 都未出现过)。不知道是我操作不对还是 LLM 的问题。参考 https://platform.xiaomimimo.com/docs/zh-CN/welcome 补充:opencode 、claude code 接入 mimo 从来没出现过。
求解惑 Xiaomi MiMo-v2.5Pro 的 api 构造,官网提到 tool_choice 只能填 auto ,在测试我的 agent loop 的时候经常出现 finish_reason=stop, tools=[] 提前停止,SOP 还没走完 (其他不管冷门还是热门的几家 LLM api 都未出现过)。不知道是我操作不对还是 LLM 的问题。参考 https://platform.xiaomimimo.com/docs/zh-CN/welcome 补充:opencode 、claude code 接入 mimo 从来没出现过。
github.com GitHub - XiaomiMiMo/MiMo-Code 通过在 GitHub 上创建帐户来为 XiaomiMiMo/MiMo-Code 开发做出贡献。 MiMo-Code有佬友用了吗,用下来感觉怎么样 6 个帖子 - 4 位参与者 阅读完整话题
这个19号过期,还剩95E的credits:tp-c3oekjgy21l765awerztp-c3oekjgy21l765awerzqohizxy9r8plvv2lmfb3nneae0xiyqohizxy9r8plvv2lmfb3nneae0xiy 这个20号晚上过期,有110E:tp-cgoaf61iump38jt9pfewotgaasgbjez4ltb0gv7uq7mpvqxq 看看大家有用不 4 个帖子 - 4 位参与者 阅读完整话题
base64编码: dHAtY3diZTdsdTk3dWE2ZHZ1eHRjanVhdW1ybHJsNXhvbWYyZXo0bzdjaHJ0czFubW1w 兼容 OpenAI 接口协议: https://token-plan-cn.xiaomimimo.com/v1 兼容 Anthropic 接口协议: https://token-plan-cn.xiaomimimo.com/anthropic 模型 mimo-v2.5-pro、mimo-v2.5、mimo-v2.5-asr、mimo-v2.5-tts-voiceclone、mimo-v2.5-tts-voicedesign、mimo-v2.5-tts、mimo-v2-pro、mimo-v2-omni、mimo-v2-tts 8 个帖子 - 3 位参与者 阅读完整话题
## 第一步 JWT=$(curl -s -X POST 'https://api.xiaomimimo.com/api/free-ai/bootstrap' \ -H 'Content-Type: application/json' \ -d "$(echo -n "{\"client\":\"haha\"}")" | python3 -c "import sys,json;print(json.load(sys.stdin)['jwt'])") ## 第二步 curl -X POST 'https://api.xiaomimimo.com/api/free-ai/openai/chat' \ -H "Authorization: Bearer $JWT" \ -H 'X-Mimo-Source: mimocode-cli-free' \ -H 'Content-Type: application/json' \ -d '{ "model": "mimo-auto", "messages": [{"role":"user","content":"hello, who are you?"}], "max_tokens": 128000, "stream": true, "temperature": 1.0 }' 1 个帖子 - 1 位参与者 阅读完整话题
由于测试的模型越积越多了,表格会删除一些同厂商的旧模型,你可以在之前的评测帖子里找到它们的成绩。 项目 这是一个 Unity C# 项目,我进行测试的是一份皮肤系统需求案,我已经做了好预制体,而模型需要编写代码。 本轮与上两轮评测的项目和环境都完全一致: 第一轮 … 上一轮 模型来源 Claude 系列模型: 官方 API Mimo V2.5 系列模型: 官方 Token Plan Hy3 Preview: 官方 API Qwen3.7 系列模型: 官方 API Minimax M3: 官方 API Nex-N2-Pro: OpenRouter Free API Nemotron 3 Ultra: OpenRouter Free API 速度 排名 模型 时间(分钟) 备注 1 Grok 4.20 0309 Reasoning 3 2 Step-3.5-Flash 6 3 Mimo V2 Omni 7 4 Doubao-Seed-2.0-Lite 7 5 Doubao-Seed-2.0-Pro 9 6 Doubao-Seed-2.0-Code 9 7 Qwen3-Coder-Next 9 8 Claude Sonnet 4.6(high) 9 9 Qwen3.5-Plus 9 10 GLM-5 Turbo 10 11 Minimax M2.7 10 Highspeed 版本 12 Qwen3.5-Flash 10 13 Gemini 3 Pro 11 14 Hy3 Preview 13 15 GPT-5.5(low) 13 16 GPT-5.5(medium) 15 17 Mimo V2 Pro 15 18 DeepSeek V4 Flash 17 19 Qwen3.7-Plus 17 20 Qwen3.7-Max 18 21 GPT-5.5(high) 19 22 Claude-Opus-4.7(Max) 20 23 GLM-5 20 24 DeepSeek V4 Pro 21 25 Gemini 3 Flash 22 26 Claude-Fable-5(xhigh) 23 27 Mimo V2.5 24 28 KAT-Coder-Pro V2 24 29 Minimax M3 25 30 Claude-Opus-4.6(Max) 26 31 GPT-5.5(xhigh) 28 32 Gemini 3.1 Pro(high) 29 受 429 请求频率限制影响 33 Claude-Opus-4.8(Max) 33 34 Kimi K2.6 33 35 Qwen3.5 9B GGUF Q4_K_XL 35 MBP M4 Pro 48GB 本地部署 36 Qwen3.5 35B A3B GGUF Q4_K_XL 36 MBP M4 Pro 48GB 本地部署 37 Mimo V2.5 Pro 37 令牌数 Claude-Fable-5(xhigh): 7.1M Claude-Opus-4.8(Max): 13M Mimo V2.5 Pro: 未知 Mimo V2.5: 未知 Hy3 Preview: 1.4M Qwen3.7-Max: 4.6M Qwen3.7-Plus: 4.2M Minimax M3: 未知 Nex-N2-Pro: 退赛 Nemotron 3 Ultra: 退赛 代码行数 Claude-Fable-5(xhigh): +1520, -7 Claude-Opus-4.8(Max): +1347, -22 Mimo V2.5 Pro: +1682, -14 Mimo V2.5: +1270, -8 Hy3 Preview: +1246, -8 Qwen3.7-Max: +1529, -6 Qwen3.7-Plus: +1532, -7 Minimax M3: +2284, -137 Nex-N2-Pro: 退赛 Nemotron 3 Ultra: 退赛 完成度 Claude-Fable-5(xhigh) 审查结论: 完成度非常高,仅有一个细节问题。 详细 (点击了解更多详细信息) Claude-Opus-4.8(Max) 审查结论: 完成度很高,虽然存在常见错误,但在最后列出了该处理需要确认;另有一个细微实现不一致。 详细 (点击了解更多详细信息) Mimo V2.5 Pro 审查结论: 存在常见错误,有几处与需求/线上实现不一致的功能缺失。 详细 (点击了解更多详细信息) Mimo V2.5 审查结论: 无法编译,且存在严重的功能错误和与需求/线上实现不一致的功能缺失。 详细 (点击了解更多详细信息) Hy3 Preview 审查结论: 无法编译,且存在严重的功能错误和与需求/线上实现不一致的功能缺失。 详细 (点击了解更多详细信息) Qwen3.7-Max 审查结论: 较多功能错误和与需求/线上实现不一致的功能缺失。 详细 (点击了解更多详细信息) Qwen3.7-Plus 审查结论: 无法编译,且存在严重的功能错误和与需求/线上实现不一致的功能缺失。 详细 (点击了解更多详细信息) Minimax M3 审查结论: 存在部分功能错误和与需求/线上实现不一致的功能缺失;但在最后特别说明了协议枚举值调整的破坏性和服务器需要同步更新枚举值这一点,显示了对问题的理解。 详细 (点击了解更多详细信息) 最终总结 排名 模型/层级 说明 Tier 0 该等级的模型实现与线上基线高度一致。 1 Claude-Fable-5 2 GPT 5.5(xhigh) Tier 1 该等级的模型的代码正确完整且可编译,仅少量边界问题或轻微不一致。 3 Claude Opus 4.8(Max) 4 GPT 5.5(high) 5 Kimi K2.6 6 GPT 5.5(low) 7 GPT 5.5(medium) 8 Claude Opus 4.6(Max) 9 Claude Sonnet 4.5 Tier 2 该等级的模型的代码至少可编译或仅极少量的语法错误,但是存在明显功能错误、遗漏或与需求/线上不一致。 10 GLM 5.1 11 Minimax M3 12 Mimo V2.5 Pro 13 GLM 5 14 Kimi K2.5 15 Claude Sonnet 4.6(high) 16 Qwen3.7-Max 17 Qwen3.5-Plus 18 KAT-Coder-Pro V2 19 DeepSeek V4 Pro(max) Tier 3 该等级的模型的问题很多且无法编译,或者存在不少幻觉。 20 DeepSeek V4 Flash(max) 21 Claude Opus 4.7(Max) 22 Qwen3.7-Plus 23 Mimo V2.5 24 Hy3 Preview 25 GLM 5 Turbo 26 Gemini 3.1 Pro(high) 27 Mimo V2 Pro 28 Mimo V2 Omni 29 Minimax M2.7 30 Step-3.5-Flash 31 Qwen3-Coder-Next 32 Gemini 3 Pro 33 Gemini 3 Flash 34 Doubao-Seed-2.0-Code 35 Doubao-Seed-2.0-Pro 36 Doubao-Seed-2.0-Lite 37 Qwen3.5-Flash 38 Qwen3.5 35B A3B GGUF Q4_K_XL 39 Qwen3.5 9B GGUF Q4_K_XL 40 Grok 4.20 0309 Reasoning Claude-Fable-5(xhigh): 速度超过 Claude-Opus-4.6(max) 与 GPT-5.5(xhigh) 完成度非常高与 GPT-5.5(xhigh) 相当,仅存在一个体验细节问题 终于 Claude 站起来了,不仅是 Claude 的首个 T0 模型,且接替 GPT-5.5 成为榜首。 当然我要重申,它们都能比较完整地做完这个需求,能力差不多,所以是按照模型发布日期来排名的(虽然它其实比 GPT-5.5 要快)。 我已经有点怀疑是否应该将评审员从 GPT-5.5 换为 Claude-Fable-5 了。 Claude-Fable-5 在做完需求后还有一段 “需向你确认的事项”,对某些奇怪的实现细节(比如皮肤配置枚举 值与服务器枚举值不同、时间戳单位猜测)还有自己不确定的地方进行了汇总,给人的感觉是对于这个需求它游刃有余, 一切尽在掌握;需求未说明自己决定的地方都放在最后列出以进行核对,这是比较难得的。 但是 Claude-Fable-5 的安全方面确实非常敏感,测完之后,正好我在做的 VS Code 扩展有一个大需求, 使用 AI 完成后怕遗漏会再用 AI 审查一遍,但 GPT-5.5 会经典地出现自己审查自己永远有问题的情况, 于是我想使用 Fable-5 审查一下,但是由于存在类似反代的功能,Fable-5 思考一半后直接拒绝了, 甚至我还没有要求它编写代码,而 GPT-5.5 对此是完全没有问题的。 后续我会尝试使用 Claude-Fable-5 替代 GPT-5.5 作为我的主力模型,看看它是否真的比 GPT-5.5 更好。 Claude-Opus-4.8 的速度几乎和我之前测试本地部署的模型一样了,对比 Claude-Fable-5,慢了接近 10 分钟, 需要注意的还有消耗的令牌数,Claude-Opus-4.8 消耗的令牌数是 Claude-Fable-5 的将近两倍, 一来一回 Claude-Fable-5 还真像是 Claude-Opus-5 了,消耗的令牌数低,所以实际价格差距不大。 Claude-Opus-4.8 的完成度有了明显提升,之前一直犯的系统注册和界面入口的常见问题都没有了, 它也和 Claude-Fable-5 一样在最后列出了需要确认的事项,虽然枚举值的处理是错了,但它留下了这样的内容: 皮肤类型枚举:以 skinList 表 Type 字段为准分类(1/2/3/4),未采用 skin.proto 中数值不一致的 SkinType(0/1/2/3)。 说明它知道这里需要判断如何处理,但认为采用配置表的值是合理的,而没有编写相互转换的函数。 首先这样的处理在我看来是完全不合理的,因为虽然留下了说明,但编写了错误的代码,没有对比就没有差距, 反观 Fable-5 既写了转换函数,也留下了这样的说明: 皮肤类型编号不一致:协议枚举 SkinType(0=神针 1=称号 2=头像框 3=气泡)与 skinList 表(1=神针 2=头像框 3=气泡 4=称号)顺序、偏移都不同。我已把转换收口在 SkinNetMgr.ToProtoSkinType/ToCfgSkinType,内部数据一律以配置表类型为准(按 skinId 反查表),仅 C2S_SKIN_LIST.skinType 请求参数按协议枚举发送。请与服务器确认线上实际使用哪套编号,若用表编号只需改这两个函数。 Fable-5 给到了一个完全无可挑剔的答卷。 Mimo V2.5 Pro 的速度非常慢,甚至比我之前测试本地部署的模型还慢,但是完成度相对上个版本有了明显提升, 虽然还存在那两个常见错误, Mimo V2.5 的速度比上代 V2 Pro 慢,与 Claude-Fable-5 的用时几乎一样,首先它没有犯那两个常见错误, 但是无法编译,未实现、功能错误也非常多,属于 T3 级别。 Hy3 Preview 出现编译错误,位于 T3。 Qwen3.7 系列模型与上一代的差距未拉开很大差距,位于 T2 和 T3,Qwen3.7-Plus 出现编译错误,相对上代 3.5 可能有退步。 Nex-N2-Pro 思考内容发生循环,遂中止了对话,遗憾退赛: maybe "SkinDataMgr GetSkinPreviewPath(int skinId, int type, bool worldPreview = false)". Need "SkinDataMgr GetSkinPreviewPathForType". Need "SkinDataMgr GetSkinPreviewPathForType". Need "SkinDataMgr GetSkinPreviewPathForType". Need "SkinDataMgr GetSkinPreviewPathForType". ... Nemotron 3 Ultra 发生上游错误,无法继续,遗憾退赛。 Minimax M3 下出神之一手,它应该是发现了配置枚举值与服务器枚举值不一致的问题,对此它的判断是, **一定是后端写错了!**于是它直接修改了 proto 的定义,把服务器枚举改成了一致的值! 惊为天人,史无前例,这是首次有模型直接修改了服务器协议定义的内容。 当然这完全是不符合直觉的操作,但是 Minimax M3 在最后特别说明了这一点,代表着它与 Opus 4.8 一样, 都理解了只是处理不同: > **注意事项** > - 协议中 `SkinType` 枚举值的调整属于破坏性变更,服务器需要同步更新枚举值(1/2/3/4)。 > - `C2S_SKIN_LIST.totalAttrs` 字段在协议注释中标注为"所有已拥有皮肤的属性总和",目前按各类型分别存储并在客户端聚合;如服务器已按"全部类型"聚合,可直接读取 `_totalAttrs`。 除此之外,M3 犯了未设置页签文案的低级错误,总体而言完成度与 Mimo V2.5 Pro 相当,位于 T2。 最后总结 Claude Fable 5 表现非常亮眼,我会替换 GPT-5.5 作为主力模型使用一段时间,但是需要注意该模型非常敏感。 Claude Opus 4.8 终于变得像 Opus 了,有明显提升,但是 Fable 5 的价格差不多(因为仅有一半令牌消耗量),速度还更快,效果也更好,感觉并非 Fable,而是 Opus 5,有了 Fable 5,Opus 4.8 存在的意义就不太大了。 Mimo V2.5 Pro 相对上代进步明显! Minimax M3 相对上代进步明显! 其余模型则如测了。 本次继续使用自己开发的开源 VS Code 插件 Unify Chat Provider 以实现在 Copilot 中使用以上模型。 6 个帖子 - 6 位参与者 阅读完整话题
Xiaomi MiMo正式发布并开源MiMo Code,一款运行在终端的探索性AI助手。模型与Agent协同优化,迈向自进化时代。 1.跨会话持久记忆+近乎无限上下文 2.独创Compose编排模式,先设计再编码 3.Dream记忆固化与自进化机制 4.支持语音输入与控制 同时,MiMo Code 内置限时免费的顶级多模态模型–MiMo V2.5,并支持接入DeepSeek等主流模型以及第三方Token Plan,满足不同开发者的需求。 无限上下文?这个真实吗? 3 个帖子 - 3 位参与者 阅读完整话题
tp-sgwtkk41qv785rimsnfwa9q0zxfc5erdprr89rd1pwl7sog7 https://token-plan-sgp.xiaomimimo.com/v1 1 个帖子 - 1 位参与者 阅读完整话题
https://mimo.xiaomi.com/zh/blog/mimo-code-long-horizon Max Mode 只管做的对不对,不管做没做完;后来出现的 /goal 才解决 部分模型(特别是 GPT 5.5 系列)在输出结构化 JSON 时格式错误率较高 Dynamic Workflow 的确是好东西 能在每一轮迭代进行总结的记忆系统,我现在是手动挡搓这个,搞得很烦躁 给主 agent 配一个助理总结归纳项目 等等。。都是我想要的。
https://mimo.xiaomi.com/zh/blog/mimo-code-long-horizon Max Mode 只管做的对不对,不管做没做完;后来出现的 /goal 才解决 部分模型(特别是 GPT 5.5 系列)在输出结构化 JSON 时格式错误率较高 Dynamic Workflow 的确是好东西 能在每一轮迭代进行总结的记忆系统,我现在是手动挡搓这个,搞得很烦躁 给主 agent 配一个助理总结归纳项目 等等。。都是我想要的。
https://mimo.xiaomi.com/zh/blog/mimo-code-long-horizon Max Mode 只管做的对不对,不管做没做完;后来出现的 /goal 才解决 部分模型(特别是 GPT 5.5 系列)在输出结构化 JSON 时格式错误率较高 Dynamic Workflow 的确是好东西 能在每一轮迭代进行总结的记忆系统,我现在是手动挡搓这个,搞得很烦躁 给主 agent 配一个助理总结归纳项目 等等。。都是我想要的。
https://mimo.xiaomi.com/zh/blog/mimo-code-long-horizon Max Mode 只管做的对不对,不管做没做完;后来出现的 /goal 才解决 部分模型(特别是 GPT 5.5 系列)在输出结构化 JSON 时格式错误率较高 Dynamic Workflow 的确是好东西 能在每一轮迭代进行总结的记忆系统,我现在是手动挡搓这个,搞得很烦躁 给主 agent 配一个助理总结归纳项目 等等。。都是我想要的。
https://mimo.xiaomi.com/zh/blog/mimo-code-long-horizon Max Mode 只管做的对不对,不管做没做完;后来出现的 /goal 才解决 部分模型(特别是 GPT 5.5 系列)在输出结构化 JSON 时格式错误率较高 Dynamic Workflow 的确是好东西 能在每一轮迭代进行总结的记忆系统,我现在是手动挡搓这个,搞得很烦躁 给主 agent 配一个助理总结归纳项目 等等。。都是我想要的。
https://mimo.xiaomi.com/zh/blog/mimo-code-long-horizon Max Mode 只管做的对不对,不管做没做完;后来出现的 /goal 才解决 部分模型(特别是 GPT 5.5 系列)在输出结构化 JSON 时格式错误率较高 Dynamic Workflow 的确是好东西 能在每一轮迭代进行总结的记忆系统,我现在是手动挡搓这个,搞得很烦躁 给主 agent 配一个助理总结归纳项目 等等。。都是我想要的。
https://mimo.xiaomi.com/zh/blog/mimo-code-long-horizon Max Mode 只管做的对不对,不管做没做完;后来出现的 /goal 才解决 部分模型(特别是 GPT 5.5 系列)在输出结构化 JSON 时格式错误率较高 Dynamic Workflow 的确是好东西 能在每一轮迭代进行总结的记忆系统,我现在是手动挡搓这个,搞得很烦躁 给主 agent 配一个助理总结归纳项目 等等。。都是我想要的。
mimo cli 出来了,内置 MiMo Auto 限时免费通道——零配置即可开始使用。也支持接入各家主流 LLM 厂商 API。 6 个帖子 - 4 位参与者 阅读完整话题
https://token-plan-cn.xiaomimimo.com/v1 tp-ces95mbctd7rtyfddmerhrbe5dtmy3t2b1acg5nlh1elvlc6 1 个帖子 - 1 位参与者 阅读完整话题
https://github.com/XiaomiMiMo/MiMo-Code 基于 opencode 开发的,睡前刚刷到 试了一下界面还行... 就是不知道水平如何