m3pro的机器,升级了macos27后很悔恨,有许多感知明显的bug。手头没有多余u盘和硬盘,但又想保留我的资料实现系统降级。 查询到mac有个安装双macOS系统的办法 在 Mac 上使用多个 macOS 版本 - 官方 Apple 支持 (中国) 想咨询一下有经验的佬友们:我能否分出一个卷安装macos15或者26后,将现在27的资料全部移动过去后把27的卷删除,从而实现系统降级呢? 1 个帖子 - 1 位参与者 阅读完整话题
由于测试的模型越积越多了,表格会删除一些同厂商的旧模型,你可以在之前的评测帖子里找到它们的成绩。 项目 这是一个 Unity C# 项目,我进行测试的是一份皮肤系统需求案,我已经做了好预制体,而模型需要编写代码。 本轮与上两轮评测的项目和环境都完全一致: 第一轮 … 上一轮 模型来源 Claude 系列模型: 官方 API Mimo V2.5 系列模型: 官方 Token Plan Hy3 Preview: 官方 API Qwen3.7 系列模型: 官方 API Minimax M3: 官方 API Nex-N2-Pro: OpenRouter Free API Nemotron 3 Ultra: OpenRouter Free API 速度 排名 模型 时间(分钟) 备注 1 Grok 4.20 0309 Reasoning 3 2 Step-3.5-Flash 6 3 Mimo V2 Omni 7 4 Doubao-Seed-2.0-Lite 7 5 Doubao-Seed-2.0-Pro 9 6 Doubao-Seed-2.0-Code 9 7 Qwen3-Coder-Next 9 8 Claude Sonnet 4.6(high) 9 9 Qwen3.5-Plus 9 10 GLM-5 Turbo 10 11 Minimax M2.7 10 Highspeed 版本 12 Qwen3.5-Flash 10 13 Gemini 3 Pro 11 14 Hy3 Preview 13 15 GPT-5.5(low) 13 16 GPT-5.5(medium) 15 17 Mimo V2 Pro 15 18 DeepSeek V4 Flash 17 19 Qwen3.7-Plus 17 20 Qwen3.7-Max 18 21 GPT-5.5(high) 19 22 Claude-Opus-4.7(Max) 20 23 GLM-5 20 24 DeepSeek V4 Pro 21 25 Gemini 3 Flash 22 26 Claude-Fable-5(xhigh) 23 27 Mimo V2.5 24 28 KAT-Coder-Pro V2 24 29 Minimax M3 25 30 Claude-Opus-4.6(Max) 26 31 GPT-5.5(xhigh) 28 32 Gemini 3.1 Pro(high) 29 受 429 请求频率限制影响 33 Claude-Opus-4.8(Max) 33 34 Kimi K2.6 33 35 Qwen3.5 9B GGUF Q4_K_XL 35 MBP M4 Pro 48GB 本地部署 36 Qwen3.5 35B A3B GGUF Q4_K_XL 36 MBP M4 Pro 48GB 本地部署 37 Mimo V2.5 Pro 37 令牌数 Claude-Fable-5(xhigh): 7.1M Claude-Opus-4.8(Max): 13M Mimo V2.5 Pro: 未知 Mimo V2.5: 未知 Hy3 Preview: 1.4M Qwen3.7-Max: 4.6M Qwen3.7-Plus: 4.2M Minimax M3: 未知 Nex-N2-Pro: 退赛 Nemotron 3 Ultra: 退赛 代码行数 Claude-Fable-5(xhigh): +1520, -7 Claude-Opus-4.8(Max): +1347, -22 Mimo V2.5 Pro: +1682, -14 Mimo V2.5: +1270, -8 Hy3 Preview: +1246, -8 Qwen3.7-Max: +1529, -6 Qwen3.7-Plus: +1532, -7 Minimax M3: +2284, -137 Nex-N2-Pro: 退赛 Nemotron 3 Ultra: 退赛 完成度 Claude-Fable-5(xhigh) 审查结论: 完成度非常高,仅有一个细节问题。 详细 (点击了解更多详细信息) Claude-Opus-4.8(Max) 审查结论: 完成度很高,虽然存在常见错误,但在最后列出了该处理需要确认;另有一个细微实现不一致。 详细 (点击了解更多详细信息) Mimo V2.5 Pro 审查结论: 存在常见错误,有几处与需求/线上实现不一致的功能缺失。 详细 (点击了解更多详细信息) Mimo V2.5 审查结论: 无法编译,且存在严重的功能错误和与需求/线上实现不一致的功能缺失。 详细 (点击了解更多详细信息) Hy3 Preview 审查结论: 无法编译,且存在严重的功能错误和与需求/线上实现不一致的功能缺失。 详细 (点击了解更多详细信息) Qwen3.7-Max 审查结论: 较多功能错误和与需求/线上实现不一致的功能缺失。 详细 (点击了解更多详细信息) Qwen3.7-Plus 审查结论: 无法编译,且存在严重的功能错误和与需求/线上实现不一致的功能缺失。 详细 (点击了解更多详细信息) Minimax M3 审查结论: 存在部分功能错误和与需求/线上实现不一致的功能缺失;但在最后特别说明了协议枚举值调整的破坏性和服务器需要同步更新枚举值这一点,显示了对问题的理解。 详细 (点击了解更多详细信息) 最终总结 排名 模型/层级 说明 Tier 0 该等级的模型实现与线上基线高度一致。 1 Claude-Fable-5 2 GPT 5.5(xhigh) Tier 1 该等级的模型的代码正确完整且可编译,仅少量边界问题或轻微不一致。 3 Claude Opus 4.8(Max) 4 GPT 5.5(high) 5 Kimi K2.6 6 GPT 5.5(low) 7 GPT 5.5(medium) 8 Claude Opus 4.6(Max) 9 Claude Sonnet 4.5 Tier 2 该等级的模型的代码至少可编译或仅极少量的语法错误,但是存在明显功能错误、遗漏或与需求/线上不一致。 10 GLM 5.1 11 Minimax M3 12 Mimo V2.5 Pro 13 GLM 5 14 Kimi K2.5 15 Claude Sonnet 4.6(high) 16 Qwen3.7-Max 17 Qwen3.5-Plus 18 KAT-Coder-Pro V2 19 DeepSeek V4 Pro(max) Tier 3 该等级的模型的问题很多且无法编译,或者存在不少幻觉。 20 DeepSeek V4 Flash(max) 21 Claude Opus 4.7(Max) 22 Qwen3.7-Plus 23 Mimo V2.5 24 Hy3 Preview 25 GLM 5 Turbo 26 Gemini 3.1 Pro(high) 27 Mimo V2 Pro 28 Mimo V2 Omni 29 Minimax M2.7 30 Step-3.5-Flash 31 Qwen3-Coder-Next 32 Gemini 3 Pro 33 Gemini 3 Flash 34 Doubao-Seed-2.0-Code 35 Doubao-Seed-2.0-Pro 36 Doubao-Seed-2.0-Lite 37 Qwen3.5-Flash 38 Qwen3.5 35B A3B GGUF Q4_K_XL 39 Qwen3.5 9B GGUF Q4_K_XL 40 Grok 4.20 0309 Reasoning Claude-Fable-5(xhigh): 速度超过 Claude-Opus-4.6(max) 与 GPT-5.5(xhigh) 完成度非常高与 GPT-5.5(xhigh) 相当,仅存在一个体验细节问题 终于 Claude 站起来了,不仅是 Claude 的首个 T0 模型,且接替 GPT-5.5 成为榜首。 当然我要重申,它们都能比较完整地做完这个需求,能力差不多,所以是按照模型发布日期来排名的(虽然它其实比 GPT-5.5 要快)。 我已经有点怀疑是否应该将评审员从 GPT-5.5 换为 Claude-Fable-5 了。 Claude-Fable-5 在做完需求后还有一段 “需向你确认的事项”,对某些奇怪的实现细节(比如皮肤配置枚举 值与服务器枚举值不同、时间戳单位猜测)还有自己不确定的地方进行了汇总,给人的感觉是对于这个需求它游刃有余, 一切尽在掌握;需求未说明自己决定的地方都放在最后列出以进行核对,这是比较难得的。 但是 Claude-Fable-5 的安全方面确实非常敏感,测完之后,正好我在做的 VS Code 扩展有一个大需求, 使用 AI 完成后怕遗漏会再用 AI 审查一遍,但 GPT-5.5 会经典地出现自己审查自己永远有问题的情况, 于是我想使用 Fable-5 审查一下,但是由于存在类似反代的功能,Fable-5 思考一半后直接拒绝了, 甚至我还没有要求它编写代码,而 GPT-5.5 对此是完全没有问题的。 后续我会尝试使用 Claude-Fable-5 替代 GPT-5.5 作为我的主力模型,看看它是否真的比 GPT-5.5 更好。 Claude-Opus-4.8 的速度几乎和我之前测试本地部署的模型一样了,对比 Claude-Fable-5,慢了接近 10 分钟, 需要注意的还有消耗的令牌数,Claude-Opus-4.8 消耗的令牌数是 Claude-Fable-5 的将近两倍, 一来一回 Claude-Fable-5 还真像是 Claude-Opus-5 了,消耗的令牌数低,所以实际价格差距不大。 Claude-Opus-4.8 的完成度有了明显提升,之前一直犯的系统注册和界面入口的常见问题都没有了, 它也和 Claude-Fable-5 一样在最后列出了需要确认的事项,虽然枚举值的处理是错了,但它留下了这样的内容: 皮肤类型枚举:以 skinList 表 Type 字段为准分类(1/2/3/4),未采用 skin.proto 中数值不一致的 SkinType(0/1/2/3)。 说明它知道这里需要判断如何处理,但认为采用配置表的值是合理的,而没有编写相互转换的函数。 首先这样的处理在我看来是完全不合理的,因为虽然留下了说明,但编写了错误的代码,没有对比就没有差距, 反观 Fable-5 既写了转换函数,也留下了这样的说明: 皮肤类型编号不一致:协议枚举 SkinType(0=神针 1=称号 2=头像框 3=气泡)与 skinList 表(1=神针 2=头像框 3=气泡 4=称号)顺序、偏移都不同。我已把转换收口在 SkinNetMgr.ToProtoSkinType/ToCfgSkinType,内部数据一律以配置表类型为准(按 skinId 反查表),仅 C2S_SKIN_LIST.skinType 请求参数按协议枚举发送。请与服务器确认线上实际使用哪套编号,若用表编号只需改这两个函数。 Fable-5 给到了一个完全无可挑剔的答卷。 Mimo V2.5 Pro 的速度非常慢,甚至比我之前测试本地部署的模型还慢,但是完成度相对上个版本有了明显提升, 虽然还存在那两个常见错误, Mimo V2.5 的速度比上代 V2 Pro 慢,与 Claude-Fable-5 的用时几乎一样,首先它没有犯那两个常见错误, 但是无法编译,未实现、功能错误也非常多,属于 T3 级别。 Hy3 Preview 出现编译错误,位于 T3。 Qwen3.7 系列模型与上一代的差距未拉开很大差距,位于 T2 和 T3,Qwen3.7-Plus 出现编译错误,相对上代 3.5 可能有退步。 Nex-N2-Pro 思考内容发生循环,遂中止了对话,遗憾退赛: maybe "SkinDataMgr GetSkinPreviewPath(int skinId, int type, bool worldPreview = false)". Need "SkinDataMgr GetSkinPreviewPathForType". Need "SkinDataMgr GetSkinPreviewPathForType". Need "SkinDataMgr GetSkinPreviewPathForType". Need "SkinDataMgr GetSkinPreviewPathForType". ... Nemotron 3 Ultra 发生上游错误,无法继续,遗憾退赛。 Minimax M3 下出神之一手,它应该是发现了配置枚举值与服务器枚举值不一致的问题,对此它的判断是, **一定是后端写错了!**于是它直接修改了 proto 的定义,把服务器枚举改成了一致的值! 惊为天人,史无前例,这是首次有模型直接修改了服务器协议定义的内容。 当然这完全是不符合直觉的操作,但是 Minimax M3 在最后特别说明了这一点,代表着它与 Opus 4.8 一样, 都理解了只是处理不同: > **注意事项** > - 协议中 `SkinType` 枚举值的调整属于破坏性变更,服务器需要同步更新枚举值(1/2/3/4)。 > - `C2S_SKIN_LIST.totalAttrs` 字段在协议注释中标注为"所有已拥有皮肤的属性总和",目前按各类型分别存储并在客户端聚合;如服务器已按"全部类型"聚合,可直接读取 `_totalAttrs`。 除此之外,M3 犯了未设置页签文案的低级错误,总体而言完成度与 Mimo V2.5 Pro 相当,位于 T2。 最后总结 Claude Fable 5 表现非常亮眼,我会替换 GPT-5.5 作为主力模型使用一段时间,但是需要注意该模型非常敏感。 Claude Opus 4.8 终于变得像 Opus 了,有明显提升,但是 Fable 5 的价格差不多(因为仅有一半令牌消耗量),速度还更快,效果也更好,感觉并非 Fable,而是 Opus 5,有了 Fable 5,Opus 4.8 存在的意义就不太大了。 Mimo V2.5 Pro 相对上代进步明显! Minimax M3 相对上代进步明显! 其余模型则如测了。 本次继续使用自己开发的开源 VS Code 插件 Unify Chat Provider 以实现在 Copilot 中使用以上模型。 6 个帖子 - 6 位参与者 阅读完整话题
感觉买个日常用挺不错的,还有 office 的权限 4 个帖子 - 4 位参与者 阅读完整话题
https://mp.weixin.qq.com/s/vdk2Szm39KYgBGbmMGHZnw 3 个帖子 - 3 位参与者 阅读完整话题
我是 M4 版本的,但我估计 M3 到 M5 应该都差不多 日常就是开多个看盘软件,东财同花顺、富途、TradingView 一起开,再开 Chrome 几十多个标签(其实大部分是冻结的) 明显就会感觉系统卡的不行,尤其是 Mac OS 这个新版富途,单屏没问题,只要开双屏到三屏,活动监视器的 CPU 占用就要干到百分百 有点滤镜破碎的感觉,苹果还能卡? 毕竟我又没用什么吃性能的东西,都是普通办公工具
我是 M4 版本的,但我估计 M3 到 M5 应该都差不多 日常就是开多个看盘软件,东财同花顺、富途、TradingView 一起开,再开 Chrome 几十多个标签(其实大部分是冻结的) 明显就会感觉系统卡的不行,尤其是 Mac OS 这个新版富途,单屏没问题,只要开双屏到三屏,活动监视器的 CPU 占用就要干到百分百 有点滤镜破碎的感觉,苹果还能卡? 毕竟我又没用什么吃性能的东西,都是普通办公工具
我是 M4 版本的,但我估计 M3 到 M5 应该都差不多 日常就是开多个看盘软件,东财同花顺、富途、TradingView 一起开,再开 Chrome 几十多个标签(其实大部分是冻结的) 明显就会感觉系统卡的不行,尤其是 Mac OS 这个新版富途,单屏没问题,只要开双屏到三屏,活动监视器的 CPU 占用就要干到百分百 有点滤镜破碎的感觉,苹果还能卡? 毕竟我又没用什么吃性能的东西,都是普通办公工具
我是 M4 版本的,但我估计 M3 到 M5 应该都差不多 日常就是开多个看盘软件,东财同花顺、富途、TradingView 一起开,再开 Chrome 几十多个标签(其实大部分是冻结的) 明显就会感觉系统卡的不行,尤其是 Mac OS 这个新版富途,单屏没问题,只要开双屏到三屏,活动监视器的 CPU 占用就要干到百分百 有点滤镜破碎的感觉,苹果还能卡? 毕竟我又没用什么吃性能的东西,都是普通办公工具
我是 M4 版本的,但我估计 M3 到 M5 应该都差不多 日常就是开多个看盘软件,东财同花顺、富途、TradingView 一起开,再开 Chrome 几十多个标签(其实大部分是冻结的) 明显就会感觉系统卡的不行,尤其是 Mac OS 这个新版富途,单屏没问题,只要开双屏到三屏,活动监视器的 CPU 占用就要干到百分百 有点滤镜破碎的感觉,苹果还能卡? 毕竟我又没用什么吃性能的东西,都是普通办公工具
我是 M4 版本的,但我估计 M3 到 M5 应该都差不多 日常就是开多个看盘软件,东财同花顺、富途、TradingView 一起开,再开 Chrome 几十多个标签(其实大部分是冻结的) 明显就会感觉系统卡的不行,尤其是 Mac OS 这个新版富途,单屏没问题,只要开双屏到三屏,活动监视器的 CPU 占用就要干到百分百 有点滤镜破碎的感觉,苹果还能卡? 毕竟我又没用什么吃性能的东西,都是普通办公工具
我是 M4 版本的,但我估计 M3 到 M5 应该都差不多 日常就是开多个看盘软件,东财同花顺、富途、TradingView 一起开,再开 Chrome 几十多个标签(其实大部分是冻结的) 明显就会感觉系统卡的不行,尤其是 Mac OS 这个新版富途,单屏没问题,只要开双屏到三屏,活动监视器的 CPU 占用就要干到百分百 有点滤镜破碎的感觉,苹果还能卡? 毕竟我又没用什么吃性能的东西,都是普通办公工具
6月底到期 API key:tp-czhbkxr4drtm35ejt6e2kzhntg3khx4t4p5onbzwflnpwmky 专属 Base URL 兼容 OpenAI 接口协议: https://token-plan-cn.xiaomimimo.com/v1 兼容 Anthropic 接口协议: https://token-plan-cn.xiaomimimo.com/anthropic 模型 mimo-v2.5-pro、mimo-v2.5、mimo-v2.5-asr、mimo-v2.5-tts-voiceclone、mimo-v2.5-tts-voicedesign、mimo-v2.5-tts、mimo-v2-pro、mimo-v2-omni、mimo-v2-tts 额度 11,000,000,000 Credits 1 个帖子 - 1 位参与者 阅读完整话题
FREEBUFF从昨天上新了MINIMAX M3。而且不是PREMIUM的MODEL。随便用的那种。现在DS4 FLASH和MIMO 2.5还在限免。 现在已经是我的主力cli了,我还挺喜欢他们的cli的。好像有自己做一些HARNESS 1 个帖子 - 1 位参与者 阅读完整话题
手上有一个移动魔百盒M301A,九联代工的版本。1+8G,芯片是s905l2b,心血来潮想刷个linux系统用用, u盘rufus写入ophub开源的armbian固件刷入成功, github固件地址 (点击了解更多详细信息) 刷完感觉就是个玩具不知道干嘛 盒子短接点 (点击了解更多详细信息) 求个建议 3 个帖子 - 3 位参与者 阅读完整话题
tp-s0sm51u1zjewz8hn2n49bfcjsi3u7ys6c81732h1m5m34w1i 用不完 , 根本用不完 3 个帖子 - 3 位参与者 阅读完整话题
api key(base64):dHAtYzFkYmg1NnlxbG13MTM2eWs4eHJjajZydXVsdjZydzFpNmJ2MWV1ODdpbXp4M3dh 4 个帖子 - 4 位参与者 阅读完整话题
【火山引擎】开发者你好,方舟 Coding Plan 限时回归优惠上线,最新支持 MiniMax-M3开源模型,现在订阅低至 9.9 元,活动限时开放,名额有限,先到先得 刚收到短信,提示又有9.9的订阅了。看了下官网,应该不用抢。 不过这次只有一个月,不能像之前一下订阅6个月了。 有需要的佬可以关注一波~ 下面是官网地址 https://www.volcengine.com/activity/codingplan 8 个帖子 - 8 位参与者 阅读完整话题
标题说是什么 M3 的体验承诺,但是正文又是空白的。 邮箱是官方的但是用户名纯数字。 模型搞得不行,运营也乱糟糟的? 1 个帖子 - 1 位参与者 阅读完整话题
tp-clbxj37fm4pd3k794u2s4m37wvnyjte64zkrqw0jlnvajxdm 1 个帖子 - 1 位参与者 阅读完整话题
32 个帖子 - 26 位参与者 阅读完整话题