WWW.YOUINFO.SITE
标签聚合 AX

/tag/AX

LinuxDo 最新话题 · 2026-06-11 23:41:01+08:00 · tech

大大小小陆陆续续的买了几家的CodingPlan了 Kimi Minimax Codex 以及DeepseekAPI 还有OpenCode的Go套餐 用下来实际上感觉不出太大差距 除了Minimax-2.7 想问问佬友们自己在Vibe Coding的过程里都是用的什么模型,具体体感如何?各家的优势缺点都是什么? Minimax在2.7的时候订阅了他家极速版 说实在的2.7真有点捞了,基本上那段时间里写代码(CC)就是在前端-怎么改都不如意 要么一堆bug与后端-打不开,编译失败 然后骂他 然后循环。 换了Kimi之后(2.6)其实也没感觉多好用,而且感觉用了minimax之后导致我的vibe热情都下降了,买了199套餐 甚至用不完。。 但是,kimi客户端的 Agent集群以及数据库 还挺好用的 给龙虾来盯个盘查个数据 新闻 还可以 然后最近Minimax除了M3 我也直接用上了,其实感觉有点提升吧,至少是思考变长了 当然也变慢了 而且长时间任务,确实明显提升- 上次一个单纯的文档审计-我Vibe之前一个设计 搞了比较多的文档-审计了得四五个小时吧,虽然是我让他多想的(没开子代理 可能这也是原因) 以及家的龙虾我也用了,感觉各家的龙虾做的都不咋样 还不如飞书的龙虾好用- 写到这里突然想起来飞书的龙虾好久没用了 数据都没备份呢 不会给我删了吧。。。 再就是 GPT- 一个字-夯 Codex真的很好用,作为一个工作台,不只是用来Code- 虽然Minimax与Kimi的客户端也都可以做其他事情了-minimax的更像GPT 不过就是量少-也可能我的用法问题吧 其实我还是缺少些VibeCoding的经验或者完整流程怎么搞的。 Claude…一个只在中转与公益中用过的模型 Fable 5我现在就只用来审计过文档代码 还有给我构思过一款前端。 每太能感受到强大。 其实还有很多关于VibeCoding的一堆问题,等下次主题再问吧。 7 个帖子 - 4 位参与者 阅读完整话题

LinuxDo 最新话题 · 2026-06-11 17:22:41+08:00 · tech

由于测试的模型越积越多了,表格会删除一些同厂商的旧模型,你可以在之前的评测帖子里找到它们的成绩。 项目 这是一个 Unity C# 项目,我进行测试的是一份皮肤系统需求案,我已经做了好预制体,而模型需要编写代码。 本轮与上两轮评测的项目和环境都完全一致: 第一轮 … 上一轮 模型来源 Claude 系列模型: 官方 API Mimo V2.5 系列模型: 官方 Token Plan Hy3 Preview: 官方 API Qwen3.7 系列模型: 官方 API Minimax M3: 官方 API Nex-N2-Pro: OpenRouter Free API Nemotron 3 Ultra: OpenRouter Free API 速度 排名 模型 时间(分钟) 备注 1 Grok 4.20 0309 Reasoning 3 2 Step-3.5-Flash 6 3 Mimo V2 Omni 7 4 Doubao-Seed-2.0-Lite 7 5 Doubao-Seed-2.0-Pro 9 6 Doubao-Seed-2.0-Code 9 7 Qwen3-Coder-Next 9 8 Claude Sonnet 4.6(high) 9 9 Qwen3.5-Plus 9 10 GLM-5 Turbo 10 11 Minimax M2.7 10 Highspeed 版本 12 Qwen3.5-Flash 10 13 Gemini 3 Pro 11 14 Hy3 Preview 13 15 GPT-5.5(low) 13 16 GPT-5.5(medium) 15 17 Mimo V2 Pro 15 18 DeepSeek V4 Flash 17 19 Qwen3.7-Plus 17 20 Qwen3.7-Max 18 21 GPT-5.5(high) 19 22 Claude-Opus-4.7(Max) 20 23 GLM-5 20 24 DeepSeek V4 Pro 21 25 Gemini 3 Flash 22 26 Claude-Fable-5(xhigh) 23 27 Mimo V2.5 24 28 KAT-Coder-Pro V2 24 29 Minimax M3 25 30 Claude-Opus-4.6(Max) 26 31 GPT-5.5(xhigh) 28 32 Gemini 3.1 Pro(high) 29 受 429 请求频率限制影响 33 Claude-Opus-4.8(Max) 33 34 Kimi K2.6 33 35 Qwen3.5 9B GGUF Q4_K_XL 35 MBP M4 Pro 48GB 本地部署 36 Qwen3.5 35B A3B GGUF Q4_K_XL 36 MBP M4 Pro 48GB 本地部署 37 Mimo V2.5 Pro 37 令牌数 Claude-Fable-5(xhigh): 7.1M Claude-Opus-4.8(Max): 13M Mimo V2.5 Pro: 未知 Mimo V2.5: 未知 Hy3 Preview: 1.4M Qwen3.7-Max: 4.6M Qwen3.7-Plus: 4.2M Minimax M3: 未知 Nex-N2-Pro: 退赛 Nemotron 3 Ultra: 退赛 代码行数 Claude-Fable-5(xhigh): +1520, -7 Claude-Opus-4.8(Max): +1347, -22 Mimo V2.5 Pro: +1682, -14 Mimo V2.5: +1270, -8 Hy3 Preview: +1246, -8 Qwen3.7-Max: +1529, -6 Qwen3.7-Plus: +1532, -7 Minimax M3: +2284, -137 Nex-N2-Pro: 退赛 Nemotron 3 Ultra: 退赛 完成度 Claude-Fable-5(xhigh) 审查结论: 完成度非常高,仅有一个细节问题。 详细 (点击了解更多详细信息) Claude-Opus-4.8(Max) 审查结论: 完成度很高,虽然存在常见错误,但在最后列出了该处理需要确认;另有一个细微实现不一致。 详细 (点击了解更多详细信息) Mimo V2.5 Pro 审查结论: 存在常见错误,有几处与需求/线上实现不一致的功能缺失。 详细 (点击了解更多详细信息) Mimo V2.5 审查结论: 无法编译,且存在严重的功能错误和与需求/线上实现不一致的功能缺失。 详细 (点击了解更多详细信息) Hy3 Preview 审查结论: 无法编译,且存在严重的功能错误和与需求/线上实现不一致的功能缺失。 详细 (点击了解更多详细信息) Qwen3.7-Max 审查结论: 较多功能错误和与需求/线上实现不一致的功能缺失。 详细 (点击了解更多详细信息) Qwen3.7-Plus 审查结论: 无法编译,且存在严重的功能错误和与需求/线上实现不一致的功能缺失。 详细 (点击了解更多详细信息) Minimax M3 审查结论: 存在部分功能错误和与需求/线上实现不一致的功能缺失;但在最后特别说明了协议枚举值调整的破坏性和服务器需要同步更新枚举值这一点,显示了对问题的理解。 详细 (点击了解更多详细信息) 最终总结 排名 模型/层级 说明 Tier 0 该等级的模型实现与线上基线高度一致。 1 Claude-Fable-5 2 GPT 5.5(xhigh) Tier 1 该等级的模型的代码正确完整且可编译,仅少量边界问题或轻微不一致。 3 Claude Opus 4.8(Max) 4 GPT 5.5(high) 5 Kimi K2.6 6 GPT 5.5(low) 7 GPT 5.5(medium) 8 Claude Opus 4.6(Max) 9 Claude Sonnet 4.5 Tier 2 该等级的模型的代码至少可编译或仅极少量的语法错误,但是存在明显功能错误、遗漏或与需求/线上不一致。 10 GLM 5.1 11 Minimax M3 12 Mimo V2.5 Pro 13 GLM 5 14 Kimi K2.5 15 Claude Sonnet 4.6(high) 16 Qwen3.7-Max 17 Qwen3.5-Plus 18 KAT-Coder-Pro V2 19 DeepSeek V4 Pro(max) Tier 3 该等级的模型的问题很多且无法编译,或者存在不少幻觉。 20 DeepSeek V4 Flash(max) 21 Claude Opus 4.7(Max) 22 Qwen3.7-Plus 23 Mimo V2.5 24 Hy3 Preview 25 GLM 5 Turbo 26 Gemini 3.1 Pro(high) 27 Mimo V2 Pro 28 Mimo V2 Omni 29 Minimax M2.7 30 Step-3.5-Flash 31 Qwen3-Coder-Next 32 Gemini 3 Pro 33 Gemini 3 Flash 34 Doubao-Seed-2.0-Code 35 Doubao-Seed-2.0-Pro 36 Doubao-Seed-2.0-Lite 37 Qwen3.5-Flash 38 Qwen3.5 35B A3B GGUF Q4_K_XL 39 Qwen3.5 9B GGUF Q4_K_XL 40 Grok 4.20 0309 Reasoning Claude-Fable-5(xhigh): 速度超过 Claude-Opus-4.6(max) 与 GPT-5.5(xhigh) 完成度非常高与 GPT-5.5(xhigh) 相当,仅存在一个体验细节问题 终于 Claude 站起来了,不仅是 Claude 的首个 T0 模型,且接替 GPT-5.5 成为榜首。 当然我要重申,它们都能比较完整地做完这个需求,能力差不多,所以是按照模型发布日期来排名的(虽然它其实比 GPT-5.5 要快)。 我已经有点怀疑是否应该将评审员从 GPT-5.5 换为 Claude-Fable-5 了。 Claude-Fable-5 在做完需求后还有一段 “需向你确认的事项”,对某些奇怪的实现细节(比如皮肤配置枚举 值与服务器枚举值不同、时间戳单位猜测)还有自己不确定的地方进行了汇总,给人的感觉是对于这个需求它游刃有余, 一切尽在掌握;需求未说明自己决定的地方都放在最后列出以进行核对,这是比较难得的。 但是 Claude-Fable-5 的安全方面确实非常敏感,测完之后,正好我在做的 VS Code 扩展有一个大需求, 使用 AI 完成后怕遗漏会再用 AI 审查一遍,但 GPT-5.5 会经典地出现自己审查自己永远有问题的情况, 于是我想使用 Fable-5 审查一下,但是由于存在类似反代的功能,Fable-5 思考一半后直接拒绝了, 甚至我还没有要求它编写代码,而 GPT-5.5 对此是完全没有问题的。 后续我会尝试使用 Claude-Fable-5 替代 GPT-5.5 作为我的主力模型,看看它是否真的比 GPT-5.5 更好。 Claude-Opus-4.8 的速度几乎和我之前测试本地部署的模型一样了,对比 Claude-Fable-5,慢了接近 10 分钟, 需要注意的还有消耗的令牌数,Claude-Opus-4.8 消耗的令牌数是 Claude-Fable-5 的将近两倍, 一来一回 Claude-Fable-5 还真像是 Claude-Opus-5 了,消耗的令牌数低,所以实际价格差距不大。 Claude-Opus-4.8 的完成度有了明显提升,之前一直犯的系统注册和界面入口的常见问题都没有了, 它也和 Claude-Fable-5 一样在最后列出了需要确认的事项,虽然枚举值的处理是错了,但它留下了这样的内容: 皮肤类型枚举:以 skinList 表 Type 字段为准分类(1/2/3/4),未采用 skin.proto 中数值不一致的 SkinType(0/1/2/3)。 说明它知道这里需要判断如何处理,但认为采用配置表的值是合理的,而没有编写相互转换的函数。 首先这样的处理在我看来是完全不合理的,因为虽然留下了说明,但编写了错误的代码,没有对比就没有差距, 反观 Fable-5 既写了转换函数,也留下了这样的说明: 皮肤类型编号不一致:协议枚举 SkinType(0=神针 1=称号 2=头像框 3=气泡)与 skinList 表(1=神针 2=头像框 3=气泡 4=称号)顺序、偏移都不同。我已把转换收口在 SkinNetMgr.ToProtoSkinType/ToCfgSkinType,内部数据一律以配置表类型为准(按 skinId 反查表),仅 C2S_SKIN_LIST.skinType 请求参数按协议枚举发送。请与服务器确认线上实际使用哪套编号,若用表编号只需改这两个函数。 Fable-5 给到了一个完全无可挑剔的答卷。 Mimo V2.5 Pro 的速度非常慢,甚至比我之前测试本地部署的模型还慢,但是完成度相对上个版本有了明显提升, 虽然还存在那两个常见错误, Mimo V2.5 的速度比上代 V2 Pro 慢,与 Claude-Fable-5 的用时几乎一样,首先它没有犯那两个常见错误, 但是无法编译,未实现、功能错误也非常多,属于 T3 级别。 Hy3 Preview 出现编译错误,位于 T3。 Qwen3.7 系列模型与上一代的差距未拉开很大差距,位于 T2 和 T3,Qwen3.7-Plus 出现编译错误,相对上代 3.5 可能有退步。 Nex-N2-Pro 思考内容发生循环,遂中止了对话,遗憾退赛: maybe "SkinDataMgr GetSkinPreviewPath(int skinId, int type, bool worldPreview = false)". Need "SkinDataMgr GetSkinPreviewPathForType". Need "SkinDataMgr GetSkinPreviewPathForType". Need "SkinDataMgr GetSkinPreviewPathForType". Need "SkinDataMgr GetSkinPreviewPathForType". ... Nemotron 3 Ultra 发生上游错误,无法继续,遗憾退赛。 Minimax M3 下出神之一手,它应该是发现了配置枚举值与服务器枚举值不一致的问题,对此它的判断是, **一定是后端写错了!**于是它直接修改了 proto 的定义,把服务器枚举改成了一致的值! 惊为天人,史无前例,这是首次有模型直接修改了服务器协议定义的内容。 当然这完全是不符合直觉的操作,但是 Minimax M3 在最后特别说明了这一点,代表着它与 Opus 4.8 一样, 都理解了只是处理不同: > **注意事项** > - 协议中 `SkinType` 枚举值的调整属于破坏性变更,服务器需要同步更新枚举值(1/2/3/4)。 > - `C2S_SKIN_LIST.totalAttrs` 字段在协议注释中标注为"所有已拥有皮肤的属性总和",目前按各类型分别存储并在客户端聚合;如服务器已按"全部类型"聚合,可直接读取 `_totalAttrs`。 除此之外,M3 犯了未设置页签文案的低级错误,总体而言完成度与 Mimo V2.5 Pro 相当,位于 T2。 最后总结 Claude Fable 5 表现非常亮眼,我会替换 GPT-5.5 作为主力模型使用一段时间,但是需要注意该模型非常敏感。 Claude Opus 4.8 终于变得像 Opus 了,有明显提升,但是 Fable 5 的价格差不多(因为仅有一半令牌消耗量),速度还更快,效果也更好,感觉并非 Fable,而是 Opus 5,有了 Fable 5,Opus 4.8 存在的意义就不太大了。 Mimo V2.5 Pro 相对上代进步明显! Minimax M3 相对上代进步明显! 其余模型则如测了。 本次继续使用自己开发的开源 VS Code 插件 Unify Chat Provider 以实现在 Copilot 中使用以上模型。 6 个帖子 - 6 位参与者 阅读完整话题

v2ex · 2026-06-11 14:43:48+08:00 · tech

1.主要是做一些日常的简单的工作,偶尔编程或是自动化自媒体项目,不要说没有国外的模型好用,价格贵的东西肯定好用。 2.我查了一下:MiniMax-49 元/月,Kimi-49 元/月,智谱 GLM-49/月,火山方舟-40/月(不知道豆包的模型好不好用?),阿里百炼-200/月(价格太贵,平常用不了这么多,之前的 lite 也取消了),小米 MiMo-39 元/月(没用过,只知道比较便宜)。 3.各个使用过的给个建议。

v2ex · 2026-06-11 14:08:09+08:00 · tech

1.主要是做一些日常的简单的工作,偶尔编程或是自动化自媒体项目,不要说没有国外的模型好用,价格贵的东西肯定好用。 2.我查了一下:MiniMax-49 元/月,Kimi-49 元/月,智谱 GLM-49/月,火山方舟-40/月(不知道豆包的模型好不好用?),阿里百炼-200/月(价格太贵,平常用不了这么多,之前的 lite 也取消了),小米 MiMo-39 元/月(没用过,只知道比较便宜)。 3.各个使用过的给个建议。

cnBeta全文版 · 2026-06-11 14:06:20+08:00 · tech

三星即将推出的新款宽幅折叠屏手机 Galaxy Z Fold 系列机型近日现身印度标准局(BIS)认证数据库,进一步印证了其上市在即的节奏。根据此前业界普遍观点,这款新品预计将以 “Galaxy Z Fold8” 为名上市,而现有纵向比例折叠形态的续作则会被命名为 Galaxy Z Fold8 Ultra。 此次通过 BIS 认证的宽幅折叠屏机型型号为 SM-F971B,认证文件本身并未透露具体配置,但结合早前多方爆料信息,其内屏尺寸约为 7.6 英寸,采用 4:3 显示比例,定位一款主打类似平板观感的宽幅折叠终端。影像方面,设备预计将配备 5000 万像素主摄与 5000 万像素超广角摄像头,电池容量则为 4800 mAh,并支持最高 45W 有线快充。在机身重量控制上,这款折叠屏机型据称目标约为 200 克左右,相比以往同类产品更为轻量化。 与此同时,三星新一代高端智能手表 Galaxy Watch Ultra 2 也同步出现在 BIS 认证名单中,型号为 SM-L715F,显示该产品同样计划登陆印度市场。根据此前传闻,Galaxy Watch Ultra 2 预计内置 800 mAh 电池,续航表现有望进一步拉长,并将提供 5G 版本,搭载高通新一代 Snapdragon Wear Elite 可穿戴平台,以提升连接能力与整体性能表现。 业内普遍预计,Galaxy Z Fold8 宽幅折叠屏手机与 Galaxy Watch Ultra 2 将在三星下一场 Galaxy Unpacked 全球发布会上正式亮相。按照此前的时间线爆料,这场发布会有望于 7 月 22 日在伦敦举行,届时包括上述两款新品在内的多款三星移动设备或将集中登场,为下半年高端移动市场预热。 查看评论

v2ex · 2026-06-11 13:45:20+08:00 · tech

1.主要是做一些日常的简单的工作,偶尔编程或是自动化自媒体项目,不要说没有国外的模型好用,价格贵的东西肯定好用。 2.我查了一下:MiniMax-49 元/月,Kimi-49 元/月,智谱 GLM-49/月,火山方舟-40/月(不知道豆包的模型好不好用?),阿里百炼-200/月(价格太贵,平常用不了这么多,之前的 lite 也取消了),小米 MiMo-39 元/月(没用过,只知道比较便宜)。 3.各个使用过的给个建议。