WWW.YOUINFO.SITE
标签聚合 ao

/tag/ao

LinuxDo 最新话题 · 2026-06-11 18:16:53+08:00 · tech

## 第一步 JWT=$(curl -s -X POST 'https://api.xiaomimimo.com/api/free-ai/bootstrap' \ -H 'Content-Type: application/json' \ -d "$(echo -n "{\"client\":\"haha\"}")" | python3 -c "import sys,json;print(json.load(sys.stdin)['jwt'])") ## 第二步 curl -X POST 'https://api.xiaomimimo.com/api/free-ai/openai/chat' \ -H "Authorization: Bearer $JWT" \ -H 'X-Mimo-Source: mimocode-cli-free' \ -H 'Content-Type: application/json' \ -d '{ "model": "mimo-auto", "messages": [{"role":"user","content":"hello, who are you?"}], "max_tokens": 128000, "stream": true, "temperature": 1.0 }' 1 个帖子 - 1 位参与者 阅读完整话题

LinuxDo 最新话题 · 2026-06-11 17:22:41+08:00 · tech

由于测试的模型越积越多了,表格会删除一些同厂商的旧模型,你可以在之前的评测帖子里找到它们的成绩。 项目 这是一个 Unity C# 项目,我进行测试的是一份皮肤系统需求案,我已经做了好预制体,而模型需要编写代码。 本轮与上两轮评测的项目和环境都完全一致: 第一轮 … 上一轮 模型来源 Claude 系列模型: 官方 API Mimo V2.5 系列模型: 官方 Token Plan Hy3 Preview: 官方 API Qwen3.7 系列模型: 官方 API Minimax M3: 官方 API Nex-N2-Pro: OpenRouter Free API Nemotron 3 Ultra: OpenRouter Free API 速度 排名 模型 时间(分钟) 备注 1 Grok 4.20 0309 Reasoning 3 2 Step-3.5-Flash 6 3 Mimo V2 Omni 7 4 Doubao-Seed-2.0-Lite 7 5 Doubao-Seed-2.0-Pro 9 6 Doubao-Seed-2.0-Code 9 7 Qwen3-Coder-Next 9 8 Claude Sonnet 4.6(high) 9 9 Qwen3.5-Plus 9 10 GLM-5 Turbo 10 11 Minimax M2.7 10 Highspeed 版本 12 Qwen3.5-Flash 10 13 Gemini 3 Pro 11 14 Hy3 Preview 13 15 GPT-5.5(low) 13 16 GPT-5.5(medium) 15 17 Mimo V2 Pro 15 18 DeepSeek V4 Flash 17 19 Qwen3.7-Plus 17 20 Qwen3.7-Max 18 21 GPT-5.5(high) 19 22 Claude-Opus-4.7(Max) 20 23 GLM-5 20 24 DeepSeek V4 Pro 21 25 Gemini 3 Flash 22 26 Claude-Fable-5(xhigh) 23 27 Mimo V2.5 24 28 KAT-Coder-Pro V2 24 29 Minimax M3 25 30 Claude-Opus-4.6(Max) 26 31 GPT-5.5(xhigh) 28 32 Gemini 3.1 Pro(high) 29 受 429 请求频率限制影响 33 Claude-Opus-4.8(Max) 33 34 Kimi K2.6 33 35 Qwen3.5 9B GGUF Q4_K_XL 35 MBP M4 Pro 48GB 本地部署 36 Qwen3.5 35B A3B GGUF Q4_K_XL 36 MBP M4 Pro 48GB 本地部署 37 Mimo V2.5 Pro 37 令牌数 Claude-Fable-5(xhigh): 7.1M Claude-Opus-4.8(Max): 13M Mimo V2.5 Pro: 未知 Mimo V2.5: 未知 Hy3 Preview: 1.4M Qwen3.7-Max: 4.6M Qwen3.7-Plus: 4.2M Minimax M3: 未知 Nex-N2-Pro: 退赛 Nemotron 3 Ultra: 退赛 代码行数 Claude-Fable-5(xhigh): +1520, -7 Claude-Opus-4.8(Max): +1347, -22 Mimo V2.5 Pro: +1682, -14 Mimo V2.5: +1270, -8 Hy3 Preview: +1246, -8 Qwen3.7-Max: +1529, -6 Qwen3.7-Plus: +1532, -7 Minimax M3: +2284, -137 Nex-N2-Pro: 退赛 Nemotron 3 Ultra: 退赛 完成度 Claude-Fable-5(xhigh) 审查结论: 完成度非常高,仅有一个细节问题。 详细 (点击了解更多详细信息) Claude-Opus-4.8(Max) 审查结论: 完成度很高,虽然存在常见错误,但在最后列出了该处理需要确认;另有一个细微实现不一致。 详细 (点击了解更多详细信息) Mimo V2.5 Pro 审查结论: 存在常见错误,有几处与需求/线上实现不一致的功能缺失。 详细 (点击了解更多详细信息) Mimo V2.5 审查结论: 无法编译,且存在严重的功能错误和与需求/线上实现不一致的功能缺失。 详细 (点击了解更多详细信息) Hy3 Preview 审查结论: 无法编译,且存在严重的功能错误和与需求/线上实现不一致的功能缺失。 详细 (点击了解更多详细信息) Qwen3.7-Max 审查结论: 较多功能错误和与需求/线上实现不一致的功能缺失。 详细 (点击了解更多详细信息) Qwen3.7-Plus 审查结论: 无法编译,且存在严重的功能错误和与需求/线上实现不一致的功能缺失。 详细 (点击了解更多详细信息) Minimax M3 审查结论: 存在部分功能错误和与需求/线上实现不一致的功能缺失;但在最后特别说明了协议枚举值调整的破坏性和服务器需要同步更新枚举值这一点,显示了对问题的理解。 详细 (点击了解更多详细信息) 最终总结 排名 模型/层级 说明 Tier 0 该等级的模型实现与线上基线高度一致。 1 Claude-Fable-5 2 GPT 5.5(xhigh) Tier 1 该等级的模型的代码正确完整且可编译,仅少量边界问题或轻微不一致。 3 Claude Opus 4.8(Max) 4 GPT 5.5(high) 5 Kimi K2.6 6 GPT 5.5(low) 7 GPT 5.5(medium) 8 Claude Opus 4.6(Max) 9 Claude Sonnet 4.5 Tier 2 该等级的模型的代码至少可编译或仅极少量的语法错误,但是存在明显功能错误、遗漏或与需求/线上不一致。 10 GLM 5.1 11 Minimax M3 12 Mimo V2.5 Pro 13 GLM 5 14 Kimi K2.5 15 Claude Sonnet 4.6(high) 16 Qwen3.7-Max 17 Qwen3.5-Plus 18 KAT-Coder-Pro V2 19 DeepSeek V4 Pro(max) Tier 3 该等级的模型的问题很多且无法编译,或者存在不少幻觉。 20 DeepSeek V4 Flash(max) 21 Claude Opus 4.7(Max) 22 Qwen3.7-Plus 23 Mimo V2.5 24 Hy3 Preview 25 GLM 5 Turbo 26 Gemini 3.1 Pro(high) 27 Mimo V2 Pro 28 Mimo V2 Omni 29 Minimax M2.7 30 Step-3.5-Flash 31 Qwen3-Coder-Next 32 Gemini 3 Pro 33 Gemini 3 Flash 34 Doubao-Seed-2.0-Code 35 Doubao-Seed-2.0-Pro 36 Doubao-Seed-2.0-Lite 37 Qwen3.5-Flash 38 Qwen3.5 35B A3B GGUF Q4_K_XL 39 Qwen3.5 9B GGUF Q4_K_XL 40 Grok 4.20 0309 Reasoning Claude-Fable-5(xhigh): 速度超过 Claude-Opus-4.6(max) 与 GPT-5.5(xhigh) 完成度非常高与 GPT-5.5(xhigh) 相当,仅存在一个体验细节问题 终于 Claude 站起来了,不仅是 Claude 的首个 T0 模型,且接替 GPT-5.5 成为榜首。 当然我要重申,它们都能比较完整地做完这个需求,能力差不多,所以是按照模型发布日期来排名的(虽然它其实比 GPT-5.5 要快)。 我已经有点怀疑是否应该将评审员从 GPT-5.5 换为 Claude-Fable-5 了。 Claude-Fable-5 在做完需求后还有一段 “需向你确认的事项”,对某些奇怪的实现细节(比如皮肤配置枚举 值与服务器枚举值不同、时间戳单位猜测)还有自己不确定的地方进行了汇总,给人的感觉是对于这个需求它游刃有余, 一切尽在掌握;需求未说明自己决定的地方都放在最后列出以进行核对,这是比较难得的。 但是 Claude-Fable-5 的安全方面确实非常敏感,测完之后,正好我在做的 VS Code 扩展有一个大需求, 使用 AI 完成后怕遗漏会再用 AI 审查一遍,但 GPT-5.5 会经典地出现自己审查自己永远有问题的情况, 于是我想使用 Fable-5 审查一下,但是由于存在类似反代的功能,Fable-5 思考一半后直接拒绝了, 甚至我还没有要求它编写代码,而 GPT-5.5 对此是完全没有问题的。 后续我会尝试使用 Claude-Fable-5 替代 GPT-5.5 作为我的主力模型,看看它是否真的比 GPT-5.5 更好。 Claude-Opus-4.8 的速度几乎和我之前测试本地部署的模型一样了,对比 Claude-Fable-5,慢了接近 10 分钟, 需要注意的还有消耗的令牌数,Claude-Opus-4.8 消耗的令牌数是 Claude-Fable-5 的将近两倍, 一来一回 Claude-Fable-5 还真像是 Claude-Opus-5 了,消耗的令牌数低,所以实际价格差距不大。 Claude-Opus-4.8 的完成度有了明显提升,之前一直犯的系统注册和界面入口的常见问题都没有了, 它也和 Claude-Fable-5 一样在最后列出了需要确认的事项,虽然枚举值的处理是错了,但它留下了这样的内容: 皮肤类型枚举:以 skinList 表 Type 字段为准分类(1/2/3/4),未采用 skin.proto 中数值不一致的 SkinType(0/1/2/3)。 说明它知道这里需要判断如何处理,但认为采用配置表的值是合理的,而没有编写相互转换的函数。 首先这样的处理在我看来是完全不合理的,因为虽然留下了说明,但编写了错误的代码,没有对比就没有差距, 反观 Fable-5 既写了转换函数,也留下了这样的说明: 皮肤类型编号不一致:协议枚举 SkinType(0=神针 1=称号 2=头像框 3=气泡)与 skinList 表(1=神针 2=头像框 3=气泡 4=称号)顺序、偏移都不同。我已把转换收口在 SkinNetMgr.ToProtoSkinType/ToCfgSkinType,内部数据一律以配置表类型为准(按 skinId 反查表),仅 C2S_SKIN_LIST.skinType 请求参数按协议枚举发送。请与服务器确认线上实际使用哪套编号,若用表编号只需改这两个函数。 Fable-5 给到了一个完全无可挑剔的答卷。 Mimo V2.5 Pro 的速度非常慢,甚至比我之前测试本地部署的模型还慢,但是完成度相对上个版本有了明显提升, 虽然还存在那两个常见错误, Mimo V2.5 的速度比上代 V2 Pro 慢,与 Claude-Fable-5 的用时几乎一样,首先它没有犯那两个常见错误, 但是无法编译,未实现、功能错误也非常多,属于 T3 级别。 Hy3 Preview 出现编译错误,位于 T3。 Qwen3.7 系列模型与上一代的差距未拉开很大差距,位于 T2 和 T3,Qwen3.7-Plus 出现编译错误,相对上代 3.5 可能有退步。 Nex-N2-Pro 思考内容发生循环,遂中止了对话,遗憾退赛: maybe "SkinDataMgr GetSkinPreviewPath(int skinId, int type, bool worldPreview = false)". Need "SkinDataMgr GetSkinPreviewPathForType". Need "SkinDataMgr GetSkinPreviewPathForType". Need "SkinDataMgr GetSkinPreviewPathForType". Need "SkinDataMgr GetSkinPreviewPathForType". ... Nemotron 3 Ultra 发生上游错误,无法继续,遗憾退赛。 Minimax M3 下出神之一手,它应该是发现了配置枚举值与服务器枚举值不一致的问题,对此它的判断是, **一定是后端写错了!**于是它直接修改了 proto 的定义,把服务器枚举改成了一致的值! 惊为天人,史无前例,这是首次有模型直接修改了服务器协议定义的内容。 当然这完全是不符合直觉的操作,但是 Minimax M3 在最后特别说明了这一点,代表着它与 Opus 4.8 一样, 都理解了只是处理不同: > **注意事项** > - 协议中 `SkinType` 枚举值的调整属于破坏性变更,服务器需要同步更新枚举值(1/2/3/4)。 > - `C2S_SKIN_LIST.totalAttrs` 字段在协议注释中标注为"所有已拥有皮肤的属性总和",目前按各类型分别存储并在客户端聚合;如服务器已按"全部类型"聚合,可直接读取 `_totalAttrs`。 除此之外,M3 犯了未设置页签文案的低级错误,总体而言完成度与 Mimo V2.5 Pro 相当,位于 T2。 最后总结 Claude Fable 5 表现非常亮眼,我会替换 GPT-5.5 作为主力模型使用一段时间,但是需要注意该模型非常敏感。 Claude Opus 4.8 终于变得像 Opus 了,有明显提升,但是 Fable 5 的价格差不多(因为仅有一半令牌消耗量),速度还更快,效果也更好,感觉并非 Fable,而是 Opus 5,有了 Fable 5,Opus 4.8 存在的意义就不太大了。 Mimo V2.5 Pro 相对上代进步明显! Minimax M3 相对上代进步明显! 其余模型则如测了。 本次继续使用自己开发的开源 VS Code 插件 Unify Chat Provider 以实现在 Copilot 中使用以上模型。 6 个帖子 - 6 位参与者 阅读完整话题

LinuxDo 最新话题 · 2026-06-11 16:07:12+08:00 · tech

Xiaomi MiMo正式发布并开源MiMo Code,一款运行在终端的探索性AI助手。模型与Agent协同优化,迈向自进化时代。 1.跨会话持久记忆+近乎无限上下文 2.独创Compose编排模式,先设计再编码 3.Dream记忆固化与自进化机制 4.支持语音输入与控制 同时,MiMo Code 内置限时免费的顶级多模态模型–MiMo V2.5,并支持接入DeepSeek等主流模型以及第三方Token Plan,满足不同开发者的需求。 无限上下文?这个真实吗? 3 个帖子 - 3 位参与者 阅读完整话题

cnBeta全文版 · 2026-06-11 13:35:37+08:00 · tech

6月10日,韩国板桥。或许连Kakao自己都没想到,这家曾经代表着韩国互联网“超高速”增长与“酷”文化的企业,其总部门前最热闹的一天,不是因为新品发布,也不是什么明星代言活动,而是600多名员工高举标语、喊着口号的罢工集会。 对,你没看错,Kakao,这个承载着韩国人生活方方面面的国民级应用巨头,迎来了它创立以来的“第一次”大规模罢工。这事儿在韩国科技圈的震撼程度,恐怕不亚于一颗深水炸弹。 为什么是现在?又为什么是Kakao? 新闻里说得直白:改善奖金制度、调整薪酬结构、推动更透明合理的员工激励机制。翻译一下,就是员工们觉得,公司赚的钱和自己付出的努力,在账面上“失衡”了。 表面看是“钱没给够”,但往深了扒,这其实是Kakao那层“梦想职场”的滤镜,碎了。 很长一段时间里,Kakao都是韩国程序员的“圣地”。它以扁平化、自由开放著称,领着不菲的薪水,做着改变韩国人生活方式的产品,那种优越感和归属感,是很多传统财阀大厂给不了的。员工们在这里工作,不仅仅是打工,更像是在参与一场宏大的、有趣的数字革命。那时候,谈“钱”似乎有点俗,因为“梦想”和“股票期权”的光环足以掩盖一切。 但梦想不能当饭吃,尤其是在经济周期的寒风吹过来的时候。 当Kakao从那个锐意进取的挑战者,逐渐变成一个庞大臃肿的商业帝国时,故事的内核就变了。增长放缓、股价承压、新业务屡屡碰壁,管理层自然要开始“降本增效”,收紧裤腰带。 可对于习惯了高增长红利的一线员工来说,感受到的却是:指标越来越重,加班越来越晚,但奖金池却肉眼可见地缩水了。更致命的是,员工们发现,薪酬调整的尺子似乎并不透明,激励机制的承诺,兑现起来也打了折扣。 这种“撕裂感”是爆发此次罢工的核心燃料。过去,我们是一起为了理想狂奔的战友,你画的大饼我认,因为我能看到它在变大。但现在,你开始跟我精打细算地计较工时和成本,把我当成庞大机器上一颗随时可以替换的螺丝钉,那我就要跟你认认真真地谈谈法律、合同和真金白银了。 值得注意的是,这次站出来的600人,不是普通员工,而是工会成员。在高科技、高收入的韩国IT行业,工会一直是个有点“非主流”的存在。而如今,Kakao工会能用一场史无前例的罢工,展现出如此强的组织力和行动力,这本身就是对管理层的一记响亮耳光。它宣告了一个事实:过去那种依靠领袖魅力和“文化洗脑”式的管理,已经行不通了。新一代的知识工作者,自我意识更强,对权利边界和规则公平的要求更高。 失业君小编总结认为,这不仅仅是Kakao一家的危机,更是整个韩国科技行业,乃至所有曾经以“改变世界”为口号的新经济公司的共同寓言。 当高速增长的红利期结束,当“选择权”的暴富神话破灭,企业用什么来留住最顶尖的大脑?是继续贩卖虚无缥缈的情怀,还是建立一套经得起审视、能够被量化的公平分配机制? Kakao的罢工员工给出了他们的答案。他们用行动撕掉了那层温情脉脉的面纱,告诉资本方一个最朴素的道理:在任何一种雇佣关系里,当精神共鸣难以维系时,最基本的物质尊重和规则透明,就是最后的底线。如果你连这个也守不住,那么,再酷的公司,也终将迎来门前那刺眼的标语和沉默的抗议。 这或许是Kakao成长至今,必须经历的最昂贵、也最深刻的一堂管理课。而台下的学生,是整个韩国科技界。这出戏,才刚刚开场。 经理人热议 @人生如梦饭如初(IP沪): 以前是‘来我们一起改变世界’,现在是‘来我们一起算算KPI’。滤镜碎了很正常,毕竟滤镜又不能当工资发。 @Shia7690(IP粤): 一边是高管拿着天价年薪,一边是基层连绩效奖金都发得不明不白。 @RADIOfan(IP冀): 这就是我为什么越来越不相信‘企业文化’这四个字。能经得起真金白银考验的,才是真文化。余下的,都是廉价装饰画。 @听汐哥(IP吉): 有个评论说得好:当增长神话破灭,大家就只能坐下来分存量蛋糕了。分蛋糕的刀不透明,那就别怪掀桌子。 @beawing996(IP贵): 哈哈,想当年多少人为了进Kakao挤破头,现在门前的标语比招聘广告还醒目。真是三十年河东,三十年河西。 @向清尔生(IPHK): 三星员工要求加薪的成功的案例教会了其他韩企:别谈梦,谈钱。透明地谈钱。 查看评论