WWW.YOUINFO.SITE
标签聚合 mimov2.5

/tag/mimov2.5

V2EX - 技术 · 2026-05-28 13:42:15+08:00 · tech

Model 每 5 小时请求数 每周请求数 每月请求数 GLM-5.1 880 2,150 4,300 GLM-5 1,150 2,880 5,750 Kimi K2.6 1,150 2,880 5,750 Kimi K2.5 1,850 4,630 9,250 MiMo-V2.5 30,100 75,200 150,400 MiMo-V2.5-Pro 3,250 8,150 16,300 MiniMax M2.7 3,400 8,500 17,000 MiniMax M2.5 6,300 15,900 31,800 Qwen3.7 Max 950 2,390 4,770 Qwen3.6 Plus 3,300 8,200 16,300 Qwen3.5 Plus 10,200 25,200 50,500 DeepSeek V4 Pro 3,450 8,550 17,150 DeepSeek V4 Flash 31,650 79,050 158,150

V2EX - 技术 · 2026-05-28 13:18:50+08:00 · tech

Model 每 5 小时请求数 每周请求数 每月请求数 GLM-5.1 880 2,150 4,300 GLM-5 1,150 2,880 5,750 Kimi K2.6 1,150 2,880 5,750 Kimi K2.5 1,850 4,630 9,250 MiMo-V2.5 30,100 75,200 150,400 MiMo-V2.5-Pro 3,250 8,150 16,300 MiniMax M2.7 3,400 8,500 17,000 MiniMax M2.5 6,300 15,900 31,800 Qwen3.7 Max 950 2,390 4,770 Qwen3.6 Plus 3,300 8,200 16,300 Qwen3.5 Plus 10,200 25,200 50,500 DeepSeek V4 Pro 3,450 8,550 17,150 DeepSeek V4 Flash 31,650 79,050 158,150

V2EX - 技术 · 2026-05-28 12:32:11+08:00 · tech

Model 每 5 小时请求数 每周请求数 每月请求数 GLM-5.1 880 2,150 4,300 GLM-5 1,150 2,880 5,750 Kimi K2.6 1,150 2,880 5,750 Kimi K2.5 1,850 4,630 9,250 MiMo-V2.5 30,100 75,200 150,400 MiMo-V2.5-Pro 3,250 8,150 16,300 MiniMax M2.7 3,400 8,500 17,000 MiniMax M2.5 6,300 15,900 31,800 Qwen3.7 Max 950 2,390 4,770 Qwen3.6 Plus 3,300 8,200 16,300 Qwen3.5 Plus 10,200 25,200 50,500 DeepSeek V4 Pro 3,450 8,550 17,150 DeepSeek V4 Flash 31,650 79,050 158,150

V2EX - 技术 · 2026-05-28 09:50:40+08:00 · tech

Model 每 5 小时请求数 每周请求数 每月请求数 GLM-5.1 880 2,150 4,300 GLM-5 1,150 2,880 5,750 Kimi K2.6 1,150 2,880 5,750 Kimi K2.5 1,850 4,630 9,250 MiMo-V2.5 30,100 75,200 150,400 MiMo-V2.5-Pro 3,250 8,150 16,300 MiniMax M2.7 3,400 8,500 17,000 MiniMax M2.5 6,300 15,900 31,800 Qwen3.7 Max 950 2,390 4,770 Qwen3.6 Plus 3,300 8,200 16,300 Qwen3.5 Plus 10,200 25,200 50,500 DeepSeek V4 Pro 3,450 8,550 17,150 DeepSeek V4 Flash 31,650 79,050 158,150

V2EX - 技术 · 2026-05-28 09:50:40+08:00 · tech

Model 每 5 小时请求数 每周请求数 每月请求数 GLM-5.1 880 2,150 4,300 GLM-5 1,150 2,880 5,750 Kimi K2.6 1,150 2,880 5,750 Kimi K2.5 1,850 4,630 9,250 MiMo-V2.5 30,100 75,200 150,400 MiMo-V2.5-Pro 3,250 8,150 16,300 MiniMax M2.7 3,400 8,500 17,000 MiniMax M2.5 6,300 15,900 31,800 Qwen3.7 Max 950 2,390 4,770 Qwen3.6 Plus 3,300 8,200 16,300 Qwen3.5 Plus 10,200 25,200 50,500 DeepSeek V4 Pro 3,450 8,550 17,150 DeepSeek V4 Flash 31,650 79,050 158,150

V2EX - 技术 · 2026-05-28 09:44:49+08:00 · tech

Model 每 5 小时请求数 每周请求数 每月请求数 GLM-5.1 880 2,150 4,300 GLM-5 1,150 2,880 5,750 Kimi K2.6 1,150 2,880 5,750 Kimi K2.5 1,850 4,630 9,250 MiMo-V2.5 30,100 75,200 150,400 MiMo-V2.5-Pro 3,250 8,150 16,300 MiniMax M2.7 3,400 8,500 17,000 MiniMax M2.5 6,300 15,900 31,800 Qwen3.7 Max 950 2,390 4,770 Qwen3.6 Plus 3,300 8,200 16,300 Qwen3.5 Plus 10,200 25,200 50,500 DeepSeek V4 Pro 3,450 8,550 17,150 DeepSeek V4 Flash 31,650 79,050 158,150

LinuxDo 最新话题 · 2026-05-24 01:48:28+08:00 · tech

看到过太多人把这个榜单奉为圭臬,说下我的看法,理性交流。 1. 只有60道题目的逻辑测试 相比较humanity’s last exam(HLE)等前沿benchmark,差距巨大。 2. 极度反常的think参数差异 同样的grok4.20,开启think前后是8.94 vs 63.98,一个说胡话的倒数第一模型,开启think模式后立刻暴涨, gemini3-flash 前后是32 vs 68。 3. 测能力变成了“掷硬币”——离谱的得分方差 总共就 60 道题的盘子,模型答题居然能出现 30% 到 40% 的巨大震荡!这说明模型做这套题的表现, 等同于抛硬币闭眼瞎蒙 。稍微运气好蒙对几题,或者运气差错几题,分数就会产生剧烈跳水。 4. 有两个mimo-v2.5 可能是没有正确标注 think模式,mimo默认开启thinking参数 5. 极度反常的mimo得分 真的稍微用过mimov2.5pro和qwen3.6-27B本地版的,都不会觉得这俩模型是一个逻辑水平。在humanity’s last exam(HLE)榜单上,gemma4-31B 和qwen3.6-27B的得分如下 6. 前排模型没有拉开差距 在复杂的数学逻辑题目上,gemini,gpt,claude相对于国产模型都有巨大优势,但是主打 逻辑 的榜单看不出这种差距。 7.思考时间和输出token长度 排名靠后的模型普遍输出token少,思考时间短,对于逻辑题目来说,目前的大模型会普遍产生很长的思维链,这个榜单的数据非常异常。这里给一个例子各位参考下 在离营地100公里的沙漠中有一个宝贝,中间无人烟,开汽车去取。汽车每公里要消耗1升的油,汽车最多可以装100升的油。怎样才能把宝贝取回来? 如何数学建模找到最优解 其他的小问题还有,gemma4 31b的速度非常慢,很奇怪。 总结 虽然主流benchmark会被llm过拟合刷分,但是参考性还是比这种图一乐的榜单强。 3 个帖子 - 2 位参与者 阅读完整话题