【论文翻译测评】哪个大模型的中译英能力更强?我找来了11位大模型来比较,结果既意外又意内

【论文翻译测评】哪个大模型的中译英能力更强?我找来了11位大模型来比较,结果既意外又意内
【论文翻译测评】哪个大模型的中译英能力更强?我找来了11位大模型来比较,结果既意外又意内

提前声明,测试不一定严谨,仅供参考,图一乐测试


现在写英语文章最好的大模型是什么?继续讨论:

最近导师看我的论文中文稿大概没啥问题了,就让我开始翻译成中文。但是因为自身英语水平过差,所以决定让大模型直接编辑我的letex文件包,然后翻译我的论文。用以下提示词:

翻译提示词 (点击了解更多详细信息)

参赛选手:

如题所示,我邀请了11位当前最新的大模型来翻译文献,它们分别是gpt-5.5,claude-opus-4.8(截至发文,它已不是最新,但是最新的用不起),Doubao-Seed-2.0-Code,deepseek-v4-pro,deepseek-v4-flash,Gemini-3.5-flash,GLM-5.1,kimi-k2.5,mimo-v2.5pro,minimax-m3,qwen-3.7max。如果还有遗漏的最新模型,那就是没搞到好的渠道。

评分:

  • 裁判员gpt-5.5
  • 每个模型的翻译结果分别打分三次,求平均值

环境:

  • coding agent用的是站内佬@Mufasa_Dot 的snow cli,使用了里面的ultra todo模式;只有Doubao-Seed-2.0-Code是在trea里面用的;

  • 正如上所述,除了豆包,其余的都是直接用能保证满血的api接入的snow,到处找满血api真的是幸苦啊,这反而是花时间最久的环节

  • 能设置推理强度的皆设置为最高。

结果:

因为我的要求是不仅要翻译好,而且还要把latex写对写好,所以实际上任务除了翻译维度的评估之外,还需要看是否熟练掌握latex语法,让文本编译正确,所以首先给出一下我要求的维度的结果:

总分排名 排名 模型 第1次 第2次 第3次 平均分 / 92 1 deepseek-v4-pro 80 80 80 80.00 2 claude-opus4.8 79 80 79 79.33 3 mimo-v2.5pro 80 79 78 79.00 4 deepseek-v4-flash 77 79 80 78.67 5 minimax-m3 79 78 78 78.33 6 qwen-3.7-max 78 79 77 78.00 7 gpt5.5 79 77 76 77.33 8 glm-5.1 76 78 73 75.67 9 gemini-3.5flash 76 74 76 75.33 10 kimi-k2.6 77 76 71 74.67 11 doubao-2.0-code 61 71 65 65.67 各能力维度平均分 模型 平均总分 / 92 内容忠实与逻辑一致 /25 术语准确与一致 /18 英文准确与简洁 /17 学术风格与自然度 /12 时态与论文叙述 /8 LaTeX与源码一致 /12 deepseek-v4-pro 80.00 23.00 15.00 14.00 10.00 8.00 10.00 claude-opus4.8 79.33 23.00 15.00 14.00 10.00 7.67 9.67 mimo-v2.5pro 79.00 22.33 14.67 14.00 10.00 8.00 10.00 deepseek-v4-flash 78.67 23.00 15.00 14.33 10.00 7.33 9.00 minimax-m3 78.33 23.00 15.00 14.00 10.00 7.33 9.00 qwen-3.7-max 78.00 21.67 14.00 14.33 10.00 8.00 10.00 gpt5.5 77.33 21.33 15.00 14.00 10.00 7.67 9.33 glm-5.1 75.67 21.33 14.33 13.67 9.67 7.67 9.00 gemini-3.5flash 75.33 21.33 14.00 13.00 9.00 7.67 10.33 kimi-k2.6 74.67 22.33 14.00 13.00 9.00 8.00 10.00 doubao-2.0-code 65.67 16.33 14.00 12.33 8.33 7.33 7.33

能力多边形图

多数结果其实跟大家的印象是一样的,deepseek和claude的语言能力还是相对来说很强大,但是deepseek便宜多了,翻译我这一篇论文只用了几毛钱;豆包能力这么次,不知道是因为模型本身的问题还是trea这个工具太差了。但是可能让佬友们比较意外的可能是mimo和minimax两位能在前面,还有就是部分国模还能排在gpt后面,不过5.5也确实是改了自己的说话风格,可能也不奇怪(?)。另外,除了后面几位之外,实际上前几名的分数都差不多,T1大概就是ds、claude、mimo这几位了。


当然,正如我所说,我的这个任务同时是需要latex语法编译的,所以不是纯翻译,等于是顺便测试了一点编程能力,为了直观,下面也展示了去掉了letax相关的结果

总分排名 排名 模型 第1次 第2次 第3次 平均分 / 80 排名变化 1 deepseek-v4-pro 70 70 70 70.00 — 2 claude-opus4.8 69 70 70 69.67 — 3 deepseek-v4-flash 69 69 71 69.67 ↑1 4 minimax-m3 70 69 69 69.33 ↑1 5 mimo-v2.5pro 70 69 68 69.00 ↓2 6 gpt5.5 69 68 67 68.00 ↑1 7 qwen-3.7-max 68 69 67 68.00 ↓1 8 glm-5.1 67 68 65 66.67 — 9 gemini-3.5flash 65 64 66 65.00 — 10 kimi-k2.6 67 66 61 64.67 — 11 doubao-2.0-code 56 62 57 58.33各能力维度平均分 模型 平均总分 / 80 内容忠实与逻辑一致 /25 术语准确与一致 /18 英文准确与简洁 /17 学术风格与自然度 /12 时态与论文叙述 /8 deepseek-v4-pro 70.00 23.00 15.00 14.00 10.00 8.00 claude-opus4.8 69.67 23.00 15.00 14.00 10.00 7.67 deepseek-v4-flash 69.67 23.00 15.00 14.33 10.00 7.33 minimax-m3 69.33 23.00 15.00 14.00 10.00 7.33 mimo-v2.5pro 69.00 22.33 14.67 14.00 10.00 8.00 gpt5.5 68.00 21.33 15.00 14.00 10.00 7.67 qwen-3.7-max 68.00 21.67 14.00 14.33 10.00 8.00 glm-5.1 66.67 21.33 14.33 13.67 9.67 7.67 gemini-3.5flash 65.00 21.33 14.00 13.00 9.00 7.67 kimi-k2.6 64.67 22.33 14.00 13.00 9.00 8.00 doubao-2.0-code 58.33 16.33 14.00 12.33 8.33 7.33

能力多边形图

这就是纯翻译能力了,如果latex格式可以自己调整,或者根本不需要直接latex,只看翻译水平,那就只看这个结果。

写在最后

其实kimi和minimax都出现过几次死循环,但是还是给了几次机会,对其他参赛选手来说可能有点不公平,这两个死循环的模型应该直接给零分才对,但因为测试的重点还是翻译,所以就还是希望他们给出结果来。
实际上我也知道这个测试可能让一个模型多翻译几次分别给分才算严谨,但是我已经没有这么多精力去搞了。
所以才说大家看个乐,能给到有需求的佬参考就更好了

1 个帖子 - 1 位参与者

阅读完整话题

来源: LinuxDo 最新话题查看原文