WWW.YOUINFO.SITE
标签聚合 测评

/tag/测评

v2ex · 2026-06-11 22:14:02+08:00 · tech

关于林社中转站 这是一个技术宅创立的站点 https://www.lamclod.cn https://auth.lamclod.cn 站长 QQ:2070346656 交流 Q 群:1103238053 其创建中转站的本意是为了炫技和科研学生一起聊天八卦 所以这个站点与众不同的特点: 1.整个系统架构全面融合 OIDC 身份机制,多个合作中转站身份统一验证,无需管理多站点账户。 2.借助 OIDC 密钥交换建立协同调度机制,为软件开发者提供便捷且精准的 LLMAPI 接入。 3.站长是技术宅,技术自然不在话下,平时可以聊聊天,讨论讨论技术。站长为人和善,包容大度。 4.Q 群中有不少热心网友和科研认识,值得一番认识和交流。 5.本站极其欢迎科研学生。

v2ex · 2026-06-11 22:14:02+08:00 · tech

关于林社中转站 这是一个技术宅创立的站点 https://www.lamclod.cn https://auth.lamclod.cn 站长 QQ:2070346656 交流 Q 群:1103238053 其创建中转站的本意是为了炫技和科研学生一起聊天八卦 所以这个站点与众不同的特点: 1.整个系统架构全面融合 OIDC 身份机制,多个合作中转站身份统一验证,无需管理多站点账户。 2.借助 OIDC 密钥交换建立协同调度机制,为软件开发者提供便捷且精准的 LLMAPI 接入。 3.站长是技术宅,技术自然不在话下,平时可以聊聊天,讨论讨论技术。站长为人和善,包容大度。 4.Q 群中有不少热心网友和科研认识,值得一番认识和交流。 5.本站极其欢迎科研学生。

v2ex · 2026-06-11 20:56:26+08:00 · tech

关于林社中转站 这是一个技术宅创立的站点 https://www.lamclod.cn https://auth.lamclod.cn 站长 QQ:2070346656 交流 Q 群:1103238053 其创建中转站的本意是为了炫技和科研学生一起聊天八卦 所以这个站点与众不同的特点: 1.整个系统架构全面融合 OIDC 身份机制,多个合作中转站身份统一验证,无需管理多站点账户。 2.借助 OIDC 密钥交换建立协同调度机制,为软件开发者提供便捷且精准的 LLMAPI 接入。 3.站长是技术宅,技术自然不在话下,平时可以聊聊天,讨论讨论技术。站长为人和善,包容大度。 4.Q 群中有不少热心网友和科研认识,值得一番认识和交流。 5.本站极其欢迎科研学生。

LinuxDo 最新话题 · 2026-06-10 10:45:02+08:00 · tech

提前声明,测试不一定严谨,仅供参考,图一乐测试 从 现在写英语文章最好的大模型是什么? 继续讨论: 最近导师看我的论文中文稿大概没啥问题了,就让我开始翻译成中文。但是因为自身英语水平过差,所以决定让大模型直接编辑我的letex文件包,然后翻译我的论文。用以下提示词: 翻译提示词 (点击了解更多详细信息) 参赛选手: 如题所示,我邀请了11位当前最新的大模型来翻译文献,它们分别是gpt-5.5,claude-opus-4.8( 截至发文,它已不是最新,但是最新的用不起 ),Doubao-Seed-2.0-Code,deepseek-v4-pro,deepseek-v4-flash,Gemini-3.5-flash,GLM-5.1,kimi-k2.5,mimo-v2.5pro,minimax-m3,qwen-3.7max。如果还有遗漏的最新模型,那就是没搞到好的渠道。 评分: 裁判员gpt-5.5 每个模型的翻译结果分别打分三次,求平均值 环境: coding agent用的是站内佬@Mufasa_Dot 的 snow cli ,使用了里面的ultra todo模式;只有Doubao-Seed-2.0-Code是在trea里面用的; 正如上所述,除了豆包,其余的都是直接用能保证满血的api接入的snow, 到处找满血api真的是幸苦啊,这反而是花时间最久的环节 能设置推理强度的皆设置为最高。 结果: 因为我的要求是不仅要翻译好,而且还要把latex写对写好,所以实际上任务除了翻译维度的评估之外,还需要看是否熟练掌握latex语法,让文本编译正确,所以首先给出一下我要求的维度的结果: 总分排名 排名 模型 第1次 第2次 第3次 平均分 / 92 1 deepseek-v4-pro 80 80 80 80.00 2 claude-opus4.8 79 80 79 79.33 3 mimo-v2.5pro 80 79 78 79.00 4 deepseek-v4-flash 77 79 80 78.67 5 minimax-m3 79 78 78 78.33 6 qwen-3.7-max 78 79 77 78.00 7 gpt5.5 79 77 76 77.33 8 glm-5.1 76 78 73 75.67 9 gemini-3.5flash 76 74 76 75.33 10 kimi-k2.6 77 76 71 74.67 11 doubao-2.0-code 61 71 65 65.67 各能力维度平均分 模型 平均总分 / 92 内容忠实与逻辑一致 /25 术语准确与一致 /18 英文准确与简洁 /17 学术风格与自然度 /12 时态与论文叙述 /8 LaTeX与源码一致 /12 deepseek-v4-pro 80.00 23.00 15.00 14.00 10.00 8.00 10.00 claude-opus4.8 79.33 23.00 15.00 14.00 10.00 7.67 9.67 mimo-v2.5pro 79.00 22.33 14.67 14.00 10.00 8.00 10.00 deepseek-v4-flash 78.67 23.00 15.00 14.33 10.00 7.33 9.00 minimax-m3 78.33 23.00 15.00 14.00 10.00 7.33 9.00 qwen-3.7-max 78.00 21.67 14.00 14.33 10.00 8.00 10.00 gpt5.5 77.33 21.33 15.00 14.00 10.00 7.67 9.33 glm-5.1 75.67 21.33 14.33 13.67 9.67 7.67 9.00 gemini-3.5flash 75.33 21.33 14.00 13.00 9.00 7.67 10.33 kimi-k2.6 74.67 22.33 14.00 13.00 9.00 8.00 10.00 doubao-2.0-code 65.67 16.33 14.00 12.33 8.33 7.33 7.33 多数结果其实跟大家的印象是一样的,deepseek和claude的语言能力还是相对来说很强大,但是deepseek便宜多了,翻译我这一篇论文只用了几毛钱;豆包能力这么次,不知道是因为模型本身的问题还是trea这个工具太差了。但是可能让佬友们比较意外的可能是mimo和minimax两位能在前面,还有就是部分国模还能排在gpt后面,不过5.5也确实是改了自己的说话风格,可能也不奇怪(?)。另外,除了后面几位之外,实际上前几名的分数都差不多,T1大概就是ds、claude、mimo这几位了。 当然,正如我所说,我的这个任务同时是需要latex语法编译的,所以不是纯翻译,等于是顺便测试了一点编程能力,为了直观,下面也展示了去掉了letax相关的结果 总分排名 排名 模型 第1次 第2次 第3次 平均分 / 80 排名变化 1 deepseek-v4-pro 70 70 70 70.00 — 2 claude-opus4.8 69 70 70 69.67 — 3 deepseek-v4-flash 69 69 71 69.67 ↑1 4 minimax-m3 70 69 69 69.33 ↑1 5 mimo-v2.5pro 70 69 68 69.00 ↓2 6 gpt5.5 69 68 67 68.00 ↑1 7 qwen-3.7-max 68 69 67 68.00 ↓1 8 glm-5.1 67 68 65 66.67 — 9 gemini-3.5flash 65 64 66 65.00 — 10 kimi-k2.6 67 66 61 64.67 — 11 doubao-2.0-code 56 62 57 58.33 — 各能力维度平均分 模型 平均总分 / 80 内容忠实与逻辑一致 /25 术语准确与一致 /18 英文准确与简洁 /17 学术风格与自然度 /12 时态与论文叙述 /8 deepseek-v4-pro 70.00 23.00 15.00 14.00 10.00 8.00 claude-opus4.8 69.67 23.00 15.00 14.00 10.00 7.67 deepseek-v4-flash 69.67 23.00 15.00 14.33 10.00 7.33 minimax-m3 69.33 23.00 15.00 14.00 10.00 7.33 mimo-v2.5pro 69.00 22.33 14.67 14.00 10.00 8.00 gpt5.5 68.00 21.33 15.00 14.00 10.00 7.67 qwen-3.7-max 68.00 21.67 14.00 14.33 10.00 8.00 glm-5.1 66.67 21.33 14.33 13.67 9.67 7.67 gemini-3.5flash 65.00 21.33 14.00 13.00 9.00 7.67 kimi-k2.6 64.67 22.33 14.00 13.00 9.00 8.00 doubao-2.0-code 58.33 16.33 14.00 12.33 8.33 7.33 这就是纯翻译能力了,如果latex格式可以自己调整,或者根本不需要直接latex,只看翻译水平,那就只看这个结果。 写在最后 其实kimi和minimax都出现过几次死循环,但是还是给了几次机会,对其他参赛选手来说可能有点不公平,这两个死循环的模型应该直接给零分才对,但因为测试的重点还是翻译,所以就还是希望他们给出结果来。 实际上我也知道这个测试可能让一个模型多翻译几次分别给分才算严谨,但是我已经没有这么多精力去搞了。 所以才说大家看个乐,能给到有需求的佬参考就更好了 1 个帖子 - 1 位参与者 阅读完整话题

LinuxDo 最新话题 · 2026-06-10 10:20:34+08:00 · tech

放一些案例 每个都让人感叹 国模,你在哪 几乎都是满分答案 那问题在哪呢 这个问题和 Claude Opus 4.8测评:幽默A÷,风味4.7 开发调优 先放私有bench [image] 模型的直觉还是那样,claude的代码水平还是在线的 [image] [image] [image] 但主要扣分点就是,这个模型一次必然写不好,必须返工(不过agent会自己返工也行吧) [image] 神秘typos [image] 他是知道自己写错字了的,不用报错就知道,但还是写错 还很频繁,错字大模型来了。关键你写码写错字那不就爆了 … 中4.8的问题一样 错字 吞空格导致程序报错。而且依旧是知道自己写错了,马上去改。但在实际agent中我觉得相对致命,特别是价格翻倍了,分词器也翻倍了的情况下 实际日用Agent体验就是,太安全了,什么都给你拒绝 谁不想急头白脸一晚上吃一万个赛博安全拒绝呢。 原版mythos不仅没有这么厚的安全截断,而且也根本不存在错字问题。我的倾向是,原版mythos,mythos-5/fable-5其实是对4.6/4.8的DeepThink特化训练。以超长思考和agent换取性能。事实证明做到的,但同时也把底模的问题都带过来了 唉,A出 5 个帖子 - 5 位参与者 阅读完整话题