又一证据表明 Gemini 烂归烂但世界知识是真的没话说是真的大力出奇迹

发布时间：2026-05-29T09:53:57+08:00 阅读：0 分类：tech

来自 lenz 的一项研究 Beyond Benchmarks: Frontier LLM Disagreement on Fact-Checks
让AI进行事实核查并判断核查结果是否正确

官方给的各种数据乱七八糟所以我用raw data整理了下人能看懂的数据
简单但易懂

数据集中包含以下模型
gpt-5.4_verdict
claude-opus-4-7_verdict
gemini-3-pro_verdict
gemini-3-retrieval_verdict
sonar-pro_verdict

包含 TRUE FALSE Mostly TRUE/FALSE 和 Misleading
统计了一下 TRUE 和 Misleading (因为误导比错误更加严重)

gpt-5.4_verdict claude-opus-4-7_verdict gemini-3-pro_verdict gemini-3-retrieval_verdict sonar-pro_verdict TRUE (越多越好) 418 375 539 520 354 Misleading (越少越好) 116 193 30 89 158

可以看到基本符合模型大小排列
其中 Gemini 3 答对 525 题左右
GPT 5.4 虽然是相近模型大小但只能答对 418 题 (不排除模型更小一些)
Claude 4.7 符合日用体验和我之前的结论属于是算力优化的小模型

但是 Gemini 和 GPT 最大的差距就是 Misleading 的数量
Gemini 3 最少仅有 30 个误导答案
而 GPT 5.4 有整整 100 多个虽然不是最多但也超出了可接受的范围

无论是模型训练问题还是纯纯堆量
Gemini 哪怕干啥都不行但他模型大世界知识还是可以的
适合作为类似需要准确答案简单问答的场景 (而且Gemini 还有数一数二的多模态表现配合世界知识这方面真的不差)

12 个帖子 - 9 位参与者

阅读完整话题

来源: LinuxDo 最新话题查看原文

延伸阅读