来自 lenz 的一项研究 Beyond Benchmarks: Frontier LLM Disagreement on Fact-Checks
让AI进行事实核查 并判断核查结果是否正确
官方给的各种数据乱七八糟 所以我用raw data整理了下人能看懂的数据
简单 但易懂
数据集中包含以下模型
gpt-5.4_verdict
claude-opus-4-7_verdict
gemini-3-pro_verdict
gemini-3-retrieval_verdict
sonar-pro_verdict
包含 TRUE FALSE Mostly TRUE/FALSE 和 Misleading
统计了一下 TRUE 和 Misleading (因为误导比错误更加严重)
可以看到 基本符合模型大小排列
其中 Gemini 3 答对 525 题左右
GPT 5.4 虽然是相近模型大小 但只能答对 418 题 (不排除模型更小一些)
Claude 4.7 符合日用体验和我之前的结论 属于是算力优化的小模型
但是 Gemini 和 GPT 最大的差距就是 Misleading 的数量
Gemini 3 最少仅有 30 个误导答案
而 GPT 5.4 有整整 100 多个 虽然不是最多 但也超出了可接受的范围
无论是模型训练问题 还是纯纯堆量
Gemini 哪怕干啥都不行 但他模型大 世界知识还是可以的
适合作为类似需要准确答案 简单问答的场景 (而且Gemini 还有数一数二的多模态表现 配合世界知识 这方面真的不差)
12 个帖子 - 9 位参与者