又一证据表明 Gemini 烂归烂 但世界知识是真的没话说 是真的大力出奇迹

又一证据表明 Gemini 烂归烂 但世界知识是真的没话说 是真的大力出奇迹
又一证据表明 Gemini 烂归烂 但世界知识是真的没话说 是真的大力出奇迹

来自 lenz 的一项研究 Beyond Benchmarks: Frontier LLM Disagreement on Fact-Checks
让AI进行事实核查 并判断核查结果是否正确

官方给的各种数据乱七八糟 所以我用raw data整理了下人能看懂的数据
简单 但易懂

数据集中包含以下模型
gpt-5.4_verdict
claude-opus-4-7_verdict
gemini-3-pro_verdict
gemini-3-retrieval_verdict
sonar-pro_verdict

包含 TRUE FALSE Mostly TRUE/FALSE 和 Misleading
统计了一下 TRUE 和 Misleading (因为误导比错误更加严重)

gpt-5.4_verdict claude-opus-4-7_verdict gemini-3-pro_verdict gemini-3-retrieval_verdict sonar-pro_verdict TRUE (越多越好) 418 375 539 520 354 Misleading (越少越好) 116 193 30 89 158

可以看到 基本符合模型大小排列
其中 Gemini 3 答对 525 题左右
GPT 5.4 虽然是相近模型大小 但只能答对 418 题 (不排除模型更小一些)
Claude 4.7 符合日用体验和我之前的结论 属于是算力优化的小模型

但是 Gemini 和 GPT 最大的差距就是 Misleading 的数量
Gemini 3 最少仅有 30 个误导答案
而 GPT 5.4 有整整 100 多个 虽然不是最多 但也超出了可接受的范围

无论是模型训练问题 还是纯纯堆量
Gemini 哪怕干啥都不行 但他模型大 世界知识还是可以的
适合作为类似需要准确答案 简单问答的场景 (而且Gemini 还有数一数二的多模态表现 配合世界知识 这方面真的不差)

12 个帖子 - 9 位参与者

阅读完整话题

来源: LinuxDo 最新话题查看原文