在 https://livebench.ai/ 中 Fable 5 并没有相当超前 跟Opus 4.5,4.6,4.7,4.8 评分相当接近 这是为什么? 难道是因为拒绝回答? 已知Fable,Mythos 5在Graphicwalks 接近满分表现 2 个帖子 - 2 位参与者 阅读完整话题
livebench出deepseek v4 pro的评分了,现阶段开源模型第一名(第二是kimi 2.6),除了coding略差。 9 个帖子 - 8 位参与者 阅读完整话题
livebench.ai LiveBench 7 个帖子 - 5 位参与者 阅读完整话题
手机端刷到的,排版不方便截图见谅 省流:Deepseek V4 Pro 总分73.58,大致相当于GPT 5.3 Codex High,Deepseek V4 Flash 67.25分,大致相当于Claude 4.5 Sonnet Thinking livebench.ai LiveBench 8 个帖子 - 6 位参与者 阅读完整话题