在 https://livebench.ai/ 中 Fable 5 并没有相当超前 跟Opus 4.5,4.6,4.7,4.8 评分相当接近 这是为什么? 难道是因为拒绝回答? 已知Fable,Mythos 5在Graphicwalks 接近满分表现 2 个帖子 - 2 位参与者 阅读完整话题
我在推特上看到这个帖子,感觉有点道理,AI 可以看到全部的代码,理解上下文
我在推特上看到这个帖子,感觉有点道理,AI 可以看到全部的代码,理解上下文
我在推特上看到这个帖子,感觉有点道理,AI 可以看到全部的代码,理解上下文
我在推特上看到这个帖子,感觉有点道理,AI 可以看到全部的代码,理解上下文
我在推特上看到这个帖子,感觉有点道理,AI 可以看到全部的代码,理解上下文
我在推特上看到这个帖子,感觉有点道理,AI 可以看到全部的代码,理解上下文
我在推特上看到这个帖子,感觉有点道理,AI 可以看到全部的代码,理解上下文
我在推特上看到这个帖子,感觉有点道理,AI 可以看到全部的代码,理解上下文
我在推特上看到这个帖子,感觉有点道理,AI 可以看到全部的代码,理解上下文
我在推特上看到这个帖子,感觉有点道理,AI 可以看到全部的代码,理解上下文
我在推特上看到这个帖子,感觉有点道理,AI 可以看到全部的代码,理解上下文
我在推特上看到这个帖子,感觉有点道理,AI 可以看到全部的代码,理解上下文
我在推特上看到这个帖子,感觉有点道理,AI 可以看到全部的代码,理解上下文
我在推特上看到这个帖子,感觉有点道理,AI 可以看到全部的代码,理解上下文
我在推特上看到这个帖子,感觉有点道理,AI 可以看到全部的代码,理解上下文
livebench出deepseek v4 pro的评分了,现阶段开源模型第一名(第二是kimi 2.6),除了coding略差。 9 个帖子 - 8 位参与者 阅读完整话题
是的没错,公司不想掏钱,还想用ai提升效率,于是某些人不停的来偷窥我们的免费方案 1 个帖子 - 1 位参与者 阅读完整话题
livebench.ai LiveBench 7 个帖子 - 5 位参与者 阅读完整话题
手机端刷到的,排版不方便截图见谅 省流:Deepseek V4 Pro 总分73.58,大致相当于GPT 5.3 Codex High,Deepseek V4 Flash 67.25分,大致相当于Claude 4.5 Sonnet Thinking livebench.ai LiveBench 8 个帖子 - 6 位参与者 阅读完整话题