对比一下claude mythos和gpt 5.5目前已经有的官方测试跑分对比

对比一下claude mythos和gpt 5.5目前已经有的官方测试跑分对比
对比一下claude mythos和gpt 5.5目前已经有的官方测试跑分对比

image
有差距,但是考虑到定价,感觉差距一般般
甚至Terminal-Bench 2.0 mythos被反超了

swebench,openai有说a\有作弊的嫌疑

image

3 个帖子 - 3 位参与者

阅读完整话题

来源: linux.do查看原文