Claude Opus 4.8测评:幽默A÷,风味4.7

Claude Opus 4.8测评:幽默A÷,风味4.7
Claude Opus 4.8测评:幽默A÷,风味4.7

先放私有bench

image
模型的直觉还是那样,claude的代码水平还是在线的
image
image
image
但主要扣分点就是,这个模型一次必然写不好,必须返工(不过agent会自己返工也行吧)
image
神秘typos
image
他是知道自己写错字了的,不用报错就知道,但还是写错
还很频繁,错字大模型来了。关键你写码写错字那不就爆了

在实际bot的agent上表现还有一点,4.8不愿意快速finish掉任务,一定会刨根问底一条路走到黑,导致了严重的token浪费,我说这是达里奥的小巧思有感觉吗。
然后说话还是4.7那股子死人味

image

已经严肃换回4.6,,,

9 个帖子 - 8 位参与者

阅读完整话题

来源: LinuxDo 最新话题查看原文