Claude Fable 5测评:超级安全的错字大模型

Claude Fable 5测评:超级安全的错字大模型
Claude Fable 5测评:超级安全的错字大模型

image
放一些案例
image
image
image
image
每个都让人感叹 国模,你在哪 几乎都是满分答案
那问题在哪呢
image
image
image
这个问题和

Claude Opus 4.8测评:幽默A÷,风味4.7 开发调优
先放私有bench [image] 模型的直觉还是那样,claude的代码水平还是在线的 [image] [image] [image] 但主要扣分点就是,这个模型一次必然写不好,必须返工(不过agent会自己返工也行吧) [image] 神秘typos [image] 他是知道自己写错字了的,不用报错就知道,但还是写错 还很频繁,错字大模型来了。关键你写码写错字那不就爆了 …

中4.8的问题一样 错字 吞空格导致程序报错。而且依旧是知道自己写错了,马上去改。但在实际agent中我觉得相对致命,特别是价格翻倍了,分词器也翻倍了的情况下

实际日用Agent体验就是,太安全了,什么都给你拒绝

image
谁不想急头白脸一晚上吃一万个赛博安全拒绝呢。

原版mythos不仅没有这么厚的安全截断,而且也根本不存在错字问题。我的倾向是,原版mythos,mythos-5/fable-5其实是对4.6/4.8的DeepThink特化训练。以超长思考和agent换取性能。事实证明做到的,但同时也把底模的问题都带过来了

唉,A出

5 个帖子 - 5 位参与者

阅读完整话题

来源: LinuxDo 最新话题查看原文