
放一些案例




每个都让人感叹 国模,你在哪 几乎都是满分答案
那问题在哪呢



这个问题和
先放私有bench [image] 模型的直觉还是那样,claude的代码水平还是在线的 [image] [image] [image] 但主要扣分点就是,这个模型一次必然写不好,必须返工(不过agent会自己返工也行吧) [image] 神秘typos [image] 他是知道自己写错字了的,不用报错就知道,但还是写错 还很频繁,错字大模型来了。关键你写码写错字那不就爆了 …
中4.8的问题一样 错字 吞空格导致程序报错。而且依旧是知道自己写错了,马上去改。但在实际agent中我觉得相对致命,特别是价格翻倍了,分词器也翻倍了的情况下
实际日用Agent体验就是,太安全了,什么都给你拒绝

谁不想急头白脸一晚上吃一万个赛博安全拒绝呢。
原版mythos不仅没有这么厚的安全截断,而且也根本不存在错字问题。我的倾向是,原版mythos,mythos-5/fable-5其实是对4.6/4.8的DeepThink特化训练。以超长思考和agent换取性能。事实证明做到的,但同时也把底模的问题都带过来了
唉,A出
5 个帖子 - 5 位参与者