M3这个Web项目的的扣分是搞笑的吗,光顾着测试集刷分把自己刷魔怔了?实际表现连GLM5都不如 项目到手就乱改一通,指令遵循和理解也是目前国模的倒数梯队,我的评价是连Mimo2.5都不如…都不用和V4 Flash比… 以为M2.1是开始,没想到是巅峰 8 个帖子 - 8 位参与者 阅读完整话题
省流版: 关于评分与实际体验 模型的扣分 不完全 体现实际编程体验,因此榜单按 实际交互体验 对模型进行分档: 档位 定义 A 几乎不犯错,仅出现微小的 UI/交互类问题 B 大概率会错,但描述错误后可在 ≤2 轮 内修复 C 大概率会错,需更多轮交互,但模型能 自主推进修复 ,无需人工辅助 D 必须由人工提供大量 log、视觉描述、协助操作等才能修复 F 知识或方法论不足,即便有人帮助也无法完成任务 同档位中,若仅少数轮次出现问题、大部分情况表现良好,升半档,以 B+ 、 C+ 表示。 通关机制 :A 评级视作该模型在对应题目上通关,新版本默认跳过已通关题目。例如 Opus 4.8 跳过了 C 和 D 题。 完整榜单: LLM Benchmark Dashboard 完整评测内容: 大语言模型-逻辑能力横评 26-05 月榜 (Opus/Qwen/Gemini) - 知乎 1 个帖子 - 1 位参与者 阅读完整话题
能在积分站检测到扣分记录,但没法领取CDK 2 个帖子 - 2 位参与者 阅读完整话题
扣分榜,扣的越少越好:“工程扣分/使用体感(A~D)” (Claude模型没开推理仅供参考) 榜单网站: LLM Benchmark Dashboard 6 个帖子 - 6 位参与者 阅读完整话题
家里的娃考试明明都会的,就是容易些错别字扣分,于是给他做了个小程序,把小学的生字都放上去,像打卡通关一样 去练字,现在每天给他 15 分钟左右手机,练得可起劲,要自己遥遥领先再排行榜。 用 codex 非常爽,把需求描述清楚,前后端一把梭了。生字是去智慧中小学截图下来,让 deepseek 提取的。 大家有兴趣的可以体验一下,有启动广告的。因为我把之前 4 千多的小程序直接换成这个了,所以开局就能开通广告。 [img] [/img]
2024 年买的车,这个月结清了所有车贷,绿本到手 没有违章,没有扣分 我觉得这挺好
2024 年买的车,这个月结清了所有车贷,绿本到手 没有违章,没有扣分 我觉得这挺好
2024 年买的车,这个月结清了所有车贷,绿本到手 没有违章,没有扣分 我觉得这挺好
啊?这是为啥呀?我啥都没干呀,怎么明天还要扣我114分 12 个帖子 - 7 位参与者 阅读完整话题
因为移动开发的工作日常检查扣分太多,被转岗为公司搭建 DIFY ,当时说的岗位职责是给运营提供 DIFY 的技术帮助,结果人家运营的 DIFY 玩的比我 6 多了。偶尔有几个同事提问,我用 Claude 根本解决不了。现在的工作还涉及制表,汇报,快把我逼疯了。Claude 并不能帮我制作在线共享表格,请问大家有什么建议吗?
因为移动开发的工作日常检查扣分太多,被转岗为公司搭建 DIFY ,当时说的岗位职责是给运营提供 DIFY 的技术帮助,结果人家运营的 DIFY 玩的比我 6 多了。偶尔有几个同事提问,我用 Claude 根本解决不了。现在的工作还涉及制表,汇报,快把我逼疯了。Claude 并不能帮我制作在线共享表格,请问大家有什么建议吗?