最近站上比较火的一家,每天签到52美元,很慷慨, 但是用里面Claude4.8输出的内容很多emoji,明显不是Claude模型的风格 整理了代码修改建议,让另外的Claude做了下review。被批得一无是处,掺水有点严重啊 ------------ 强调下,对提供公益站的各位佬都是钦佩和感谢的。非常理解大佬做公益站的不容易。 只是如果模型不对版,标注出来就行,就像DeepSeek、GLM,哪怕mimo的公益站也会有人用,要不然等着用里面的Claude大力出奇迹呢,结果拉出来一坨。。 32 个帖子 - 30 位参与者 阅读完整话题
14 个帖子 - 8 位参与者 阅读完整话题
有大佬测试过模型能力对比吗?claude4.8有哪些能力提升,我目前感觉出来的是他会拆分多个然后最后合并处理减少出现问题的概率,有大佬在项目中实测的提升吗? 3 个帖子 - 3 位参与者 阅读完整话题
看图能大概看到长任务的表现 包括 后续写文档 - claude 的文档问题更多 / 更晚收敛。 收敛轮(round-2)gpt 的文档一审即净;不收敛的 3 处全在 claude 文档(沙箱"仲裁"没改、双层状态没贴全、N8 入参缺字段),而且这 3 处里 2 处是 claude 自评说"已闭"、gpt 才抓出来的——说明 claude 的自评可靠性偏低 机械修订没绞干净。 gpt 更严谨:它的可追溯审计是带 file:line 的全矩阵(16 条),自己的文档改一轮就干净。 但 claude 有个真强项:那三条孤儿需求(gpt 矩阵标"已覆盖"、其实没人做)是 claude 抓出来的——它对"功能有没有落地"更敏感。 最大的量,还是我的顺序锅(影响两份文档),不该全算到他们头上。 一句话:claude 文档残留多 + 自评偏松,gpt 更稳更准;但根因第一位是我把"锁契约"放在了"写文档"后面。 3 个帖子 - 3 位参与者 阅读完整话题
开始的时候时英文,我叫它用中文,结果它全程飙日语 3 个帖子 - 3 位参与者 阅读完整话题
今天在群里吵得不可开交 很多人质疑是拿了中转站的数据测的 我看很多人也都发了视频 但是评论区也有很多人都在质疑视频造假 或者买到了掺水的中转站 有没有大佬石锤一下! 以及以后应该如何分辨是否是正版4.8opus 6 个帖子 - 6 位参与者 阅读完整话题
跑了一下感觉跟gpt差不多了,这还怎么玩啊 4 个帖子 - 4 位参与者 阅读完整话题
1 个帖子 - 1 位参与者 阅读完整话题
“我们发现,三家 AI 实验室——DeepSeek、Moonshot 和 MiniMax——开展了大规模工业化行动,非法提取 Claude 的能力,以提升他们自身的模型。这些实验室通过约 24,000 个欺诈账户,与 Claude 进行了超过 1,600 万次交互,违反了我们的服务条款和区域访问限制。 这些实验室使用了一种名为“蒸馏”(distillation)的技术,即通过在更强大模型的输出结果上进行训练,来提升一个能力较弱的模型。蒸馏是一种广泛应用且合法的训练方法。例如,前沿 AI 实验室通常会对自家的模型进行蒸馏,以为客户打造更小型、成本更低的版本。但蒸馏也可能被用于非法目的:竞争对手可以借此在远低于独立研发所需时间和成本的情况下,从其他实验室获取强大的能力。” ————转发自 Anthropic 5 个帖子 - 5 位参与者 阅读完整话题
网上消息,Claude4.8和ChatGPT5.6都来了 1 个帖子 - 1 位参与者 阅读完整话题