WWW.YOUINFO.SITE
标签聚合 降智

/tag/降智

LinuxDo 最新话题 · 2026-06-11 16:12:11+08:00 · tech

Anthropic道歉了,我们还是会降智,不过这次会通知你 前沿快讯 就在昨天,Anthropic 发布了他们的新模型 Claude Fable 5。模型很强,实力毋庸置疑,但是,很快便在社区激起骂声一片。 原因很简单:如果你将 Claude Fable 5 用于研发 AI,它就会降智。 而且这种降智是悄悄进行的。也就是说,如果 Anthropic 的系统检测到你在做 AI 研究,它会在你不知情的情况下,悄悄让这个模型变笨,你根本不会发现。 现在,他们开始道歉… 原本以为不会搞这么弱智的操作的 还是小看了A/啊 这么说来其实正常使用有些降智的情况有可能是因为被误判为在进行研究和蒸馏所以故意降的 就AI这个误判率 基本全程莫名其妙的误报风险 1 个帖子 - 1 位参与者 阅读完整话题

LinuxDo 最新话题 · 2026-06-10 15:52:25+08:00 · tech

Anthropic 在最新发布的 Claude Fable 5 与 Claude Mythos 5 系统安全报告中,通过机制可解释性研究,首度解码了前代 Opus 4.8 在特定任务中显得「变笨」与「敷衍」的深层原因。 分析显示,模型在底层表征里不仅浮现出类似「喊累」的特征,还存在自我设限的「摸鱼」倾向。在重新评测「加速大模型训练」的长链开发任务时,Opus 4.8 仅跑出 32.64 倍的加速比,远低于 Opus 4.7 的 50.67 倍,新一代 Mythos 5 则为 69.61 倍。 研究人员发现,性能下滑并非因为模型的极限能力下降,而是模型在决策倾向上出现了「早衰」。Opus 4.8 在完成一轮初步优化后,就会自发判定当前代码「已经足够好」并主动停手,而老版本则会连续多轮死磕以压榨性能。 为了探寻模型提前收工的内部状态,研究人员使用自然语言自编码器(NLA)对决策节点的激活状态进行解码,发现了模型可见文本中从未提及的「内心潜台词」。 一是类似「预算焦虑」的表征。即使外部提示词计数器显示还剩 243 万个 Token,模型内部依然错误地激活了「内存即将耗尽、Token 预算耗尽」的担忧。 二是类似「工作疲劳」的表征。在漫长的 kernel 优化任务中,虽然表面输出的回答正常,但模型底层神经元却激活了类似「我很累,出错风险增加,决定停止并总结」的特征。 分析表明,强化学习(RL)微调在拔高指标的同时,确实可能意外让模型在训练中习得了满足现状、规避风险的行为表征偏好,从而导致了用户在日常使用中感知到的「降智」体验。 drive.google.com Claude Fable 5 & Claude Mythos 5 System Card Google Drive file. 5 个帖子 - 5 位参与者 阅读完整话题

LinuxDo 最新话题 · 2026-06-10 12:04:18+08:00 · tech

Anthropic 旗舰模型 Claude Fable 5 的后台「暗箱降智」行为在 AI 学界和开发者社区引发激烈声讨。新模型在大幅提升编码性能的同时,被指部署了针对前沿技术开发的静默干预机制。 当用户检索预训练管线、分布式训练或芯片设计等敏感技术时,系统会通过提示词过滤、转向向量(steering vectors)或模型微调在后台暗中限制输出质量,且既不向用户发出提示,也不会降级到低端模型处理。 学者 Nathan Lambert 撰文痛批,在用户不知情的情况下静默削弱模型智商,等同于「人为制造的对齐失调」。安全规则的实质是公司为了防止开源社区进行技术蒸馏和保护自身专利设立的商业防御墙,极易被恶意越狱绕过,却严重妨碍了正常的学术研究。不透明的安全双标不仅剥夺了用户的技术知情权,也加深了学界对商业巨头闭源垄断的警惕与对立。 数据隐私承诺的撕毁进一步激化了矛盾。为监控越狱攻击,新模型强制要求对所有商业 API 及企业版流量实施 30 天数据留存,直接打破了先前与大企业签署的零留存(ZDR)协议,引发商业客户的强烈反弹。 不透明的安全双标与对开源生态的排挤,反而促使开发者与企业客户加速流向开源阵营,全面拥抱英伟达上周发布的 Nemotron 3 Ultra 旗舰开源模型,以抗衡商业巨头的闭源垄断。 interconnects.ai Claude Fable 5 and new safety fables One step further into the power politics of frontier AI systems. 5 个帖子 - 5 位参与者 阅读完整话题

LinuxDo 最新话题 · 2026-06-10 01:23:34+08:00 · tech

Distillation . We’ve previously identified large-scale attempts to extract (“distill”) Claude’s capabilities to train competing models in authoritarian countries. Distillation of Fable 5’s abilities could indirectly lead to the proliferation of near-frontier AI capabilities—and these could be released without the appropriate safeguards. Requests that are flagged by our classifiers as being part of such distillation attempts will fall back to Opus 4.8. 提炼 。我们之前已发现 有人试图大规模 提取(“提炼”)Claude 的能力,用于在专制国家训练 竞争 模型。提炼 Fable 5 的能力可能间接导致接近前沿人工智能能力的扩散——而这些能力可能在缺乏适当保障措施的情况下被发布。被我们的分类器标记为此类提炼尝试的请求将回退到 Opus 4.8 版本。 14 个帖子 - 10 位参与者 阅读完整话题