WWW.YOUINFO.SITE
标签聚合 最强

/tag/最强

cnBeta全文版 · 2026-06-10 13:36:21+08:00 · tech

望眼欲穿近两个月、在社交媒体上占尽风头的 Anthropic Mythos 模型,今天终于正式发布了。两个月前,Anthropic 说自己最强的那一类模型太危险、不能公开,只把它发给了一百多家机构。今天,这类能力对所有人开放了:公开发布的版本叫 Claude Fable 5;那个真正“不设限”的 Mythos 5,依然只留给少数合作伙伴。 换句话说,你能用上的最强 Claude,是一台被加了边界的 Mythos。 而这道护栏的设计,比“公开发布”四个字本身更值得说:它保证安全的方式,不是拒绝你。 Anthropic 这次一口气放出两个模型:Claude Fable 5 和 Claude Mythos 5。它们其实是同一个底层模型,差别只有一处——安全护栏。 Fable 5 套了一整套安全分类器,面向所有用户;Mythos 5 拆掉了其中一部分限制,只给 Project Glasswing 里的网络安全合作伙伴。 说白了, Fable 5 就是一台“带护栏的 Mythos” 。 和 Anthropic 一贯的风格一样,模型名字本身也藏了点心思。 据 Anthropic 解释,Fable 来自拉丁语 fabula,意思是“被讲述的故事”,和希腊语里的 mythos 同源。两个名字指向同一件东西,区别只在于,其中一个被加上了边界。 把时间线往回拉一下。今年四月,Anthropic 启动 Project Glasswing,第一次放出 Mythos 级模型(Claude Mythos Preview)时,只给了一小撮网络安全和关键基础设施机构——到上周,这份名单扩展到十几个国家、一百多家机构。当时官方的说法是,这类模型一旦落到错误的人手里,能造成严重破坏,所以不能公开。 两个月,从“太危险不能发”到“所有人都能用”。这中间发生的事,才是这次发布真正的主角。 大多数 AI 的安全机制,是“拒绝”——你问一个它不该答的问题,它告诉你“抱歉,我不能帮你”。 Fable 5 换了个思路。 安全不是靠它学会拒绝,而是在危险时把它换掉。 具体来说,Fable 5 背后挂着一组独立的分类器。 当这组分类器判断你的请求落在三个高风险领域——网络攻击、生物化学武器、以及模型蒸馏(指把一个模型的能力“偷”出来,去训练自己的模型)——它不会让 Fable 5 来回答,而是悄悄把这道题转交给 Opus 4.8,同时告诉你:刚才发生了一次降级。 这个设计有意思的地方在于,它把“安全”和“能力”拆成了两件事。 你买的是 Mythos 级别的能力,但在最危险的那三个领域,你其实是在跟 Opus 说话。 Anthropic 自己的说法是,降级到 Opus 4.8 的体验,总比被 Fable 直接拒绝要好——毕竟 Opus 4.8 本身也是个相当强的模型。 Anthropic 给出的数据是,超过 95% 的对话根本不会触发降级。换句话说,对绝大多数人来说,你用到的 Fable 5,和合作伙伴手里那个“完全体”Mythos 5,体验几乎没有区别。 那这套护栏结实吗?Anthropic 说,他们做了超过一千小时的外部红队测试,没有人找到能绕过它的“通用越狱”方法(指一种能让模型彻底无视所有安全限制的万能手段)。 当然他们也留了余地:完全杜绝越狱大概是不可能的,目标只是让任何漏洞都“慢到、贵到”来不及被大规模利用。 但这套机制有代价,而且 Anthropic 自己先说了出来:分类器现在调得偏严,会误伤正常请求。一个研究病毒的生物学家,一个做渗透测试的安全工程师,都可能在合理的工作里被莫名其妙地“降级”。官方承认这会让一些用户感到烦躁,承诺后续慢慢收窄、降低误报。 我把这件事想了一会儿,觉得它其实是一个挺聪明、也挺无奈的折中。聪明在于,它没有在“发”和“不发”之间二选一,而是在能力上切了一刀;无奈在于,这一刀切得并不精准——为了赶在出事之前先上线,Anthropic 宁可错杀,不肯漏过。 强到危险,才配得上这套护栏 聊了半天安全,你可能会问:它到底强到什么程度,值得这么如临大敌? 基准测试我本来想跳过——跑分这东西看多了会麻木,何况 Anthropic 列了一长串,几乎项项第一。 最唬人的一个来自 Stripe。据 Anthropic 披露,Stripe 在一个五千万行的 Ruby 代码库上,用 Fable 5 做了一次全库迁移,一天完成——而这件事,原本要一整个团队手工干两个多月。更关键的是效率:在 Cognition 的 FrontierCode 编程测试里,Fable 5 在“中等算力消耗”下就拿到了最高分,Token 效率比以前的 Claude 明显更好。 这也解释了为什么 Anthropic 反复强调 Token 效率——一个能连续自主工作很久、动辄消耗上百万 Token 的模型,如果还很“废话”,成本会高到没人用得起。 视觉这块的进步更直观。以前的 Claude 玩宝可梦火红版,得靠一整套辅助工具链才能磕磕绊绊地推进;Fable 5 只用最基础的视觉接口,就自己通关了。它还能仅凭几张截图,把一个 Web 应用的源代码还原出来。 Anthropic 内部的蛋白质设计专家,用 Mythos 5 把药物设计流程中的部分环节,加速了大约十倍。第二个更夸张:在一项基因组学研究里,Mythos 5 在几乎完全自主的状态下连续工作了一周多,自己训练出了一个机器学习模型——这个模型的表现,超过了发表在《Science》上的同类模型,而它的体量,只有后者的百分之一。 当一个模型能独立做完一周的科研,还做得比人类发在顶刊上的成果更好,“它会不会被用来设计病毒”就不再是杞人忧天。 这正是 Anthropic 给生物化学领域单独上锁的原因——同一种能力,在研究者手里是解药,换一双手可能就是别的东西。 能力和危险,在这里是同一件事的两面。护栏不是因为这个模型不行才加的,恰恰是因为它太行了。 可以看出,Anthropic 把 Mythos 形容成一个需要全程看管的危险品。但官方口径之外,也有不一样的声音。 一位 ID 为 @zekramu 的 X 用户,自称参与了 Mythos 的企业试点,最近发帖分享了用整整一天之后的感受——他的描述,和发布会上的叙事并不完全一致。 据他说,Mythos 确实强,尤其在安全研究类任务上,明显比 Opus 和 GPT-5.5 的最高配更能打,像是专门冲着这类活儿调过的。但“强”和“威胁人类”是两码事。他举了个细节:这个被官方说得神乎其神的模型,在他们公司一套基于 Bazel(一种代码构建工具)、又改了不少自定义逻辑的流程面前卡了壳,最后还得他先把代码编译好,再让模型去跑。 更耐人寻味的是护栏本身。据他描述,Anthropic 随模型一起发来的,不是大家熟悉的 Claude Code,而是一套专门用来“防止模型逃逸”的运行环境——所谓 Project Glasswing,在他看来很大程度上就是这套沙箱。但他觉得这套环境做得相当粗糙,甚至怀疑其中一部分限制根本没真正生效;他还称自己绕开了官方设下的边界,在沙箱之外跑过这个模型。 至于战绩,他说 Mythos 在他们的产品里揪出了大量此前没被发现的安全漏洞,多到足以让团队重新掂量自己的安全策略。 他的结论很值得玩味:这模型在安全攻防上确实有两把刷子,但在他眼里,它更像一个极其昂贵、极其专精的工具,而不是 Anthropic 暗示的那种“悬在所有人头顶”的存在。 说回普通人最关心的事:多少钱,什么时候能用。 价格上,Fable 5 和 Mythos 5 的 API 定价是每百万输入 Token 10 美元、输出 50 美元。横向比一下就有意思了:比起 Mythos Preview 的 25/125 美元,降了六成;但比 Opus 4.8 的 5/25 美元,整整贵了一倍;和 OpenAI 的 GPT-5.5(5/30 美元)相比,输入贵一倍,输出贵约六成七。 换句话说, 它是迄今最强的 Claude,也是最贵的 Claude 模型之一。 强,但不便宜。 前面提到的 @zekramu 也算个旁证:据他估算,光是企业试点阶段的投入,就到了数百万美元级别;“太贵”是他反复念叨的一句话。 订阅用户还得留意一个时间窗口。从今天到 6 月 22 日,Pro、Max、Team 和企业版用户可以免费用 Fable 5;6 月 23 日起,继续用就得额外买 usage credits 了。 Anthropic 说,等产能跟上,会把 Fable 5 重新做成订阅标配——但没给具体时间。API 和按量付费的企业客户不受这个节奏影响,今天起照常调用。 这个略显别扭的“先免费、再收费、以后再说”,其实透露了一个信号:产能不够。Anthropic 自己也承认,预计 Fable 5 的需求会“非常高、很难预测”。一个对所有人开放的最强模型,先得过算力这一关。 而这次发布里,真正容易被划过去、却最值得停下来看的,是另一条政策。 从 Fable 5 开始,所有 Mythos 级模型的流量都会被强制保留 30 天,覆盖第一方和第三方平台。 Anthropic 承诺不拿这些数据训练模型,只用于安全监控,比如识别新型越狱、以及那种分散在很多次请求里、单看每一条都正常的复杂攻击。为此他们也加了新的隐私保护:记录每一次人工访问、30 天后基本全部删除。 听上去合情合理。但 对那些当初正是冲着“零数据保留”才选择 Anthropic 的企业客户来说,这是一个需要重新评估的变化。 你用最强模型的代价,不只是更贵的账单,还包括:你的数据,会在 Anthropic 的服务器上多待一个月。 安全和隐私,在这里被摆上了同一张天平。而 Anthropic 给出的答案是:为了防住前所未有的攻击,得先把所有人的流量都看上 30 天。这笔账划不划算,恐怕每家公司得自己算。 把这些放在一起看,Fable 5 真正的新意,也许不在它有多强,而在 Anthropic 趟出了一条新路—— 怎么把一个危险到不敢公开的能力,拆成一个所有人都能用的产品。 办法是:用分类器在能力上切一刀,用降级代替拒绝,再用 30 天的留存,当作兜底的监控网。 它不完美。会误伤,会变贵,会让一部分人对自己的数据多一层顾虑。但它至少回答了一个所有前沿实验室迟早都要面对的问题:当你手里的东西强到足以伤人,你是把它锁进只有少数人能进的房间,还是给它装上一道足够结实的护栏,再交到所有人手里? Anthropic 选了后者。 至于这道护栏到底够不够结实——这一次,替它做压力测试的,不再是那一百多家机构,而是所有人。 查看评论

cnBeta全文版 · 2026-06-10 13:35:57+08:00 · tech

Anthropic正式发布Claude Fable 5和Claude Mythos 5。前者面向普通用户开放,后者则继续限制在“受信任的安全合作伙伴”范围内。新模型的命名可以说很符合Claude一贯的风格。 从Haiku(俳句)到Sonnet(十四行诗)再到Opus(艺术巨著),Anthropic一直在用文学和艺术概念给模型分层,到了Mythos,名字已经从文学作品膨胀到“神话”本身。 Fable来自拉丁语fabula,意思是“被讲述之物”,和希腊语mythos同源,直译过来的话一般被称为“寓言”。这个名字正如新模型的定位,一个“Mythos级”的模型,一个“公开的神话”。 按照Anthropic的描述,Fable 5和Mythos 5共享同一个底层模型,只是被装进了更适合公开分发的安全壳里。在官方给出的模型能力上,它们两个被放在同一个位置。 但跑分归跑分,如果Fable和Mythos的表现完全一样,我想应该也不用分成两个名字了。 被改写的“神话” 神话被改写、被压缩、被加上训诫之后,变成了寓言。 按照官方文档,Fable 5是公开版本。它面向普通用户和开发者开放,但在网络安全、生物、化学以及模型蒸馏等高风险领域,会由额外的安全分类器介入。一旦系统判断请求可能涉及这些敏感方向,回答就不会由Fable 5继续完成,而是自动回退到Claude Opus 4.8。 Mythos 5基于同样的底层模型,但在部分领域解除了Fable 5的护栏。Anthropic称,Project Glasswing里的网络安全合作伙伴可以使用“满血版”Mythos 5;未来,部分生命科学研究者也可能通过受信任访问计划,使用解除生物和化学限制的版本。 用不到的Mythos我们暂时不提,先看点实在的东西。 首先是定价,一个字,贵。 Fable 5的定价是输入10美元/百万token,输出50美元/百万token。开发者现在就可以通过Claude API调用claude-fable-5(模型名)。 这个价格刚好是Opus 4.8的两倍,和Opus 4.8的fast mode相同,Anthropic显然把它放在了比Opus更高一档的价格层级里。 不过Anthropic称,这一价格不到此前Claude Mythos Preview的一半——但由于Mythos Preview并非公开API模型,官方并未给出面向公众的标准价,这句话也无从验证。 订阅用户也需要注意,Fable 5不一定会长期直接包含在基础订阅包里。 Anthropic在官方说明中提到,6月23日以后,即使用户已经订阅Claude,Fable 5也可能根据算力情况按量提供,不一定会直接包含在基础订阅服务中。 这公司越来越吝啬了,不过好歹还留了小半个月试用期。官方也留了一点余地:如果6月23日以后算力资源足够,Anthropic会尽量把Fable 5继续包含在Pro、Max等订阅服务里。 定价高本身并非难以理解,但它最好保证它的能力配得上它的价格。 从跑分上看,Fable 5/Mythos 5基本是Anthropic目前公开表里最强的一档。 不过官方表格有一个说明,Claude Fable 5和Claude Mythos 5的分数一般只差1–3个百分点(除了带星号的网络安全、生物相关测试),所以表里显示的是两者更高的分数。这一点很难不让人想要吐槽。 Anthropic把Fable 5的重点放在几个方向:软件工程、知识工作、视觉、长上下文记忆和生命科学研究。 软件工程是最突出的场景之一,根据表格,Fable/Mythos 5在SWE-Bench Pro上达到80.3%,明显高于Opus 4.8的69.2%;在更难的FrontierCode Diamond上,它拿到29.3%,而Opus 4.8只有13.4%,GPT-5.5只有5.7%。 知识工作和视觉任务上,Anthropic给出了两类证据。 一类是标准化benchmark。官方表格显示,Fable/Mythos 5在GDPval-AA上得分1932,高于Opus 4.8、GPT-5.5和Gemini 3.1 Pro;在GDP.pdf这种带视觉理解的文档任务上,它达到29.8%,也超过其他主要模型。 另一类是早期客户测试。Anthropic称,Fable 5在Hebbia的高级金融推理基准上取得最高分,优势集中在文档推理、图表和表格理解、问题求解;IMC也反馈,它在交易分析评估中几乎全面通过。 为了展示Fable 5的视觉能力,Anthropic举的例子是:此前Claude模型需要复杂辅助工具才能玩《宝可梦 火红》,而Fable 5只靠视觉输入就可以通关。 长任务和记忆能力上,Anthropic称,Fable 5可以在数百万token的长期任务中保持专注,并利用自己的笔记改进输出。 在《杀戮尖塔》这类需要连续决策和长期策略的游戏里,如果给Fable 5接入持久文件记忆,让它能记录前面的选择和经验,它的表现会明显提升。提升幅度是Opus 4.8的三倍,到达最终关卡的次数也提高了三倍。 顺便一提,Fable也是一款经典RPG游戏的名字,中文译作《神鬼寓言》——或许某天我们能看到Fable玩《Fable》。 另外,网络安全能力方面,Fable/Mythos 5在ExploitBench Cap%上达到78.0%,超过Claude Mythos Preview的69.0%,接近Opus 4.8的两倍。 这里用的应该是Mythos 5的得分,因为Fable 5在高风险请求上会回退到Opus 4.8。 强大的模型必须分层 Anthropic这次把模型能力的直观展示放到了一个类似”作品集“的滑页里,并且每个demo只给了一小段注释。 比如,Fable 5写了一个太阳系模拟,从物理第一性原理推导行星轨道运动,并用它预测日食。 又比如,它可以自主玩《异星工厂》。这是一款工程师很爱的工厂自动化游戏,玩家要采集资源、规划生产线、搭建物流和能源系统。 Anthropic用这个例子说明,Fable 5可以在一个开放环境里制定策略,并持续推进一个复杂系统的建设。 在另一个demo里,Fable 5先做了一个基于浏览器的CAD编辑器,然后又使用这个由自己开发的CAD工具,设计了一个可以3D打印的完整模型。这个编辑器里还内置了AI copilot,用来辅助建模。 这个demo的重点在于Fable 5完成了一个闭环:先创造工具,再使用工具,最后完成一个实体设计任务。 最后一个demo,Anthropic展示了一个由Fable 5写出来的流体模拟,运动节奏和一段古典音乐EDM remix同步。官方还特意提到,音乐也是Fable 5用代码生成的。 这些案例看起来挺花哨,但意思是一样的:Fable 5很擅长把代码、视觉、物理、设计和长期规划混在一起做任务。 如果说这部分展示的还是Fable 5在开发者手里能做到什么程度,后面的部分说的就是Mythos 5在研究者手里能做什么——以及Anthropic为什么要把Fable和Mythos分开。 Anthropic称,在内部蛋白设计专家的评估中,Mythos 5把药物设计流程中的部分环节加速了大约10倍。其中一个案例里,Mythos 5接入蛋白设计和生物信息学工具、没有人类帮助,就可以匹配甚至超过熟练人类操作员。 在该任务中,Mythos 5做的不是简单问答,而是完成一整套科学工作流:选择结合位点,选择并运行蛋白设计工具,在失败后自己恢复。官方称,在这项研究的14个蛋白靶点中,有9个产生了强候选分子,目前正在进一步研究。 Anthropic还提到,Mythos 5可以稳定提出新颖、有吸引力的分子生物学假设。在和Opus级模型的盲测对比中,内部科学家大约80%的时候更偏好Mythos提出的假设,其中一些已经进入实验评估。 与此同时,Mythos 5的一个关于大肠杆菌蛋白的新机制的假设,在另一家独立研究同一问题的实验室的研究中得到了证实。 它甚至还做了一项基因组学研究。 Anthropic称,Mythos 5在一周多的时间里,几乎自主完成了一项新的基因组学研究。它整理了横跨138种动物、数百万个细胞的单细胞数据,并设计、训练了一个定制机器学习模型,用来识别不同物种中执行相同角色的细胞。 更夸张的是,Anthropic称,Mythos 5训练出的模型性能超过了近期发表在《Science》上的一个模型,尽管它的规模只有后者的百分之一。Anthropic表示,计划在未来几个月发表这些结果。 当然,这部分还需要等待论文和外部复核。但如果只看Anthropic官方给出的信息,Mythos 5在生命科学里展示的能力已经接近科研Agent:能读问题、用工具、处理数据、训练模型、提出假设,并把一项研究推进到可以发表的程度。 而一旦模型可以在药物设计、病毒载体、蛋白设计、基因组学研究这些方向里真正推进任务,它就天然具备双重用途。 可以认为,生命科学这部分不是Fable 5的普通功能演示,而是Mythos 5的能力上限展示。 但它被展示出来,是为了说明Anthropic手里的这套底层模型,已经强到了必须通过受信任访问来分发。 有意思的是,过去的模型发布更像是一件技术产品的事:参数、跑分、价格、上下文长度、API名称。强就是强,发布就是发布。 但到了Mythos这里,事情开始变得复杂。同一个底层模型被分为两个版本,普通用户拿到的是Fable 5,安全研究者和部分生命科学研究者拿到的是Mythos 5;前者被装进更严格的护栏里,后者则需要受信任访问。 模型能力不再只有高低之分,也开始有权限、场景和责任之分。 某种意义上来讲,可以看作前沿模型商业化进入新阶段的信号——越强的模型,越不可能直接扔给所有人。它们会被拆成不同版本,放进不同安全边界,再交给不同类型的用户。 Anthropic先这么做了,因为它们的模型“强到不能完全公开”。未来其它想要讲故事的公司,想要证明自己的模型也很强,或许也会效仿这种方式。 查看评论

V2EX - 技术 · 2026-06-10 10:26:25+08:00 · tech

Anthropic 最强模型 Fable 5 公开:能力确实封顶,但普通人的订阅额度可能真不够它烧 最近 Anthropic 悄悄发布了新模型 Claude Fable 5 。之所以想发个帖聊聊,一方面是因为 Anthropic 终于把他们之前一直藏着掖着的、内部最强的那档能力开放给所有人了;另一方面是刚发布没多久,就有不少订阅用户在吐槽,说开着它干活,那额度掉得肉眼可见。 今天就和大家盘一盘 Fable 5 到底强在哪,以及为什么它这么吃额度。大家也可以看完后自己评估下,以后在什么场景下才舍得用它。 核心定位:解禁的内部“大杀器” Fable 5 的核心突破不在于又去刷了什么新榜单,而在于它的“血统”。它出自 Anthropic 内部被称为 Mythos (或者 Mus )的顶级能力系列。 过去因为能力太强、破坏力有点大,官方一直不敢公开,只在一个叫 Project Blastwing 的项目里,小范围给安全从业者和基础设施方做强审计使用。它在找漏洞、写攻击代码这方面非常强,在安全圈子里引起过不小的震动。而这次发布的 Fable 5 ,是这档能力第一次做成人人可用的正式版。 性能表现:任务越复杂,甩开同行的差距就越大 官方对它的评价是:能力超越了以往任何一个公开过的模型。特别是在软件工程、知识工作、视觉理解和科学研究这几个方面,基本都站到了第一梯队。 在实际测评分数上,它的表现确实有点夸张: SWE-bench Pro (真实 GitHub 硬核编程测试): 它跑出了 80.3 的高分。作为对比,Opus 4.8 是 69.2 ,而 GPT-5.5 只有 58.6 。 SWE-bench Verified (更主流的基准): 它的分数直接逼近封顶的 95 分。 Frontier Code Diamond (最拉开差距的顶尖 Agent 编程): 它拿到了 29.3 分,而第二名 Opus 4.8 只有 13.4 ,GPT-5.5 更是只有 5.7 。 简单来说,看起越是复杂、越需要自主多步跑完的 Agent 编程任务,它的优势就越降维打击。 日常应用中也有现成的例子。比如 Stripe 在早期测试时,用它做了一次老代码迁移,一天时间就搞定了 5000 万行的 Ruby 代码。而这笔工作,Stripe 原本预计要派团队啃两个多月。 安全机制:三道防线与自动“降级” 能力太强带来的副作用就是容易被滥用。为了能合规公开,Anthropic 给它套了三道安全防线,分别盯着:网络安全(防漏洞利用和攻击类请求)、生物化学(拦截危险病毒设计)以及防盗流(拦截用它的输出来训练其他模型)。 如果你提的问题触发了这三道防线,Fable 5 并不会直接拒绝你,而是会把任务自动“降级”,转交给更保守、更安全的 Opus 4.8 来处理。虽然偶尔会误伤一些正常提问,但官方称 95% 以上的会话全程都会由 Fable 5 自己跑完,不会触发回退。 额度迷局:为什么感觉额度掉得像火箭一样快? 模型很强没有争议,但这两天吐槽“订阅额度瞬间被吸干”的人也确实不是错觉。背后主要有两个现实原因: 官方单价直接翻倍: Fable 5 的 API 定价是输入 10 美元/百万 token ,输出 50 美元/百万 token 。这个价格正好是 Opus 4.8 的两倍,也是目前主流模型里最贵的一档。 它在你看不到的地方“想得太多”: 越能干的模型,单轮跑得就越久。它为了把一件事做得更完整,会在后台自己推演很多步。你可能只提了一个简单要求,它在后台深构、深思吐出来的 token 却是以前的好几倍。所以哪怕 Anthropic 没改订阅计费规则,它自己干的活变多了,额度自然消耗得极快。 划重点:免费窗口期马上关闭 目前在 Claude Web 端,Fable 5 在订阅计划里还是限时免费的,不额外收钱。但大家注意看界面提示,这个免费窗口期截止到 6 月 23 日。 到了 6 月 23 日之后,它就会被移出目前的订阅额度计划。想继续用,就得改走预付费的 usage credits 模式,直接按 API 的真实消耗价格从你充进去的钱里扣。 一点使用建议 Fable 5 把大模型的能力上限又往上推了一截,这肯定是好事。但在两周的免费期过后,大家可能得精打细算一下了: 那些真正复杂的、难搞的、能产生实际高价值的硬核代码和长任务,再交给他去交底。 至于日常聊天、轻量级的日常任务,还是留给更便宜的 Opus 4.8 或其他模型吧。 大家这两天体验下来感觉如何?欢迎在帖子里聊聊。

V2EX - 技术 · 2026-06-10 10:26:25+08:00 · tech

Anthropic 最强模型 Fable 5 公开:能力确实封顶,但普通人的订阅额度可能真不够它烧 最近 Anthropic 悄悄发布了新模型 Claude Fable 5 。之所以想发个帖聊聊,一方面是因为 Anthropic 终于把他们之前一直藏着掖着的、内部最强的那档能力开放给所有人了;另一方面是刚发布没多久,就有不少订阅用户在吐槽,说开着它干活,那额度掉得肉眼可见。 今天就和大家盘一盘 Fable 5 到底强在哪,以及为什么它这么吃额度。大家也可以看完后自己评估下,以后在什么场景下才舍得用它。 核心定位:解禁的内部“大杀器” Fable 5 的核心突破不在于又去刷了什么新榜单,而在于它的“血统”。它出自 Anthropic 内部被称为 Mythos (或者 Mus )的顶级能力系列。 过去因为能力太强、破坏力有点大,官方一直不敢公开,只在一个叫 Project Blastwing 的项目里,小范围给安全从业者和基础设施方做强审计使用。它在找漏洞、写攻击代码这方面非常强,在安全圈子里引起过不小的震动。而这次发布的 Fable 5 ,是这档能力第一次做成人人可用的正式版。 性能表现:任务越复杂,甩开同行的差距就越大 官方对它的评价是:能力超越了以往任何一个公开过的模型。特别是在软件工程、知识工作、视觉理解和科学研究这几个方面,基本都站到了第一梯队。 在实际测评分数上,它的表现确实有点夸张: SWE-bench Pro (真实 GitHub 硬核编程测试): 它跑出了 80.3 的高分。作为对比,Opus 4.8 是 69.2 ,而 GPT-5.5 只有 58.6 。 SWE-bench Verified (更主流的基准): 它的分数直接逼近封顶的 95 分。 Frontier Code Diamond (最拉开差距的顶尖 Agent 编程): 它拿到了 29.3 分,而第二名 Opus 4.8 只有 13.4 ,GPT-5.5 更是只有 5.7 。 简单来说,看起越是复杂、越需要自主多步跑完的 Agent 编程任务,它的优势就越降维打击。 日常应用中也有现成的例子。比如 Stripe 在早期测试时,用它做了一次老代码迁移,一天时间就搞定了 5000 万行的 Ruby 代码。而这笔工作,Stripe 原本预计要派团队啃两个多月。 安全机制:三道防线与自动“降级” 能力太强带来的副作用就是容易被滥用。为了能合规公开,Anthropic 给它套了三道安全防线,分别盯着:网络安全(防漏洞利用和攻击类请求)、生物化学(拦截危险病毒设计)以及防盗流(拦截用它的输出来训练其他模型)。 如果你提的问题触发了这三道防线,Fable 5 并不会直接拒绝你,而是会把任务自动“降级”,转交给更保守、更安全的 Opus 4.8 来处理。虽然偶尔会误伤一些正常提问,但官方称 95% 以上的会话全程都会由 Fable 5 自己跑完,不会触发回退。 额度迷局:为什么感觉额度掉得像火箭一样快? 模型很强没有争议,但这两天吐槽“订阅额度瞬间被吸干”的人也确实不是错觉。背后主要有两个现实原因: 官方单价直接翻倍: Fable 5 的 API 定价是输入 10 美元/百万 token ,输出 50 美元/百万 token 。这个价格正好是 Opus 4.8 的两倍,也是目前主流模型里最贵的一档。 它在你看不到的地方“想得太多”: 越能干的模型,单轮跑得就越久。它为了把一件事做得更完整,会在后台自己推演很多步。你可能只提了一个简单要求,它在后台深构、深思吐出来的 token 却是以前的好几倍。所以哪怕 Anthropic 没改订阅计费规则,它自己干的活变多了,额度自然消耗得极快。 划重点:免费窗口期马上关闭 目前在 Claude Web 端,Fable 5 在订阅计划里还是限时免费的,不额外收钱。但大家注意看界面提示,这个免费窗口期截止到 6 月 23 日。 到了 6 月 23 日之后,它就会被移出目前的订阅额度计划。想继续用,就得改走预付费的 usage credits 模式,直接按 API 的真实消耗价格从你充进去的钱里扣。 一点使用建议 Fable 5 把大模型的能力上限又往上推了一截,这肯定是好事。但在两周的免费期过后,大家可能得精打细算一下了: 那些真正复杂的、难搞的、能产生实际高价值的硬核代码和长任务,再交给他去交底。 至于日常聊天、轻量级的日常任务,还是留给更便宜的 Opus 4.8 或其他模型吧。 大家这两天体验下来感觉如何?欢迎在帖子里聊聊。

v2ex · 2026-06-10 10:07:47+08:00 · tech

站点链接: https://wkele.kukuai.fyi/ 一句话:Claude Fable 5 就是当前公开最强 Claude ,主打「超长、超复杂、多步骤、长时间自治」的硬核任务,简单聊天用它 = 浪费钱。 🧠 基本定位 全称:Claude Fable 5 ( claude-fable-5 ) 级别:Mythos 级(神话级),比 Opus 4.8 更高一档 上下文:100 万 token ,最大输出 128k token 价格:输入 $10 / 百万,输出 $50 / 百万(比 Opus 贵一倍) 特点:长任务越强、越复杂越稳、能自己规划 + 执行 + 自查 + 修正 🚀 它最擅长干啥(核心能力) 1 )软件工程:超强、最突出 超大代码库迁移 / 重构:5000 万行 Ruby 库,1 天干完人工 2 个月 全链路开发:读库→改代码→写测试→自查→修复→交付 SWE-Bench Pro:80.3%( Opus 4.8 69.2%); FrontierCode:29.3%( Opus 13.4%) 能从截图重建完整网页 / App 源码、自主 debug 、架构设计 2 )长周期自治任务(最独特) 支持几小时 / 几天连续干活,不用你一步一步喂指令 自己记笔记、维护状态、反思修正,长时间不掉线、不失忆 适合:大型项目规划、多阶段研究、复杂系统搭建、长期运营脚本 3 )视觉 + 文档超级理解 PDF / 图片 / 截图:看懂图表、公式、流程图、手写稿、UI 界面 金融 / 法律 / 科研文档:表格解读、数据提取、推理结论接近满分 能看游戏截图打通《宝可梦火红》、玩《异星工厂》自建工厂 4 )顶级知识工作 & 推理 金融分析、商业尽职调查、法律合同审查、科研论文写作 / 复现 多文档交叉推理、因果分析、假设验证、长链逻辑很强 生命科学:基因、蛋白质、药物研发方向分析(安全限制下) 5 )超级记忆 & 超长文本 100 万 token 上下文:相当于 75 万汉字,整本书 / 整个代码库直接丢进去 长任务中持续记忆、自我复盘、迭代优化,表现是 Opus 的 3 倍 ⚠️ 不擅长 / 不适合 日常聊天、简单问答、短文案:太贵、没必要(用 Sonnet/Opus 即可) 高风险领域(网络安全攻击、生物 / 化学危险物质、模型越狱):自动回退到 Opus 4.8 ✅ 一句话总结 Fable 5 = 顶级架构师 + 资深全栈 + 高级分析师 + 长期记忆大脑,专门干别人干不了、要很久、很复杂的活儿;简单事别用它,贵且浪费。 想体验 请来: https://wkele.kukuai.fyi/

LinuxDo 最新话题 · 2026-06-10 01:12:34+08:00 · tech

Anthropic 发布 Claude Fable 5 与 Mythos 5,性能大幅跃升 Anthropic 推出面向普通用户的 Claude Fable 5,这是迄今能力最强的 Mythos 级模型。它在软件工程、知识工作、视觉和科研等基准上均达顶尖,价格比前代 Mythos Preview 低一半以上。为防滥用,内建分类器在涉及网络安全、生物化学等话题时改用 Opus 4.8 回复,约 95% 的会话不受影响。 同步发布的 Claude Mythos 5 对网络防御伙伴解除部分限制,号称拥有全球最强的网络安全能力。生物医学研究者也可通过信任计划在解除防护后使用。两款模型定价均为每百万输入 token 10 美元、输出 token 50 美元,不到 Mythos Preview 的一半。 via zaihuapd 16 个帖子 - 15 位参与者 阅读完整话题

LinuxDo 最新话题 · 2026-06-08 11:44:28+08:00 · tech

本帖使用社区开源推广,符合推广要求。我申明并遵循社区要求的以下内容: 我的帖子已经打上 开源推广 标签: 是 我的开源项目完整开源,无未开源部分: 是 我的开源项目已链接认可 LINUX DO 社区: 是 我帖子内的项目介绍,AI生成、润色内容部分已截图发出: 是 以上选择我承诺是永久有效的,接受社区和佬友监督: 是 以下为项目介绍正文内容,AI生成、润色内容已使用截图方式发出 AI PPT赛道终结者,史上最最最强PPT Skill!!! 使用GPT生成豪华的图片格式PPT,然后转换为 完全可编辑 的PPTX文件,效果几乎完美。 本技能是个技能包,包含以下3个技能,可以拆分使用和优化: 技能 作用 输入 → 输出 GordenImagePPTGen 生成「图片格式的 PPT」 主题/内容 → 每页 .png + 图片型 .pptx GordenImage2PPTX 把「图片 PPT / 图片」还原成可编辑 pptx 图片 → 可编辑 .pptx(背景+骨架+图标+文本 四层) GordenSuperPPTSkill 打包编排前两者,依次执行 主题/内容 → 图片型 PPT + 可编辑 pptx 只要做图片版 PPT → GordenImagePPTGen 只把图片转可编辑 → GordenImage2PPTX 一键"先出图再转可编辑" / 未指定 → GordenSuperPPTSkill (A->B 串联) 效果展示 1、GordenImagePPTGen(Gorden的图片PPT生成技能)生成图片格式的PPT 2、GordenImage2PPTX(Gorden的图片转PPTX技能)把图片转换为完全可编辑的PPTX文件 如何使用 仅限订阅Codex使用。 第1步:把Github仓库地址发给Codex让他安装技能; Github地址: GitHub - GordenSun/GordenSuperPPTSkills · GitHub 第2步:按需使用。GPT 5.5模型,推理强度选"中"即可。 如果只生成图片格式PPT,提示词: 使用GordenImagePPTGen技能,生成一个N页的PPT,内容为XXX,要求PPT要求豪华、信息密度高、排版复杂 如果只想 把图片PPT转换成可编辑的PPTX文件 ,提示词: 把当前文件夹里的XXX.png,使用GordenImage2PPTX,还原成可编辑的PPT,必须严格遵循技能步骤 说明: 1)本技能仅适用于Codex,因为必须使用GPT生成图片和GPT的视觉能力,理论上Opus+GPT生图接口也可以实现,但是本技能没有做专门的适配。 2)图片转可编辑PPTX文件,比较费额度,转换1张图片大概耗费Plus订阅5小时额度的10%。 3)框架图默认是整体的一张图,也支持拆分成一个个独立的框架模块图,提示词里明确告诉Codex即可。 原理讲解 核心使用的是GPT的生图能力和视觉解析能力。 大致步骤是:依次提取PPT图片的背景图、框架图、图标和装饰图、文本。最后在PPT里按坐标拼装起来。当然为了实现完美的效果,做了很多细节验证和约束规则。 使用过程中,你能看到GPT生成的过程图片。 背景图 框架图 图标和装饰 以上,如果你用着觉得不错,记得给我的Github仓库点一个Star: GitHub - GordenSun/GordenSuperPPTSkills · GitHub 5 个帖子 - 4 位参与者 阅读完整话题

LinuxDo 最新话题 · 2026-06-07 14:04:02+08:00 · tech

grok2api和CPA中都可以把grok反代出来 条件 不讨论代码,数学能力,只讨论搜索的广泛性,准确性,时效性。 不考虑grok 4.2 heavy 候选者 1.grok 4.2 expert :这个是我的super号grok2api出来的,根据思考链观察到,他有4agent能力:搜索的时候速度快,广度也还可以【写完才发现网页已经更新了grok 4.3 expert,但是grok2api的项目没有更新】 2.grok-4.20-multi-agent-xhigh :这个模型是在佬的公益站中看到的,我自己不知道如何选择xhigh这个选项,在CPA认证后,进入cherry调用, 并不能设置思考量。我本想进行对比测试却发现无法调用???也无法判断是否才有多agents的能力进行搜索 grok-4.20-multi-agent这个模型本身只能通过官方API才有的吗?supergrok的号好像用不了这个模型 有木有各位佬想出来的测试search能力的prompt可以发一下,我再测试一下。 没招,实在是强迫症想选个最好的,然后放到mcp里用 各位佬投票一下心目中的最强搜索模型 grok-4.3 grok-4.20-multi-agent-0309 点击以查看投票。 有佬反馈说4.3不能用agent,然后我看了一下网页的设置:如果4.3用不了多agent那他这个配置不就废了吗?网页版现在也用不了4.2了吧? 4 个帖子 - 4 位参与者 阅读完整话题

IT之家 · 2026-06-05 14:55:49+08:00 · tech

IT之家 6 月 5 日消息,汽车媒体 gazzetta 昨日(6 月 4 日)发布博文,报道称奥迪在法国发布 Nuvolari 超级跑车,搭载插电混动系统, 0 到 100 km/h 加速 2.6 秒,极速超过 350 km/h。 外观方面,Nuvolari 首次在 Audi 公路车上采用完整 CFRP 碳纤维车身,并搭配铝制 Audi Space Frame。 64 个可动金属件组成的新 Singleframe 格栅,加上 3 段式主动尾翼,最高可带来 400 公斤下压力。 内饰方面,奥迪重点放在材料质感和驾驶专注度。深色前舱区域减少视觉干扰,显示区和控制区集中在驾驶者视野内。 动力系统采用插电混动设计,4.0 升 V8 双涡轮发动机可输出 800 马力,转速可达 10,000 转。车上还有 3 台轴向磁通电机,每台 150 马力,综合功率升至 1001 马力。 输出方面,Nuvolari 从 0 到 100 公里每小时只需 2.6 秒,0 到 200 公里每小时为 6.8 秒,最高车速超过 350 公里每小时。前轴 2 台电机负责四驱和扭矩矢量分配,另 1 台电机集成在双离合变速箱中。 新车全球限量 499 辆,官方价格未公布,预计超过 50 万欧元(IT之家注:现汇率约合 394.1 万元人民币)。