我先来,我是从 X 上知道的,而加入的原因是不好加入。 当时有个帖子说 L 站 是最强中文社区,引起了我的兴趣。我知道后就去尝试注册,结果发现注册不了!又是邀请码,又是小作文,我这好胜心就起来了,后来进来就上瘾了 3 个帖子 - 3 位参与者 阅读完整话题
rt,想试用一下目前最强的模型,之前都用的gpt5.5和cc4.8 3 个帖子 - 3 位参与者 阅读完整话题
从24年的chatgpt,通义灵马,到25年cusor,claudecodex 到26年的gemini,codex,到claude code 用了各大模型,到头来还是选择了calude,全球最强claude 应该没问题吧 4 个帖子 - 4 位参与者 阅读完整话题
神话模型(Mythos )安全版正式上线,正式名字为Fable(意为:寓言)。 世界最强模型,没有之一! 右图为性能指标!(真神降临!) 1 个帖子 - 1 位参与者 阅读完整话题
望眼欲穿近两个月、在社交媒体上占尽风头的 Anthropic Mythos 模型,今天终于正式发布了。两个月前,Anthropic 说自己最强的那一类模型太危险、不能公开,只把它发给了一百多家机构。今天,这类能力对所有人开放了:公开发布的版本叫 Claude Fable 5;那个真正“不设限”的 Mythos 5,依然只留给少数合作伙伴。 换句话说,你能用上的最强 Claude,是一台被加了边界的 Mythos。 而这道护栏的设计,比“公开发布”四个字本身更值得说:它保证安全的方式,不是拒绝你。 Anthropic 这次一口气放出两个模型:Claude Fable 5 和 Claude Mythos 5。它们其实是同一个底层模型,差别只有一处——安全护栏。 Fable 5 套了一整套安全分类器,面向所有用户;Mythos 5 拆掉了其中一部分限制,只给 Project Glasswing 里的网络安全合作伙伴。 说白了, Fable 5 就是一台“带护栏的 Mythos” 。 和 Anthropic 一贯的风格一样,模型名字本身也藏了点心思。 据 Anthropic 解释,Fable 来自拉丁语 fabula,意思是“被讲述的故事”,和希腊语里的 mythos 同源。两个名字指向同一件东西,区别只在于,其中一个被加上了边界。 把时间线往回拉一下。今年四月,Anthropic 启动 Project Glasswing,第一次放出 Mythos 级模型(Claude Mythos Preview)时,只给了一小撮网络安全和关键基础设施机构——到上周,这份名单扩展到十几个国家、一百多家机构。当时官方的说法是,这类模型一旦落到错误的人手里,能造成严重破坏,所以不能公开。 两个月,从“太危险不能发”到“所有人都能用”。这中间发生的事,才是这次发布真正的主角。 大多数 AI 的安全机制,是“拒绝”——你问一个它不该答的问题,它告诉你“抱歉,我不能帮你”。 Fable 5 换了个思路。 安全不是靠它学会拒绝,而是在危险时把它换掉。 具体来说,Fable 5 背后挂着一组独立的分类器。 当这组分类器判断你的请求落在三个高风险领域——网络攻击、生物化学武器、以及模型蒸馏(指把一个模型的能力“偷”出来,去训练自己的模型)——它不会让 Fable 5 来回答,而是悄悄把这道题转交给 Opus 4.8,同时告诉你:刚才发生了一次降级。 这个设计有意思的地方在于,它把“安全”和“能力”拆成了两件事。 你买的是 Mythos 级别的能力,但在最危险的那三个领域,你其实是在跟 Opus 说话。 Anthropic 自己的说法是,降级到 Opus 4.8 的体验,总比被 Fable 直接拒绝要好——毕竟 Opus 4.8 本身也是个相当强的模型。 Anthropic 给出的数据是,超过 95% 的对话根本不会触发降级。换句话说,对绝大多数人来说,你用到的 Fable 5,和合作伙伴手里那个“完全体”Mythos 5,体验几乎没有区别。 那这套护栏结实吗?Anthropic 说,他们做了超过一千小时的外部红队测试,没有人找到能绕过它的“通用越狱”方法(指一种能让模型彻底无视所有安全限制的万能手段)。 当然他们也留了余地:完全杜绝越狱大概是不可能的,目标只是让任何漏洞都“慢到、贵到”来不及被大规模利用。 但这套机制有代价,而且 Anthropic 自己先说了出来:分类器现在调得偏严,会误伤正常请求。一个研究病毒的生物学家,一个做渗透测试的安全工程师,都可能在合理的工作里被莫名其妙地“降级”。官方承认这会让一些用户感到烦躁,承诺后续慢慢收窄、降低误报。 我把这件事想了一会儿,觉得它其实是一个挺聪明、也挺无奈的折中。聪明在于,它没有在“发”和“不发”之间二选一,而是在能力上切了一刀;无奈在于,这一刀切得并不精准——为了赶在出事之前先上线,Anthropic 宁可错杀,不肯漏过。 强到危险,才配得上这套护栏 聊了半天安全,你可能会问:它到底强到什么程度,值得这么如临大敌? 基准测试我本来想跳过——跑分这东西看多了会麻木,何况 Anthropic 列了一长串,几乎项项第一。 最唬人的一个来自 Stripe。据 Anthropic 披露,Stripe 在一个五千万行的 Ruby 代码库上,用 Fable 5 做了一次全库迁移,一天完成——而这件事,原本要一整个团队手工干两个多月。更关键的是效率:在 Cognition 的 FrontierCode 编程测试里,Fable 5 在“中等算力消耗”下就拿到了最高分,Token 效率比以前的 Claude 明显更好。 这也解释了为什么 Anthropic 反复强调 Token 效率——一个能连续自主工作很久、动辄消耗上百万 Token 的模型,如果还很“废话”,成本会高到没人用得起。 视觉这块的进步更直观。以前的 Claude 玩宝可梦火红版,得靠一整套辅助工具链才能磕磕绊绊地推进;Fable 5 只用最基础的视觉接口,就自己通关了。它还能仅凭几张截图,把一个 Web 应用的源代码还原出来。 Anthropic 内部的蛋白质设计专家,用 Mythos 5 把药物设计流程中的部分环节,加速了大约十倍。第二个更夸张:在一项基因组学研究里,Mythos 5 在几乎完全自主的状态下连续工作了一周多,自己训练出了一个机器学习模型——这个模型的表现,超过了发表在《Science》上的同类模型,而它的体量,只有后者的百分之一。 当一个模型能独立做完一周的科研,还做得比人类发在顶刊上的成果更好,“它会不会被用来设计病毒”就不再是杞人忧天。 这正是 Anthropic 给生物化学领域单独上锁的原因——同一种能力,在研究者手里是解药,换一双手可能就是别的东西。 能力和危险,在这里是同一件事的两面。护栏不是因为这个模型不行才加的,恰恰是因为它太行了。 可以看出,Anthropic 把 Mythos 形容成一个需要全程看管的危险品。但官方口径之外,也有不一样的声音。 一位 ID 为 @zekramu 的 X 用户,自称参与了 Mythos 的企业试点,最近发帖分享了用整整一天之后的感受——他的描述,和发布会上的叙事并不完全一致。 据他说,Mythos 确实强,尤其在安全研究类任务上,明显比 Opus 和 GPT-5.5 的最高配更能打,像是专门冲着这类活儿调过的。但“强”和“威胁人类”是两码事。他举了个细节:这个被官方说得神乎其神的模型,在他们公司一套基于 Bazel(一种代码构建工具)、又改了不少自定义逻辑的流程面前卡了壳,最后还得他先把代码编译好,再让模型去跑。 更耐人寻味的是护栏本身。据他描述,Anthropic 随模型一起发来的,不是大家熟悉的 Claude Code,而是一套专门用来“防止模型逃逸”的运行环境——所谓 Project Glasswing,在他看来很大程度上就是这套沙箱。但他觉得这套环境做得相当粗糙,甚至怀疑其中一部分限制根本没真正生效;他还称自己绕开了官方设下的边界,在沙箱之外跑过这个模型。 至于战绩,他说 Mythos 在他们的产品里揪出了大量此前没被发现的安全漏洞,多到足以让团队重新掂量自己的安全策略。 他的结论很值得玩味:这模型在安全攻防上确实有两把刷子,但在他眼里,它更像一个极其昂贵、极其专精的工具,而不是 Anthropic 暗示的那种“悬在所有人头顶”的存在。 说回普通人最关心的事:多少钱,什么时候能用。 价格上,Fable 5 和 Mythos 5 的 API 定价是每百万输入 Token 10 美元、输出 50 美元。横向比一下就有意思了:比起 Mythos Preview 的 25/125 美元,降了六成;但比 Opus 4.8 的 5/25 美元,整整贵了一倍;和 OpenAI 的 GPT-5.5(5/30 美元)相比,输入贵一倍,输出贵约六成七。 换句话说, 它是迄今最强的 Claude,也是最贵的 Claude 模型之一。 强,但不便宜。 前面提到的 @zekramu 也算个旁证:据他估算,光是企业试点阶段的投入,就到了数百万美元级别;“太贵”是他反复念叨的一句话。 订阅用户还得留意一个时间窗口。从今天到 6 月 22 日,Pro、Max、Team 和企业版用户可以免费用 Fable 5;6 月 23 日起,继续用就得额外买 usage credits 了。 Anthropic 说,等产能跟上,会把 Fable 5 重新做成订阅标配——但没给具体时间。API 和按量付费的企业客户不受这个节奏影响,今天起照常调用。 这个略显别扭的“先免费、再收费、以后再说”,其实透露了一个信号:产能不够。Anthropic 自己也承认,预计 Fable 5 的需求会“非常高、很难预测”。一个对所有人开放的最强模型,先得过算力这一关。 而这次发布里,真正容易被划过去、却最值得停下来看的,是另一条政策。 从 Fable 5 开始,所有 Mythos 级模型的流量都会被强制保留 30 天,覆盖第一方和第三方平台。 Anthropic 承诺不拿这些数据训练模型,只用于安全监控,比如识别新型越狱、以及那种分散在很多次请求里、单看每一条都正常的复杂攻击。为此他们也加了新的隐私保护:记录每一次人工访问、30 天后基本全部删除。 听上去合情合理。但 对那些当初正是冲着“零数据保留”才选择 Anthropic 的企业客户来说,这是一个需要重新评估的变化。 你用最强模型的代价,不只是更贵的账单,还包括:你的数据,会在 Anthropic 的服务器上多待一个月。 安全和隐私,在这里被摆上了同一张天平。而 Anthropic 给出的答案是:为了防住前所未有的攻击,得先把所有人的流量都看上 30 天。这笔账划不划算,恐怕每家公司得自己算。 把这些放在一起看,Fable 5 真正的新意,也许不在它有多强,而在 Anthropic 趟出了一条新路—— 怎么把一个危险到不敢公开的能力,拆成一个所有人都能用的产品。 办法是:用分类器在能力上切一刀,用降级代替拒绝,再用 30 天的留存,当作兜底的监控网。 它不完美。会误伤,会变贵,会让一部分人对自己的数据多一层顾虑。但它至少回答了一个所有前沿实验室迟早都要面对的问题:当你手里的东西强到足以伤人,你是把它锁进只有少数人能进的房间,还是给它装上一道足够结实的护栏,再交到所有人手里? Anthropic 选了后者。 至于这道护栏到底够不够结实——这一次,替它做压力测试的,不再是那一百多家机构,而是所有人。 查看评论
Anthropic正式发布Claude Fable 5和Claude Mythos 5。前者面向普通用户开放,后者则继续限制在“受信任的安全合作伙伴”范围内。新模型的命名可以说很符合Claude一贯的风格。 从Haiku(俳句)到Sonnet(十四行诗)再到Opus(艺术巨著),Anthropic一直在用文学和艺术概念给模型分层,到了Mythos,名字已经从文学作品膨胀到“神话”本身。 Fable来自拉丁语fabula,意思是“被讲述之物”,和希腊语mythos同源,直译过来的话一般被称为“寓言”。这个名字正如新模型的定位,一个“Mythos级”的模型,一个“公开的神话”。 按照Anthropic的描述,Fable 5和Mythos 5共享同一个底层模型,只是被装进了更适合公开分发的安全壳里。在官方给出的模型能力上,它们两个被放在同一个位置。 但跑分归跑分,如果Fable和Mythos的表现完全一样,我想应该也不用分成两个名字了。 被改写的“神话” 神话被改写、被压缩、被加上训诫之后,变成了寓言。 按照官方文档,Fable 5是公开版本。它面向普通用户和开发者开放,但在网络安全、生物、化学以及模型蒸馏等高风险领域,会由额外的安全分类器介入。一旦系统判断请求可能涉及这些敏感方向,回答就不会由Fable 5继续完成,而是自动回退到Claude Opus 4.8。 Mythos 5基于同样的底层模型,但在部分领域解除了Fable 5的护栏。Anthropic称,Project Glasswing里的网络安全合作伙伴可以使用“满血版”Mythos 5;未来,部分生命科学研究者也可能通过受信任访问计划,使用解除生物和化学限制的版本。 用不到的Mythos我们暂时不提,先看点实在的东西。 首先是定价,一个字,贵。 Fable 5的定价是输入10美元/百万token,输出50美元/百万token。开发者现在就可以通过Claude API调用claude-fable-5(模型名)。 这个价格刚好是Opus 4.8的两倍,和Opus 4.8的fast mode相同,Anthropic显然把它放在了比Opus更高一档的价格层级里。 不过Anthropic称,这一价格不到此前Claude Mythos Preview的一半——但由于Mythos Preview并非公开API模型,官方并未给出面向公众的标准价,这句话也无从验证。 订阅用户也需要注意,Fable 5不一定会长期直接包含在基础订阅包里。 Anthropic在官方说明中提到,6月23日以后,即使用户已经订阅Claude,Fable 5也可能根据算力情况按量提供,不一定会直接包含在基础订阅服务中。 这公司越来越吝啬了,不过好歹还留了小半个月试用期。官方也留了一点余地:如果6月23日以后算力资源足够,Anthropic会尽量把Fable 5继续包含在Pro、Max等订阅服务里。 定价高本身并非难以理解,但它最好保证它的能力配得上它的价格。 从跑分上看,Fable 5/Mythos 5基本是Anthropic目前公开表里最强的一档。 不过官方表格有一个说明,Claude Fable 5和Claude Mythos 5的分数一般只差1–3个百分点(除了带星号的网络安全、生物相关测试),所以表里显示的是两者更高的分数。这一点很难不让人想要吐槽。 Anthropic把Fable 5的重点放在几个方向:软件工程、知识工作、视觉、长上下文记忆和生命科学研究。 软件工程是最突出的场景之一,根据表格,Fable/Mythos 5在SWE-Bench Pro上达到80.3%,明显高于Opus 4.8的69.2%;在更难的FrontierCode Diamond上,它拿到29.3%,而Opus 4.8只有13.4%,GPT-5.5只有5.7%。 知识工作和视觉任务上,Anthropic给出了两类证据。 一类是标准化benchmark。官方表格显示,Fable/Mythos 5在GDPval-AA上得分1932,高于Opus 4.8、GPT-5.5和Gemini 3.1 Pro;在GDP.pdf这种带视觉理解的文档任务上,它达到29.8%,也超过其他主要模型。 另一类是早期客户测试。Anthropic称,Fable 5在Hebbia的高级金融推理基准上取得最高分,优势集中在文档推理、图表和表格理解、问题求解;IMC也反馈,它在交易分析评估中几乎全面通过。 为了展示Fable 5的视觉能力,Anthropic举的例子是:此前Claude模型需要复杂辅助工具才能玩《宝可梦 火红》,而Fable 5只靠视觉输入就可以通关。 长任务和记忆能力上,Anthropic称,Fable 5可以在数百万token的长期任务中保持专注,并利用自己的笔记改进输出。 在《杀戮尖塔》这类需要连续决策和长期策略的游戏里,如果给Fable 5接入持久文件记忆,让它能记录前面的选择和经验,它的表现会明显提升。提升幅度是Opus 4.8的三倍,到达最终关卡的次数也提高了三倍。 顺便一提,Fable也是一款经典RPG游戏的名字,中文译作《神鬼寓言》——或许某天我们能看到Fable玩《Fable》。 另外,网络安全能力方面,Fable/Mythos 5在ExploitBench Cap%上达到78.0%,超过Claude Mythos Preview的69.0%,接近Opus 4.8的两倍。 这里用的应该是Mythos 5的得分,因为Fable 5在高风险请求上会回退到Opus 4.8。 强大的模型必须分层 Anthropic这次把模型能力的直观展示放到了一个类似”作品集“的滑页里,并且每个demo只给了一小段注释。 比如,Fable 5写了一个太阳系模拟,从物理第一性原理推导行星轨道运动,并用它预测日食。 又比如,它可以自主玩《异星工厂》。这是一款工程师很爱的工厂自动化游戏,玩家要采集资源、规划生产线、搭建物流和能源系统。 Anthropic用这个例子说明,Fable 5可以在一个开放环境里制定策略,并持续推进一个复杂系统的建设。 在另一个demo里,Fable 5先做了一个基于浏览器的CAD编辑器,然后又使用这个由自己开发的CAD工具,设计了一个可以3D打印的完整模型。这个编辑器里还内置了AI copilot,用来辅助建模。 这个demo的重点在于Fable 5完成了一个闭环:先创造工具,再使用工具,最后完成一个实体设计任务。 最后一个demo,Anthropic展示了一个由Fable 5写出来的流体模拟,运动节奏和一段古典音乐EDM remix同步。官方还特意提到,音乐也是Fable 5用代码生成的。 这些案例看起来挺花哨,但意思是一样的:Fable 5很擅长把代码、视觉、物理、设计和长期规划混在一起做任务。 如果说这部分展示的还是Fable 5在开发者手里能做到什么程度,后面的部分说的就是Mythos 5在研究者手里能做什么——以及Anthropic为什么要把Fable和Mythos分开。 Anthropic称,在内部蛋白设计专家的评估中,Mythos 5把药物设计流程中的部分环节加速了大约10倍。其中一个案例里,Mythos 5接入蛋白设计和生物信息学工具、没有人类帮助,就可以匹配甚至超过熟练人类操作员。 在该任务中,Mythos 5做的不是简单问答,而是完成一整套科学工作流:选择结合位点,选择并运行蛋白设计工具,在失败后自己恢复。官方称,在这项研究的14个蛋白靶点中,有9个产生了强候选分子,目前正在进一步研究。 Anthropic还提到,Mythos 5可以稳定提出新颖、有吸引力的分子生物学假设。在和Opus级模型的盲测对比中,内部科学家大约80%的时候更偏好Mythos提出的假设,其中一些已经进入实验评估。 与此同时,Mythos 5的一个关于大肠杆菌蛋白的新机制的假设,在另一家独立研究同一问题的实验室的研究中得到了证实。 它甚至还做了一项基因组学研究。 Anthropic称,Mythos 5在一周多的时间里,几乎自主完成了一项新的基因组学研究。它整理了横跨138种动物、数百万个细胞的单细胞数据,并设计、训练了一个定制机器学习模型,用来识别不同物种中执行相同角色的细胞。 更夸张的是,Anthropic称,Mythos 5训练出的模型性能超过了近期发表在《Science》上的一个模型,尽管它的规模只有后者的百分之一。Anthropic表示,计划在未来几个月发表这些结果。 当然,这部分还需要等待论文和外部复核。但如果只看Anthropic官方给出的信息,Mythos 5在生命科学里展示的能力已经接近科研Agent:能读问题、用工具、处理数据、训练模型、提出假设,并把一项研究推进到可以发表的程度。 而一旦模型可以在药物设计、病毒载体、蛋白设计、基因组学研究这些方向里真正推进任务,它就天然具备双重用途。 可以认为,生命科学这部分不是Fable 5的普通功能演示,而是Mythos 5的能力上限展示。 但它被展示出来,是为了说明Anthropic手里的这套底层模型,已经强到了必须通过受信任访问来分发。 有意思的是,过去的模型发布更像是一件技术产品的事:参数、跑分、价格、上下文长度、API名称。强就是强,发布就是发布。 但到了Mythos这里,事情开始变得复杂。同一个底层模型被分为两个版本,普通用户拿到的是Fable 5,安全研究者和部分生命科学研究者拿到的是Mythos 5;前者被装进更严格的护栏里,后者则需要受信任访问。 模型能力不再只有高低之分,也开始有权限、场景和责任之分。 某种意义上来讲,可以看作前沿模型商业化进入新阶段的信号——越强的模型,越不可能直接扔给所有人。它们会被拆成不同版本,放进不同安全边界,再交给不同类型的用户。 Anthropic先这么做了,因为它们的模型“强到不能完全公开”。未来其它想要讲故事的公司,想要证明自己的模型也很强,或许也会效仿这种方式。 查看评论
Anthropic 最强模型 Fable 5 公开:能力确实封顶,但普通人的订阅额度可能真不够它烧 最近 Anthropic 悄悄发布了新模型 Claude Fable 5 。之所以想发个帖聊聊,一方面是因为 Anthropic 终于把他们之前一直藏着掖着的、内部最强的那档能力开放给所有人了;另一方面是刚发布没多久,就有不少订阅用户在吐槽,说开着它干活,那额度掉得肉眼可见。 今天就和大家盘一盘 Fable 5 到底强在哪,以及为什么它这么吃额度。大家也可以看完后自己评估下,以后在什么场景下才舍得用它。 核心定位:解禁的内部“大杀器” Fable 5 的核心突破不在于又去刷了什么新榜单,而在于它的“血统”。它出自 Anthropic 内部被称为 Mythos (或者 Mus )的顶级能力系列。 过去因为能力太强、破坏力有点大,官方一直不敢公开,只在一个叫 Project Blastwing 的项目里,小范围给安全从业者和基础设施方做强审计使用。它在找漏洞、写攻击代码这方面非常强,在安全圈子里引起过不小的震动。而这次发布的 Fable 5 ,是这档能力第一次做成人人可用的正式版。 性能表现:任务越复杂,甩开同行的差距就越大 官方对它的评价是:能力超越了以往任何一个公开过的模型。特别是在软件工程、知识工作、视觉理解和科学研究这几个方面,基本都站到了第一梯队。 在实际测评分数上,它的表现确实有点夸张: SWE-bench Pro (真实 GitHub 硬核编程测试): 它跑出了 80.3 的高分。作为对比,Opus 4.8 是 69.2 ,而 GPT-5.5 只有 58.6 。 SWE-bench Verified (更主流的基准): 它的分数直接逼近封顶的 95 分。 Frontier Code Diamond (最拉开差距的顶尖 Agent 编程): 它拿到了 29.3 分,而第二名 Opus 4.8 只有 13.4 ,GPT-5.5 更是只有 5.7 。 简单来说,看起越是复杂、越需要自主多步跑完的 Agent 编程任务,它的优势就越降维打击。 日常应用中也有现成的例子。比如 Stripe 在早期测试时,用它做了一次老代码迁移,一天时间就搞定了 5000 万行的 Ruby 代码。而这笔工作,Stripe 原本预计要派团队啃两个多月。 安全机制:三道防线与自动“降级” 能力太强带来的副作用就是容易被滥用。为了能合规公开,Anthropic 给它套了三道安全防线,分别盯着:网络安全(防漏洞利用和攻击类请求)、生物化学(拦截危险病毒设计)以及防盗流(拦截用它的输出来训练其他模型)。 如果你提的问题触发了这三道防线,Fable 5 并不会直接拒绝你,而是会把任务自动“降级”,转交给更保守、更安全的 Opus 4.8 来处理。虽然偶尔会误伤一些正常提问,但官方称 95% 以上的会话全程都会由 Fable 5 自己跑完,不会触发回退。 额度迷局:为什么感觉额度掉得像火箭一样快? 模型很强没有争议,但这两天吐槽“订阅额度瞬间被吸干”的人也确实不是错觉。背后主要有两个现实原因: 官方单价直接翻倍: Fable 5 的 API 定价是输入 10 美元/百万 token ,输出 50 美元/百万 token 。这个价格正好是 Opus 4.8 的两倍,也是目前主流模型里最贵的一档。 它在你看不到的地方“想得太多”: 越能干的模型,单轮跑得就越久。它为了把一件事做得更完整,会在后台自己推演很多步。你可能只提了一个简单要求,它在后台深构、深思吐出来的 token 却是以前的好几倍。所以哪怕 Anthropic 没改订阅计费规则,它自己干的活变多了,额度自然消耗得极快。 划重点:免费窗口期马上关闭 目前在 Claude Web 端,Fable 5 在订阅计划里还是限时免费的,不额外收钱。但大家注意看界面提示,这个免费窗口期截止到 6 月 23 日。 到了 6 月 23 日之后,它就会被移出目前的订阅额度计划。想继续用,就得改走预付费的 usage credits 模式,直接按 API 的真实消耗价格从你充进去的钱里扣。 一点使用建议 Fable 5 把大模型的能力上限又往上推了一截,这肯定是好事。但在两周的免费期过后,大家可能得精打细算一下了: 那些真正复杂的、难搞的、能产生实际高价值的硬核代码和长任务,再交给他去交底。 至于日常聊天、轻量级的日常任务,还是留给更便宜的 Opus 4.8 或其他模型吧。 大家这两天体验下来感觉如何?欢迎在帖子里聊聊。
Anthropic 最强模型 Fable 5 公开:能力确实封顶,但普通人的订阅额度可能真不够它烧 最近 Anthropic 悄悄发布了新模型 Claude Fable 5 。之所以想发个帖聊聊,一方面是因为 Anthropic 终于把他们之前一直藏着掖着的、内部最强的那档能力开放给所有人了;另一方面是刚发布没多久,就有不少订阅用户在吐槽,说开着它干活,那额度掉得肉眼可见。 今天就和大家盘一盘 Fable 5 到底强在哪,以及为什么它这么吃额度。大家也可以看完后自己评估下,以后在什么场景下才舍得用它。 核心定位:解禁的内部“大杀器” Fable 5 的核心突破不在于又去刷了什么新榜单,而在于它的“血统”。它出自 Anthropic 内部被称为 Mythos (或者 Mus )的顶级能力系列。 过去因为能力太强、破坏力有点大,官方一直不敢公开,只在一个叫 Project Blastwing 的项目里,小范围给安全从业者和基础设施方做强审计使用。它在找漏洞、写攻击代码这方面非常强,在安全圈子里引起过不小的震动。而这次发布的 Fable 5 ,是这档能力第一次做成人人可用的正式版。 性能表现:任务越复杂,甩开同行的差距就越大 官方对它的评价是:能力超越了以往任何一个公开过的模型。特别是在软件工程、知识工作、视觉理解和科学研究这几个方面,基本都站到了第一梯队。 在实际测评分数上,它的表现确实有点夸张: SWE-bench Pro (真实 GitHub 硬核编程测试): 它跑出了 80.3 的高分。作为对比,Opus 4.8 是 69.2 ,而 GPT-5.5 只有 58.6 。 SWE-bench Verified (更主流的基准): 它的分数直接逼近封顶的 95 分。 Frontier Code Diamond (最拉开差距的顶尖 Agent 编程): 它拿到了 29.3 分,而第二名 Opus 4.8 只有 13.4 ,GPT-5.5 更是只有 5.7 。 简单来说,看起越是复杂、越需要自主多步跑完的 Agent 编程任务,它的优势就越降维打击。 日常应用中也有现成的例子。比如 Stripe 在早期测试时,用它做了一次老代码迁移,一天时间就搞定了 5000 万行的 Ruby 代码。而这笔工作,Stripe 原本预计要派团队啃两个多月。 安全机制:三道防线与自动“降级” 能力太强带来的副作用就是容易被滥用。为了能合规公开,Anthropic 给它套了三道安全防线,分别盯着:网络安全(防漏洞利用和攻击类请求)、生物化学(拦截危险病毒设计)以及防盗流(拦截用它的输出来训练其他模型)。 如果你提的问题触发了这三道防线,Fable 5 并不会直接拒绝你,而是会把任务自动“降级”,转交给更保守、更安全的 Opus 4.8 来处理。虽然偶尔会误伤一些正常提问,但官方称 95% 以上的会话全程都会由 Fable 5 自己跑完,不会触发回退。 额度迷局:为什么感觉额度掉得像火箭一样快? 模型很强没有争议,但这两天吐槽“订阅额度瞬间被吸干”的人也确实不是错觉。背后主要有两个现实原因: 官方单价直接翻倍: Fable 5 的 API 定价是输入 10 美元/百万 token ,输出 50 美元/百万 token 。这个价格正好是 Opus 4.8 的两倍,也是目前主流模型里最贵的一档。 它在你看不到的地方“想得太多”: 越能干的模型,单轮跑得就越久。它为了把一件事做得更完整,会在后台自己推演很多步。你可能只提了一个简单要求,它在后台深构、深思吐出来的 token 却是以前的好几倍。所以哪怕 Anthropic 没改订阅计费规则,它自己干的活变多了,额度自然消耗得极快。 划重点:免费窗口期马上关闭 目前在 Claude Web 端,Fable 5 在订阅计划里还是限时免费的,不额外收钱。但大家注意看界面提示,这个免费窗口期截止到 6 月 23 日。 到了 6 月 23 日之后,它就会被移出目前的订阅额度计划。想继续用,就得改走预付费的 usage credits 模式,直接按 API 的真实消耗价格从你充进去的钱里扣。 一点使用建议 Fable 5 把大模型的能力上限又往上推了一截,这肯定是好事。但在两周的免费期过后,大家可能得精打细算一下了: 那些真正复杂的、难搞的、能产生实际高价值的硬核代码和长任务,再交给他去交底。 至于日常聊天、轻量级的日常任务,还是留给更便宜的 Opus 4.8 或其他模型吧。 大家这两天体验下来感觉如何?欢迎在帖子里聊聊。
结果还真猜对了,觉得压力大的可以看看sam,5.6难产,还紧着紧着要上市 1 个帖子 - 1 位参与者 阅读完整话题
站点链接: https://wkele.kukuai.fyi/ 一句话:Claude Fable 5 就是当前公开最强 Claude ,主打「超长、超复杂、多步骤、长时间自治」的硬核任务,简单聊天用它 = 浪费钱。 🧠 基本定位 全称:Claude Fable 5 ( claude-fable-5 ) 级别:Mythos 级(神话级),比 Opus 4.8 更高一档 上下文:100 万 token ,最大输出 128k token 价格:输入 $10 / 百万,输出 $50 / 百万(比 Opus 贵一倍) 特点:长任务越强、越复杂越稳、能自己规划 + 执行 + 自查 + 修正 🚀 它最擅长干啥(核心能力) 1 )软件工程:超强、最突出 超大代码库迁移 / 重构:5000 万行 Ruby 库,1 天干完人工 2 个月 全链路开发:读库→改代码→写测试→自查→修复→交付 SWE-Bench Pro:80.3%( Opus 4.8 69.2%); FrontierCode:29.3%( Opus 13.4%) 能从截图重建完整网页 / App 源码、自主 debug 、架构设计 2 )长周期自治任务(最独特) 支持几小时 / 几天连续干活,不用你一步一步喂指令 自己记笔记、维护状态、反思修正,长时间不掉线、不失忆 适合:大型项目规划、多阶段研究、复杂系统搭建、长期运营脚本 3 )视觉 + 文档超级理解 PDF / 图片 / 截图:看懂图表、公式、流程图、手写稿、UI 界面 金融 / 法律 / 科研文档:表格解读、数据提取、推理结论接近满分 能看游戏截图打通《宝可梦火红》、玩《异星工厂》自建工厂 4 )顶级知识工作 & 推理 金融分析、商业尽职调查、法律合同审查、科研论文写作 / 复现 多文档交叉推理、因果分析、假设验证、长链逻辑很强 生命科学:基因、蛋白质、药物研发方向分析(安全限制下) 5 )超级记忆 & 超长文本 100 万 token 上下文:相当于 75 万汉字,整本书 / 整个代码库直接丢进去 长任务中持续记忆、自我复盘、迭代优化,表现是 Opus 的 3 倍 ⚠️ 不擅长 / 不适合 日常聊天、简单问答、短文案:太贵、没必要(用 Sonnet/Opus 即可) 高风险领域(网络安全攻击、生物 / 化学危险物质、模型越狱):自动回退到 Opus 4.8 ✅ 一句话总结 Fable 5 = 顶级架构师 + 资深全栈 + 高级分析师 + 长期记忆大脑,专门干别人干不了、要很久、很复杂的活儿;简单事别用它,贵且浪费。 想体验 请来: https://wkele.kukuai.fyi/
Anthropic 发布 Claude Fable 5 与 Mythos 5,性能大幅跃升 Anthropic 推出面向普通用户的 Claude Fable 5,这是迄今能力最强的 Mythos 级模型。它在软件工程、知识工作、视觉和科研等基准上均达顶尖,价格比前代 Mythos Preview 低一半以上。为防滥用,内建分类器在涉及网络安全、生物化学等话题时改用 Opus 4.8 回复,约 95% 的会话不受影响。 同步发布的 Claude Mythos 5 对网络防御伙伴解除部分限制,号称拥有全球最强的网络安全能力。生物医学研究者也可通过信任计划在解除防护后使用。两款模型定价均为每百万输入 token 10 美元、输出 token 50 美元,不到 Mythos Preview 的一半。 via zaihuapd 16 个帖子 - 15 位参与者 阅读完整话题
昔日Claude、OAI、Gemini最强模型决战的场景不复存在了,如今只有几个落伍的旧模型还在苦苦支撑 7 个帖子 - 7 位参与者 阅读完整话题
有平时关注足球的佬吗,目前看下来好像是选阿根廷的最多,这次世界杯,他是纸面最强的吗,说是赢一场可以抽Token 3 个帖子 - 3 位参与者 阅读完整话题
让外界认为他们的模型跟kimi,glm,DeepSeek是一个水平的。 用了一堆狗屎一样,但公众号软广无处不在 7 个帖子 - 7 位参与者 阅读完整话题
本帖使用社区开源推广,符合推广要求。我申明并遵循社区要求的以下内容: 我的帖子已经打上 开源推广 标签: 是 我的开源项目完整开源,无未开源部分: 是 我的开源项目已链接认可 LINUX DO 社区: 是 我帖子内的项目介绍,AI生成、润色内容部分已截图发出: 是 以上选择我承诺是永久有效的,接受社区和佬友监督: 是 以下为项目介绍正文内容,AI生成、润色内容已使用截图方式发出 AI PPT赛道终结者,史上最最最强PPT Skill!!! 使用GPT生成豪华的图片格式PPT,然后转换为 完全可编辑 的PPTX文件,效果几乎完美。 本技能是个技能包,包含以下3个技能,可以拆分使用和优化: 技能 作用 输入 → 输出 GordenImagePPTGen 生成「图片格式的 PPT」 主题/内容 → 每页 .png + 图片型 .pptx GordenImage2PPTX 把「图片 PPT / 图片」还原成可编辑 pptx 图片 → 可编辑 .pptx(背景+骨架+图标+文本 四层) GordenSuperPPTSkill 打包编排前两者,依次执行 主题/内容 → 图片型 PPT + 可编辑 pptx 只要做图片版 PPT → GordenImagePPTGen 只把图片转可编辑 → GordenImage2PPTX 一键"先出图再转可编辑" / 未指定 → GordenSuperPPTSkill (A->B 串联) 效果展示 1、GordenImagePPTGen(Gorden的图片PPT生成技能)生成图片格式的PPT 2、GordenImage2PPTX(Gorden的图片转PPTX技能)把图片转换为完全可编辑的PPTX文件 如何使用 仅限订阅Codex使用。 第1步:把Github仓库地址发给Codex让他安装技能; Github地址: GitHub - GordenSun/GordenSuperPPTSkills · GitHub 第2步:按需使用。GPT 5.5模型,推理强度选"中"即可。 如果只生成图片格式PPT,提示词: 使用GordenImagePPTGen技能,生成一个N页的PPT,内容为XXX,要求PPT要求豪华、信息密度高、排版复杂 如果只想 把图片PPT转换成可编辑的PPTX文件 ,提示词: 把当前文件夹里的XXX.png,使用GordenImage2PPTX,还原成可编辑的PPT,必须严格遵循技能步骤 说明: 1)本技能仅适用于Codex,因为必须使用GPT生成图片和GPT的视觉能力,理论上Opus+GPT生图接口也可以实现,但是本技能没有做专门的适配。 2)图片转可编辑PPTX文件,比较费额度,转换1张图片大概耗费Plus订阅5小时额度的10%。 3)框架图默认是整体的一张图,也支持拆分成一个个独立的框架模块图,提示词里明确告诉Codex即可。 原理讲解 核心使用的是GPT的生图能力和视觉解析能力。 大致步骤是:依次提取PPT图片的背景图、框架图、图标和装饰图、文本。最后在PPT里按坐标拼装起来。当然为了实现完美的效果,做了很多细节验证和约束规则。 使用过程中,你能看到GPT生成的过程图片。 背景图 框架图 图标和装饰 以上,如果你用着觉得不错,记得给我的Github仓库点一个Star: GitHub - GordenSun/GordenSuperPPTSkills · GitHub 5 个帖子 - 4 位参与者 阅读完整话题
如图借助 Coding Tools MCP 总算是能把 OpenAI 的最强模型 GPT 5.5 Pro 用来编程了,就算是 Codex 里面都没有 5.5 Pro 能用,当然前提是你 ChatGPT 账号本身要有 5.5 Pro 模型的使用权限( Business 账号和 Pro 账号都有 5.5 Pro 模型可以用,Plus 用户没有)
如图借助 Coding Tools MCP 总算是能把 OpenAI 的最强模型 GPT 5.5 Pro 用来编程了,就算是 Codex 里面都没有 5.5 Pro 能用,当然前提是你 ChatGPT 账号本身要有 5.5 Pro 模型的使用权限( Business 账号和 Pro 账号都有 5.5 Pro 模型可以用,Plus 用户没有)
grok2api和CPA中都可以把grok反代出来 条件 不讨论代码,数学能力,只讨论搜索的广泛性,准确性,时效性。 不考虑grok 4.2 heavy 候选者 1.grok 4.2 expert :这个是我的super号grok2api出来的,根据思考链观察到,他有4agent能力:搜索的时候速度快,广度也还可以【写完才发现网页已经更新了grok 4.3 expert,但是grok2api的项目没有更新】 2.grok-4.20-multi-agent-xhigh :这个模型是在佬的公益站中看到的,我自己不知道如何选择xhigh这个选项,在CPA认证后,进入cherry调用, 并不能设置思考量。我本想进行对比测试却发现无法调用???也无法判断是否才有多agents的能力进行搜索 grok-4.20-multi-agent这个模型本身只能通过官方API才有的吗?supergrok的号好像用不了这个模型 有木有各位佬想出来的测试search能力的prompt可以发一下,我再测试一下。 没招,实在是强迫症想选个最好的,然后放到mcp里用 各位佬投票一下心目中的最强搜索模型 grok-4.3 grok-4.20-multi-agent-0309 点击以查看投票。 有佬反馈说4.3不能用agent,然后我看了一下网页的设置:如果4.3用不了多agent那他这个配置不就废了吗?网页版现在也用不了4.2了吧? 4 个帖子 - 4 位参与者 阅读完整话题
我现在记忆中最强的写作模型还是claude-opus-4-5。 现在有没有比claude-opus-4-5在写作方面更厉害的模型?还是说现在的模型在这个方面还比不过claude-opus-4-5? 9 个帖子 - 9 位参与者 阅读完整话题
IT之家 6 月 5 日消息,汽车媒体 gazzetta 昨日(6 月 4 日)发布博文,报道称奥迪在法国发布 Nuvolari 超级跑车,搭载插电混动系统, 0 到 100 km/h 加速 2.6 秒,极速超过 350 km/h。 外观方面,Nuvolari 首次在 Audi 公路车上采用完整 CFRP 碳纤维车身,并搭配铝制 Audi Space Frame。 64 个可动金属件组成的新 Singleframe 格栅,加上 3 段式主动尾翼,最高可带来 400 公斤下压力。 内饰方面,奥迪重点放在材料质感和驾驶专注度。深色前舱区域减少视觉干扰,显示区和控制区集中在驾驶者视野内。 动力系统采用插电混动设计,4.0 升 V8 双涡轮发动机可输出 800 马力,转速可达 10,000 转。车上还有 3 台轴向磁通电机,每台 150 马力,综合功率升至 1001 马力。 输出方面,Nuvolari 从 0 到 100 公里每小时只需 2.6 秒,0 到 200 公里每小时为 6.8 秒,最高车速超过 350 公里每小时。前轴 2 台电机负责四驱和扭矩矢量分配,另 1 台电机集成在双离合变速箱中。 新车全球限量 499 辆,官方价格未公布,预计超过 50 万欧元(IT之家注:现汇率约合 394.1 万元人民币)。