澳洲牧羊大叔随手写的三行 bash,11 天内被 OpenAI、Anthropic 和 Hermes 集体收编了。 一觉醒来,Claude Code 又更新! 为了让 Claude 持续工作直到任务完成,Claude Code 最近推出的新功能:/goal 。 你只要设定条件,Claude 不完成任务它绝不罢休! 用过 AI 编程工具的人都懂,这到底多重要! 你给 Agent 下了一个任务,它跑了三个回合,改了两个文件,突然停下来问你「接下来需要我做什么?」 不是,bug 你这还没修完呢啊! Agent 越来越聪明,写代码越来越快,但「从头到尾把一件事干完」这件事,到 2026 年初都没有一家能做到。 然后, 一位来自澳大利亚的牧羊大叔 Geoffrey Huntley,用三行 bash 解决了。 while :; do cat PROMPT.md | claude-code --continue done 他把它命名为 Ralph Loop ,致敬《辛普森一家》里那个永远搞不清状况但从不放弃的小孩 Ralph Wiggum。 逻辑极其粗暴,无限循环,反复把同一个 prompt 喂给 Agent。进度写在文件系统和 Git 历史里,上下文满了就开新实例,读文件接着干。 原始,不优雅,但十分有效。 有效到 OpenAI 看见了,Nous Research 看见了,Anthropic 也看见了。 11 天,三家顶级 AI 实验室,不约而同地把这三行 bash 写进了官方产品。 这一刻,所有人都明白了一件事 —— 通用人工智能的临门一脚,可能不是更聪明的模型,而是「把事做完」的模型。 换句话说,AI 编程的核心战场正在从「生成代码」转向「闭环交付」。 11 天,三条线,同一个终点 4 月 30 日,OpenAI 的 Codex 率先上线 / goal。 Greg Brockman 在 X 上只丢了一句,「Codex 现已内置 Ralph loop++」。 一周后,Hermes Agent 跟上。又过 4 天,Claude Code 也上了。 11 天。三家。同一个命令。同一个功能。 但实现路径,差了十万八千里。 Codex「不忘事」,Hermes「不烂尾」,Claude Code「不自欺」。 Codex: 把目标存成一条数据库记录 OpenAI 是三家里最先出手的,方案也最简洁。 在 Codex 里,/goal 是一个持久化的工作流对象,存在本地的 app-server 状态层里。 关掉终端、合上笔记本、甚至重启系统,目标都不会丢。下次打开 Codex,自动接上。 模型通过结构化的 update_goal 工具汇报进度状态,token 预算耗尽时触发「软着陆」而非硬停。 有人用这个功能连续跑了 14 个小时,中间暂停 5 小时去睡觉,回来 Codex 从断点续跑,把一个设备驱动项目做完了。 工程化,干净,但克制。 Hermes Agent: 一个人干不完,那就上一个团队 Hermes Agent 的野心最大。 在这里,/goal 只是冰山一角。真正的重头戏是多智能体看板系统,Hermes 把「让 AI 把活干完」从单 Agent 问题升级成了团队协作问题。 看板的底层是本地 SQLite,持久化存储,跨重启不丢。 你在上面创建一个任务卡片,Hermes 会直接把它拆成多个子任务,分配给不同的 Agent worker。每个 worker 是一个独立的 OS 进程,有自己的身份、模型配置和工作目录。 看板和 / goal 是两套互补的系统。/goal 管的是单个 Agent 的目标锁定(Ralph loop),看板管的是多个 Agent 之间的任务调度。一个纵向深入,一个横向铺开。 最后,是五层防烂尾机制。 第一层,心跳检测。 每个 worker 定期向看板报到,证明自己还活着。 第二层,僵尸回收。 worker 超时没响应?系统自动判定死亡,回收它手上的任务重新分配。macOS 上还有专门的达尔文僵尸检测逻辑。 第三层,退出拦截。 worker 没完成任务就退出了?系统自动把它标记为 blocked,不让它再接新活,防止「摸鱼型 Agent」反复领任务又不做。 第四层,幻觉拦截。 这是最狠的一层。AI 说「我做完了」不算数,系统会验证它实际产出的代码是否真的落盘了。Agent 说自己创建了一个文件但实际上没有?抓住,回滚,重来。 第五层,重试预算。 每个任务有独立的 max_retries,最多重试 N 次,超过就上报人类。绝对不会无限循环到死机。 Claude Code: 做事的人和验收的人,不能是同一个 Anthropic 是三家里最后出手的,但方案最巧妙。 本质上,Claude Code 的 / goal 是一个 session 级别的 Stop Hook。 你设定一个完成条件(比如「test / auth 目录下所有测试通过且 lint 无报错」),Claude 就开始干活。 关键设计在验收环节。每干完一轮,系统不让 Claude 自己判断「我做完了没有」。 它把对话记录和你的完成条件一起发给一个独立的小模型(默认是 Haiku),让这个小模型来裁判。 小模型如果觉得没完成,就需要返回一个具体理由(比如「 test_login.py 还有 2 个 failure」)。然后这个理由会被注入 Claude 下一轮的上下文,指导它接着干。 如果小模型认为完成了,目标就会自动清除,任务结束。 值得一提的是,这个裁判模型不调用任何工具,不读文件,不跑命令。它只看 Claude 在对话里产出的内容。 所以,你的完成条件必须是 Claude 在对话中能证明的东西。 它最长支持 4000 字符,因此你可以写得很细。 甚至,还可以在条件里加约束,比如「不修改其他测试文件」「20 轮内完成否则停止」等等。 决赛进行时:工作流入口 把视角拉远一步。 Claude Code 背后站着 Anthropic,Codex 背后站着 OpenAI,Hermes Agent 接入了两边的模型,同时也是 DeepSeek V4 等模型的主力分发渠道。 三条路径,恰好覆盖了 ASI 决赛的三个生态入口。 而他们争的,也是同一样东西 —— 工作流。 谁的 Agent 先让开发者养成「设完目标就走开」的习惯,谁就锁死了工作流入口。 因为习惯一旦形成,迁移成本是指数级的。 你不会轻易离开一个已经跑通了看板调度、断点续传、checkpoint 回滚的 Agent 基础设施。 一个看似很小的 / goal 命令,背后卡的是整条 Agent 工作流的护城河。 参考资料: https://code.claude.com/docs/en/goal https://github.com/NousResearch/hermes-agent/releases/tag/v2026.5.7 https://github.com/anthropics/claude-code/releases/tag/v2.1.139 https://developers.openai.com/codex/changelog 本文来自微信公众号: 新智元(ID:AI_era) ,作者:好困 KingZH
在国企沉淀久了,慢慢摸清了不少内里门道。就拿我们公司来说,人力资源部更像是形同虚设,日常核心工作基本只剩考勤统计;而真正手握实权、最不能得罪的当属财务部,把控着公司所有资金收支命脉,话语权举足轻重,其中缘由往后慢慢细说。 要说公司里最有分量的人物,非财务主任莫属,值得单独细说。先聊聊高层圈子的生态,简直堪比现实版宫斗剧。公司五位高层,三位男性、两位女性,常年暗流不断、纷争不休。 三位男领导里,排位老大、老二、老三各有格局。老二属于空降任职,到岗后权力被架空,基本处于边缘化状态,平日里也很少在岗履职。老大和老三私下各有私情(养了小三),各自扶持着身边人上位。老大的那位身边人晋升速度极快,一路顺风顺水如今已是部门主任;老三碍于各方制衡不敢太过张扬,悄悄扶持了一位部门副主任。 这两位女同事分属不同部门,彼此都不知道对方的特殊关系,私下里更是互相看不顺眼。其中一位有海外旅居经历,平日里总爱标榜国外生活,言语间带着几分崇洋心态,如今境外局势不稳,便也不再高调炫耀。另一位则是职场八卦达人,热衷打探同事私事、家庭琐事,还常年以风湿为由博取同情,时常借着养病的名义轻松请假休息。 两人(两位情人)都是十足的势利圆滑之人。老三因顾虑外界眼光行事相对低调收敛,而老大处事行事颇为自我(也极度自私),对内对外姿态高傲,遇上棘手事务便推给身边人(相好的)出面摆平。行事风格也十分刻意,从不周末赴约,专选周三以参加公务活动为借口外出私会,私下社交也偏爱结交高位人脉,实在让人难以理解审美与行事作风。 再单独说说这位财务主任,同样心思深沉、热衷争权逐利,处事极度势利。公司所有采购事项、对外款项支付,若是事前没有提前沟通,或是礼数不周、言语失礼,她便会在薪资奖金上暗中做文章。有人会疑惑,薪资发放明细清晰,动手脚岂不是很容易察觉?其实不然。公司薪资并非人力核算,全权由财务把控,每月固定发放的工资条只会小幅度调整,很难察觉;真正有操作空间的是年终奖金。年终奖从不公示核算明细,这就留下了很大漏洞。若是得罪了她,层级待遇直接颠倒:部门主任只能拿副主任级别的奖金,副主任反倒能拿到主任标准。即便主动前去问询,也得不到明确答复,只会被各种理由搪塞克扣,普通人根本无从核实核算标准。 再说公司两位女性高层,一位手握实权把控全局,一位备受排挤基本淡出管理事务。掌权这位颇有 “幕后掌舵者” 的气场,和大领导一唱红脸一唱白脸。大领导擅长扮作宽厚好人,她则充当强势执行者。二人还联手对接了外部第三方合作公司,变相占用本单位资金资源,而财务主任正是资金流转对接的关键人物,这也是她行事嚣张、底气十足的根本原因。即便有审计、巡视组多轮督查,也早已打通各方关系、打点周全,即便查出些许问题,也都是无伤大雅、可以轻易糊弄过去的小事,就连上级单位相关领导也早已被疏通打点。 这位掌权女高层在公司里行事强势,从人事任免、薪资核算、合作对接再到员工福利,全方位把控、暗中打压基层员工,还惯用职场 PUA 拿捏人心。也并非没有员工心生不满、试图发声,但最终都被层层压制。大领导身边人(情人)为其充当核心助力,财务主任配合撑腰充当副手,但凡有人不服管束,便会被刻意针对、处处为难。 纪律上国家有规定不能搞退而不休,这个单位就在眼皮子底下搞,没人管没人问,那个女高层和女财务都是本单位退休本单位返聘,退休依旧大权在握,无人问津,真是离谱至极。再者庞大的利益链令人发指。 越梳理越觉得,公司里的人情纠葛、权力纷争,完全能拍出一部完整版宫斗大戏。今天先暂且聊到这里,后续还有诸多细节,若是大家感兴趣,后续再慢慢更新续集。感谢各位驻足聆听~ 21 个帖子 - 20 位参与者 阅读完整话题
IT之家 4 月 19 日消息,Panic 公司将不再允许开发者在其 Playdate 应用商店 Catalog 上架使用生成式人工智能工具创作美术、音频、音乐、文本或对话内容的游戏作品。 该公司在 Bluesky 平台发布的帖子中同时确认,Playdate 第三季游戏合集(一款每周推出新游戏的付费游戏包)将不会收录任何以任何形式使用生成式人工智能开发的游戏。 此消息发布前,曾有一款名为《Wheelsprung》的游戏入选 Playdate 第二季游戏合集,该游戏在代码编写与文案创作环节借助了 GitHub Copilot 与 ChatGPT 等生成式人工智能工具。 据电子游戏杂志《Exp.》报道,Panic 公司表示,《Wheelsprung》之所以能通过审核,是因为公司当时完全没有想到第二季的合作开发者会使用大语言模型。Panic 联合创始人卡贝尔 · 萨瑟当时坦言:“现在回想起来,我们的想法太过天真,对此我们承担全部责任。” 如今,Panic 已发布官方人工智能使用声明,明确将禁止在 Playdate 应用商店中使用绝大多数形式的生成式人工智能,不过使用人工智能代码辅助工具的游戏作品可获得豁免。 声明中写道:“自 2026 年 4 月起,Catalog 应用商店将不再接受使用‘生成式人工智能’制作美术、音频、音乐、文本或对话内容的游戏作品。全球有众多创作者满怀热忱,愿意为你的 Playdate 游戏创作优质的音乐、美术与文字内容。” “…… 目前,所有此前已通过审核或已上线的、使用‘生成式人工智能’的 Catalog 商店游戏仍可正常下载,平台会对这类作品进行标注,并说明人工智能的具体使用方式。” “现阶段,我们允许在代码编写环节使用人工智能辅助工具的游戏登陆 Catalog 商店,但会对这类作品进行标注,并明确人工智能的使用程度(例如‘Lua 代码调试’),以便玩家自主选择是否支持。相关规则仍在持续讨论中,随时可能调整,后续如有变更,我们将更新本声明页面。” IT之家注意到,Panic 明确了其对生成式人工智能的界定范围,包括 ChatGPT、DeepSeek、Gemini 等大语言模型;Stable Diffusion、DALL-E 等人工智能图像生成模型;以及 MuseNet、Suno、Udio 等人工智能音频生成模型。该界定范围不包含为实现游戏内行为逻辑而编写的自定义功能代码。 相关阅读: 《 发布 3 年,创意掌机 Playdate 终于发货:搭载 2.7 寸黑白屏,内置 24 款独家游戏 》