Grill - WWW.YOUINFO.SITE - WWW.YOUINFO.SITE

分享一个保持主session干净且分支可控的AI且留有专门用于污染的session的工具，且兼容grillmedocs和Treills

LinuxDo 最新话题 · 2026-06-10 22:27:56+08:00 · tech

本帖使用社区开源推广，符合推广要求。我申明并遵循社区要求的以下内容：我的帖子已经打上开源推广标签：是我的开源项目完整开源，无未开源部分：是我的开源项目已链接认可 LINUX DO 社区：是我帖子内的项目介绍，AI生成、润色内容部分已截图发出：是以上选择我承诺是永久有效的，接受社区和佬友监督：是以下为项目介绍正文内容，AI生成、润色内容已使用截图方式发出 github.com GitHub - Jinghao67/conductor: Context conductor for clean master sessions, dirty... Context conductor for clean master sessions, dirty explainer sidecars, and interactive AI branches 作为一个既需要发论文（科研导向）又需要做项目（工程导向）的学生，我在使用ai的过程中，经常遇到下面几个问题： 1）主session污染问题：在一个session内和ai聊久了，主 session 很快会被需求讨论、实现细节、失败尝试、长篇解释、review 记录全部污染，最后自己也不知道哪个 session 是干什么的。在科研上，有了idea后需要做不同的实验去验证和实现，实验过程中涉及到配环境、调参等很容易让ai陷入局部最优而进行过度尝试污染上下文的问题。在工程上，很多工程也会涉及到这些问题，subagent由于其不可显示导致人为不可控且需要用户自己设计而过于繁琐。 2）无论是工程还是科研都来源于一个并不具体的想法，可以说：在完成整个项目的过程中，没有人对这个项目完全了解，这就需要有一个session能拿到所有session的context，来解答用户所有的问题，无论是什么问题，这个session就是用来污染的，且永远不会并入主session污染其他session。 3）过程文档至关重要，但是一个被污染的session总结出的过程文档往往是带有各种无意义信息，比如偏向用户让他给解释的概念、反复陈述各种试错的失败信息，显然这对于未来需要这份过程文档的人是噪音，所以如何维护一个无污染的过程文档至关重要。针对上述问题，我写了conductor，它的思路是把当前主对话变成一个永远干净的master session（用于自己需要理清项目逻辑、写过程文档等），只保留全局目标、关键决策、分支地图和批准后的子session的摘要；具体使用而言：使用时会先把当前对话设为干净的master session，如果需求不清楚，可以结合grill-me or grill-me-docs追问，等讨论清楚后，conductor会先做依赖分析，判断哪些任务可以并行，哪些必须串行等待。接着，它不会乱开session，而是先生成branch card，每张card写清这个分支要做什么，为什么开，允许带入哪些context，预期产物是什么，完成标准和return condition，只有用户确认后，才会开真正的branch session。最开始会有四个session。1）主session。2）专门用于问问题随便污染的session。3）讨论分多少branch，并行or串行的session。4）第一个branch session 进入branch session后，这个session只拿到自己的branch brief和已批准的master session的context，不会继承任何session的杂乱历史，用户可以在branch里继续交互实现任何东西，这解决了subagent不能交互的问题，这下每个子任务用户都可以及时纠偏，这些细节都会留在branch里，主session依然干净。当branch觉得任务完成后，不会自动合并，它会先建议完成，用户确认完成后，会生成总结，把这个session中过度的污染去掉但是把经验和正确的流程总结压缩，然后master session会询问用户是否合并，因为某些子任务必须合并进入主线，要么主线不完整，比如，在科研中，配环境复现paper的branch可以不合并，但是自己的重要实验必须要合并，不然主session会缺乏细节了解。如果使用Treills，conductor还会把master、branch、依赖关系、状态和产物路径持久化成parent/child tasks、branchmap和metadata，方便回看、回退和继续推进。整个流程的目标是：主session保持干净和主导，分支负责探索完成，专门留有一个有所有session context的session来让用户随意问问题讨论、污染。 6 个帖子 - 4 位参与者阅读完整话题

Matt pocock技能库使用经验分享。

LinuxDo 最新话题 · 2026-06-03 13:37:19+08:00 · tech

这段时间用mattpocock/skills搞了几个给自己用的小玩意，分享一点经验。啥最好用 grill-me/grill-with-docs 王者grill-me/grill-with-docs再次上线。这技能强就强在“达成共识”四个字，如果你的需求太宽泛，是真的会问到你神志不清的。我试过几次前面一些问题都还是会认真看，后面就摆烂直接开启Yes工程师模式了。但王者也需要注意一些点，grill-with-docs会记录文档，很好的设计，但文档在完成任务之后应该删掉，因为可能会与后续的需求产生冲突。我在WinTProxy（自己搞的一个Win平台透明代理）的重构就遇到了与文档冲突的问题。我想要用ndisapi取代WinDivert做数据包的捕获和改写以支持WSL和HyperV的二层NAT，但原有架构是多个Worker在三层做数据包的处理，当时留了个docs/adr文档，然后切换ndisapi就遭殃了，它工作在二层，然后NAT又会经过几个网卡，然后就重复捕获了好几次。 to-issues 这个技能的其中一个思想是很值得参考的，垂直切片。这要求任务划分是从端到端的划分，而不是层间划分。一个任务需要处理完一个需求从后端到前端的全部实现，有效反馈对于AGENTS来说是提效的一个重点。 diagnose 很好用的debug技能，上面那个问题最后就是用它找的，当然也算是我懒，主要是trace级别日志太多了，也懒得看。不过这个技能本身规范了一整套流程，有点啰嗦的。后来我自己改了一套更个人化的技能库，对这个技能就是砍掉了后面的修改和测试，只报告原因就行了，把修改和测试交给to-issues和tdd。 tdd 另一个王者，AGENTS时代大概tdd是最合适的了，要是再配上rust。什么叫做写完就结项？准确来说不是这个技能是王者，是测试驱动这种思想是王者。啥我不用这里列几个我不用的技能，不过mattpocock的技能库里面的engineering基本都很有用就是了。顺带一提，我自己魔改就是engineering剔除了triage，魔改了包括zoom-out在内的其他技能，然后加上了handoff做session交接。前置配置的Issue tracker 并不是说不好用，只是我认为做本地的文档会方便一点。但Matt pocock原来设计就是维护github上的项目的，所以并没有什么毛病，也就开头配置时候多个选择而已。 triage 这是搭配上面的Issue tracker用的，你如果是本地文档，你大概率不会用这个。因为你不可能先写个文档描述issue，然后再丢目录里面去排序吧！真的有人这样做吗？ zoom-out 这玩意就一句话，直接写提示词都行，没有什么工作流程之类的，所以本质上只是方便一点。魔改的话可以让它做些数据流图啊之类的，更清晰一点。一般咋用 grill-with-docs → prototype(optional) → to-prd → to-issues → tdd improve-codebase-architecture → prototype(optional) → to-prd → to-issues → tdd diagnose → tdd 这个to-prd → to-issues很多时候是形影不离的，一开始我认为这两个就该合并，但后来实际开发中发现，有时候不会去写prd的，一个明确的需求就直接拆分任务了。这两个技能拆分是有道理的。为啥用这 superpowers、trellis等这些其实都用过，有个共同的特点就是流程控制比较强，或者说比较重，穷鬼最喜欢省token了。 1 个帖子 - 1 位参与者阅读完整话题

我发现4.8还有一个特点就是: 倔!!!

LinuxDo 最新话题 · 2026-05-31 17:09:59+08:00 · tech

我在使用opus4.8(因为知识更加新一些)结合 grill-me这个skill帮助我清晰我毕业设计论文答辩的过程中,出现了如下图的问题(反复rewind无法跳过): claude opus 4.8大人,我就不能选你给的选项之外的吗 3 个帖子 - 3 位参与者阅读完整话题

grill-me恐怖如斯

LinuxDo 最新话题 · 2026-05-28 06:46:45+08:00 · tech

已经问了两百多个问题了,还在继续 19 个帖子 - 12 位参与者阅读完整话题

Grill me用法探讨原作者Matt的Grill教学

LinuxDo 最新话题 · 2026-05-26 00:03:09+08:00 · tech

使用上Grill me之后感觉特别享受拷打的过程，通过来回的拷问可以把很多没考虑到的点细化、补充进来，明确自己的方向。但是确实碰到过几次问了50多个问题，甚至同事说拷打了100个问题的场景，中间有很多问题，其实感觉完全回答不了，一般我就说先开始干吧，剩下的问题先落个文档，后面再问。刚看到x上Matt发了新的关于使用grill me的视频，看完觉得其中2个点对自己挺有启发的： 1.关于 [Low vs High Fidelity] 问题的处理：个人理解：低保真=粗颗粒度、方向性的问题高保真=具象、细节的问题；这里建议的是，因为高保真类的问题，他不是适合‘拷打’的，要是需要原型、更可视化的表达来决定，所以这里Matt建议是先用/Handoff，然后/Prototype,在/Handiff，然后继续/Grill。这个模式确实解答了我就是碰到不好回答的问题怎么去想清楚，然后又不打乱节奏，且把已经被拷问出来的结果做好了handoff。 2.关于 [Choosing the Right Scope] 范围的选择，这点也是，感觉某种程度上grill-me强化了我的完美主义，可能拷打百问后，定下的细节、设计看似在做近乎完美的设计，但是真以这个为goal干起来，结果拉了坨大的。再加上一旦问题过多，上下文窗口导致我们最初的问题最有价值的回答，最后也没有产生应有的价值。这个点也是给我自己提了一个醒，还是该干就干，AI是放大器，放大你的优点的时候，也会放大我的缺点与诸佬分享～以下是原文和有对应的skill地址 Matt 教学视频： 9 Things People Get Wrong With /grill-me and /grill-with-docs 里面提到的几个skill： Handoff Skill Prototype Skill 1 个帖子 - 1 位参与者阅读完整话题

已经要被Grill到神志不清了。

LinuxDo 最新话题 · 2026-05-25 15:36:42+08:00 · tech

Grill一个简单的翻译小工具，Grill了我已经四十多个问题了，它还要问。它怎么这么多问题？它怎么还能问我问题？它到底还要问多久？ 5 个帖子 - 4 位参与者阅读完整话题

哪位天才发现的grillme这个skill，真好用

LinuxDo 最新话题 · 2026-05-23 22:49:50+08:00 · tech

最近用了grill-me这个skill，真的解放我很多的脑细胞啊，不用费心费力想那么多边界条件和问题。大道至简的胜利, 一个神级skill推荐, 忘掉brainstorming吧开发调优最近发现一个神奇skill. mattpocock 的 /grill-me 内容非常精简，只有几句话，但效果出奇的好. 它的作用就是在你提出需求的时候，不断的质问你，和你理清需求. AI编程的第一原则就是清晰准确的描述需求. CC自带的plan中的提问功能, Superpowers里面的brainstorming, 其实都是在做这个事情, 和你理清楚需求再做计划. 需求越清晰, 执行效果… https://linux.do/t/topic/2084756 3 个帖子 - 3 位参与者阅读完整话题

grill-with-docs —— 比grill-me更强的plan Skill?

LinuxDo 最新话题 · 2026-05-23 14:05:27+08:00 · tech

grill-with-docs: skills/skills/engineering/grill-with-docs/SKILL.md at main · mattpocock/skills · GitHub grill-me: skills/skills/productivity/grill-me/SKILL.md at main · mattpocock/skills · GitHub 作者的文章: aihero.dev grill-with-docs: Align Before You Build Learn /grill-with-docs: combine AI interviewing with domain-driven design to build better codebases with shared language and less repetition. grill-me 的作者 Matt Pocock 最近发了个新skill grill-with-docs ，同时发了篇文讲述了一下它们的区别和选择。最大的不同就是grill-with-docs会在你敲定决策后把要点写进文档，解决了grill-me不会同步写文档容易丢上下文的问题。实际用下来个人感觉后者体验确实更好，不光询问当前的决策，还能看到后面的预览简而言之对于大部分的开发环境，grill-with-docs可以替掉grill-me。不过docs依赖于它生成的 CONTEXT.md 和 ADR 文档，转skill得先对接。可以用这段提示词来转: 我们之前用grill-me这个skill讨论了很多内容，现在准备切换到grill-with-docs这个skill，开始对接任务 1. 查看grill-with-docs SKILL.md中的内容 2. 回顾我们之前的讨论，提炼出最重要的领域概念、术语定义和决策 3. 参考grill-with-docs的工作流，生成 CONTEXT.md 和ADR文档，存储对话中的关键内容，进行切换skill的对接 4. 列出目前还开放的问题或需要进一步澄清的地方完成后，将用grill-with-docs替代grill-me继续后面的开发任务完成之后换新的skill，就不用担心grill的内容丢失的问题了 extra: grill-me并不是就没有用了，正如文中所说没有代码库，也就是非开发环境下grill-me用起来更好，如文章里提到的策划活动，商业模式推演之类，侧重于个人的 brainstorm 以及一些我个人的观点暴论 grill-with-docs会同步写文档，所以用起来会比较重，仓库结构也会更复杂，对于写新项目，或者是开发新功能时很好用；但对于小一点的模块，如在原有基础上添一个小补丁，或者是修规模小但难缠的bug时，grill-me用起来更快捷大型项目我是opus 4.7 & grill-with-docs规划，完成后再切gpt 5.5 xhigh写代码；对于第二种情况，可以直接用5.5 xhigh & grill-me解决。顺带一提我装了 trellis ，规范后切模型很丝滑 3 个帖子 - 3 位参与者阅读完整话题

成步堂Skill：美国豆包最严厉的父亲

LinuxDo 最新话题 · 2026-05-22 11:33:17+08:00 · tech

最近看到了一个skill grill-me ，参考生成了一个成步堂Skill 剧透 SKILL.md （点击了解更多详细信息） 1 个帖子 - 1 位参与者阅读完整话题

【开源推广】不想回答 grill-with-docs 的问题？交给subagent！

LinuxDo 最新话题 · 2026-05-21 16:58:22+08:00 · tech

本帖使用社区开源推广，符合推广要求。我申明并遵循社区要求的以下内容：我的帖子已经打上开源推广标签：是我的开源项目完整开源，无未开源部分：是我的开源项目已链接认可 LINUX DO 社区：是我帖子内的项目介绍，AI生成、润色内容部分已截图发出：是以上选择我承诺是永久有效的，接受社区和佬友监督：是以下为项目介绍正文内容，AI生成、润色内容已使用截图方式发出项目链接： github.com GitHub - Caph-dev/delegate-grill-with-docs: A skill to delegate grill-with-docs sessions to a... A skill to delegate grill-with-docs sessions to a subagent that answers the grilling questions on the user's behalf. 如果你用过 mattpocock 的 grill-with-me 或者 grill-with-docs 并且总是认同 LLM 基于这两个skills给出的推荐做法，与此同时对于一直回复“认同”“同意”“可以” 感到厌烦的话，这个skill一定适合你！这个skill会派生一个subagent，代替你为每个问题给出最佳回答；主agent接受subagent结果后，会继续推进讨论。最后把结论写回文档中。使用方法（需要显式调用，不会自动触发）使用 $delegate-grill-with-docs 对 @xxx-doc.md 做一次深入讨论，并把最终结论回写到原文档。安装方法：让你的agent帮你安装, 在对话框内输入: 安装这个skill: https://github.com/Caph-dev/delegate-grill-with-docs 6 个帖子 - 5 位参与者阅读完整话题

[分享发现] 从对齐到执行： grill-me + goal， AI 编码的完整工作流

v2ex · 2026-05-21 09:41:09+08:00 · tech

先想清楚，再放手让 agent 跑上一篇文章聊了 Matt Pocock 的 grill-me skill——用三句话让 agent 像一个严格的 reviewer 一样，把你的方案逐个分支追问到底。它解决的是 AI 编码最核心的问题：对齐。但对齐只是第一步。你花了半小时被灵魂拷问、做完了决策、写好了 PRD ，然后呢？还是得一句一句地跟 agent 说"接下来做这个"、"继续"、"跑一下测试"、"再改改"。这就像你跟一个新同事把需求讲得清清楚楚，然后每十分钟去他工位上说一句"干完了吗"。最近 Codex 和 Claude Code 填上了这个缺口，请更新到最新版。它们同时推出了 /goal 命令——你给 agent 一个明确的目标，它自己循环执行，直到完成或碰到需要你决策的阻塞点。 Grill-me 让你想清楚，/goal 让你放手。这两件事串起来，才是 AI 编码的完整工作流。下面可以看到,我的一个任务跑了 50 多分钟,我的这些 CLI 都是运行在服务器上的,意味着以后我只需要每天设置好任务,就可以让 AI 24 小时帮我去干活了! /goal 到底是什么一句话：**/goal 是一个持久化的执行目标，agent 会自主循环工作直到目标达成。** 以前的交互模式是：你：帮我修复搜索功能的 bug agent：找到问题了，是 XX 的原因，我改了 YY 你：跑一下测试 agent：测试通过了你：再检查一下性能有没有退化 ... 每一步都要你盯着、你推着。agent 做完一件事就停下来等你指示。 /goal 改变了这个模式： /goal 修复搜索功能的 bug ，直到所有测试通过且性能不退化 agent：（自主循环：分析 → 修复 → 测试 → 验证 → 调优 → 再验证...） agent：目标达成。改了 3 个文件，跑了 12 轮测试，最终延迟从 340ms 降到 89ms 它不是"让 agent 在后台跑"那么简单。它有完整的生命周期管理：状态机：pursuing → paused / achieved / unmet / budget-limited 预算控制：token 预算耗尽时优雅退出，不会乱花钱证据审计：agent 不能自己说"搞定了"就搞定，必须基于实际的测试结果、代码变更等证据暂停/恢复： /goal pause 暂停， /goal resume 继续，不丢失上下文两个平台如何开启? Codex 的 /goal Codex CLI 0.128.0 首先推出了 /goal ，背后是一个叫 "Ralph loop" 的模式——agent 在紧密的循环中工作，每次迭代读取当前状态、执行一个有界的动作、写下结果、退出，然后运行时检查是否继续。启用方式（目前需要手动开启 feature flag ）： # ~/.codex/config.toml [features] goals = true 用法： # 设定目标 /goal 修复 flaky 的 auth 测试，直到连续跑 10 次全部通过 # 管理生命周期 /goal # 查看当前目标状态 /goal pause # 暂停 /goal resume # 恢复 /goal clear # 清除 Codex 的实现有一个关键设计： completion 必须基于证据。agent 不能因为"我觉得差不多了"就标记完成。它必须对比目标和实际的文件变更、测试输出、benchmark 结果等具体证据，才能宣布达成。 Claude Code 的 /goal Claude Code 2.1.139 紧随其后加入了 /goal ，功能几乎对齐：交互模式：直接在 CLI 里用 /goal -p 模式：脚本化调用，适合 CI/CD Remote Control：远程会话中使用 Claude Code 的 /goal 还集成了 token 用量的实时显示——你可以看到 agent 跑了多少 token 、花了多长时间、进行了几轮迭代。如果发现 token 在烧但没进展，说明 agent 陷入了循环，该手动介入了。怎么写一个好的 Goal 不是所有任务都适合 /goal 。OpenAI 的官方指南给了一个清晰的判断标准：适合 /goal 的：下一步取决于当前学到了什么的任务。比如 debug 、性能优化、依赖迁移、flaky test 调查——你不知道具体要跑几步，但你知道什么时候算完成。不适合 /goal 的：一步就能搞定的事。改个变量名、加个注释、读一段代码——直接用普通 prompt 就行。一个好的 Goal 应该包含六件事：目标：什么状态算完成验证方式：用什么证据来证明完成约束：什么东西不能退化边界：只能动哪些文件/工具迭代策略：下一步怎么选阻塞处理：卡住了怎么办对比一下：弱的 Goal： /goal 修复搜索的 bug （ agent 不知道"修复"的定义是什么，不知道怎么验证，可能改了代码但没跑测试就宣布成功）强的 Goal： /goal 修复搜索功能中中文分词返回空结果的问题，验证标准是所有搜索相关测试通过且中文搜索"机器学习"返回至少 3 条结果。只改搜索服务相关代码，不动其他模块。如果改了核心分词逻辑，必须跑完整回归测试。如果卡在第三方库问题上，停止并报告依赖版本信息。（ agent 知道什么算成功、怎么验证、不能动什么、卡住了怎么办）串起来：从对齐到执行的完整流程这是我觉得最有价值的部分。grill-me 和 /goal 不是两个独立的工具，它们是同一个工作流的两个阶段。第一步：用 grill-me 想清楚 /grill-me 我想给搜索功能加上模糊匹配能力 agent 会开始追问：模糊匹配的容错级别是什么？一个字的错别字还是整个词？用什么算法？ Levenshtein ？ Jaccard ？还是 Elasticsearch 的 fuzzy query ？响应时间要求是多少？中文和英文的处理方式一样吗？是在现有搜索结果上加一层，还是作为独立的搜索模式？需要高亮匹配部分吗？每个问题都给出推荐答案，你只需要确认或调整。跑完一遍之后，你对要做的事情有了清晰的、完整的认知。第二步：用 /goal 自动执行 grill-me 跑完之后，你已经知道所有答案了。直接写 Goal： /goal 给搜索功能加上模糊匹配能力。具体要求： 1. 使用 Levenshtein 距离算法，容错 1 个字符 2. 中英文分别处理，中文按字符匹配，英文按词匹配 3. 响应时间不超过 200ms 4. 在现有搜索结果上叠加模糊匹配结果 5. 高亮匹配部分 6. 验证标准：所有搜索相关测试通过，新增模糊匹配测试覆盖中英文各 5 个 case 7. 只改搜索服务模块，不动其他服务然后就放手让 agent 跑。它会自己分析代码、设计方案、写代码、跑测试、修复问题、再测试，直到全部通过。完整流程对比以前：想个大概的方案直接让 agent 写看到结果不对，告诉 agent 改来回折腾 10 轮最后勉强能用，但很多细节是妥协的结果现在： grill-me 被追问 20 个问题，想清楚每个细节 /goal 设定明确目标和验证标准 agent 自己跑，你去做别的事回来看结果，跑通了就收货注意事项 token 消耗会更大。 /goal 的本质是让 agent 多跑很多轮，每轮都有 token 开销。特别是复杂任务，几百 K token 很正常。设好预算，盯着用量。不是所有 agent 都适合自主循环。如果你的项目很乱、测试覆盖很差、没有明确的验证手段，/goal 可能会跑偏。先把这些基础设施补上。 grill-me 的价值在于它强迫你精确。很多人觉得"我大概知道要做什么"就够了，但 agent 需要的是精确的、无歧义的目标。grill-me 帮你把"大概"变成"确定"。写在最后 2026 年的 AI 编码工具越来越像一个完整的工程系统，而不只是"帮我写代码"的自动化。grill-me 和 /goal 代表了两个方向：对齐的深度和执行的自主性。把这两个指令组合起来，你得到的不是"更快的代码生成"，而是一个真正能独立完成工程任务的 agent 。你负责决策，它负责执行。这可能才是 AI 编码该有的样子。

[分享发现] 从对齐到执行： grill-me + goal， AI 编码的完整工作流

v2ex · 2026-05-21 08:54:34+08:00 · tech

先想清楚，再放手让 agent 跑上一篇文章聊了 Matt Pocock 的 grill-me skill——用三句话让 agent 像一个严格的 reviewer 一样，把你的方案逐个分支追问到底。它解决的是 AI 编码最核心的问题：对齐。但对齐只是第一步。你花了半小时被灵魂拷问、做完了决策、写好了 PRD ，然后呢？还是得一句一句地跟 agent 说"接下来做这个"、"继续"、"跑一下测试"、"再改改"。这就像你跟一个新同事把需求讲得清清楚楚，然后每十分钟去他工位上说一句"干完了吗"。最近 Codex 和 Claude Code 填上了这个缺口，请更新到最新版。它们同时推出了 /goal 命令——你给 agent 一个明确的目标，它自己循环执行，直到完成或碰到需要你决策的阻塞点。 Grill-me 让你想清楚，/goal 让你放手。这两件事串起来，才是 AI 编码的完整工作流。下面可以看到,我的一个任务跑了 50 多分钟,我的这些 CLI 都是运行在服务器上的,意味着以后我只需要每天设置好任务,就可以让 AI 24 小时帮我去干活了! /goal 到底是什么一句话：**/goal 是一个持久化的执行目标，agent 会自主循环工作直到目标达成。** 以前的交互模式是：你：帮我修复搜索功能的 bug agent：找到问题了，是 XX 的原因，我改了 YY 你：跑一下测试 agent：测试通过了你：再检查一下性能有没有退化 ... 每一步都要你盯着、你推着。agent 做完一件事就停下来等你指示。 /goal 改变了这个模式： /goal 修复搜索功能的 bug ，直到所有测试通过且性能不退化 agent：（自主循环：分析 → 修复 → 测试 → 验证 → 调优 → 再验证...） agent：目标达成。改了 3 个文件，跑了 12 轮测试，最终延迟从 340ms 降到 89ms 它不是"让 agent 在后台跑"那么简单。它有完整的生命周期管理：状态机：pursuing → paused / achieved / unmet / budget-limited 预算控制：token 预算耗尽时优雅退出，不会乱花钱证据审计：agent 不能自己说"搞定了"就搞定，必须基于实际的测试结果、代码变更等证据暂停/恢复： /goal pause 暂停， /goal resume 继续，不丢失上下文两个平台如何开启? Codex 的 /goal Codex CLI 0.128.0 首先推出了 /goal ，背后是一个叫 "Ralph loop" 的模式——agent 在紧密的循环中工作，每次迭代读取当前状态、执行一个有界的动作、写下结果、退出，然后运行时检查是否继续。启用方式（目前需要手动开启 feature flag ）： # ~/.codex/config.toml [features] goals = true 用法： # 设定目标 /goal 修复 flaky 的 auth 测试，直到连续跑 10 次全部通过 # 管理生命周期 /goal # 查看当前目标状态 /goal pause # 暂停 /goal resume # 恢复 /goal clear # 清除 Codex 的实现有一个关键设计： completion 必须基于证据。agent 不能因为"我觉得差不多了"就标记完成。它必须对比目标和实际的文件变更、测试输出、benchmark 结果等具体证据，才能宣布达成。 Claude Code 的 /goal Claude Code 2.1.139 紧随其后加入了 /goal ，功能几乎对齐：交互模式：直接在 CLI 里用 /goal -p 模式：脚本化调用，适合 CI/CD Remote Control：远程会话中使用 Claude Code 的 /goal 还集成了 token 用量的实时显示——你可以看到 agent 跑了多少 token 、花了多长时间、进行了几轮迭代。如果发现 token 在烧但没进展，说明 agent 陷入了循环，该手动介入了。怎么写一个好的 Goal 不是所有任务都适合 /goal 。OpenAI 的官方指南给了一个清晰的判断标准：适合 /goal 的：下一步取决于当前学到了什么的任务。比如 debug 、性能优化、依赖迁移、flaky test 调查——你不知道具体要跑几步，但你知道什么时候算完成。不适合 /goal 的：一步就能搞定的事。改个变量名、加个注释、读一段代码——直接用普通 prompt 就行。一个好的 Goal 应该包含六件事：目标：什么状态算完成验证方式：用什么证据来证明完成约束：什么东西不能退化边界：只能动哪些文件/工具迭代策略：下一步怎么选阻塞处理：卡住了怎么办对比一下：弱的 Goal： /goal 修复搜索的 bug （ agent 不知道"修复"的定义是什么，不知道怎么验证，可能改了代码但没跑测试就宣布成功）强的 Goal： /goal 修复搜索功能中中文分词返回空结果的问题，验证标准是所有搜索相关测试通过且中文搜索"机器学习"返回至少 3 条结果。只改搜索服务相关代码，不动其他模块。如果改了核心分词逻辑，必须跑完整回归测试。如果卡在第三方库问题上，停止并报告依赖版本信息。（ agent 知道什么算成功、怎么验证、不能动什么、卡住了怎么办）串起来：从对齐到执行的完整流程这是我觉得最有价值的部分。grill-me 和 /goal 不是两个独立的工具，它们是同一个工作流的两个阶段。第一步：用 grill-me 想清楚 /grill-me 我想给搜索功能加上模糊匹配能力 agent 会开始追问：模糊匹配的容错级别是什么？一个字的错别字还是整个词？用什么算法？ Levenshtein ？ Jaccard ？还是 Elasticsearch 的 fuzzy query ？响应时间要求是多少？中文和英文的处理方式一样吗？是在现有搜索结果上加一层，还是作为独立的搜索模式？需要高亮匹配部分吗？每个问题都给出推荐答案，你只需要确认或调整。跑完一遍之后，你对要做的事情有了清晰的、完整的认知。第二步：用 /goal 自动执行 grill-me 跑完之后，你已经知道所有答案了。直接写 Goal： /goal 给搜索功能加上模糊匹配能力。具体要求： 1. 使用 Levenshtein 距离算法，容错 1 个字符 2. 中英文分别处理，中文按字符匹配，英文按词匹配 3. 响应时间不超过 200ms 4. 在现有搜索结果上叠加模糊匹配结果 5. 高亮匹配部分 6. 验证标准：所有搜索相关测试通过，新增模糊匹配测试覆盖中英文各 5 个 case 7. 只改搜索服务模块，不动其他服务然后就放手让 agent 跑。它会自己分析代码、设计方案、写代码、跑测试、修复问题、再测试，直到全部通过。完整流程对比以前：想个大概的方案直接让 agent 写看到结果不对，告诉 agent 改来回折腾 10 轮最后勉强能用，但很多细节是妥协的结果现在： grill-me 被追问 20 个问题，想清楚每个细节 /goal 设定明确目标和验证标准 agent 自己跑，你去做别的事回来看结果，跑通了就收货注意事项 token 消耗会更大。 /goal 的本质是让 agent 多跑很多轮，每轮都有 token 开销。特别是复杂任务，几百 K token 很正常。设好预算，盯着用量。不是所有 agent 都适合自主循环。如果你的项目很乱、测试覆盖很差、没有明确的验证手段，/goal 可能会跑偏。先把这些基础设施补上。 grill-me 的价值在于它强迫你精确。很多人觉得"我大概知道要做什么"就够了，但 agent 需要的是精确的、无歧义的目标。grill-me 帮你把"大概"变成"确定"。写在最后 2026 年的 AI 编码工具越来越像一个完整的工程系统，而不只是"帮我写代码"的自动化。grill-me 和 /goal 代表了两个方向：对齐的深度和执行的自主性。把这两个指令组合起来，你得到的不是"更快的代码生成"，而是一个真正能独立完成工程任务的 agent 。你负责决策，它负责执行。这可能才是 AI 编码该有的样子。

关于 grill-me 和 deep-interview 的使用讨论

LinuxDo 最新话题 · 2026-05-17 16:59:59+08:00 · tech

此前一直在 plan 前用 oh-my-claudecode 的 deep-interview skills，这个看起来流行于韩国人圈子，最开始是 Q00/ouroboros 搞的。今天用一次 grill-me 感觉比 deep-interview 问的太长，而且不像 deep-interview 有模糊的数值能大概预测何时能问完。让 gpt-5.5 去比较下，好像 grill-me 更适合放在 plan 后。 10 个帖子 - 7 位参与者阅读完整话题

在vscode 中的 claude code中如何使用这个grill me

LinuxDo 最新话题 · 2026-05-11 13:43:58+08:00 · tech

在vscode 中的 claude code中如何使用这个grill me 6 个帖子 - 3 位参与者阅读完整话题

好一个浓眉大眼的grill me,现在已经问了99个问题了，感觉距离结束遥遥无期

linux.do · 2026-05-06 16:52:36+08:00 · tech

4 个帖子 - 3 位参与者阅读完整话题

有必要使用 Claude code 吗

linux.do · 2026-05-06 15:46:31+08:00 · tech

现在的 workflow 是 grill-me + trellis，cc 来列 task 和 plan，cx 来执行（通过插件）。现在有个问题是 cc 只能用 glm-5，cx可以用gpt-5.5/5.4，是否直接用 cx 来 plan 和 task 会更好，佬们有什么建议吗？ 1 个帖子 - 1 位参与者阅读完整话题

吐了，grill me在codex下拷打了我80多个问题

linux.do · 2026-05-06 14:38:57+08:00 · tech

之前看好多佬在推荐这个skill，于是在codex下安装，并用gpt 5.4xhigh来收集一个智能研发体项目的需求。其实之前用了好多次，大多数情况下都是二三十个问题。但这次涉及的需求比较发散，但问的这80多个问题确实提出了好多有价值的点，但总体来说问题结构不是很清晰，有时候会突然跳跃。大多数情况下，无脑“好的继续”就够了。用这个插件确实会上瘾，为了方便使用，只好用我之前这个方案在手机上进行远程vibe，吃饭的时候，摸鱼的时候回答几条 6 个帖子 - 6 位参与者阅读完整话题

这个grillme还真有点东西

linux.do · 2026-04-30 23:25:50+08:00 · tech

我把grillme的机制融入到了我的cs-brainstorm里了，然后我发现了一个很好用的用法。情景就是：我确实很有想法，想法多到我自己都记不住，这样的话我很难完整地交代给AI。grillme就能让AI一直问，然后我一直输出，太爽了太爽了。爽到最后AI都说要不要停一停去开干，然后我说我就会讲还没交代完，继续grillme。它就惨兮兮得继续问我哈哈哈！太爽了。 1 个帖子 - 1 位参与者阅读完整话题

大道至简的胜利, 一个神级skill推荐, 忘掉brainstorming吧

linux.do · 2026-04-28 09:00:35+08:00 · tech

最近发现一个神奇skill. mattpocock 的 /grill-me github.com/mattpocock/skills grill-me/SKILL.md main --- name: grill-me description: Interview the user relentlessly about a plan or design until reaching shared understanding, resolving each branch of the decision tree. Use when user wants to stress-test a plan, get grilled on their design, or mentions "grill me". --- Interview me relentlessly about every aspect of this plan until we reach a shared understanding. Walk down each branch of the design tree, resolving dependencies between decisions one-by-one. For each question, provide your recommended answer. Ask the questions one at a time. If a question can be answered by exploring the codebase, explore the codebase instead. 内容非常精简，只有几句话，但效果出奇的好. 它的作用就是在你提出需求的时候，不断的质问你，和你理清需求. AI编程的第一原则就是清晰准确的描述需求 . CC自带的 plan 中的提问功能, Superpowers里面的 brainstorming , 其实都是在做这个事情, 和你理清楚需求再做计划. 需求越清晰, 执行效果才会越好. `griil-me` 也是在做这个事情, 通过对你刨根问底的深入追问来理清需求. 对需求和做计划时慢一点，实现时才能快一点, AI编程时请记住慢就是快! 实测 /grill-me > /brainstorming > /plan , grill-me的提问是最多的, 远多于另外两个工具. 实测对比为了对比grill-me和brainstorming, 我对这两个skill问了一个非常复杂的项目级重构, 大概需要处理几十个文件的移动和重构, 非常多需要确认的细节(某个文件要挪到哪里/跨模块如何处理依赖/如何处理循环依赖/测试要不要跟着重构/某些函数要合并/哪些模块要解耦) grill-me问得非常详细, 问了我差不多20个问题, 花了半个小时, 后者只问了七八个问题. 最终用grill-me的计划, 执行起来一遍过, 100+测试全通过 brainstorming跑起来比较唬人，又是调研又是subagent，但最终产出的计划文档并没有grill-me好具体表现在前者会生成更加详细的操作步骤, 并且看起来就非常的清晰, 而后者生成的计划文档步骤更少, 更糙一点 grill-me 这个skill的prompt非常的精简，所以能把尽可能多上下文空间留给后面的逻辑, 这一点本身就是巨大的优势当然也有缺点, 逻辑比较简单，只做了提问，甚至问完都不会自己把文档写下来. 所以请大家问完问题之后，务必让他写入到计划文档md . 然后清空上下文之后再执行这个计划, 这样才能保持最干净的上下文建议grill-me生成之后再让他review一遍, 或者让brainstorming Review一遍交叉验证, 我交叉验证的时候发现grill-me的计划中漏处理一个文件, 不过问题不大关于AI编程框架, 晚点我会再开新贴分享一个最近思考的暴论 5 个帖子 - 4 位参与者阅读完整话题

/tag/Grill