WWW.YOUINFO.SITE
标签聚合 engineering

/tag/engineering

v2ex · 2026-06-10 23:05:16+08:00 · tech

分享个自己做的东西。 问题 用 AI 写代码越来越爽,但也越来越烦。主要几个痛点: 1. 你变成了人肉 QA Claude 说"搞定了",你一跑全是 bug 。然后进入死循环:测→报→修→测→报→修…… 明明是让它帮你省时间的,结果你的时间全花在当测试员上了。 2. 完全黑盒 让它搞个复杂点的东西,跑了 20 分钟,你完全不知道它到哪了、在干什么、卡住了没有。 3. 失忆 换个 session 、compact 一下、context 太长被截断——它就忘了项目是什么、之前做了什么决定、代码为什么这么写。下次对话从零开始解释。 4. 偷工减料 你让它写个完整功能,它可能跳过测试、不做错误处理、架构随便搞。你不盯着它就不老实。 我的方案 拿 Claude Code 的 dynamic workflow 做了个强制流水线。你给一句话需求,它必须走完 9 个阶段才交付: /lightsout 用 Express + SQLite + React 做个看板应用,支持拖拽、标签、到期提醒 然后它自动跑: 需求编写 → 独立 agent 审查(不过就打回重写) 交互设计 → 独立 agent 审查 技术架构 → 独立 agent 审查 一致性检查 → 三份文档互相对不上的地方找出来修掉 测试用例设计 → 写代码之前先把测试想清楚 写代码 → 自主决定要不要拆分并行(全栈项目自动拆前后端) QA → 跑测试,没过就自己修,最多 5 轮 E2E 验证 → 真的把应用跑起来试 最终检查 → 需求文档 vs 实际代码逐条对比,有遗漏就补 全程你不需要介入。跑完之后你拿到的是: src/ # 能跑的代码 tests/ # 测试全过 docs/ spec.md # 产品需求(每个功能的场景、错误处理都写了) design.md # 交互设计 architecture.md # 技术架构( ADR 、模块划分、技术选型理由) test-cases.md # 测试设计 这些文档是项目的"记忆"——下次开新 session ,agent 读一遍 docs/ 就知道项目全貌,不用你重新解释。 核心设计 写的人和审的人必须是不同 agent 。 自己审自己肯定放水。拆开之后质量真的不一样——reviewer 会挑出 writer 自己看不到的问题。 文档先行,代码最后。 不是先写代码再补文档,而是需求、设计、架构全部写完审完了再动手。这样写出来的代码有据可依,测试有的放矢。 代码阶段自己决定策略。 简单项目(比如命令行工具)一个 agent 自己 TDD 搞定。复杂项目(全栈应用)它会自动拆分模块,先搞 shared types ,然后前后端并行开发,最后自己跑集成测试。 每个环节自带修复循环。 审查没过?打回重写。测试挂了?自己修。最多 5 轮。不需要你介入指挥。 实测数据 跑了 4 个全新项目: 项目 类型 测试数 结果 批量文件重命名工具 Python CLI 67 个测试 一次通过 实时 Markdown 编辑器 Express + React + WebSocket 66 个测试 1 轮修复后通过 个人记账 API + Dashboard FastAPI + React 50 个测试 一次通过 看板应用 Express + React + 拖拽 — 一次通过 每个项目都手动验证过——真的能跑,功能正常。 代价 本质上这东西是拿 token 换你的时间和精力。每次跑 30-50 个 agent call ,45 分钟到 2 小时不等。如果这个 token 开销让你肉疼,那可能不适合你。但如果你有公司报销,或者你觉得自己的注意力比 token 值钱——与其花一小时盯着它干活、测 bug 、来回沟通,不如让它自己跑完所有环节,你回来看成品——那这个 trade-off 就很值。 Repo GitHub: https://github.com/DreamChaserEric/claude-lights-out 一行安装: curl -fsSL https://raw.githubusercontent.com/DreamChaserEric/claude-lights-out/main/install.sh | bash 需要 Claude Code 且支持 workflow 功能。 欢迎反馈。

v2ex · 2026-06-10 22:39:40+08:00 · tech

分享个自己做的东西。 问题 用 AI 写代码越来越爽,但也越来越烦。主要几个痛点: 1. 你变成了人肉 QA Claude 说"搞定了",你一跑全是 bug 。然后进入死循环:测→报→修→测→报→修…… 明明是让它帮你省时间的,结果你的时间全花在当测试员上了。 2. 完全黑盒 让它搞个复杂点的东西,跑了 20 分钟,你完全不知道它到哪了、在干什么、卡住了没有。 3. 失忆 换个 session 、compact 一下、context 太长被截断——它就忘了项目是什么、之前做了什么决定、代码为什么这么写。下次对话从零开始解释。 4. 偷工减料 你让它写个完整功能,它可能跳过测试、不做错误处理、架构随便搞。你不盯着它就不老实。 我的方案 拿 Claude Code 的 dynamic workflow 做了个强制流水线。你给一句话需求,它必须走完 9 个阶段才交付: /lightsout 用 Express + SQLite + React 做个看板应用,支持拖拽、标签、到期提醒 然后它自动跑: 需求编写 → 独立 agent 审查(不过就打回重写) 交互设计 → 独立 agent 审查 技术架构 → 独立 agent 审查 一致性检查 → 三份文档互相对不上的地方找出来修掉 测试用例设计 → 写代码之前先把测试想清楚 写代码 → 自主决定要不要拆分并行(全栈项目自动拆前后端) QA → 跑测试,没过就自己修,最多 5 轮 E2E 验证 → 真的把应用跑起来试 最终检查 → 需求文档 vs 实际代码逐条对比,有遗漏就补 全程你不需要介入。跑完之后你拿到的是: src/ # 能跑的代码 tests/ # 测试全过 docs/ spec.md # 产品需求(每个功能的场景、错误处理都写了) design.md # 交互设计 architecture.md # 技术架构( ADR 、模块划分、技术选型理由) test-cases.md # 测试设计 这些文档是项目的"记忆"——下次开新 session ,agent 读一遍 docs/ 就知道项目全貌,不用你重新解释。 核心设计 写的人和审的人必须是不同 agent 。 自己审自己肯定放水。拆开之后质量真的不一样——reviewer 会挑出 writer 自己看不到的问题。 文档先行,代码最后。 不是先写代码再补文档,而是需求、设计、架构全部写完审完了再动手。这样写出来的代码有据可依,测试有的放矢。 代码阶段自己决定策略。 简单项目(比如命令行工具)一个 agent 自己 TDD 搞定。复杂项目(全栈应用)它会自动拆分模块,先搞 shared types ,然后前后端并行开发,最后自己跑集成测试。 每个环节自带修复循环。 审查没过?打回重写。测试挂了?自己修。最多 5 轮。不需要你介入指挥。 实测数据 跑了 4 个全新项目: 项目 类型 测试数 结果 批量文件重命名工具 Python CLI 67 个测试 一次通过 实时 Markdown 编辑器 Express + React + WebSocket 66 个测试 1 轮修复后通过 个人记账 API + Dashboard FastAPI + React 50 个测试 一次通过 看板应用 Express + React + 拖拽 — 一次通过 每个项目都手动验证过——真的能跑,功能正常。 代价 本质上这东西是拿 token 换你的时间和精力。每次跑 30-50 个 agent call ,45 分钟到 2 小时不等。如果这个 token 开销让你肉疼,那可能不适合你。但如果你有公司报销,或者你觉得自己的注意力比 token 值钱——与其花一小时盯着它干活、测 bug 、来回沟通,不如让它自己跑完所有环节,你回来看成品——那这个 trade-off 就很值。 Repo GitHub: https://github.com/DreamChaserEric/claude-lights-out 一行安装: curl -fsSL https://raw.githubusercontent.com/DreamChaserEric/claude-lights-out/main/install.sh | bash 需要 Claude Code 且支持 workflow 功能。 欢迎反馈。

v2ex · 2026-06-10 21:05:38+08:00 · tech

分享个自己做的东西。 问题 用 AI 写代码越来越爽,但也越来越烦。主要几个痛点: 1. 你变成了人肉 QA Claude 说"搞定了",你一跑全是 bug 。然后进入死循环:测→报→修→测→报→修…… 明明是让它帮你省时间的,结果你的时间全花在当测试员上了。 2. 完全黑盒 让它搞个复杂点的东西,跑了 20 分钟,你完全不知道它到哪了、在干什么、卡住了没有。 3. 失忆 换个 session 、compact 一下、context 太长被截断——它就忘了项目是什么、之前做了什么决定、代码为什么这么写。下次对话从零开始解释。 4. 偷工减料 你让它写个完整功能,它可能跳过测试、不做错误处理、架构随便搞。你不盯着它就不老实。 我的方案 拿 Claude Code 的 dynamic workflow 做了个强制流水线。你给一句话需求,它必须走完 9 个阶段才交付: /lightsout 用 Express + SQLite + React 做个看板应用,支持拖拽、标签、到期提醒 然后它自动跑: 需求编写 → 独立 agent 审查(不过就打回重写) 交互设计 → 独立 agent 审查 技术架构 → 独立 agent 审查 一致性检查 → 三份文档互相对不上的地方找出来修掉 测试用例设计 → 写代码之前先把测试想清楚 写代码 → 自主决定要不要拆分并行(全栈项目自动拆前后端) QA → 跑测试,没过就自己修,最多 5 轮 E2E 验证 → 真的把应用跑起来试 最终检查 → 需求文档 vs 实际代码逐条对比,有遗漏就补 全程你不需要介入。跑完之后你拿到的是: src/ # 能跑的代码 tests/ # 测试全过 docs/ spec.md # 产品需求(每个功能的场景、错误处理都写了) design.md # 交互设计 architecture.md # 技术架构( ADR 、模块划分、技术选型理由) test-cases.md # 测试设计 这些文档是项目的"记忆"——下次开新 session ,agent 读一遍 docs/ 就知道项目全貌,不用你重新解释。 核心设计 写的人和审的人必须是不同 agent 。 自己审自己肯定放水。拆开之后质量真的不一样——reviewer 会挑出 writer 自己看不到的问题。 文档先行,代码最后。 不是先写代码再补文档,而是需求、设计、架构全部写完审完了再动手。这样写出来的代码有据可依,测试有的放矢。 代码阶段自己决定策略。 简单项目(比如命令行工具)一个 agent 自己 TDD 搞定。复杂项目(全栈应用)它会自动拆分模块,先搞 shared types ,然后前后端并行开发,最后自己跑集成测试。 每个环节自带修复循环。 审查没过?打回重写。测试挂了?自己修。最多 5 轮。不需要你介入指挥。 实测数据 跑了 4 个全新项目: 项目 类型 测试数 结果 批量文件重命名工具 Python CLI 67 个测试 一次通过 实时 Markdown 编辑器 Express + React + WebSocket 66 个测试 1 轮修复后通过 个人记账 API + Dashboard FastAPI + React 50 个测试 一次通过 看板应用 Express + React + 拖拽 — 一次通过 每个项目都手动验证过——真的能跑,功能正常。 代价 本质上这东西是拿 token 换你的时间和精力。每次跑 30-50 个 agent call ,45 分钟到 2 小时不等。如果这个 token 开销让你肉疼,那可能不适合你。但如果你有公司报销,或者你觉得自己的注意力比 token 值钱——与其花一小时盯着它干活、测 bug 、来回沟通,不如让它自己跑完所有环节,你回来看成品——那这个 trade-off 就很值。 Repo GitHub: https://github.com/DreamChaserEric/claude-lights-out 一行安装: curl -fsSL https://raw.githubusercontent.com/DreamChaserEric/claude-lights-out/main/install.sh | bash 需要 Claude Code 且支持 workflow 功能。 欢迎反馈。

v2ex · 2026-06-10 21:05:38+08:00 · tech

分享个自己做的东西。 问题 用 AI 写代码越来越爽,但也越来越烦。主要几个痛点: 1. 你变成了人肉 QA Claude 说"搞定了",你一跑全是 bug 。然后进入死循环:测→报→修→测→报→修…… 明明是让它帮你省时间的,结果你的时间全花在当测试员上了。 2. 完全黑盒 让它搞个复杂点的东西,跑了 20 分钟,你完全不知道它到哪了、在干什么、卡住了没有。 3. 失忆 换个 session 、compact 一下、context 太长被截断——它就忘了项目是什么、之前做了什么决定、代码为什么这么写。下次对话从零开始解释。 4. 偷工减料 你让它写个完整功能,它可能跳过测试、不做错误处理、架构随便搞。你不盯着它就不老实。 我的方案 拿 Claude Code 的 dynamic workflow 做了个强制流水线。你给一句话需求,它必须走完 9 个阶段才交付: /lightsout 用 Express + SQLite + React 做个看板应用,支持拖拽、标签、到期提醒 然后它自动跑: 需求编写 → 独立 agent 审查(不过就打回重写) 交互设计 → 独立 agent 审查 技术架构 → 独立 agent 审查 一致性检查 → 三份文档互相对不上的地方找出来修掉 测试用例设计 → 写代码之前先把测试想清楚 写代码 → 自主决定要不要拆分并行(全栈项目自动拆前后端) QA → 跑测试,没过就自己修,最多 5 轮 E2E 验证 → 真的把应用跑起来试 最终检查 → 需求文档 vs 实际代码逐条对比,有遗漏就补 全程你不需要介入。跑完之后你拿到的是: src/ # 能跑的代码 tests/ # 测试全过 docs/ spec.md # 产品需求(每个功能的场景、错误处理都写了) design.md # 交互设计 architecture.md # 技术架构( ADR 、模块划分、技术选型理由) test-cases.md # 测试设计 这些文档是项目的"记忆"——下次开新 session ,agent 读一遍 docs/ 就知道项目全貌,不用你重新解释。 核心设计 写的人和审的人必须是不同 agent 。 自己审自己肯定放水。拆开之后质量真的不一样——reviewer 会挑出 writer 自己看不到的问题。 文档先行,代码最后。 不是先写代码再补文档,而是需求、设计、架构全部写完审完了再动手。这样写出来的代码有据可依,测试有的放矢。 代码阶段自己决定策略。 简单项目(比如命令行工具)一个 agent 自己 TDD 搞定。复杂项目(全栈应用)它会自动拆分模块,先搞 shared types ,然后前后端并行开发,最后自己跑集成测试。 每个环节自带修复循环。 审查没过?打回重写。测试挂了?自己修。最多 5 轮。不需要你介入指挥。 实测数据 跑了 4 个全新项目: 项目 类型 测试数 结果 批量文件重命名工具 Python CLI 67 个测试 一次通过 实时 Markdown 编辑器 Express + React + WebSocket 66 个测试 1 轮修复后通过 个人记账 API + Dashboard FastAPI + React 50 个测试 一次通过 看板应用 Express + React + 拖拽 — 一次通过 每个项目都手动验证过——真的能跑,功能正常。 代价 本质上这东西是拿 token 换你的时间和精力。每次跑 30-50 个 agent call ,45 分钟到 2 小时不等。如果这个 token 开销让你肉疼,那可能不适合你。但如果你有公司报销,或者你觉得自己的注意力比 token 值钱——与其花一小时盯着它干活、测 bug 、来回沟通,不如让它自己跑完所有环节,你回来看成品——那这个 trade-off 就很值。 Repo GitHub: https://github.com/DreamChaserEric/claude-lights-out 一行安装: curl -fsSL https://raw.githubusercontent.com/DreamChaserEric/claude-lights-out/main/install.sh | bash 需要 Claude Code 且支持 workflow 功能。 欢迎反馈。

v2ex · 2026-06-10 19:26:12+08:00 · tech

分享个自己做的东西。 问题 用 AI 写代码越来越爽,但也越来越烦。主要几个痛点: 1. 你变成了人肉 QA Claude 说"搞定了",你一跑全是 bug 。然后进入死循环:测→报→修→测→报→修…… 明明是让它帮你省时间的,结果你的时间全花在当测试员上了。 2. 完全黑盒 让它搞个复杂点的东西,跑了 20 分钟,你完全不知道它到哪了、在干什么、卡住了没有。 3. 失忆 换个 session 、compact 一下、context 太长被截断——它就忘了项目是什么、之前做了什么决定、代码为什么这么写。下次对话从零开始解释。 4. 偷工减料 你让它写个完整功能,它可能跳过测试、不做错误处理、架构随便搞。你不盯着它就不老实。 我的方案 拿 Claude Code 的 dynamic workflow 做了个强制流水线。你给一句话需求,它必须走完 9 个阶段才交付: /lightsout 用 Express + SQLite + React 做个看板应用,支持拖拽、标签、到期提醒 然后它自动跑: 需求编写 → 独立 agent 审查(不过就打回重写) 交互设计 → 独立 agent 审查 技术架构 → 独立 agent 审查 一致性检查 → 三份文档互相对不上的地方找出来修掉 测试用例设计 → 写代码之前先把测试想清楚 写代码 → 自主决定要不要拆分并行(全栈项目自动拆前后端) QA → 跑测试,没过就自己修,最多 5 轮 E2E 验证 → 真的把应用跑起来试 最终检查 → 需求文档 vs 实际代码逐条对比,有遗漏就补 全程你不需要介入。跑完之后你拿到的是: src/ # 能跑的代码 tests/ # 测试全过 docs/ spec.md # 产品需求(每个功能的场景、错误处理都写了) design.md # 交互设计 architecture.md # 技术架构( ADR 、模块划分、技术选型理由) test-cases.md # 测试设计 这些文档是项目的"记忆"——下次开新 session ,agent 读一遍 docs/ 就知道项目全貌,不用你重新解释。 核心设计 写的人和审的人必须是不同 agent 。 自己审自己肯定放水。拆开之后质量真的不一样——reviewer 会挑出 writer 自己看不到的问题。 文档先行,代码最后。 不是先写代码再补文档,而是需求、设计、架构全部写完审完了再动手。这样写出来的代码有据可依,测试有的放矢。 代码阶段自己决定策略。 简单项目(比如命令行工具)一个 agent 自己 TDD 搞定。复杂项目(全栈应用)它会自动拆分模块,先搞 shared types ,然后前后端并行开发,最后自己跑集成测试。 每个环节自带修复循环。 审查没过?打回重写。测试挂了?自己修。最多 5 轮。不需要你介入指挥。 实测数据 跑了 4 个全新项目: 项目 类型 测试数 结果 批量文件重命名工具 Python CLI 67 个测试 一次通过 实时 Markdown 编辑器 Express + React + WebSocket 66 个测试 1 轮修复后通过 个人记账 API + Dashboard FastAPI + React 50 个测试 一次通过 看板应用 Express + React + 拖拽 — 一次通过 每个项目都手动验证过——真的能跑,功能正常。 代价 本质上这东西是拿 token 换你的时间和精力。每次跑 30-50 个 agent call ,45 分钟到 2 小时不等。如果这个 token 开销让你肉疼,那可能不适合你。但如果你有公司报销,或者你觉得自己的注意力比 token 值钱——与其花一小时盯着它干活、测 bug 、来回沟通,不如让它自己跑完所有环节,你回来看成品——那这个 trade-off 就很值。 Repo GitHub: https://github.com/DreamChaserEric/claude-lights-out 一行安装: curl -fsSL https://raw.githubusercontent.com/DreamChaserEric/claude-lights-out/main/install.sh | bash 需要 Claude Code 且支持 workflow 功能。 欢迎反馈。

v2ex · 2026-06-10 19:15:21+08:00 · tech

分享个自己做的东西。 问题 用 AI 写代码越来越爽,但也越来越烦。主要几个痛点: 1. 你变成了人肉 QA Claude 说"搞定了",你一跑全是 bug 。然后进入死循环:测→报→修→测→报→修…… 明明是让它帮你省时间的,结果你的时间全花在当测试员上了。 2. 完全黑盒 让它搞个复杂点的东西,跑了 20 分钟,你完全不知道它到哪了、在干什么、卡住了没有。 3. 失忆 换个 session 、compact 一下、context 太长被截断——它就忘了项目是什么、之前做了什么决定、代码为什么这么写。下次对话从零开始解释。 4. 偷工减料 你让它写个完整功能,它可能跳过测试、不做错误处理、架构随便搞。你不盯着它就不老实。 我的方案 拿 Claude Code 的 dynamic workflow 做了个强制流水线。你给一句话需求,它必须走完 9 个阶段才交付: /lightsout 用 Express + SQLite + React 做个看板应用,支持拖拽、标签、到期提醒 然后它自动跑: 需求编写 → 独立 agent 审查(不过就打回重写) 交互设计 → 独立 agent 审查 技术架构 → 独立 agent 审查 一致性检查 → 三份文档互相对不上的地方找出来修掉 测试用例设计 → 写代码之前先把测试想清楚 写代码 → 自主决定要不要拆分并行(全栈项目自动拆前后端) QA → 跑测试,没过就自己修,最多 5 轮 E2E 验证 → 真的把应用跑起来试 最终检查 → 需求文档 vs 实际代码逐条对比,有遗漏就补 全程你不需要介入。跑完之后你拿到的是: src/ # 能跑的代码 tests/ # 测试全过 docs/ spec.md # 产品需求(每个功能的场景、错误处理都写了) design.md # 交互设计 architecture.md # 技术架构( ADR 、模块划分、技术选型理由) test-cases.md # 测试设计 这些文档是项目的"记忆"——下次开新 session ,agent 读一遍 docs/ 就知道项目全貌,不用你重新解释。 核心设计 写的人和审的人必须是不同 agent 。 自己审自己肯定放水。拆开之后质量真的不一样——reviewer 会挑出 writer 自己看不到的问题。 文档先行,代码最后。 不是先写代码再补文档,而是需求、设计、架构全部写完审完了再动手。这样写出来的代码有据可依,测试有的放矢。 代码阶段自己决定策略。 简单项目(比如命令行工具)一个 agent 自己 TDD 搞定。复杂项目(全栈应用)它会自动拆分模块,先搞 shared types ,然后前后端并行开发,最后自己跑集成测试。 每个环节自带修复循环。 审查没过?打回重写。测试挂了?自己修。最多 5 轮。不需要你介入指挥。 实测数据 跑了 4 个全新项目: 项目 类型 测试数 结果 批量文件重命名工具 Python CLI 67 个测试 一次通过 实时 Markdown 编辑器 Express + React + WebSocket 66 个测试 1 轮修复后通过 个人记账 API + Dashboard FastAPI + React 50 个测试 一次通过 看板应用 Express + React + 拖拽 — 一次通过 每个项目都手动验证过——真的能跑,功能正常。 代价 本质上这东西是拿 token 换你的时间和精力。每次跑 30-50 个 agent call ,45 分钟到 2 小时不等。如果这个 token 开销让你肉疼,那可能不适合你。但如果你有公司报销,或者你觉得自己的注意力比 token 值钱——与其花一小时盯着它干活、测 bug 、来回沟通,不如让它自己跑完所有环节,你回来看成品——那这个 trade-off 就很值。 Repo GitHub: https://github.com/DreamChaserEric/claude-lights-out 一行安装: curl -fsSL https://raw.githubusercontent.com/DreamChaserEric/claude-lights-out/main/install.sh | bash 需要 Claude Code 且支持 workflow 功能。 欢迎反馈。

v2ex · 2026-06-10 18:44:07+08:00 · tech

分享个自己做的东西。 问题 用 AI 写代码越来越爽,但也越来越烦。主要几个痛点: 1. 你变成了人肉 QA Claude 说"搞定了",你一跑全是 bug 。然后进入死循环:测→报→修→测→报→修…… 明明是让它帮你省时间的,结果你的时间全花在当测试员上了。 2. 完全黑盒 让它搞个复杂点的东西,跑了 20 分钟,你完全不知道它到哪了、在干什么、卡住了没有。 3. 失忆 换个 session 、compact 一下、context 太长被截断——它就忘了项目是什么、之前做了什么决定、代码为什么这么写。下次对话从零开始解释。 4. 偷工减料 你让它写个完整功能,它可能跳过测试、不做错误处理、架构随便搞。你不盯着它就不老实。 我的方案 拿 Claude Code 的 dynamic workflow 做了个强制流水线。你给一句话需求,它必须走完 9 个阶段才交付: /lightsout 用 Express + SQLite + React 做个看板应用,支持拖拽、标签、到期提醒 然后它自动跑: 需求编写 → 独立 agent 审查(不过就打回重写) 交互设计 → 独立 agent 审查 技术架构 → 独立 agent 审查 一致性检查 → 三份文档互相对不上的地方找出来修掉 测试用例设计 → 写代码之前先把测试想清楚 写代码 → 自主决定要不要拆分并行(全栈项目自动拆前后端) QA → 跑测试,没过就自己修,最多 5 轮 E2E 验证 → 真的把应用跑起来试 最终检查 → 需求文档 vs 实际代码逐条对比,有遗漏就补 全程你不需要介入。跑完之后你拿到的是: src/ # 能跑的代码 tests/ # 测试全过 docs/ spec.md # 产品需求(每个功能的场景、错误处理都写了) design.md # 交互设计 architecture.md # 技术架构( ADR 、模块划分、技术选型理由) test-cases.md # 测试设计 这些文档是项目的"记忆"——下次开新 session ,agent 读一遍 docs/ 就知道项目全貌,不用你重新解释。 核心设计 写的人和审的人必须是不同 agent 。 自己审自己肯定放水。拆开之后质量真的不一样——reviewer 会挑出 writer 自己看不到的问题。 文档先行,代码最后。 不是先写代码再补文档,而是需求、设计、架构全部写完审完了再动手。这样写出来的代码有据可依,测试有的放矢。 代码阶段自己决定策略。 简单项目(比如命令行工具)一个 agent 自己 TDD 搞定。复杂项目(全栈应用)它会自动拆分模块,先搞 shared types ,然后前后端并行开发,最后自己跑集成测试。 每个环节自带修复循环。 审查没过?打回重写。测试挂了?自己修。最多 5 轮。不需要你介入指挥。 实测数据 跑了 4 个全新项目: 项目 类型 测试数 结果 批量文件重命名工具 Python CLI 67 个测试 一次通过 实时 Markdown 编辑器 Express + React + WebSocket 66 个测试 1 轮修复后通过 个人记账 API + Dashboard FastAPI + React 50 个测试 一次通过 看板应用 Express + React + 拖拽 — 一次通过 每个项目都手动验证过——真的能跑,功能正常。 代价 本质上这东西是拿 token 换你的时间和精力。每次跑 30-50 个 agent call ,45 分钟到 2 小时不等。如果这个 token 开销让你肉疼,那可能不适合你。但如果你有公司报销,或者你觉得自己的注意力比 token 值钱——与其花一小时盯着它干活、测 bug 、来回沟通,不如让它自己跑完所有环节,你回来看成品——那这个 trade-off 就很值。 Repo GitHub: https://github.com/DreamChaserEric/claude-lights-out 一行安装: curl -fsSL https://raw.githubusercontent.com/DreamChaserEric/claude-lights-out/main/install.sh | bash 需要 Claude Code 且支持 workflow 功能。 欢迎反馈。

LinuxDo 最新话题 · 2026-06-05 21:48:17+08:00 · tech

背景:初始prompt一样的“agent学习”对话 gptplus凭借其内置的memory能在几轮对话后和我开始契合,学习流固化且对阶段性信息抗干扰能力强(例如我中途突然问一个偏细或者和主线相关度不高的问题后,可以主动返回学习主线),无需我进行额外的修正和prompt engineering。 gpt 免费版和gemini pro,共同的槽点是记忆很差,容易在主线学着学着开始钻牛角尖,再结合他们的高服从度:“你希望我下一步…吗” ,将学习流切得很碎; 目前的解决方法: a. 在一开始就把学习实践路线和它确认(学习路线->学习模块->更细的知识点->更细的checkpoints) b. 把它当傻子,后面各轮的prompt不能出现和主线无关的语义(骂完他还要多写一句让它继续 ) 最终解决方案:周末把plus搞回来 1 个帖子 - 1 位参与者 阅读完整话题

V2EX - 技术 · 2026-06-01 17:12:28+08:00 · tech

有 2 个问题想请教下 问题 1. codex 对于稍有规模的工程开发现在还是 subagents 吗? 平时用 codex 多一些,但对于研发来讲,agent 还是 cc 更先进一些,cc 之前有 agent teams ,大家所熟悉的三省六部制多 agent 合作来做项目,有 PM/架构师/Engineer/QA 等不同角色配合,而现在 cc 又出现 dynamic workflows ,对于大型工程,AI 先编写脚本,用脚本去派生子 agent 做项目的维护推进。 对于 codex 来讲,现在还是只有 subagents 吧?平时虽然没有那么多新项目的需求,基本上都是对老项目修修补补,开一个 codex ,不相关的小修补都是新开 session 来让 AI 解决,一个 AGENTS.md 足以。 问题 2. 对于前端/客户端来讲,AI 如何做 UI 测试/验收? 就像 claude 把 bun 从 zig 移植到 rust ,不说它 RIIR 方面,但开发的闭环这一块就值得我们学习,前段时间还看到有人用 cc 把 go mihomo 移植到 rust ,这也是依赖 agent teams 的闭环合作。 但对于这些项目,都是比较容易测试的(对 AI 来讲)。那对于前端/客户端来讲呢? codex 写网页我看它还会开 server 打开浏览器来控制操作下,实际上它的审美也是不足的(先不用说什么 fronted-design skills),最终还是要靠人来反复比对调整,对于客户端项目(虽然很久前 codex 就支持 内置 iOS 模拟器了),这种更依赖人去运行到真机测试,复杂交互逻辑它还是不太 work 。 所以说,对于前端/客户端开发来讲,如何完成 agent teams 的合作闭环?

v2ex · 2026-05-27 02:56:05+08:00 · tech

过去一段时间,我靠完全 Prompt Engineering ,独自创建并维护了一个 10 万行左右、1000+ Star 的仓库 franklioxygen/MyTube 。 现在有了 100k+ dokcer pull ,顿时觉得身负重任不敢怠慢。从以前的全靠嘴遁到现在使用标准化的工作流,明显感觉到开发更顺畅,故障更少,更省脑力( token 消耗也增多了)。于是我把我的方法论蒸馏成了工作流和 skill 。 https://github.com/franklioxygen/agent-workflows 欢迎试用、提 issue 、提 PR ,也欢迎直接拍砖。

v2ex · 2026-05-27 02:56:05+08:00 · tech

过去一段时间,我靠完全 Prompt Engineering ,独自创建并维护了一个 10 万行左右、1000+ Star 的仓库 franklioxygen/MyTube 。 现在有了 100k+ dokcer pull ,顿时觉得身负重任不敢怠慢。从以前的全靠嘴遁到现在使用标准化的工作流,明显感觉到开发更顺畅,故障更少,更省脑力( token 消耗也增多了)。于是我把我的方法论蒸馏成了工作流和 skill 。 https://github.com/franklioxygen/agent-workflows 欢迎试用、提 issue 、提 PR ,也欢迎直接拍砖。

v2ex · 2026-05-27 02:16:27+08:00 · tech

过去一段时间,我靠完全 Prompt Engineering ,独自创建并维护了一个 10 万行左右、1000+ Star 的仓库 franklioxygen/MyTube 。 现在有了 100k+ dokcer pull ,顿时觉得身负重任不敢怠慢。从以前的全靠嘴遁到现在使用标准化的工作流,明显感觉到开发更顺畅,故障更少,更省脑力( token 消耗也增多了)。于是我把我的方法论蒸馏成了工作流和 skill 。 https://github.com/franklioxygen/agent-workflows 欢迎试用、提 issue 、提 PR ,也欢迎直接拍砖。

V2EX - 技术 · 2026-05-23 18:13:54+08:00 · tech

3 个月前从 Antigravity 入坑 agentic 开发,后来转 claude code + codex ,一点踩过的坑和心得分享。 核心原则 约束优先 :剪枝,永远遵守 design → spec → plan → impl 的流程,要求提得越清楚,spec 越详细,后续越不容易上梁不正。 代码为王 :源码是给 agent 最好的说明书,不要迷信 JSON 、HTML 那些"代码可视化",agent 读代码比你强多了,为了让人类懂而把代码压缩成人类可读格式反而会误导 agent 。 仓库管理 :Git Repo 就是最好的记忆+上下文库,commit + PR 的设计不但有利于人类团队干活,也能很好地组织 agents 团队。想同步 memory 也是在 repo 根目录建一个 .memory/ 再加上 post-hook 就搞定的事,根本不需要额外的记忆管理。 菜就多练 :语言选择( Python, TS, Golang, Rust )、架构选择( Vue 、Flutter )、部署流( Docker 、K8S )、设计规范、迭代原则、工作流(需求 → schema → 接口约定 → 后端 → 前端 → E2E MVP )、网络排障、命令行指令、外语阅读能力这些“判断”并不能被 AI 取代(但可以让 AI 教你),老老实实学习, 不要迷信那些減少信息熵的花拳绣腿 。 踩过的一些坑、一些建议 权威文档只要存一份,並且写记忆和 agent 说要去哪读。一开始我建了文档 repo ,里面把 spec 、plan 、milestone 、schema 、api 全放进去,后来发现字段定义东一块西一块:有的在文档库,有的在代码,有的在项目 repo 自己的 docs/。后来我约定: 文档库只放项目全局的 overall spec 和给人类看的东西(例如我让 agent 给我整理 rust 名词对照表,方便我读懂 agent 写 rust 时做了啥」、spec 放项目自己的 docs/superpowers/、schema 定义只认 migration/*.sql ,接口定义只认代码。 cli 之间可以互相呼叫,例如 claude code 主驾可以 call gh 来管 PR 和 merge , codex 来审代码, supabase db query --linked 来查改数据库, fly 看服务器 log 等。 claude code 有时会不小心创造接口,除了写记忆让它记得复用接口以外,也要自己多留心眼,尤其是项目变大了,有些逻辑要用前端中间件查、有些逻辑要用后端接口时,cc 不一定能猜得准你的意图。 除了 superpowers 和 gstack 等 skill 之外,如果不确定自己的需求怎么实现,可以先和网页 LLM (例如 ChatGPT 、Grok )讨论,让它生成 prompt 丢给 cc 跑 brainstorming ,会比直接大白话咏唱强。

V2EX - 技术 · 2026-05-23 16:13:54+08:00 · tech

3 个月前从 Antigravity 入坑 agentic 开发,后来转 claude code + codex ,一点踩过的坑和心得分享。 核心原则 约束优先 :剪枝,永远遵守 design → spec → plan → impl 的流程,要求提得越清楚,spec 越详细,后续越不容易上梁不正。 代码为王 :源码是给 agent 最好的说明书,不要迷信 JSON 、HTML 那些"代码可视化",agent 读代码比你强多了,为了让人类懂而把代码压缩成人类可读格式反而会误导 agent 。 仓库管理 :Git Repo 就是最好的记忆+上下文库,commit + PR 的设计不但有利于人类团队干活,也能很好地组织 agents 团队。想同步 memory 也是在 repo 根目录建一个 .memory/ 再加上 post-hook 就搞定的事,根本不需要额外的记忆管理。 菜就多练 :语言选择( Python, TS, Golang, Rust )、架构选择( Vue 、Flutter )、部署流( Docker 、K8S )、设计规范、迭代原则、工作流(需求 → schema → 接口约定 → 后端 → 前端 → E2E MVP )、网络排障、命令行指令、外语阅读能力这些“判断”并不能被 AI 取代(但可以让 AI 教你),老老实实学习, 不要迷信那些減少信息熵的花拳绣腿 。 踩过的一些坑、一些建议 权威文档只要存一份,並且写记忆和 agent 说要去哪读。一开始我建了文档 repo ,里面把 spec 、plan 、milestone 、schema 、api 全放进去,后来发现字段定义东一块西一块:有的在文档库,有的在代码,有的在项目 repo 自己的 docs/。后来我约定: 文档库只放项目全局的 overall spec 和给人类看的东西(例如我让 agent 给我整理 rust 名词对照表,方便我读懂 agent 写 rust 时做了啥」、spec 放项目自己的 docs/superpowers/、schema 定义只认 migration/*.sql ,接口定义只认代码。 cli 之间可以互相呼叫,例如 claude code 主驾可以 call gh 来管 PR 和 merge , codex 来审代码, supabase db query --linked 来查改数据库, fly 看服务器 log 等。 claude code 有时会不小心创造接口,除了写记忆让它记得复用接口以外,也要自己多留心眼,尤其是项目变大了,有些逻辑要用前端中间件查、有些逻辑要用后端接口时,cc 不一定能猜得准你的意图。 除了 superpowers 和 gstack 等 skill 之外,如果不确定自己的需求怎么实现,可以先和网页 LLM (例如 ChatGPT 、Grok )讨论,让它生成 prompt 丢给 cc 跑 brainstorming ,会比直接大白话咏唱强。

V2EX - 技术 · 2026-05-23 16:13:54+08:00 · tech

3 个月前从 Antigravity 入坑 agentic 开发,后来转 claude code + codex ,一点踩过的坑和心得分享。 核心原则 约束优先 :剪枝,永远遵守 design → spec → plan → impl 的流程,要求提得越清楚,spec 越详细,后续越不容易上梁不正。 代码为王 :源码是给 agent 最好的说明书,不要迷信 JSON 、HTML 那些"代码可视化",agent 读代码比你强多了,为了让人类懂而把代码压缩成人类可读格式反而会误导 agent 。 仓库管理 :Git Repo 就是最好的记忆+上下文库,commit + PR 的设计不但有利于人类团队干活,也能很好地组织 agents 团队。想同步 memory 也是在 repo 根目录建一个 .memory/ 再加上 post-hook 就搞定的事,根本不需要额外的记忆管理。 菜就多练 :语言选择( Python, TS, Golang, Rust )、架构选择( Vue 、Flutter )、部署流( Docker 、K8S )、设计规范、迭代原则、工作流(需求 → schema → 接口约定 → 后端 → 前端 → E2E MVP )、网络排障、命令行指令、外语阅读能力这些“判断”并不能被 AI 取代(但可以让 AI 教你),老老实实学习, 不要迷信那些減少信息熵的花拳绣腿 。 踩过的一些坑、一些建议 权威文档只要存一份,並且写记忆和 agent 说要去哪读。一开始我建了文档 repo ,里面把 spec 、plan 、milestone 、schema 、api 全放进去,后来发现字段定义东一块西一块:有的在文档库,有的在代码,有的在项目 repo 自己的 docs/。后来我约定: 文档库只放项目全局的 overall spec 和给人类看的东西(例如我让 agent 给我整理 rust 名词对照表,方便我读懂 agent 写 rust 时做了啥」、spec 放项目自己的 docs/superpowers/、schema 定义只认 migration/*.sql ,接口定义只认代码。 cli 之间可以互相呼叫,例如 claude code 主驾可以 call gh 来管 PR 和 merge , codex 来审代码, supabase db query --linked 来查改数据库, fly 看服务器 log 等。 claude code 有时会不小心创造接口,除了写记忆让它记得复用接口以外,也要自己多留心眼,尤其是项目变大了,有些逻辑要用前端中间件查、有些逻辑要用后端接口时,cc 不一定能猜得准你的意图。 除了 superpowers 和 gstack 等 skill 之外,如果不确定自己的需求怎么实现,可以先和网页 LLM (例如 ChatGPT 、Grok )讨论,让它生成 prompt 丢给 cc 跑 brainstorming ,会比直接大白话咏唱强。

V2EX - 技术 · 2026-05-23 14:13:54+08:00 · tech

3 个月前从 Antigravity 入坑 agentic 开发,后来转 claude code + codex ,一点踩过的坑和心得分享。 核心原则 约束优先 :剪枝,永远遵守 design → spec → plan → impl 的流程,要求提得越清楚,spec 越详细,后续越不容易上梁不正。 代码为王 :源码是给 agent 最好的说明书,不要迷信 JSON 、HTML 那些"代码可视化",agent 读代码比你强多了,为了让人类懂而把代码压缩成人类可读格式反而会误导 agent 。 仓库管理 :Git Repo 就是最好的记忆+上下文库,commit + PR 的设计不但有利于人类团队干活,也能很好地组织 agents 团队。想同步 memory 也是在 repo 根目录建一个 .memory/ 再加上 post-hook 就搞定的事,根本不需要额外的记忆管理。 菜就多练 :语言选择( Python, TS, Golang, Rust )、架构选择( Vue 、Flutter )、部署流( Docker 、K8S )、设计规范、迭代原则、工作流(需求 → schema → 接口约定 → 后端 → 前端 → E2E MVP )、网络排障、命令行指令、外语阅读能力这些“判断”并不能被 AI 取代(但可以让 AI 教你),老老实实学习, 不要迷信那些減少信息熵的花拳绣腿 。 踩过的一些坑、一些建议 权威文档只要存一份,並且写记忆和 agent 说要去哪读。一开始我建了文档 repo ,里面把 spec 、plan 、milestone 、schema 、api 全放进去,后来发现字段定义东一块西一块:有的在文档库,有的在代码,有的在项目 repo 自己的 docs/。后来我约定: 文档库只放项目全局的 overall spec 和给人类看的东西(例如我让 agent 给我整理 rust 名词对照表,方便我读懂 agent 写 rust 时做了啥」、spec 放项目自己的 docs/superpowers/、schema 定义只认 migration/*.sql ,接口定义只认代码。 cli 之间可以互相呼叫,例如 claude code 主驾可以 call gh 来管 PR 和 merge , codex 来审代码, supabase db query --linked 来查改数据库, fly 看服务器 log 等。 claude code 有时会不小心创造接口,除了写记忆让它记得复用接口以外,也要自己多留心眼,尤其是项目变大了,有些逻辑要用前端中间件查、有些逻辑要用后端接口时,cc 不一定能猜得准你的意图。 除了 superpowers 和 gstack 等 skill 之外,如果不确定自己的需求怎么实现,可以先和网页 LLM (例如 ChatGPT 、Grok )讨论,让它生成 prompt 丢给 cc 跑 brainstorming ,会比直接大白话咏唱强。