engineering - WWW.YOUINFO.SITE

LinuxDo 最新话题 · 2026-06-11 09:46:22+08:00 · tech

REQUEST_BLOCKED Category: REVERSE_ENGINEERING Reason: Restricted technical activity detected. 这个报错大家有遇到的吗？很奇怪最近两天才遇到，之前是没有的？是模型优化的问题？ 1 个帖子 - 1 位参与者阅读完整话题

[分享创造] 基于 Claude Code Workflow 的 Loop Engineering 流水线 - Claude-lights-out

v2ex · 2026-06-10 23:05:16+08:00 · tech

分享个自己做的东西。问题用 AI 写代码越来越爽，但也越来越烦。主要几个痛点： 1. 你变成了人肉 QA Claude 说"搞定了"，你一跑全是 bug 。然后进入死循环：测→报→修→测→报→修…… 明明是让它帮你省时间的，结果你的时间全花在当测试员上了。 2. 完全黑盒让它搞个复杂点的东西，跑了 20 分钟，你完全不知道它到哪了、在干什么、卡住了没有。 3. 失忆换个 session 、compact 一下、context 太长被截断——它就忘了项目是什么、之前做了什么决定、代码为什么这么写。下次对话从零开始解释。 4. 偷工减料你让它写个完整功能，它可能跳过测试、不做错误处理、架构随便搞。你不盯着它就不老实。我的方案拿 Claude Code 的 dynamic workflow 做了个强制流水线。你给一句话需求，它必须走完 9 个阶段才交付： /lightsout 用 Express + SQLite + React 做个看板应用，支持拖拽、标签、到期提醒然后它自动跑：需求编写 → 独立 agent 审查（不过就打回重写）交互设计 → 独立 agent 审查技术架构 → 独立 agent 审查一致性检查 → 三份文档互相对不上的地方找出来修掉测试用例设计 → 写代码之前先把测试想清楚写代码 → 自主决定要不要拆分并行（全栈项目自动拆前后端） QA → 跑测试，没过就自己修，最多 5 轮 E2E 验证 → 真的把应用跑起来试最终检查 → 需求文档 vs 实际代码逐条对比，有遗漏就补全程你不需要介入。跑完之后你拿到的是： src/ # 能跑的代码 tests/ # 测试全过 docs/ spec.md # 产品需求（每个功能的场景、错误处理都写了） design.md # 交互设计 architecture.md # 技术架构（ ADR 、模块划分、技术选型理由） test-cases.md # 测试设计这些文档是项目的"记忆"——下次开新 session ，agent 读一遍 docs/ 就知道项目全貌，不用你重新解释。核心设计写的人和审的人必须是不同 agent 。自己审自己肯定放水。拆开之后质量真的不一样——reviewer 会挑出 writer 自己看不到的问题。文档先行，代码最后。不是先写代码再补文档，而是需求、设计、架构全部写完审完了再动手。这样写出来的代码有据可依，测试有的放矢。代码阶段自己决定策略。简单项目（比如命令行工具）一个 agent 自己 TDD 搞定。复杂项目（全栈应用）它会自动拆分模块，先搞 shared types ，然后前后端并行开发，最后自己跑集成测试。每个环节自带修复循环。审查没过？打回重写。测试挂了？自己修。最多 5 轮。不需要你介入指挥。实测数据跑了 4 个全新项目：项目类型测试数结果批量文件重命名工具 Python CLI 67 个测试一次通过实时 Markdown 编辑器 Express + React + WebSocket 66 个测试 1 轮修复后通过个人记账 API + Dashboard FastAPI + React 50 个测试一次通过看板应用 Express + React + 拖拽 — 一次通过每个项目都手动验证过——真的能跑，功能正常。代价本质上这东西是拿 token 换你的时间和精力。每次跑 30-50 个 agent call ，45 分钟到 2 小时不等。如果这个 token 开销让你肉疼，那可能不适合你。但如果你有公司报销，或者你觉得自己的注意力比 token 值钱——与其花一小时盯着它干活、测 bug 、来回沟通，不如让它自己跑完所有环节，你回来看成品——那这个 trade-off 就很值。 Repo GitHub: https://github.com/DreamChaserEric/claude-lights-out 一行安装： curl -fsSL https://raw.githubusercontent.com/DreamChaserEric/claude-lights-out/main/install.sh | bash 需要 Claude Code 且支持 workflow 功能。欢迎反馈。

[分享创造] 基于 Claude Code Workflow 的 Loop Engineering 流水线 - Claude-lights-out

v2ex · 2026-06-10 22:39:40+08:00 · tech

分享个自己做的东西。问题用 AI 写代码越来越爽，但也越来越烦。主要几个痛点： 1. 你变成了人肉 QA Claude 说"搞定了"，你一跑全是 bug 。然后进入死循环：测→报→修→测→报→修…… 明明是让它帮你省时间的，结果你的时间全花在当测试员上了。 2. 完全黑盒让它搞个复杂点的东西，跑了 20 分钟，你完全不知道它到哪了、在干什么、卡住了没有。 3. 失忆换个 session 、compact 一下、context 太长被截断——它就忘了项目是什么、之前做了什么决定、代码为什么这么写。下次对话从零开始解释。 4. 偷工减料你让它写个完整功能，它可能跳过测试、不做错误处理、架构随便搞。你不盯着它就不老实。我的方案拿 Claude Code 的 dynamic workflow 做了个强制流水线。你给一句话需求，它必须走完 9 个阶段才交付： /lightsout 用 Express + SQLite + React 做个看板应用，支持拖拽、标签、到期提醒然后它自动跑：需求编写 → 独立 agent 审查（不过就打回重写）交互设计 → 独立 agent 审查技术架构 → 独立 agent 审查一致性检查 → 三份文档互相对不上的地方找出来修掉测试用例设计 → 写代码之前先把测试想清楚写代码 → 自主决定要不要拆分并行（全栈项目自动拆前后端） QA → 跑测试，没过就自己修，最多 5 轮 E2E 验证 → 真的把应用跑起来试最终检查 → 需求文档 vs 实际代码逐条对比，有遗漏就补全程你不需要介入。跑完之后你拿到的是： src/ # 能跑的代码 tests/ # 测试全过 docs/ spec.md # 产品需求（每个功能的场景、错误处理都写了） design.md # 交互设计 architecture.md # 技术架构（ ADR 、模块划分、技术选型理由） test-cases.md # 测试设计这些文档是项目的"记忆"——下次开新 session ，agent 读一遍 docs/ 就知道项目全貌，不用你重新解释。核心设计写的人和审的人必须是不同 agent 。自己审自己肯定放水。拆开之后质量真的不一样——reviewer 会挑出 writer 自己看不到的问题。文档先行，代码最后。不是先写代码再补文档，而是需求、设计、架构全部写完审完了再动手。这样写出来的代码有据可依，测试有的放矢。代码阶段自己决定策略。简单项目（比如命令行工具）一个 agent 自己 TDD 搞定。复杂项目（全栈应用）它会自动拆分模块，先搞 shared types ，然后前后端并行开发，最后自己跑集成测试。每个环节自带修复循环。审查没过？打回重写。测试挂了？自己修。最多 5 轮。不需要你介入指挥。实测数据跑了 4 个全新项目：项目类型测试数结果批量文件重命名工具 Python CLI 67 个测试一次通过实时 Markdown 编辑器 Express + React + WebSocket 66 个测试 1 轮修复后通过个人记账 API + Dashboard FastAPI + React 50 个测试一次通过看板应用 Express + React + 拖拽 — 一次通过每个项目都手动验证过——真的能跑，功能正常。代价本质上这东西是拿 token 换你的时间和精力。每次跑 30-50 个 agent call ，45 分钟到 2 小时不等。如果这个 token 开销让你肉疼，那可能不适合你。但如果你有公司报销，或者你觉得自己的注意力比 token 值钱——与其花一小时盯着它干活、测 bug 、来回沟通，不如让它自己跑完所有环节，你回来看成品——那这个 trade-off 就很值。 Repo GitHub: https://github.com/DreamChaserEric/claude-lights-out 一行安装： curl -fsSL https://raw.githubusercontent.com/DreamChaserEric/claude-lights-out/main/install.sh | bash 需要 Claude Code 且支持 workflow 功能。欢迎反馈。

[分享创造] 基于 Claude Code Workflow 的 Loop Engineering 流水线 - Claude-lights-out

v2ex · 2026-06-10 21:05:38+08:00 · tech

分享个自己做的东西。问题用 AI 写代码越来越爽，但也越来越烦。主要几个痛点： 1. 你变成了人肉 QA Claude 说"搞定了"，你一跑全是 bug 。然后进入死循环：测→报→修→测→报→修…… 明明是让它帮你省时间的，结果你的时间全花在当测试员上了。 2. 完全黑盒让它搞个复杂点的东西，跑了 20 分钟，你完全不知道它到哪了、在干什么、卡住了没有。 3. 失忆换个 session 、compact 一下、context 太长被截断——它就忘了项目是什么、之前做了什么决定、代码为什么这么写。下次对话从零开始解释。 4. 偷工减料你让它写个完整功能，它可能跳过测试、不做错误处理、架构随便搞。你不盯着它就不老实。我的方案拿 Claude Code 的 dynamic workflow 做了个强制流水线。你给一句话需求，它必须走完 9 个阶段才交付： /lightsout 用 Express + SQLite + React 做个看板应用，支持拖拽、标签、到期提醒然后它自动跑：需求编写 → 独立 agent 审查（不过就打回重写）交互设计 → 独立 agent 审查技术架构 → 独立 agent 审查一致性检查 → 三份文档互相对不上的地方找出来修掉测试用例设计 → 写代码之前先把测试想清楚写代码 → 自主决定要不要拆分并行（全栈项目自动拆前后端） QA → 跑测试，没过就自己修，最多 5 轮 E2E 验证 → 真的把应用跑起来试最终检查 → 需求文档 vs 实际代码逐条对比，有遗漏就补全程你不需要介入。跑完之后你拿到的是： src/ # 能跑的代码 tests/ # 测试全过 docs/ spec.md # 产品需求（每个功能的场景、错误处理都写了） design.md # 交互设计 architecture.md # 技术架构（ ADR 、模块划分、技术选型理由） test-cases.md # 测试设计这些文档是项目的"记忆"——下次开新 session ，agent 读一遍 docs/ 就知道项目全貌，不用你重新解释。核心设计写的人和审的人必须是不同 agent 。自己审自己肯定放水。拆开之后质量真的不一样——reviewer 会挑出 writer 自己看不到的问题。文档先行，代码最后。不是先写代码再补文档，而是需求、设计、架构全部写完审完了再动手。这样写出来的代码有据可依，测试有的放矢。代码阶段自己决定策略。简单项目（比如命令行工具）一个 agent 自己 TDD 搞定。复杂项目（全栈应用）它会自动拆分模块，先搞 shared types ，然后前后端并行开发，最后自己跑集成测试。每个环节自带修复循环。审查没过？打回重写。测试挂了？自己修。最多 5 轮。不需要你介入指挥。实测数据跑了 4 个全新项目：项目类型测试数结果批量文件重命名工具 Python CLI 67 个测试一次通过实时 Markdown 编辑器 Express + React + WebSocket 66 个测试 1 轮修复后通过个人记账 API + Dashboard FastAPI + React 50 个测试一次通过看板应用 Express + React + 拖拽 — 一次通过每个项目都手动验证过——真的能跑，功能正常。代价本质上这东西是拿 token 换你的时间和精力。每次跑 30-50 个 agent call ，45 分钟到 2 小时不等。如果这个 token 开销让你肉疼，那可能不适合你。但如果你有公司报销，或者你觉得自己的注意力比 token 值钱——与其花一小时盯着它干活、测 bug 、来回沟通，不如让它自己跑完所有环节，你回来看成品——那这个 trade-off 就很值。 Repo GitHub: https://github.com/DreamChaserEric/claude-lights-out 一行安装： curl -fsSL https://raw.githubusercontent.com/DreamChaserEric/claude-lights-out/main/install.sh | bash 需要 Claude Code 且支持 workflow 功能。欢迎反馈。

[分享创造] 基于 Claude Code Workflow 的 Loop Engineering 流水线 - Claude-lights-out

v2ex · 2026-06-10 21:05:38+08:00 · tech

分享个自己做的东西。问题用 AI 写代码越来越爽，但也越来越烦。主要几个痛点： 1. 你变成了人肉 QA Claude 说"搞定了"，你一跑全是 bug 。然后进入死循环：测→报→修→测→报→修…… 明明是让它帮你省时间的，结果你的时间全花在当测试员上了。 2. 完全黑盒让它搞个复杂点的东西，跑了 20 分钟，你完全不知道它到哪了、在干什么、卡住了没有。 3. 失忆换个 session 、compact 一下、context 太长被截断——它就忘了项目是什么、之前做了什么决定、代码为什么这么写。下次对话从零开始解释。 4. 偷工减料你让它写个完整功能，它可能跳过测试、不做错误处理、架构随便搞。你不盯着它就不老实。我的方案拿 Claude Code 的 dynamic workflow 做了个强制流水线。你给一句话需求，它必须走完 9 个阶段才交付： /lightsout 用 Express + SQLite + React 做个看板应用，支持拖拽、标签、到期提醒然后它自动跑：需求编写 → 独立 agent 审查（不过就打回重写）交互设计 → 独立 agent 审查技术架构 → 独立 agent 审查一致性检查 → 三份文档互相对不上的地方找出来修掉测试用例设计 → 写代码之前先把测试想清楚写代码 → 自主决定要不要拆分并行（全栈项目自动拆前后端） QA → 跑测试，没过就自己修，最多 5 轮 E2E 验证 → 真的把应用跑起来试最终检查 → 需求文档 vs 实际代码逐条对比，有遗漏就补全程你不需要介入。跑完之后你拿到的是： src/ # 能跑的代码 tests/ # 测试全过 docs/ spec.md # 产品需求（每个功能的场景、错误处理都写了） design.md # 交互设计 architecture.md # 技术架构（ ADR 、模块划分、技术选型理由） test-cases.md # 测试设计这些文档是项目的"记忆"——下次开新 session ，agent 读一遍 docs/ 就知道项目全貌，不用你重新解释。核心设计写的人和审的人必须是不同 agent 。自己审自己肯定放水。拆开之后质量真的不一样——reviewer 会挑出 writer 自己看不到的问题。文档先行，代码最后。不是先写代码再补文档，而是需求、设计、架构全部写完审完了再动手。这样写出来的代码有据可依，测试有的放矢。代码阶段自己决定策略。简单项目（比如命令行工具）一个 agent 自己 TDD 搞定。复杂项目（全栈应用）它会自动拆分模块，先搞 shared types ，然后前后端并行开发，最后自己跑集成测试。每个环节自带修复循环。审查没过？打回重写。测试挂了？自己修。最多 5 轮。不需要你介入指挥。实测数据跑了 4 个全新项目：项目类型测试数结果批量文件重命名工具 Python CLI 67 个测试一次通过实时 Markdown 编辑器 Express + React + WebSocket 66 个测试 1 轮修复后通过个人记账 API + Dashboard FastAPI + React 50 个测试一次通过看板应用 Express + React + 拖拽 — 一次通过每个项目都手动验证过——真的能跑，功能正常。代价本质上这东西是拿 token 换你的时间和精力。每次跑 30-50 个 agent call ，45 分钟到 2 小时不等。如果这个 token 开销让你肉疼，那可能不适合你。但如果你有公司报销，或者你觉得自己的注意力比 token 值钱——与其花一小时盯着它干活、测 bug 、来回沟通，不如让它自己跑完所有环节，你回来看成品——那这个 trade-off 就很值。 Repo GitHub: https://github.com/DreamChaserEric/claude-lights-out 一行安装： curl -fsSL https://raw.githubusercontent.com/DreamChaserEric/claude-lights-out/main/install.sh | bash 需要 Claude Code 且支持 workflow 功能。欢迎反馈。

[分享创造] 基于 Claude Code Workflow 的 Loop Engineering 流水线 - Claude-lights-out

v2ex · 2026-06-10 19:26:12+08:00 · tech

分享个自己做的东西。问题用 AI 写代码越来越爽，但也越来越烦。主要几个痛点： 1. 你变成了人肉 QA Claude 说"搞定了"，你一跑全是 bug 。然后进入死循环：测→报→修→测→报→修…… 明明是让它帮你省时间的，结果你的时间全花在当测试员上了。 2. 完全黑盒让它搞个复杂点的东西，跑了 20 分钟，你完全不知道它到哪了、在干什么、卡住了没有。 3. 失忆换个 session 、compact 一下、context 太长被截断——它就忘了项目是什么、之前做了什么决定、代码为什么这么写。下次对话从零开始解释。 4. 偷工减料你让它写个完整功能，它可能跳过测试、不做错误处理、架构随便搞。你不盯着它就不老实。我的方案拿 Claude Code 的 dynamic workflow 做了个强制流水线。你给一句话需求，它必须走完 9 个阶段才交付： /lightsout 用 Express + SQLite + React 做个看板应用，支持拖拽、标签、到期提醒然后它自动跑：需求编写 → 独立 agent 审查（不过就打回重写）交互设计 → 独立 agent 审查技术架构 → 独立 agent 审查一致性检查 → 三份文档互相对不上的地方找出来修掉测试用例设计 → 写代码之前先把测试想清楚写代码 → 自主决定要不要拆分并行（全栈项目自动拆前后端） QA → 跑测试，没过就自己修，最多 5 轮 E2E 验证 → 真的把应用跑起来试最终检查 → 需求文档 vs 实际代码逐条对比，有遗漏就补全程你不需要介入。跑完之后你拿到的是： src/ # 能跑的代码 tests/ # 测试全过 docs/ spec.md # 产品需求（每个功能的场景、错误处理都写了） design.md # 交互设计 architecture.md # 技术架构（ ADR 、模块划分、技术选型理由） test-cases.md # 测试设计这些文档是项目的"记忆"——下次开新 session ，agent 读一遍 docs/ 就知道项目全貌，不用你重新解释。核心设计写的人和审的人必须是不同 agent 。自己审自己肯定放水。拆开之后质量真的不一样——reviewer 会挑出 writer 自己看不到的问题。文档先行，代码最后。不是先写代码再补文档，而是需求、设计、架构全部写完审完了再动手。这样写出来的代码有据可依，测试有的放矢。代码阶段自己决定策略。简单项目（比如命令行工具）一个 agent 自己 TDD 搞定。复杂项目（全栈应用）它会自动拆分模块，先搞 shared types ，然后前后端并行开发，最后自己跑集成测试。每个环节自带修复循环。审查没过？打回重写。测试挂了？自己修。最多 5 轮。不需要你介入指挥。实测数据跑了 4 个全新项目：项目类型测试数结果批量文件重命名工具 Python CLI 67 个测试一次通过实时 Markdown 编辑器 Express + React + WebSocket 66 个测试 1 轮修复后通过个人记账 API + Dashboard FastAPI + React 50 个测试一次通过看板应用 Express + React + 拖拽 — 一次通过每个项目都手动验证过——真的能跑，功能正常。代价本质上这东西是拿 token 换你的时间和精力。每次跑 30-50 个 agent call ，45 分钟到 2 小时不等。如果这个 token 开销让你肉疼，那可能不适合你。但如果你有公司报销，或者你觉得自己的注意力比 token 值钱——与其花一小时盯着它干活、测 bug 、来回沟通，不如让它自己跑完所有环节，你回来看成品——那这个 trade-off 就很值。 Repo GitHub: https://github.com/DreamChaserEric/claude-lights-out 一行安装： curl -fsSL https://raw.githubusercontent.com/DreamChaserEric/claude-lights-out/main/install.sh | bash 需要 Claude Code 且支持 workflow 功能。欢迎反馈。

[分享创造] 基于 Claude Code Workflow 的 Loop Engineering 流水线 - Claude-lights-out

v2ex · 2026-06-10 19:15:21+08:00 · tech

分享个自己做的东西。问题用 AI 写代码越来越爽，但也越来越烦。主要几个痛点： 1. 你变成了人肉 QA Claude 说"搞定了"，你一跑全是 bug 。然后进入死循环：测→报→修→测→报→修…… 明明是让它帮你省时间的，结果你的时间全花在当测试员上了。 2. 完全黑盒让它搞个复杂点的东西，跑了 20 分钟，你完全不知道它到哪了、在干什么、卡住了没有。 3. 失忆换个 session 、compact 一下、context 太长被截断——它就忘了项目是什么、之前做了什么决定、代码为什么这么写。下次对话从零开始解释。 4. 偷工减料你让它写个完整功能，它可能跳过测试、不做错误处理、架构随便搞。你不盯着它就不老实。我的方案拿 Claude Code 的 dynamic workflow 做了个强制流水线。你给一句话需求，它必须走完 9 个阶段才交付： /lightsout 用 Express + SQLite + React 做个看板应用，支持拖拽、标签、到期提醒然后它自动跑：需求编写 → 独立 agent 审查（不过就打回重写）交互设计 → 独立 agent 审查技术架构 → 独立 agent 审查一致性检查 → 三份文档互相对不上的地方找出来修掉测试用例设计 → 写代码之前先把测试想清楚写代码 → 自主决定要不要拆分并行（全栈项目自动拆前后端） QA → 跑测试，没过就自己修，最多 5 轮 E2E 验证 → 真的把应用跑起来试最终检查 → 需求文档 vs 实际代码逐条对比，有遗漏就补全程你不需要介入。跑完之后你拿到的是： src/ # 能跑的代码 tests/ # 测试全过 docs/ spec.md # 产品需求（每个功能的场景、错误处理都写了） design.md # 交互设计 architecture.md # 技术架构（ ADR 、模块划分、技术选型理由） test-cases.md # 测试设计这些文档是项目的"记忆"——下次开新 session ，agent 读一遍 docs/ 就知道项目全貌，不用你重新解释。核心设计写的人和审的人必须是不同 agent 。自己审自己肯定放水。拆开之后质量真的不一样——reviewer 会挑出 writer 自己看不到的问题。文档先行，代码最后。不是先写代码再补文档，而是需求、设计、架构全部写完审完了再动手。这样写出来的代码有据可依，测试有的放矢。代码阶段自己决定策略。简单项目（比如命令行工具）一个 agent 自己 TDD 搞定。复杂项目（全栈应用）它会自动拆分模块，先搞 shared types ，然后前后端并行开发，最后自己跑集成测试。每个环节自带修复循环。审查没过？打回重写。测试挂了？自己修。最多 5 轮。不需要你介入指挥。实测数据跑了 4 个全新项目：项目类型测试数结果批量文件重命名工具 Python CLI 67 个测试一次通过实时 Markdown 编辑器 Express + React + WebSocket 66 个测试 1 轮修复后通过个人记账 API + Dashboard FastAPI + React 50 个测试一次通过看板应用 Express + React + 拖拽 — 一次通过每个项目都手动验证过——真的能跑，功能正常。代价本质上这东西是拿 token 换你的时间和精力。每次跑 30-50 个 agent call ，45 分钟到 2 小时不等。如果这个 token 开销让你肉疼，那可能不适合你。但如果你有公司报销，或者你觉得自己的注意力比 token 值钱——与其花一小时盯着它干活、测 bug 、来回沟通，不如让它自己跑完所有环节，你回来看成品——那这个 trade-off 就很值。 Repo GitHub: https://github.com/DreamChaserEric/claude-lights-out 一行安装： curl -fsSL https://raw.githubusercontent.com/DreamChaserEric/claude-lights-out/main/install.sh | bash 需要 Claude Code 且支持 workflow 功能。欢迎反馈。

v2ex · 2026-06-10 18:44:07+08:00 · tech

分享个自己做的东西。问题用 AI 写代码越来越爽，但也越来越烦。主要几个痛点： 1. 你变成了人肉 QA Claude 说"搞定了"，你一跑全是 bug 。然后进入死循环：测→报→修→测→报→修…… 明明是让它帮你省时间的，结果你的时间全花在当测试员上了。 2. 完全黑盒让它搞个复杂点的东西，跑了 20 分钟，你完全不知道它到哪了、在干什么、卡住了没有。 3. 失忆换个 session 、compact 一下、context 太长被截断——它就忘了项目是什么、之前做了什么决定、代码为什么这么写。下次对话从零开始解释。 4. 偷工减料你让它写个完整功能，它可能跳过测试、不做错误处理、架构随便搞。你不盯着它就不老实。我的方案拿 Claude Code 的 dynamic workflow 做了个强制流水线。你给一句话需求，它必须走完 9 个阶段才交付： /lightsout 用 Express + SQLite + React 做个看板应用，支持拖拽、标签、到期提醒然后它自动跑：需求编写 → 独立 agent 审查（不过就打回重写）交互设计 → 独立 agent 审查技术架构 → 独立 agent 审查一致性检查 → 三份文档互相对不上的地方找出来修掉测试用例设计 → 写代码之前先把测试想清楚写代码 → 自主决定要不要拆分并行（全栈项目自动拆前后端） QA → 跑测试，没过就自己修，最多 5 轮 E2E 验证 → 真的把应用跑起来试最终检查 → 需求文档 vs 实际代码逐条对比，有遗漏就补全程你不需要介入。跑完之后你拿到的是： src/ # 能跑的代码 tests/ # 测试全过 docs/ spec.md # 产品需求（每个功能的场景、错误处理都写了） design.md # 交互设计 architecture.md # 技术架构（ ADR 、模块划分、技术选型理由） test-cases.md # 测试设计这些文档是项目的"记忆"——下次开新 session ，agent 读一遍 docs/ 就知道项目全貌，不用你重新解释。核心设计写的人和审的人必须是不同 agent 。自己审自己肯定放水。拆开之后质量真的不一样——reviewer 会挑出 writer 自己看不到的问题。文档先行，代码最后。不是先写代码再补文档，而是需求、设计、架构全部写完审完了再动手。这样写出来的代码有据可依，测试有的放矢。代码阶段自己决定策略。简单项目（比如命令行工具）一个 agent 自己 TDD 搞定。复杂项目（全栈应用）它会自动拆分模块，先搞 shared types ，然后前后端并行开发，最后自己跑集成测试。每个环节自带修复循环。审查没过？打回重写。测试挂了？自己修。最多 5 轮。不需要你介入指挥。实测数据跑了 4 个全新项目：项目类型测试数结果批量文件重命名工具 Python CLI 67 个测试一次通过实时 Markdown 编辑器 Express + React + WebSocket 66 个测试 1 轮修复后通过个人记账 API + Dashboard FastAPI + React 50 个测试一次通过看板应用 Express + React + 拖拽 — 一次通过每个项目都手动验证过——真的能跑，功能正常。代价本质上这东西是拿 token 换你的时间和精力。每次跑 30-50 个 agent call ，45 分钟到 2 小时不等。如果这个 token 开销让你肉疼，那可能不适合你。但如果你有公司报销，或者你觉得自己的注意力比 token 值钱——与其花一小时盯着它干活、测 bug 、来回沟通，不如让它自己跑完所有环节，你回来看成品——那这个 trade-off 就很值。 Repo GitHub: https://github.com/DreamChaserEric/claude-lights-out 一行安装： curl -fsSL https://raw.githubusercontent.com/DreamChaserEric/claude-lights-out/main/install.sh | bash 需要 Claude Code 且支持 workflow 功能。欢迎反馈。

Loop Engineering 正在取代“你亲自给 agent 写 prompt”这件事。

LinuxDo 最新话题 · 2026-06-10 15:21:41+08:00 · tech

一天一个概念，学不完根本学不完 5 个帖子 - 5 位参与者阅读完整话题

gpt plus -> gpt 免费版 / gemini pro，prompt engineering的需求直线飙升

LinuxDo 最新话题 · 2026-06-05 21:48:17+08:00 · tech

背景：初始prompt一样的“agent学习”对话 gptplus凭借其内置的memory能在几轮对话后和我开始契合，学习流固化且对阶段性信息抗干扰能力强（例如我中途突然问一个偏细或者和主线相关度不高的问题后，可以主动返回学习主线），无需我进行额外的修正和prompt engineering。 gpt 免费版和gemini pro，共同的槽点是记忆很差，容易在主线学着学着开始钻牛角尖，再结合他们的高服从度：“你希望我下一步…吗” ，将学习流切得很碎；目前的解决方法: a. 在一开始就把学习实践路线和它确认（学习路线->学习模块->更细的知识点->更细的checkpoints) b. 把它当傻子，后面各轮的prompt不能出现和主线无关的语义（骂完他还要多写一句让它继续）最终解决方案：周末把plus搞回来 1 个帖子 - 1 位参与者阅读完整话题

现在 harness engineering 最佳实践是什么？

V2EX - 技术 · 2026-06-01 17:12:28+08:00 · tech

有 2 个问题想请教下问题 1. codex 对于稍有规模的工程开发现在还是 subagents 吗？平时用 codex 多一些，但对于研发来讲，agent 还是 cc 更先进一些，cc 之前有 agent teams ，大家所熟悉的三省六部制多 agent 合作来做项目，有 PM/架构师/Engineer/QA 等不同角色配合，而现在 cc 又出现 dynamic workflows ，对于大型工程，AI 先编写脚本，用脚本去派生子 agent 做项目的维护推进。对于 codex 来讲，现在还是只有 subagents 吧？平时虽然没有那么多新项目的需求，基本上都是对老项目修修补补，开一个 codex ，不相关的小修补都是新开 session 来让 AI 解决，一个 AGENTS.md 足以。问题 2. 对于前端/客户端来讲，AI 如何做 UI 测试/验收？就像 claude 把 bun 从 zig 移植到 rust ，不说它 RIIR 方面，但开发的闭环这一块就值得我们学习，前段时间还看到有人用 cc 把 go mihomo 移植到 rust ，这也是依赖 agent teams 的闭环合作。但对于这些项目，都是比较容易测试的(对 AI 来讲)。那对于前端/客户端来讲呢？ codex 写网页我看它还会开 server 打开浏览器来控制操作下，实际上它的审美也是不足的（先不用说什么 fronted-design skills)，最终还是要靠人来反复比对调整，对于客户端项目（虽然很久前 codex 就支持内置 iOS 模拟器了），这种更依赖人去运行到真机测试，复杂交互逻辑它还是不太 work 。所以说，对于前端/客户端开发来讲，如何完成 agent teams 的合作闭环？

佬友们是如何熬过 Agent 思考时间的

LinuxDo 最新话题 · 2026-05-29 14:30:58+08:00 · tech

rt，严肃学习 Harness Engineering 中，但是等输出好难熬 10 个帖子 - 9 位参与者阅读完整话题

GPT-5.5在 DeepSWE 上远超 Claude Opus

LinuxDo 最新话题 · 2026-05-28 14:38:59+08:00 · tech

DeepSWE DeepSWE DeepSWE measures frontier coding agents on original, long-horizon software engineering tasks. 跑分也就图一乐，真要比较还得自己亲自用过 AI 生成内容已用截图发出 DeepSWE 的介绍： 3 个帖子 - 3 位参与者阅读完整话题

[分享创造] 我用 100% Prompt Engineering 独自维护了一个 10 万行、1000+ Star 的仓库，现在把自己蒸溜并开源了

v2ex · 2026-05-27 02:56:05+08:00 · tech

过去一段时间，我靠完全 Prompt Engineering ，独自创建并维护了一个 10 万行左右、1000+ Star 的仓库 franklioxygen/MyTube 。现在有了 100k+ dokcer pull ，顿时觉得身负重任不敢怠慢。从以前的全靠嘴遁到现在使用标准化的工作流，明显感觉到开发更顺畅，故障更少，更省脑力（ token 消耗也增多了）。于是我把我的方法论蒸馏成了工作流和 skill 。 https://github.com/franklioxygen/agent-workflows 欢迎试用、提 issue 、提 PR ，也欢迎直接拍砖。

[分享创造] 我用 100% Prompt Engineering 独自维护了一个 10 万行、1000+ Star 的仓库，现在把自己蒸溜并开源了

v2ex · 2026-05-27 02:56:05+08:00 · tech

过去一段时间，我靠完全 Prompt Engineering ，独自创建并维护了一个 10 万行左右、1000+ Star 的仓库 franklioxygen/MyTube 。现在有了 100k+ dokcer pull ，顿时觉得身负重任不敢怠慢。从以前的全靠嘴遁到现在使用标准化的工作流，明显感觉到开发更顺畅，故障更少，更省脑力（ token 消耗也增多了）。于是我把我的方法论蒸馏成了工作流和 skill 。 https://github.com/franklioxygen/agent-workflows 欢迎试用、提 issue 、提 PR ，也欢迎直接拍砖。

v2ex · 2026-05-27 02:16:27+08:00 · tech

过去一段时间，我靠完全 Prompt Engineering ，独自创建并维护了一个 10 万行左右、1000+ Star 的仓库 franklioxygen/MyTube 。现在有了 100k+ dokcer pull ，顿时觉得身负重任不敢怠慢。从以前的全靠嘴遁到现在使用标准化的工作流，明显感觉到开发更顺畅，故障更少，更省脑力（ token 消耗也增多了）。于是我把我的方法论蒸馏成了工作流和 skill 。 https://github.com/franklioxygen/agent-workflows 欢迎试用、提 issue 、提 PR ，也欢迎直接拍砖。

Agentic Engineering 的一些心得

V2EX - 技术 · 2026-05-23 18:13:54+08:00 · tech

3 个月前从 Antigravity 入坑 agentic 开发，后来转 claude code + codex ，一点踩过的坑和心得分享。核心原则约束优先：剪枝，永远遵守 design → spec → plan → impl 的流程，要求提得越清楚，spec 越详细，后续越不容易上梁不正。代码为王：源码是给 agent 最好的说明书，不要迷信 JSON 、HTML 那些"代码可视化"，agent 读代码比你强多了，为了让人类懂而把代码压缩成人类可读格式反而会误导 agent 。仓库管理：Git Repo 就是最好的记忆+上下文库，commit + PR 的设计不但有利于人类团队干活，也能很好地组织 agents 团队。想同步 memory 也是在 repo 根目录建一个 .memory/ 再加上 post-hook 就搞定的事，根本不需要额外的记忆管理。菜就多练：语言选择（ Python, TS, Golang, Rust ）、架构选择（ Vue 、Flutter ）、部署流（ Docker 、K8S ）、设计规范、迭代原则、工作流（需求 → schema → 接口约定 → 后端 → 前端 → E2E MVP ）、网络排障、命令行指令、外语阅读能力这些“判断”并不能被 AI 取代（但可以让 AI 教你），老老实实学习，不要迷信那些減少信息熵的花拳绣腿。踩过的一些坑、一些建议权威文档只要存一份，並且写记忆和 agent 说要去哪读。一开始我建了文档 repo ，里面把 spec 、plan 、milestone 、schema 、api 全放进去，后来发现字段定义东一块西一块：有的在文档库，有的在代码，有的在项目 repo 自己的 docs/。后来我约定：文档库只放项目全局的 overall spec 和给人类看的东西（例如我让 agent 给我整理 rust 名词对照表，方便我读懂 agent 写 rust 时做了啥」、spec 放项目自己的 docs/superpowers/、schema 定义只认 migration/*.sql ，接口定义只认代码。 cli 之间可以互相呼叫，例如 claude code 主驾可以 call gh 来管 PR 和 merge ， codex 来审代码， supabase db query --linked 来查改数据库， fly 看服务器 log 等。 claude code 有时会不小心创造接口，除了写记忆让它记得复用接口以外，也要自己多留心眼，尤其是项目变大了，有些逻辑要用前端中间件查、有些逻辑要用后端接口时，cc 不一定能猜得准你的意图。除了 superpowers 和 gstack 等 skill 之外，如果不确定自己的需求怎么实现，可以先和网页 LLM （例如 ChatGPT 、Grok ）讨论，让它生成 prompt 丢给 cc 跑 brainstorming ，会比直接大白话咏唱强。

Agentic Engineering 的一些心得

V2EX - 技术 · 2026-05-23 16:13:54+08:00 · tech

3 个月前从 Antigravity 入坑 agentic 开发，后来转 claude code + codex ，一点踩过的坑和心得分享。核心原则约束优先：剪枝，永远遵守 design → spec → plan → impl 的流程，要求提得越清楚，spec 越详细，后续越不容易上梁不正。代码为王：源码是给 agent 最好的说明书，不要迷信 JSON 、HTML 那些"代码可视化"，agent 读代码比你强多了，为了让人类懂而把代码压缩成人类可读格式反而会误导 agent 。仓库管理：Git Repo 就是最好的记忆+上下文库，commit + PR 的设计不但有利于人类团队干活，也能很好地组织 agents 团队。想同步 memory 也是在 repo 根目录建一个 .memory/ 再加上 post-hook 就搞定的事，根本不需要额外的记忆管理。菜就多练：语言选择（ Python, TS, Golang, Rust ）、架构选择（ Vue 、Flutter ）、部署流（ Docker 、K8S ）、设计规范、迭代原则、工作流（需求 → schema → 接口约定 → 后端 → 前端 → E2E MVP ）、网络排障、命令行指令、外语阅读能力这些“判断”并不能被 AI 取代（但可以让 AI 教你），老老实实学习，不要迷信那些減少信息熵的花拳绣腿。踩过的一些坑、一些建议权威文档只要存一份，並且写记忆和 agent 说要去哪读。一开始我建了文档 repo ，里面把 spec 、plan 、milestone 、schema 、api 全放进去，后来发现字段定义东一块西一块：有的在文档库，有的在代码，有的在项目 repo 自己的 docs/。后来我约定：文档库只放项目全局的 overall spec 和给人类看的东西（例如我让 agent 给我整理 rust 名词对照表，方便我读懂 agent 写 rust 时做了啥」、spec 放项目自己的 docs/superpowers/、schema 定义只认 migration/*.sql ，接口定义只认代码。 cli 之间可以互相呼叫，例如 claude code 主驾可以 call gh 来管 PR 和 merge ， codex 来审代码， supabase db query --linked 来查改数据库， fly 看服务器 log 等。 claude code 有时会不小心创造接口，除了写记忆让它记得复用接口以外，也要自己多留心眼，尤其是项目变大了，有些逻辑要用前端中间件查、有些逻辑要用后端接口时，cc 不一定能猜得准你的意图。除了 superpowers 和 gstack 等 skill 之外，如果不确定自己的需求怎么实现，可以先和网页 LLM （例如 ChatGPT 、Grok ）讨论，让它生成 prompt 丢给 cc 跑 brainstorming ，会比直接大白话咏唱强。

Agentic Engineering 的一些心得

V2EX - 技术 · 2026-05-23 16:13:54+08:00 · tech

3 个月前从 Antigravity 入坑 agentic 开发，后来转 claude code + codex ，一点踩过的坑和心得分享。核心原则约束优先：剪枝，永远遵守 design → spec → plan → impl 的流程，要求提得越清楚，spec 越详细，后续越不容易上梁不正。代码为王：源码是给 agent 最好的说明书，不要迷信 JSON 、HTML 那些"代码可视化"，agent 读代码比你强多了，为了让人类懂而把代码压缩成人类可读格式反而会误导 agent 。仓库管理：Git Repo 就是最好的记忆+上下文库，commit + PR 的设计不但有利于人类团队干活，也能很好地组织 agents 团队。想同步 memory 也是在 repo 根目录建一个 .memory/ 再加上 post-hook 就搞定的事，根本不需要额外的记忆管理。菜就多练：语言选择（ Python, TS, Golang, Rust ）、架构选择（ Vue 、Flutter ）、部署流（ Docker 、K8S ）、设计规范、迭代原则、工作流（需求 → schema → 接口约定 → 后端 → 前端 → E2E MVP ）、网络排障、命令行指令、外语阅读能力这些“判断”并不能被 AI 取代（但可以让 AI 教你），老老实实学习，不要迷信那些減少信息熵的花拳绣腿。踩过的一些坑、一些建议权威文档只要存一份，並且写记忆和 agent 说要去哪读。一开始我建了文档 repo ，里面把 spec 、plan 、milestone 、schema 、api 全放进去，后来发现字段定义东一块西一块：有的在文档库，有的在代码，有的在项目 repo 自己的 docs/。后来我约定：文档库只放项目全局的 overall spec 和给人类看的东西（例如我让 agent 给我整理 rust 名词对照表，方便我读懂 agent 写 rust 时做了啥」、spec 放项目自己的 docs/superpowers/、schema 定义只认 migration/*.sql ，接口定义只认代码。 cli 之间可以互相呼叫，例如 claude code 主驾可以 call gh 来管 PR 和 merge ， codex 来审代码， supabase db query --linked 来查改数据库， fly 看服务器 log 等。 claude code 有时会不小心创造接口，除了写记忆让它记得复用接口以外，也要自己多留心眼，尤其是项目变大了，有些逻辑要用前端中间件查、有些逻辑要用后端接口时，cc 不一定能猜得准你的意图。除了 superpowers 和 gstack 等 skill 之外，如果不确定自己的需求怎么实现，可以先和网页 LLM （例如 ChatGPT 、Grok ）讨论，让它生成 prompt 丢给 cc 跑 brainstorming ，会比直接大白话咏唱强。

Agentic Engineering 的一些心得

V2EX - 技术 · 2026-05-23 14:13:54+08:00 · tech

3 个月前从 Antigravity 入坑 agentic 开发，后来转 claude code + codex ，一点踩过的坑和心得分享。核心原则约束优先：剪枝，永远遵守 design → spec → plan → impl 的流程，要求提得越清楚，spec 越详细，后续越不容易上梁不正。代码为王：源码是给 agent 最好的说明书，不要迷信 JSON 、HTML 那些"代码可视化"，agent 读代码比你强多了，为了让人类懂而把代码压缩成人类可读格式反而会误导 agent 。仓库管理：Git Repo 就是最好的记忆+上下文库，commit + PR 的设计不但有利于人类团队干活，也能很好地组织 agents 团队。想同步 memory 也是在 repo 根目录建一个 .memory/ 再加上 post-hook 就搞定的事，根本不需要额外的记忆管理。菜就多练：语言选择（ Python, TS, Golang, Rust ）、架构选择（ Vue 、Flutter ）、部署流（ Docker 、K8S ）、设计规范、迭代原则、工作流（需求 → schema → 接口约定 → 后端 → 前端 → E2E MVP ）、网络排障、命令行指令、外语阅读能力这些“判断”并不能被 AI 取代（但可以让 AI 教你），老老实实学习，不要迷信那些減少信息熵的花拳绣腿。踩过的一些坑、一些建议权威文档只要存一份，並且写记忆和 agent 说要去哪读。一开始我建了文档 repo ，里面把 spec 、plan 、milestone 、schema 、api 全放进去，后来发现字段定义东一块西一块：有的在文档库，有的在代码，有的在项目 repo 自己的 docs/。后来我约定：文档库只放项目全局的 overall spec 和给人类看的东西（例如我让 agent 给我整理 rust 名词对照表，方便我读懂 agent 写 rust 时做了啥」、spec 放项目自己的 docs/superpowers/、schema 定义只认 migration/*.sql ，接口定义只认代码。 cli 之间可以互相呼叫，例如 claude code 主驾可以 call gh 来管 PR 和 merge ， codex 来审代码， supabase db query --linked 来查改数据库， fly 看服务器 log 等。 claude code 有时会不小心创造接口，除了写记忆让它记得复用接口以外，也要自己多留心眼，尤其是项目变大了，有些逻辑要用前端中间件查、有些逻辑要用后端接口时，cc 不一定能猜得准你的意图。除了 superpowers 和 gstack 等 skill 之外，如果不确定自己的需求怎么实现，可以先和网页 LLM （例如 ChatGPT 、Grok ）讨论，让它生成 prompt 丢给 cc 跑 brainstorming ，会比直接大白话咏唱强。

/tag/engineering