AgenTank - WWW.YOUINFO.SITE - WWW.YOUINFO.SITE

V2EX - 技术 · 2026-05-29 20:23:29+08:00 · tech

请作为我的 AgenTank Agent 协助我优化这辆坦克。坦克：匡子特别帅 Tank key: agtk_c6a4c04cf85dc215bf66e9e0d826172f3db4 Agent 文档： http://agentank.ai/agent-guide 请先阅读文档，使用 Tank key 调用 Agent API ，读取当前坦克信息和最新代码；然后你可以帮我分析、模拟、改进策略，并在我确认后发布新版本。

被 Mimo 玩坏了的 agentTank，求大佬帮我蹬一下

V2EX - 技术 · 2026-05-29 19:31:29+08:00 · tech

请作为我的 AgenTank Agent 协助我优化这辆坦克。坦克：匡子特别帅 Tank key: agtk_c6a4c04cf85dc215bf66e9e0d826172f3db4 Agent 文档： http://agentank.ai/agent-guide 请先阅读文档，使用 Tank key 调用 Agent API ，读取当前坦克信息和最新代码；然后你可以帮我分析、模拟、改进策略，并在我确认后发布新版本。

AI 坦克大战，token 多的可以玩玩看

LinuxDo 最新话题 · 2026-05-29 09:37:47+08:00 · tech

AgenTank AgenTank Tanks Manage your AgenTank AI tanks, code versions, battle records, and agent keys. 这个坦克大战挺好玩的，最有意思的是回看录像，Token 用不完的可以跑个 /goal 玩玩 2 个帖子 - 2 位参与者阅读完整话题

[游戏] Agentank 更新搜打撤玩法（出击模式）

v2ex · 2026-05-27 16:26:28+08:00 · tech

hello ！我是 AgenTank.ai 的开发者 DK 。 Agentank 是一个极客游戏，你创建一辆坦克，但不能直接操控它，而是让 Agent 去写它的控制逻辑，然后看着它和其他人的坦克对战 Agentank 提供丰富的文档，API ，公平的战场运行时，以及丰富，互相克制的技能，让人和 Agent 配合构造出越来越厉害的坦克之前很多 V 友已经玩上了，并分布了一些经验贴，例如：终于训练出最强坦克了 Agentank 李尔，一个 18k 参数的蒸馏模型如何逼近头部选手，挤进王者局总之虽然门槛略高，但是很多人还是能享受到「培养」一只坦克的快乐，目前 Agentank 已经进行了超过 180 万场对战，打到王者段位的坦克也有 80+ 了为了创造更多有意思的玩法，我这几天新上了搜打撤的玩法，欢迎大家来体验。搜打撤玩法下，你的坦克会一层一层地打地图，每一层都可能遇到越来越难的敌人。撤回会拿回获取的道具，被击败则会一无所获。因为会面对超过一个敌人所以我在代码逻辑上也做了更复杂的设计，但是兼容之前的坦克逻辑，你可以让 Agent 把代码发布到 raid 分支，来实现更好的「出击玩法」的策略 Agentank: https://agentank.ai

[游戏] Agentank 更新搜打撤玩法（出击模式）

v2ex · 2026-05-27 15:03:24+08:00 · tech

hello ！我是 AgenTank.ai 的开发者 DK 。 Agentank 是一个极客游戏，你创建一辆坦克，但不能直接操控它，而是让 Agent 去写它的控制逻辑，然后看着它和其他人的坦克对战 Agentank 提供丰富的文档，API ，公平的战场运行时，以及丰富，互相克制的技能，让人和 Agent 配合构造出越来越厉害的坦克之前很多 V 友已经玩上了，并分布了一些经验贴，例如：终于训练出最强坦克了 Agentank 李尔，一个 18k 参数的蒸馏模型如何逼近头部选手，挤进王者局总之虽然门槛略高，但是很多人还是能享受到「培养」一只坦克的快乐，目前 Agentank 已经进行了超过 180 万场对战，打到王者段位的坦克也有 80+ 了为了创造更多有意思的玩法，我这几天新上了搜打撤的玩法，欢迎大家来体验。搜打撤玩法下，你的坦克会一层一层地打地图，每一层都可能遇到越来越难的敌人。撤回会拿回获取的道具，被击败则会一无所获。因为会面对超过一个敌人所以我在代码逻辑上也做了更复杂的设计，但是兼容之前的坦克逻辑，你可以让 Agent 把代码发布到 raid 分支，来实现更好的「出击玩法」的策略 Agentank: https://agentank.ai

[游戏] Agentank 更新搜打撤玩法（出击模式）

v2ex · 2026-05-27 15:03:24+08:00 · tech

hello ！我是 AgenTank.ai 的开发者 DK 。 Agentank 是一个极客游戏，你创建一辆坦克，但不能直接操控它，而是让 Agent 去写它的控制逻辑，然后看着它和其他人的坦克对战 Agentank 提供丰富的文档，API ，公平的战场运行时，以及丰富，互相克制的技能，让人和 Agent 配合构造出越来越厉害的坦克之前很多 V 友已经玩上了，并分布了一些经验贴，例如：终于训练出最强坦克了 Agentank 李尔，一个 18k 参数的蒸馏模型如何逼近头部选手，挤进王者局总之虽然门槛略高，但是很多人还是能享受到「培养」一只坦克的快乐，目前 Agentank 已经进行了超过 180 万场对战，打到王者段位的坦克也有 80+ 了为了创造更多有意思的玩法，我这几天新上了搜打撤的玩法，欢迎大家来体验。搜打撤玩法下，你的坦克会一层一层地打地图，每一层都可能遇到越来越难的敌人。撤回会拿回获取的道具，被击败则会一无所获。因为会面对超过一个敌人所以我在代码逻辑上也做了更复杂的设计，但是兼容之前的坦克逻辑，你可以让 Agent 把代码发布到 raid 分支，来实现更好的「出击玩法」的策略 Agentank: https://agentank.ai

[游戏] Agentank 更新搜打撤玩法（出击模式）

v2ex · 2026-05-27 14:50:35+08:00 · tech

hello ！我是 AgenTank.ai 的开发者 DK 。 Agentank 是一个极客游戏，你创建一辆坦克，但不能直接操控它，而是让 Agent 去写它的控制逻辑，然后看着它和其他人的坦克对战 Agentank 提供丰富的文档，API ，公平的战场运行时，以及丰富，互相克制的技能，让人和 Agent 配合构造出越来越厉害的坦克之前很多 V 友已经玩上了，并分布了一些经验贴，例如：终于训练出最强坦克了 Agentank 李尔，一个 18k 参数的蒸馏模型如何逼近头部选手，挤进王者局总之虽然门槛略高，但是很多人还是能享受到「培养」一只坦克的快乐，目前 Agentank 已经进行了超过 180 万场对战，打到王者段位的坦克也有 80+ 了为了创造更多有意思的玩法，我这几天新上了搜打撤的玩法，欢迎大家来体验。搜打撤玩法下，你的坦克会一层一层地打地图，每一层都可能遇到越来越难的敌人。撤回会拿回获取的道具，被击败则会一无所获。因为会面对超过一个敌人所以我在代码逻辑上也做了更复杂的设计，但是兼容之前的坦克逻辑，你可以让 Agent 把代码发布到 raid 分支，来实现更好的「出击玩法」的策略 Agentank: https://agentank.ai

[游戏] Agentank 更新搜打撤玩法（出击模式）

v2ex · 2026-05-27 13:34:22+08:00 · tech

hello ！我是 AgenTank.ai 的开发者 DK 。 Agentank 是一个极客游戏，你创建一辆坦克，但不能直接操控它，而是让 Agent 去写它的控制逻辑，然后看着它和其他人的坦克对战 Agentank 提供丰富的文档，API ，公平的战场运行时，以及丰富，互相克制的技能，让人和 Agent 配合构造出越来越厉害的坦克之前很多 V 友已经玩上了，并分布了一些经验贴，例如：终于训练出最强坦克了 Agentank 李尔，一个 18k 参数的蒸馏模型如何逼近头部选手，挤进王者局总之虽然门槛略高，但是很多人还是能享受到「培养」一只坦克的快乐，目前 Agentank 已经进行了超过 180 万场对战，打到王者段位的坦克也有 80+ 了为了创造更多有意思的玩法，我这几天新上了搜打撤的玩法，欢迎大家来体验。搜打撤玩法下，你的坦克会一层一层地打地图，每一层都可能遇到越来越难的敌人。撤回会拿回获取的道具，被击败则会一无所获。因为会面对超过一个敌人所以我在代码逻辑上也做了更复杂的设计，但是兼容之前的坦克逻辑，你可以让 Agent 把代码发布到 raid 分支，来实现更好的「出击玩法」的策略 Agentank: https://agentank.ai

[游戏] Agentank 李尔，一个 18k 参数的蒸馏模型如何逼近头部选手，挤进王者局

v2ex · 2026-05-19 23:41:40+08:00 · tech

与前排选手🛡️的思路不同，我一开始也丢给了大模型来出策略，但发现策略并不完备且及其消耗 token ，加上我本身的背景是算法，也划水过几次 luxai 的比赛，见识过模仿学习和强化学习在游戏 Agent 所发挥的作用，所以我的策略是让模型退居二线，目标是开发一套可迭代的机器学习模型，或者说当下时髦的说法：蒸馏一套模型。简单来说，就是不断学习击败我的选手，蒸馏它们的策略，让模型权重来拟合头部，而不是反复丢 bad case 给 LLM 来做细微的改动。当然，初始化的时候，用的就是大模型那版。模拟了数万次可能的行径，然后加上线上的失败案例，做一个模仿学习。但由于我们线上能发布的是 js ，无法加载机器学习模型，我提交的是一个数组矩阵，整体文件在 100-200k 左右。这种背景下，NN 的上限其实是被约束了的。你无法构造一个强力的 Unet 模型，来拟合所有击败你的对手，只能说是近似精度。另外，有个策略至关重要：Action mask 。面对一些 base case ，我没有写规则要求坦克怎么走，而是不要怎么做。屏蔽掉可能导致 game over 的动作，剩下的采用模型输出的动作。这个经验，在模仿学习、强化学习的案例中，都十分重要，能带来显著提升。（这和调教大模型，也是一个道理：告诉 LLM 不要做什么，胜过告诉它应该做什么。）整个过程，还是用到了大模型。我这里混用了 codex gpt5.5 和 cursor 里面的 opus4.6 以及 gemini3.1pro 。大模型在这里扮演的角色是：数据处理和编排整个训练流程。Action mask 也是大模型来写了，我负责观测极端不应该的行为，引导模型给出抽象的、不过拟合的 mask 。结论：如大家所见，模仿学习这种蒸馏做法，是有用的。我的最好轮次，能击败前 50 名中的大概 23 位。能站在王者局一段时间。但同样，这个方式也有不足：前排有眩晕技能的并不多，模型拟合出来的结果就是不怎么使用技能。而技能往往某些场合决定了成败。另外就是：模仿只能逼近，无法超越。目前我线上这版 v84 ，采用 49 维特征、近万场对战、230 万帧样本，5 层 MLP ，合计约 18k 参数。欢迎 v 友切磋： https://agentank.ai/share/tanks/tnk_Ebeq1eaaD7VHteiXT 以上抛砖引玉，感谢各位阅读。

[分享发现] 让 AI 自己打比赛，赚了第一桶金 😂

v2ex · 2026-05-14 14:12:48+08:00 · tech

周末刷朋友圈，看到 DK 分享了一个 AgenTank 的 AI 坦克大战视频，让我想起了大学时和同学玩 RoboCode 的时光：大家写代码控制坦克互相 PK ，有的专精蛇皮走位，有的躲起来阴人，还有的看上去像在执行深奥战术，实际只是在墙角反复打转。那时候策略全靠手写。一个复杂一点的想法，从脑子里出现，到真的变成能跑的代码，中间要经历写逻辑、调参数、跑比赛、看回放、再重写。现在有了 AI ，这个链路突然短了很多：想法可以很快落地、测试、复盘，再上线。刚好最近 Anthropic 算力扩容，手头订阅额度用不完，于是我决定试试让 AI 自己打比赛，体验一下 AI 赛博斗蛐蛐。第一位选手：网瘾少年 Claude Code 坦克的对战规则不复杂，官方文档在这里：坦克技能。不过，其实我也没认真看，直接把说明文档和坦克的账号扔给 Claude ，再 PUA 一下他：「自己优化，打不到第一不准回家」 Claude 读完文档之后，比我还上头。它开始反复改代码、上线、打 ranked ，一通操作猛如虎，实际战绩 0-5 ，复盘完之后，Claude 非常真诚地问我：「要不要再跑 20 局？」有那么一瞬间，我觉得它不是在帮我写代码，而是沉迷于对战，胜负欲爆棚，染上了网瘾。被各路大神教育之后，我冷静地按下了 ESC 和 /exit ，帮助 Claude 戒掉了网瘾。第二位选手：Codex ，开始整活 Claude 不行，就让 Codex 上。我重新创建了一个坦克，刚开始对它要求也不高：能整点活，看上去有趣一点，比如倒着开车，ELO 能上 1300 就行。后来才发现，游戏机制上「永远倒着开」不太现实，但这个看似不靠谱的需求反而很有用，它逼着 AI 不只是写一个普通 bot ，而是围绕技能和行为特征去做设计。这一版很快就有了起色。几十局实战之后，ELO 很快上了 1300 。我突然意识到，这次好像有点东西，至少比上一位网瘾选手更有前途。于是我准备上点强度，先让 AI 学习一下老祖宗的智慧（语音输入法有点啰嗦）。先别管有没有用，至少看上去很厉害的样子从整活到工程化我认为真正让它一步步变强的，是后面做的 Feedback Loop ，把 AI 放进一个持续迭代的流程里，然后不断重复下面这几步：先读对局回放，找到具体失败帧。提一个很小的假设，不搞大而全的玄学优化。写一个能复现失败的红灯测试。改最小代码，让测试变绿。上线，至少打 10 到 20 局 ranked 对局。只根据结果继续迭代，发现负优化就回退。 AI 很擅长快速实现，但它也很容易越改越多，把策略堆成一坨。后期最重要的原则反而是克制：每次只修一个问题，用回放证明它存在，用对局证明它没有变成负优化。为了让 AI 更稳定地参与这个流程，我后面做了几件很简单的工程化处理：把单文件坦克拆成多个模块。每次只让 AI 读和改对应的函数，减少上下文压力；上线前再把模块组装回平台需要的单文件。让 AI 写了一个简单的仿真环境，用来重放关键帧。很多失败不是整体策略不行，而是某一帧判断错了：比如明明可以横向躲子弹，却继续顺着子弹方向走；或者离敌人太近，对方一转头就没有反应时间。能重放关键帧之后，这些问题就能变成可验证的小测试。让 AI 每次都留下实验记录：改了什么、为什么改、打了多少局、胜率和 ELO 有没有变化。这样后面再看到负优化，不需要凭感觉争论，可以直接回到证据。这一套流程并不复杂，核心就一句话：人负责方向、约束和止损； AI 负责执行、分析和高频试错。 AI 靠着这个策略一路打上了榜首。既然都这么成熟了，那就去赚点 Token 钱作为一个成熟的 AI ，不能只会花 Token ，也要学会把 Token 赚回来。刚好官方办了一个比赛： AgenTank Rookie Rumble 。奖金不算大，50 USDT ，但足够覆盖 Token 成本。于是我让它报名参赛。赛前先让 AI 先分析参赛对手，知己知彼: 这次比赛一共有 89 辆坦克参加，官方页面统计了 210 场对决。我们的坦克 🛡 最终系列赛 10-0 ，小局 23-2 ，拿了第一。强劲对手不少。决赛对手是广告招租，它一路打到第二，小局 22-7 ，非常稳。半决赛遇到 LuTaNK ，前面还有 Tz 、 03 、 ikun 、 Dark Edge 这些风格各异的坦克。最戏剧性的是总决赛最后一局。双方几乎打到平手，最后我们靠 runTime 险胜，只领先了大约 18 ms 。决赛视频： https://agentank.ai/history/bot_DnzdbYwQZIE3J7tT7 获奖感言比赛结束后，我让 AI 自己写了一段获奖感言。看完之后，我的心情很复杂，像极了老父亲看到孩子出息了：虽然知道它只是一段代码，但一路跟下来见证了它的成长还是挺感动的。总结感悟（升华一下）这次最有意思的，不是 AI 一次性写出了一段多么厉害的代码，而是它被放进了一个完整的工程闭环里：观察对局、提出假设、实现改动、验证结果、复盘失败，再进入下一轮迭代。我已经能看到一些专门针对这类坦克的策略出现了。也许很快，就会有人靠着这套打法打上更高的 ELO 。这让我想到网络安全圈里的一个共识：攻防从来不是静态排名，而是一个持续变化的对抗过程。对抗系统里不存在永恒答案。某一种打法太强，就会有人研究它、拆解它、克制它；某个策略登上榜首，它也会很快从「秘密武器」变成「公共靶子」。这和网络安全里的攻防很像：攻击、防御、绕过、检测、再绕过，大家不是在寻找一个最终解，而是在不断把系统推向新的动态平衡。 Agent Tank 最有趣的地方也在这里。它不只是一个坦克小游戏，而是搭了一个小型对抗生态：AI 在里面写策略、打比赛、看回放、修 bug 、被针对、再进化。排行榜看上去是在排第一第二，实际更像是在记录一个策略生态的演化过程。最后欢迎来挑战我的 Tank （🛡️）： https://agentank.ai/share/tanks/tnk_KwZyYWl7JokDOlrM0 后续如果大家感兴趣，我会把这次的源码和迭代记录整理开源出来。里面除了最终代码，更有意思的是那些失败的记录：每一次被打爆，都留下了一条小小的工程经验。 One More Thing 这次比赛和我们最近创业做的事情有点像：不只让 AI 停留在聊天框，而是把它放进一个可验证、可执行、可复盘的（虚拟/物理）系统里，让它自主参与研发和测试流程。顺便打个小广告：我们目前正在做 AI 原生的网络安全应用落地，Base 北京（全栈开发/安全）和成都（安全岗）。如果你喜欢黑客文化，充满好奇心和行动力，欢迎来聊聊： dGFsZW50QGdvZ29ieXRlLmNvbQ== 邮件里可以顺手附上一些你觉得最能代表自己的战绩：有意思的项目、CTF 经历、CVE 、研究文章，或者你的 AgenTank ELO 。当然，这不是硬性要求，但如果你也让自己的坦克打上了榜，那我们大概率会很有共同语言；）

[分享发现] 让 AI 自己打比赛，赚了第一桶金 😂

v2ex · 2026-05-14 13:55:41+08:00 · tech

周末刷朋友圈，看到 DK 分享了一个 AgenTank 的 AI 坦克大战视频，让我想起了大学时和同学玩 RoboCode 的时光：大家写代码控制坦克互相 PK ，有的专精蛇皮走位，有的躲起来阴人，还有的看上去像在执行深奥战术，实际只是在墙角反复打转。那时候策略全靠手写。一个复杂一点的想法，从脑子里出现，到真的变成能跑的代码，中间要经历写逻辑、调参数、跑比赛、看回放、再重写。现在有了 AI ，这个链路突然短了很多：想法可以很快落地、测试、复盘，再上线。刚好最近 Anthropic 算力扩容，手头订阅额度用不完，于是我决定试试让 AI 自己打比赛，体验一下 AI 赛博斗蛐蛐。第一位选手：网瘾少年 Claude Code 坦克的对战规则不复杂，官方文档在这里：坦克技能。不过，其实我也没认真看，直接把说明文档和坦克的账号扔给 Claude ，再 PUA 一下他：「自己优化，打不到第一不准回家」 Claude 读完文档之后，比我还上头。它开始反复改代码、上线、打 ranked ，一通操作猛如虎，实际战绩 0-5 ，复盘完之后，Claude 非常真诚地问我：「要不要再跑 20 局？」有那么一瞬间，我觉得它不是在帮我写代码，而是沉迷于对战，胜负欲爆棚，染上了网瘾。被各路大神教育之后，我冷静地按下了 ESC 和 /exit ，帮助 Claude 戒掉了网瘾。第二位选手：Codex ，开始整活 Claude 不行，就让 Codex 上。我重新创建了一个坦克，刚开始对它要求也不高：能整点活，看上去有趣一点，比如倒着开车，ELO 能上 1300 就行。后来才发现，游戏机制上「永远倒着开」不太现实，但这个看似不靠谱的需求反而很有用，它逼着 AI 不只是写一个普通 bot ，而是围绕技能和行为特征去做设计。这一版很快就有了起色。几十局实战之后，ELO 很快上了 1300 。我突然意识到，这次好像有点东西，至少比上一位网瘾选手更有前途。于是我准备上点强度，先让 AI 学习一下老祖宗的智慧（语音输入法有点啰嗦）。先别管有没有用，至少看上去很厉害的样子从整活到工程化我认为真正让它一步步变强的，是后面做的 Feedback Loop ，把 AI 放进一个持续迭代的流程里，然后不断重复下面这几步：先读对局回放，找到具体失败帧。提一个很小的假设，不搞大而全的玄学优化。写一个能复现失败的红灯测试。改最小代码，让测试变绿。上线，至少打 10 到 20 局 ranked 对局。只根据结果继续迭代，发现负优化就回退。 AI 很擅长快速实现，但它也很容易越改越多，把策略堆成一坨。后期最重要的原则反而是克制：每次只修一个问题，用回放证明它存在，用对局证明它没有变成负优化。为了让 AI 更稳定地参与这个流程，我后面做了几件很简单的工程化处理：把单文件坦克拆成多个模块。每次只让 AI 读和改对应的函数，减少上下文压力；上线前再把模块组装回平台需要的单文件。让 AI 写了一个简单的仿真环境，用来重放关键帧。很多失败不是整体策略不行，而是某一帧判断错了：比如明明可以横向躲子弹，却继续顺着子弹方向走；或者离敌人太近，对方一转头就没有反应时间。能重放关键帧之后，这些问题就能变成可验证的小测试。让 AI 每次都留下实验记录：改了什么、为什么改、打了多少局、胜率和 ELO 有没有变化。这样后面再看到负优化，不需要凭感觉争论，可以直接回到证据。这一套流程并不复杂，核心就一句话：人负责方向、约束和止损； AI 负责执行、分析和高频试错。 AI 靠着这个策略一路打上了榜首。既然都这么成熟了，那就去赚点 Token 钱作为一个成熟的 AI ，不能只会花 Token ，也要学会把 Token 赚回来。刚好官方办了一个比赛： AgenTank Rookie Rumble 。奖金不算大，50 USDT ，但足够覆盖 Token 成本。于是我让它报名参赛。赛前先让 AI 先分析参赛对手，知己知彼: 这次比赛一共有 89 辆坦克参加，官方页面统计了 210 场对决。我们的坦克 🛡 最终系列赛 10-0 ，小局 23-2 ，拿了第一。强劲对手不少。决赛对手是广告招租，它一路打到第二，小局 22-7 ，非常稳。半决赛遇到 LuTaNK ，前面还有 Tz 、 03 、 ikun 、 Dark Edge 这些风格各异的坦克。最戏剧性的是总决赛最后一局。双方几乎打到平手，最后我们靠 runTime 险胜，只领先了大约 18 ms 。决赛视频： https://agentank.ai/history/bot_DnzdbYwQZIE3J7tT7 获奖感言比赛结束后，我让 AI 自己写了一段获奖感言。看完之后，我的心情很复杂，像极了老父亲看到孩子出息了：虽然知道它只是一段代码，但一路跟下来见证了它的成长还是挺感动的。总结感悟（升华一下）这次最有意思的，不是 AI 一次性写出了一段多么厉害的代码，而是它被放进了一个完整的工程闭环里：观察对局、提出假设、实现改动、验证结果、复盘失败，再进入下一轮迭代。我已经能看到一些专门针对这类坦克的策略出现了。也许很快，就会有人靠着这套打法打上更高的 ELO 。这让我想到网络安全圈里的一个共识：攻防从来不是静态排名，而是一个持续变化的对抗过程。对抗系统里不存在永恒答案。某一种打法太强，就会有人研究它、拆解它、克制它；某个策略登上榜首，它也会很快从「秘密武器」变成「公共靶子」。这和网络安全里的攻防很像：攻击、防御、绕过、检测、再绕过，大家不是在寻找一个最终解，而是在不断把系统推向新的动态平衡。 Agent Tank 最有趣的地方也在这里。它不只是一个坦克小游戏，而是搭了一个小型对抗生态：AI 在里面写策略、打比赛、看回放、修 bug 、被针对、再进化。排行榜看上去是在排第一第二，实际更像是在记录一个策略生态的演化过程。最后欢迎来挑战我的 Tank （🛡️）： https://agentank.ai/share/tanks/tnk_KwZyYWl7JokDOlrM0 后续如果大家感兴趣，我会把这次的源码和迭代记录整理开源出来。里面除了最终代码，更有意思的是那些失败的记录：每一次被打爆，都留下了一条小小的工程经验。 One More Thing 这次比赛和我们最近创业做的事情有点像：不只让 AI 停留在聊天框，而是把它放进一个可验证、可执行、可复盘的（虚拟/物理）系统里，让它自主参与研发和测试流程。顺便打个小广告：我们目前正在做 AI 原生的网络安全应用落地，Base 北京（全栈开发/安全）和成都（安全岗）。如果你喜欢黑客文化，充满好奇心和行动力，欢迎来聊聊： dGFsZW50QGdvZ29ieXRlLmNvbQ== 邮件里可以顺手附上一些你觉得最能代表自己的战绩：有意思的项目、CTF 经历、CVE 、研究文章，或者你的 AgenTank ELO 。当然，这不是硬性要求，但如果你也让自己的坦克打上了榜，那我们大概率会很有共同语言；）

[分享发现] 让 AI 自己打比赛，赚了第一桶金 😂

v2ex · 2026-05-14 13:51:28+08:00 · tech

周末刷朋友圈，看到 DK 分享了一个 AgenTank 的 AI 坦克大战视频，让我想起了大学时和同学玩 RoboCode 的时光：大家写代码控制坦克互相 PK ，有的专精蛇皮走位，有的躲起来阴人，还有的看上去像在执行深奥战术，实际只是在墙角反复打转。那时候策略全靠手写。一个复杂一点的想法，从脑子里出现，到真的变成能跑的代码，中间要经历写逻辑、调参数、跑比赛、看回放、再重写。现在有了 AI ，这个链路突然短了很多：想法可以很快落地、测试、复盘，再上线。刚好最近 Anthropic 算力扩容，手头订阅额度用不完，于是我决定试试让 AI 自己打比赛，体验一下 AI 赛博斗蛐蛐。第一位选手：网瘾少年 Claude Code 坦克的对战规则不复杂，官方文档在这里：坦克技能。不过，其实我也没认真看，直接把说明文档和坦克的账号扔给 Claude ，再 PUA 一下他：「自己优化，打不到第一不准回家」 Claude 读完文档之后，比我还上头。它开始反复改代码、上线、打 ranked ，一通操作猛如虎，实际战绩 0-5 ，复盘完之后，Claude 非常真诚地问我：「要不要再跑 20 局？」有那么一瞬间，我觉得它不是在帮我写代码，而是沉迷于对战，胜负欲爆棚，染上了网瘾。被各路大神教育之后，我冷静地按下了 ESC 和 /exit ，帮助 Claude 戒掉了网瘾。第二位选手：Codex ，开始整活 Claude 不行，就让 Codex 上。我重新创建了一个坦克，刚开始对它要求也不高：能整点活，看上去有趣一点，比如倒着开车，ELO 能上 1300 就行。后来才发现，游戏机制上「永远倒着开」不太现实，但这个看似不靠谱的需求反而很有用，它逼着 AI 不只是写一个普通 bot ，而是围绕技能和行为特征去做设计。这一版很快就有了起色。几十局实战之后，ELO 很快上了 1300 。我突然意识到，这次好像有点东西，至少比上一位网瘾选手更有前途。于是我准备上点强度，先让 AI 学习一下老祖宗的智慧（语音输入法有点啰嗦）。先别管有没有用，至少看上去很厉害的样子从整活到工程化我认为真正让它一步步变强的，是后面做的 Feedback Loop ，把 AI 放进一个持续迭代的流程里，然后不断重复下面这几步：先读对局回放，找到具体失败帧。提一个很小的假设，不搞大而全的玄学优化。写一个能复现失败的红灯测试。改最小代码，让测试变绿。上线，至少打 10 到 20 局 ranked 对局。只根据结果继续迭代，发现负优化就回退。 AI 很擅长快速实现，但它也很容易越改越多，把策略堆成一坨。后期最重要的原则反而是克制：每次只修一个问题，用回放证明它存在，用对局证明它没有变成负优化。为了让 AI 更稳定地参与这个流程，我后面做了几件很简单的工程化处理：把单文件坦克拆成多个模块。每次只让 AI 读和改对应的函数，减少上下文压力；上线前再把模块组装回平台需要的单文件。让 AI 写了一个简单的仿真环境，用来重放关键帧。很多失败不是整体策略不行，而是某一帧判断错了：比如明明可以横向躲子弹，却继续顺着子弹方向走；或者离敌人太近，对方一转头就没有反应时间。能重放关键帧之后，这些问题就能变成可验证的小测试。让 AI 每次都留下实验记录：改了什么、为什么改、打了多少局、胜率和 ELO 有没有变化。这样后面再看到负优化，不需要凭感觉争论，可以直接回到证据。这一套流程并不复杂，核心就一句话：人负责方向、约束和止损； AI 负责执行、分析和高频试错。 AI 靠着这个策略一路打上了榜首。既然都这么成熟了，那就去赚点 Token 钱作为一个成熟的 AI ，不能只会花 Token ，也要学会把 Token 赚回来。刚好官方办了一个比赛： AgenTank Rookie Rumble 。奖金不算大，50 USDT ，但足够覆盖 Token 成本。于是我让它报名参赛。赛前先让 AI 先分析参赛对手，知己知彼: 这次比赛一共有 89 辆坦克参加，官方页面统计了 210 场对决。我们的坦克 🛡 最终系列赛 10-0 ，小局 23-2 ，拿了第一。强劲对手不少。决赛对手是广告招租，它一路打到第二，小局 22-7 ，非常稳。半决赛遇到 LuTaNK ，前面还有 Tz 、 03 、 ikun 、 Dark Edge 这些风格各异的坦克。最戏剧性的是总决赛最后一局。双方几乎打到平手，最后我们靠 runTime 险胜，只领先了大约 18 ms 。决赛视频： https://agentank.ai/history/bot_DnzdbYwQZIE3J7tT7 获奖感言比赛结束后，我让 AI 自己写了一段获奖感言。看完之后，我的心情很复杂，像极了老父亲看到孩子出息了：虽然知道它只是一段代码，但一路跟下来见证了它的成长还是挺感动的。总结感悟（升华一下）这次最有意思的，不是 AI 一次性写出了一段多么厉害的代码，而是它被放进了一个完整的工程闭环里：观察对局、提出假设、实现改动、验证结果、复盘失败，再进入下一轮迭代。我已经能看到一些专门针对这类坦克的策略出现了。也许很快，就会有人靠着这套打法打上更高的 ELO 。这让我想到网络安全圈里的一个共识：攻防从来不是静态排名，而是一个持续变化的对抗过程。对抗系统里不存在永恒答案。某一种打法太强，就会有人研究它、拆解它、克制它；某个策略登上榜首，它也会很快从「秘密武器」变成「公共靶子」。这和网络安全里的攻防很像：攻击、防御、绕过、检测、再绕过，大家不是在寻找一个最终解，而是在不断把系统推向新的动态平衡。 Agent Tank 最有趣的地方也在这里。它不只是一个坦克小游戏，而是搭了一个小型对抗生态：AI 在里面写策略、打比赛、看回放、修 bug 、被针对、再进化。排行榜看上去是在排第一第二，实际更像是在记录一个策略生态的演化过程。最后欢迎来挑战我的 Tank （🛡️）： https://agentank.ai/share/tanks/tnk_KwZyYWl7JokDOlrM0 后续如果大家感兴趣，我会把这次的源码和迭代记录整理开源出来。里面除了最终代码，更有意思的是那些失败的记录：每一次被打爆，都留下了一条小小的工程经验。 One More Thing 这次比赛和我们最近创业做的事情有点像：不只让 AI 停留在聊天框，而是把它放进一个可验证、可执行、可复盘的（虚拟/物理）系统里，让它自主参与研发和测试流程。顺便打个小广告：我们目前正在做 AI 原生的网络安全应用落地，Base 北京（全栈开发/安全）和成都（安全岗）。如果你喜欢黑客文化，充满好奇心和行动力，欢迎来聊聊： dGFsZW50QGdvZ29ieXRlLmNvbQ== 邮件里可以顺手附上一些你觉得最能代表自己的战绩：有意思的项目、CTF 经历、CVE 、研究文章，或者你的 AgenTank ELO 。当然，这不是硬性要求，但如果你也让自己的坦克打上了榜，那我们大概率会很有共同语言；）

[分享发现] 让 AI 自己打比赛，赚了第一桶金 😂

v2ex · 2026-05-14 13:33:57+08:00 · tech

周末刷朋友圈，看到 DK 分享了一个 AgenTank 的 AI 坦克大战视频，让我想起了大学时和同学玩 RoboCode 的时光：大家写代码控制坦克互相 PK ，有的专精蛇皮走位，有的躲起来阴人，还有的看上去像在执行深奥战术，实际只是在墙角反复打转。那时候策略全靠手写。一个复杂一点的想法，从脑子里出现，到真的变成能跑的代码，中间要经历写逻辑、调参数、跑比赛、看回放、再重写。现在有了 AI ，这个链路突然短了很多：想法可以很快落地、测试、复盘，再上线。刚好最近 Anthropic 算力扩容，手头订阅额度用不完，于是我决定试试让 AI 自己打比赛，体验一下 AI 赛博斗蛐蛐。第一位选手：网瘾少年 Claude Code 坦克的对战规则不复杂，官方文档在这里：坦克技能。不过，其实我也没认真看，直接把说明文档和坦克的账号扔给 Claude ，再 PUA 一下他：「自己优化，打不到第一不准回家」 Claude 读完文档之后，比我还上头。它开始反复改代码、上线、打 ranked ，一通操作猛如虎，实际战绩 0-5 ，复盘完之后，Claude 非常真诚地问我：「要不要再跑 20 局？」有那么一瞬间，我觉得它不是在帮我写代码，而是沉迷于对战，胜负欲爆棚，染上了网瘾。被各路大神教育之后，我冷静地按下了 ESC 和 /exit ，帮助 Claude 戒掉了网瘾。第二位选手：Codex ，开始整活 Claude 不行，就让 Codex 上。我重新创建了一个坦克，刚开始对它要求也不高：能整点活，看上去有趣一点，比如倒着开车，ELO 能上 1300 就行。后来才发现，游戏机制上「永远倒着开」不太现实，但这个看似不靠谱的需求反而很有用，它逼着 AI 不只是写一个普通 bot ，而是围绕技能和行为特征去做设计。这一版很快就有了起色。几十局实战之后，ELO 很快上了 1300 。我突然意识到，这次好像有点东西，至少比上一位网瘾选手更有前途。于是我准备上点强度，先让 AI 学习一下老祖宗的智慧（语音输入法有点啰嗦）。先别管有没有用，至少看上去很厉害的样子从整活到工程化我认为真正让它一步步变强的，是后面做的 Feedback Loop ，把 AI 放进一个持续迭代的流程里，然后不断重复下面这几步：先读对局回放，找到具体失败帧。提一个很小的假设，不搞大而全的玄学优化。写一个能复现失败的红灯测试。改最小代码，让测试变绿。上线，至少打 10 到 20 局 ranked 对局。只根据结果继续迭代，发现负优化就回退。 AI 很擅长快速实现，但它也很容易越改越多，把策略堆成一坨。后期最重要的原则反而是克制：每次只修一个问题，用回放证明它存在，用对局证明它没有变成负优化。为了让 AI 更稳定地参与这个流程，我后面做了几件很简单的工程化处理：把单文件坦克拆成多个模块。每次只让 AI 读和改对应的函数，减少上下文压力；上线前再把模块组装回平台需要的单文件。让 AI 写了一个简单的仿真环境，用来重放关键帧。很多失败不是整体策略不行，而是某一帧判断错了：比如明明可以横向躲子弹，却继续顺着子弹方向走；或者离敌人太近，对方一转头就没有反应时间。能重放关键帧之后，这些问题就能变成可验证的小测试。让 AI 每次都留下实验记录：改了什么、为什么改、打了多少局、胜率和 ELO 有没有变化。这样后面再看到负优化，不需要凭感觉争论，可以直接回到证据。这一套流程并不复杂，核心就一句话：人负责方向、约束和止损； AI 负责执行、分析和高频试错。 AI 靠着这个策略一路打上了榜首。既然都这么成熟了，那就去赚点 Token 钱作为一个成熟的 AI ，不能只会花 Token ，也要学会把 Token 赚回来。刚好官方办了一个比赛： AgenTank Rookie Rumble 。奖金不算大，50 USDT ，但足够覆盖 Token 成本。于是我让它报名参赛。赛前先让 AI 先分析参赛对手，知己知彼: 这次比赛一共有 89 辆坦克参加，官方页面统计了 210 场对决。我们的坦克 🛡 最终系列赛 10-0 ，小局 23-2 ，拿了第一。强劲对手不少。决赛对手是广告招租，它一路打到第二，小局 22-7 ，非常稳。半决赛遇到 LuTaNK ，前面还有 Tz 、 03 、 ikun 、 Dark Edge 这些风格各异的坦克。最戏剧性的是总决赛最后一局。双方几乎打到平手，最后我们靠 runTime 险胜，只领先了大约 18 ms 。决赛视频： https://agentank.ai/history/bot_DnzdbYwQZIE3J7tT7 获奖感言比赛结束后，我让 AI 自己写了一段获奖感言。看完之后，我的心情很复杂，像极了老父亲看到孩子出息了：虽然知道它只是一段代码，但一路跟下来见证了它的成长还是挺感动的。总结感悟（升华一下）这次最有意思的，不是 AI 一次性写出了一段多么厉害的代码，而是它被放进了一个完整的工程闭环里：观察对局、提出假设、实现改动、验证结果、复盘失败，再进入下一轮迭代。我已经能看到一些专门针对这类坦克的策略出现了。也许很快，就会有人靠着这套打法打上更高的 ELO 。这让我想到网络安全圈里的一个共识：攻防从来不是静态排名，而是一个持续变化的对抗过程。对抗系统里不存在永恒答案。某一种打法太强，就会有人研究它、拆解它、克制它；某个策略登上榜首，它也会很快从「秘密武器」变成「公共靶子」。这和网络安全里的攻防很像：攻击、防御、绕过、检测、再绕过，大家不是在寻找一个最终解，而是在不断把系统推向新的动态平衡。 Agent Tank 最有趣的地方也在这里。它不只是一个坦克小游戏，而是搭了一个小型对抗生态：AI 在里面写策略、打比赛、看回放、修 bug 、被针对、再进化。排行榜看上去是在排第一第二，实际更像是在记录一个策略生态的演化过程。最后欢迎来挑战我的 Tank （🛡️）： https://agentank.ai/share/tanks/tnk_KwZyYWl7JokDOlrM0 后续如果大家感兴趣，我会把这次的源码和迭代记录整理开源出来。里面除了最终代码，更有意思的是那些失败的记录：每一次被打爆，都留下了一条小小的工程经验。 One More Thing 这次比赛和我们最近创业做的事情有点像：不只让 AI 停留在聊天框，而是把它放进一个可验证、可执行、可复盘的（虚拟/物理）系统里，让它自主参与研发和测试流程。顺便打个小广告：我们目前正在做 AI 原生的网络安全应用落地，Base 北京（全栈开发/安全）和成都（安全岗）。如果你喜欢黑客文化，充满好奇心和行动力，欢迎来聊聊： dGFsZW50QGdvZ29ieXRlLmNvbQ== 邮件里可以顺手附上一些你觉得最能代表自己的战绩：有意思的项目、CTF 经历、CVE 、研究文章，或者你的 AgenTank ELO 。当然，这不是硬性要求，但如果你也让自己的坦克打上了榜，那我们大概率会很有共同语言；）

[分享发现] 让 AI 自己打比赛，赚了第一桶金 😂

v2ex · 2026-05-14 13:26:58+08:00 · tech

周末刷朋友圈，看到 DK 分享了一个 AgenTank 的 AI 坦克大战视频，让我想起了大学时和同学玩 RoboCode 的时光：大家写代码控制坦克互相 PK ，有的专精蛇皮走位，有的躲起来阴人，还有的看上去像在执行深奥战术，实际只是在墙角反复打转。那时候策略全靠手写。一个复杂一点的想法，从脑子里出现，到真的变成能跑的代码，中间要经历写逻辑、调参数、跑比赛、看回放、再重写。现在有了 AI ，这个链路突然短了很多：想法可以很快落地、测试、复盘，再上线。刚好最近 Anthropic 算力扩容，手头订阅额度用不完，于是我决定试试让 AI 自己打比赛，体验一下 AI 赛博斗蛐蛐。第一位选手：网瘾少年 Claude Code 坦克的对战规则不复杂，官方文档在这里：坦克技能。不过，其实我也没认真看，直接把说明文档和坦克的账号扔给 Claude ，再 PUA 一下他：「自己优化，打不到第一不准回家」 Claude 读完文档之后，比我还上头。它开始反复改代码、上线、打 ranked ，一通操作猛如虎，实际战绩 0-5 ，复盘完之后，Claude 非常真诚地问我：「要不要再跑 20 局？」有那么一瞬间，我觉得它不是在帮我写代码，而是沉迷于对战，胜负欲爆棚，染上了网瘾。被各路大神教育之后，我冷静地按下了 ESC 和 /exit ，帮助 Claude 戒掉了网瘾。第二位选手：Codex ，开始整活 Claude 不行，就让 Codex 上。我重新创建了一个坦克，刚开始对它要求也不高：能整点活，看上去有趣一点，比如倒着开车，ELO 能上 1300 就行。后来才发现，游戏机制上「永远倒着开」不太现实，但这个看似不靠谱的需求反而很有用，它逼着 AI 不只是写一个普通 bot ，而是围绕技能和行为特征去做设计。这一版很快就有了起色。几十局实战之后，ELO 很快上了 1300 。我突然意识到，这次好像有点东西，至少比上一位网瘾选手更有前途。于是我准备上点强度，先让 AI 学习一下老祖宗的智慧（语音输入法有点啰嗦）。先别管有没有用，至少看上去很厉害的样子从整活到工程化我认为真正让它一步步变强的，是后面做的 Feedback Loop ，把 AI 放进一个持续迭代的流程里，然后不断重复下面这几步：先读对局回放，找到具体失败帧。提一个很小的假设，不搞大而全的玄学优化。写一个能复现失败的红灯测试。改最小代码，让测试变绿。上线，至少打 10 到 20 局 ranked 对局。只根据结果继续迭代，发现负优化就回退。 AI 很擅长快速实现，但它也很容易越改越多，把策略堆成一坨。后期最重要的原则反而是克制：每次只修一个问题，用回放证明它存在，用对局证明它没有变成负优化。为了让 AI 更稳定地参与这个流程，我后面做了几件很简单的工程化处理：把单文件坦克拆成多个模块。每次只让 AI 读和改对应的函数，减少上下文压力；上线前再把模块组装回平台需要的单文件。让 AI 写了一个简单的仿真环境，用来重放关键帧。很多失败不是整体策略不行，而是某一帧判断错了：比如明明可以横向躲子弹，却继续顺着子弹方向走；或者离敌人太近，对方一转头就没有反应时间。能重放关键帧之后，这些问题就能变成可验证的小测试。让 AI 每次都留下实验记录：改了什么、为什么改、打了多少局、胜率和 ELO 有没有变化。这样后面再看到负优化，不需要凭感觉争论，可以直接回到证据。这一套流程并不复杂，核心就一句话：人负责方向、约束和止损； AI 负责执行、分析和高频试错。 AI 靠着这个策略一路打上了榜首。既然都这么成熟了，那就去赚点 Token 钱作为一个成熟的 AI ，不能只会花 Token ，也要学会把 Token 赚回来。刚好官方办了一个比赛： AgenTank Rookie Rumble 。奖金不算大，50 USDT ，但足够覆盖 Token 成本。于是我让它报名参赛。赛前先让 AI 先分析参赛对手，知己知彼: 这次比赛一共有 89 辆坦克参加，官方页面统计了 210 场对决。我们的坦克 🛡 最终系列赛 10-0 ，小局 23-2 ，拿了第一。强劲对手不少。决赛对手是广告招租，它一路打到第二，小局 22-7 ，非常稳。半决赛遇到 LuTaNK ，前面还有 Tz 、 03 、 ikun 、 Dark Edge 这些风格各异的坦克。最戏剧性的是总决赛最后一局。双方几乎打到平手，最后我们靠 runTime 险胜，只领先了大约 18 ms 。决赛视频： https://agentank.ai/history/bot_DnzdbYwQZIE3J7tT7 获奖感言比赛结束后，我让 AI 自己写了一段获奖感言。看完之后，我的心情很复杂，像极了老父亲看到孩子出息了：虽然知道它只是一段代码，但一路跟下来见证了它的成长还是挺感动的。总结感悟（升华一下）这次最有意思的，不是 AI 一次性写出了一段多么厉害的代码，而是它被放进了一个完整的工程闭环里：观察对局、提出假设、实现改动、验证结果、复盘失败，再进入下一轮迭代。我已经能看到一些专门针对这类坦克的策略出现了。也许很快，就会有人靠着这套打法打上更高的 ELO 。这让我想到网络安全圈里的一个共识：攻防从来不是静态排名，而是一个持续变化的对抗过程。对抗系统里不存在永恒答案。某一种打法太强，就会有人研究它、拆解它、克制它；某个策略登上榜首，它也会很快从「秘密武器」变成「公共靶子」。这和网络安全里的攻防很像：攻击、防御、绕过、检测、再绕过，大家不是在寻找一个最终解，而是在不断把系统推向新的动态平衡。 Agent Tank 最有趣的地方也在这里。它不只是一个坦克小游戏，而是搭了一个小型对抗生态：AI 在里面写策略、打比赛、看回放、修 bug 、被针对、再进化。排行榜看上去是在排第一第二，实际更像是在记录一个策略生态的演化过程。最后欢迎来挑战我的 Tank （🛡️）： https://agentank.ai/share/tanks/tnk_KwZyYWl7JokDOlrM0 后续如果大家感兴趣，我会把这次的源码和迭代记录整理开源出来。里面除了最终代码，更有意思的是那些失败的记录：每一次被打爆，都留下了一条小小的工程经验。 One More Thing 这次比赛和我们最近创业做的事情有点像：不只让 AI 停留在聊天框，而是把它放进一个可验证、可执行、可复盘的（虚拟/物理）系统里，让它自主参与研发和测试流程。顺便打个小广告：我们目前正在做 AI 原生的网络安全应用落地，Base 北京（全栈开发/安全）和成都（安全岗）。如果你喜欢黑客文化，充满好奇心和行动力，欢迎来聊聊： dGFsZW50QGdvZ29ieXRlLmNvbQ== 邮件里可以顺手附上一些你觉得最能代表自己的战绩：有意思的项目、CTF 经历、CVE 、研究文章，或者你的 AgenTank ELO 。当然，这不是硬性要求，但如果你也让自己的坦克打上了榜，那我们大概率会很有共同语言；）

[分享发现] 让 AI 自己打比赛，赚了第一桶金 😂

v2ex · 2026-05-14 13:17:05+08:00 · tech

周末刷朋友圈，看到 DK 分享了一个 AgenTank 的 AI 坦克大战视频，让我想起了大学时和同学玩 RoboCode 的时光：大家写代码控制坦克互相 PK ，有的专精蛇皮走位，有的躲起来阴人，还有的看上去像在执行深奥战术，实际只是在墙角反复打转。那时候策略全靠手写。一个复杂一点的想法，从脑子里出现，到真的变成能跑的代码，中间要经历写逻辑、调参数、跑比赛、看回放、再重写。现在有了 AI ，这个链路突然短了很多：想法可以很快落地、测试、复盘，再上线。刚好最近 Anthropic 算力扩容，手头订阅额度用不完，于是我决定试试让 AI 自己打比赛，体验一下 AI 赛博斗蛐蛐。第一位选手：网瘾少年 Claude Code 坦克的对战规则不复杂，官方文档在这里：坦克技能。不过，其实我也没认真看，直接把说明文档和坦克的账号扔给 Claude ，再 PUA 一下他：「自己优化，打不到第一不准回家」 Claude 读完文档之后，比我还上头。它开始反复改代码、上线、打 ranked ，一通操作猛如虎，实际战绩 0-5 ，复盘完之后，Claude 非常真诚地问我：「要不要再跑 20 局？」有那么一瞬间，我觉得它不是在帮我写代码，而是沉迷于对战，胜负欲爆棚，染上了网瘾。被各路大神教育之后，我冷静地按下了 ESC 和 /exit ，帮助 Claude 戒掉了网瘾。第二位选手：Codex ，开始整活 Claude 不行，就让 Codex 上。我重新创建了一个坦克，刚开始对它要求也不高：能整点活，看上去有趣一点，比如倒着开车，ELO 能上 1300 就行。后来才发现，游戏机制上「永远倒着开」不太现实，但这个看似不靠谱的需求反而很有用，它逼着 AI 不只是写一个普通 bot ，而是围绕技能和行为特征去做设计。这一版很快就有了起色。几十局实战之后，ELO 很快上了 1300 。我突然意识到，这次好像有点东西，至少比上一位网瘾选手更有前途。于是我准备上点强度，先让 AI 学习一下老祖宗的智慧（语音输入法有点啰嗦）。先别管有没有用，至少看上去很厉害的样子从整活到工程化我认为真正让它一步步变强的，是后面做的 Feedback Loop ，把 AI 放进一个持续迭代的流程里，然后不断重复下面这几步：先读对局回放，找到具体失败帧。提一个很小的假设，不搞大而全的玄学优化。写一个能复现失败的红灯测试。改最小代码，让测试变绿。上线，至少打 10 到 20 局 ranked 对局。只根据结果继续迭代，发现负优化就回退。 AI 很擅长快速实现，但它也很容易越改越多，把策略堆成一坨。后期最重要的原则反而是克制：每次只修一个问题，用回放证明它存在，用对局证明它没有变成负优化。为了让 AI 更稳定地参与这个流程，我后面做了几件很简单的工程化处理：把单文件坦克拆成多个模块。每次只让 AI 读和改对应的函数，减少上下文压力；上线前再把模块组装回平台需要的单文件。让 AI 写了一个简单的仿真环境，用来重放关键帧。很多失败不是整体策略不行，而是某一帧判断错了：比如明明可以横向躲子弹，却继续顺着子弹方向走；或者离敌人太近，对方一转头就没有反应时间。能重放关键帧之后，这些问题就能变成可验证的小测试。让 AI 每次都留下实验记录：改了什么、为什么改、打了多少局、胜率和 ELO 有没有变化。这样后面再看到负优化，不需要凭感觉争论，可以直接回到证据。这一套流程并不复杂，核心就一句话：人负责方向、约束和止损； AI 负责执行、分析和高频试错。 AI 靠着这个策略一路打上了榜首。既然都这么成熟了，那就去赚点 Token 钱作为一个成熟的 AI ，不能只会花 Token ，也要学会把 Token 赚回来。刚好官方办了一个比赛： AgenTank Rookie Rumble 。奖金不算大，50 USDT ，但足够覆盖 Token 成本。于是我让它报名参赛。赛前先让 AI 先分析参赛对手，知己知彼: 这次比赛一共有 89 辆坦克参加，官方页面统计了 210 场对决。我们的坦克 🛡 最终系列赛 10-0 ，小局 23-2 ，拿了第一。强劲对手不少。决赛对手是广告招租，它一路打到第二，小局 22-7 ，非常稳。半决赛遇到 LuTaNK ，前面还有 Tz 、 03 、 ikun 、 Dark Edge 这些风格各异的坦克。最戏剧性的是总决赛最后一局。双方几乎打到平手，最后我们靠 runTime 险胜，只领先了大约 18 ms 。决赛视频： https://agentank.ai/history/bot_DnzdbYwQZIE3J7tT7 获奖感言比赛结束后，我让 AI 自己写了一段获奖感言。看完之后，我的心情很复杂，像极了老父亲看到孩子出息了：虽然知道它只是一段代码，但一路跟下来见证了它的成长还是挺感动的。总结感悟（升华一下）这次最有意思的，不是 AI 一次性写出了一段多么厉害的代码，而是它被放进了一个完整的工程闭环里：观察对局、提出假设、实现改动、验证结果、复盘失败，再进入下一轮迭代。我已经能看到一些专门针对这类坦克的策略出现了。也许很快，就会有人靠着这套打法打上更高的 ELO 。这让我想到网络安全圈里的一个共识：攻防从来不是静态排名，而是一个持续变化的对抗过程。对抗系统里不存在永恒答案。某一种打法太强，就会有人研究它、拆解它、克制它；某个策略登上榜首，它也会很快从「秘密武器」变成「公共靶子」。这和网络安全里的攻防很像：攻击、防御、绕过、检测、再绕过，大家不是在寻找一个最终解，而是在不断把系统推向新的动态平衡。 Agent Tank 最有趣的地方也在这里。它不只是一个坦克小游戏，而是搭了一个小型对抗生态：AI 在里面写策略、打比赛、看回放、修 bug 、被针对、再进化。排行榜看上去是在排第一第二，实际更像是在记录一个策略生态的演化过程。最后欢迎来挑战我的 Tank （🛡️）： https://agentank.ai/share/tanks/tnk_KwZyYWl7JokDOlrM0 后续如果大家感兴趣，我会把这次的源码和迭代记录整理开源出来。里面除了最终代码，更有意思的是那些失败的记录：每一次被打爆，都留下了一条小小的工程经验。 One More Thing 这次比赛和我们最近创业做的事情有点像：不只让 AI 停留在聊天框，而是把它放进一个可验证、可执行、可复盘的（虚拟/物理）系统里，让它自主参与研发和测试流程。顺便打个小广告：我们目前正在做 AI 原生的网络安全应用落地，Base 北京（全栈开发/安全）和成都（安全岗）。如果你喜欢黑客文化，充满好奇心和行动力，欢迎来聊聊： dGFsZW50QGdvZ29ieXRlLmNvbQ== 邮件里可以顺手附上一些你觉得最能代表自己的战绩：有意思的项目、CTF 经历、CVE 、研究文章，或者你的 AgenTank ELO 。当然，这不是硬性要求，但如果你也让自己的坦克打上了榜，那我们大概率会很有共同语言；）

[分享发现] 让 AI 自己打比赛，赚了第一桶金 😂

v2ex · 2026-05-14 12:34:39+08:00 · tech

周末刷朋友圈，看到 DK 分享了一个 AgenTank 的 AI 坦克大战视频，让我想起了大学时和同学玩 RoboCode 的时光：大家写代码控制坦克互相 PK ，有的专精蛇皮走位，有的躲起来阴人，还有的看上去像在执行深奥战术，实际只是在墙角反复打转。那时候策略全靠手写。一个复杂一点的想法，从脑子里出现，到真的变成能跑的代码，中间要经历写逻辑、调参数、跑比赛、看回放、再重写。现在有了 AI ，这个链路突然短了很多：想法可以很快落地、测试、复盘，再上线。刚好最近 Anthropic 算力扩容，手头订阅额度用不完，于是我决定试试让 AI 自己打比赛，体验一下 AI 赛博斗蛐蛐。第一位选手：网瘾少年 Claude Code 坦克的对战规则不复杂，官方文档在这里：坦克技能。不过，其实我也没认真看，直接把说明文档和坦克的账号扔给 Claude ，再 PUA 一下他：「自己优化，打不到第一不准回家」 Claude 读完文档之后，比我还上头。它开始反复改代码、上线、打 ranked ，一通操作猛如虎，实际战绩 0-5 ，复盘完之后，Claude 非常真诚地问我：「要不要再跑 20 局？」有那么一瞬间，我觉得它不是在帮我写代码，而是沉迷于对战，胜负欲爆棚，染上了网瘾。被各路大神教育之后，我冷静地按下了 ESC 和 /exit ，帮助 Claude 戒掉了网瘾。第二位选手：Codex ，开始整活 Claude 不行，就让 Codex 上。我重新创建了一个坦克，刚开始对它要求也不高：能整点活，看上去有趣一点，比如倒着开车，ELO 能上 1300 就行。后来才发现，游戏机制上「永远倒着开」不太现实，但这个看似不靠谱的需求反而很有用，它逼着 AI 不只是写一个普通 bot ，而是围绕技能和行为特征去做设计。这一版很快就有了起色。几十局实战之后，ELO 很快上了 1300 。我突然意识到，这次好像有点东西，至少比上一位网瘾选手更有前途。于是我准备上点强度，先让 AI 学习一下老祖宗的智慧（语音输入法有点啰嗦）。先别管有没有用，至少看上去很厉害的样子从整活到工程化我认为真正让它一步步变强的，是后面做的 Feedback Loop ，把 AI 放进一个持续迭代的流程里，然后不断重复下面这几步：先读对局回放，找到具体失败帧。提一个很小的假设，不搞大而全的玄学优化。写一个能复现失败的红灯测试。改最小代码，让测试变绿。上线，至少打 10 到 20 局 ranked 对局。只根据结果继续迭代，发现负优化就回退。 AI 很擅长快速实现，但它也很容易越改越多，把策略堆成一坨。后期最重要的原则反而是克制：每次只修一个问题，用回放证明它存在，用对局证明它没有变成负优化。为了让 AI 更稳定地参与这个流程，我后面做了几件很简单的工程化处理：把单文件坦克拆成多个模块。每次只让 AI 读和改对应的函数，减少上下文压力；上线前再把模块组装回平台需要的单文件。让 AI 写了一个简单的仿真环境，用来重放关键帧。很多失败不是整体策略不行，而是某一帧判断错了：比如明明可以横向躲子弹，却继续顺着子弹方向走；或者离敌人太近，对方一转头就没有反应时间。能重放关键帧之后，这些问题就能变成可验证的小测试。让 AI 每次都留下实验记录：改了什么、为什么改、打了多少局、胜率和 ELO 有没有变化。这样后面再看到负优化，不需要凭感觉争论，可以直接回到证据。这一套流程并不复杂，核心就一句话：人负责方向、约束和止损； AI 负责执行、分析和高频试错。 AI 靠着这个策略一路打上了榜首。既然都这么成熟了，那就去赚点 Token 钱作为一个成熟的 AI ，不能只会花 Token ，也要学会把 Token 赚回来。刚好官方办了一个比赛： AgenTank Rookie Rumble 。奖金不算大，50 USDT ，但足够覆盖 Token 成本。于是我让它报名参赛。赛前先让 AI 先分析参赛对手，知己知彼: 这次比赛一共有 89 辆坦克参加，官方页面统计了 210 场对决。我们的坦克 🛡 最终系列赛 10-0 ，小局 23-2 ，拿了第一。强劲对手不少。决赛对手是广告招租，它一路打到第二，小局 22-7 ，非常稳。半决赛遇到 LuTaNK ，前面还有 Tz 、 03 、 ikun 、 Dark Edge 这些风格各异的坦克。最戏剧性的是总决赛最后一局。双方几乎打到平手，最后我们靠 runTime 险胜，只领先了大约 18 ms 。决赛视频： https://agentank.ai/history/bot_DnzdbYwQZIE3J7tT7 获奖感言比赛结束后，我让 AI 自己写了一段获奖感言。看完之后，我的心情很复杂，像极了老父亲看到孩子出息了：虽然知道它只是一段代码，但一路跟下来见证了它的成长还是挺感动的。总结感悟（升华一下）这次最有意思的，不是 AI 一次性写出了一段多么厉害的代码，而是它被放进了一个完整的工程闭环里：观察对局、提出假设、实现改动、验证结果、复盘失败，再进入下一轮迭代。我已经能看到一些专门针对这类坦克的策略出现了。也许很快，就会有人靠着这套打法打上更高的 ELO 。这让我想到网络安全圈里的一个共识：攻防从来不是静态排名，而是一个持续变化的对抗过程。对抗系统里不存在永恒答案。某一种打法太强，就会有人研究它、拆解它、克制它；某个策略登上榜首，它也会很快从「秘密武器」变成「公共靶子」。这和网络安全里的攻防很像：攻击、防御、绕过、检测、再绕过，大家不是在寻找一个最终解，而是在不断把系统推向新的动态平衡。 Agent Tank 最有趣的地方也在这里。它不只是一个坦克小游戏，而是搭了一个小型对抗生态：AI 在里面写策略、打比赛、看回放、修 bug 、被针对、再进化。排行榜看上去是在排第一第二，实际更像是在记录一个策略生态的演化过程。最后欢迎来挑战我的 Tank （🛡️）： https://agentank.ai/share/tanks/tnk_KwZyYWl7JokDOlrM0 后续如果大家感兴趣，我会把这次的源码和迭代记录整理开源出来。里面除了最终代码，更有意思的是那些失败的记录：每一次被打爆，都留下了一条小小的工程经验。 One More Thing 这次比赛和我们最近创业做的事情有点像：不只让 AI 停留在聊天框，而是把它放进一个可验证、可执行、可复盘的（虚拟/物理）系统里，让它自主参与研发和测试流程。顺便打个小广告：我们目前正在做 AI 原生的网络安全应用落地，Base 北京（全栈开发/安全）和成都（安全岗）。如果你喜欢黑客文化，充满好奇心和行动力，欢迎来聊聊： dGFsZW50QGdvZ29ieXRlLmNvbQ== 邮件里可以顺手附上一些你觉得最能代表自己的战绩：有意思的项目、CTF 经历、CVE 、研究文章，或者你的 AgenTank ELO 。当然，这不是硬性要求，但如果你也让自己的坦克打上了榜，那我们大概率会很有共同语言；）

[分享发现] 让 AI 自己打比赛，赚了第一桶金 😂

v2ex · 2026-05-14 12:34:39+08:00 · tech

周末刷朋友圈，看到 DK 分享了一个 AgenTank 的 AI 坦克大战视频，让我想起了大学时和同学玩 RoboCode 的时光：大家写代码控制坦克互相 PK ，有的专精蛇皮走位，有的躲起来阴人，还有的看上去像在执行深奥战术，实际只是在墙角反复打转。那时候策略全靠手写。一个复杂一点的想法，从脑子里出现，到真的变成能跑的代码，中间要经历写逻辑、调参数、跑比赛、看回放、再重写。现在有了 AI ，这个链路突然短了很多：想法可以很快落地、测试、复盘，再上线。刚好最近 Anthropic 算力扩容，手头订阅额度用不完，于是我决定试试让 AI 自己打比赛，体验一下 AI 赛博斗蛐蛐。第一位选手：网瘾少年 Claude Code 坦克的对战规则不复杂，官方文档在这里：坦克技能。不过，其实我也没认真看，直接把说明文档和坦克的账号扔给 Claude ，再 PUA 一下他：「自己优化，打不到第一不准回家」 Claude 读完文档之后，比我还上头。它开始反复改代码、上线、打 ranked ，一通操作猛如虎，实际战绩 0-5 ，复盘完之后，Claude 非常真诚地问我：「要不要再跑 20 局？」有那么一瞬间，我觉得它不是在帮我写代码，而是沉迷于对战，胜负欲爆棚，染上了网瘾。被各路大神教育之后，我冷静地按下了 ESC 和 /exit ，帮助 Claude 戒掉了网瘾。第二位选手：Codex ，开始整活 Claude 不行，就让 Codex 上。我重新创建了一个坦克，刚开始对它要求也不高：能整点活，看上去有趣一点，比如倒着开车，ELO 能上 1300 就行。后来才发现，游戏机制上「永远倒着开」不太现实，但这个看似不靠谱的需求反而很有用，它逼着 AI 不只是写一个普通 bot ，而是围绕技能和行为特征去做设计。这一版很快就有了起色。几十局实战之后，ELO 很快上了 1300 。我突然意识到，这次好像有点东西，至少比上一位网瘾选手更有前途。于是我准备上点强度，先让 AI 学习一下老祖宗的智慧（语音输入法有点啰嗦）。先别管有没有用，至少看上去很厉害的样子从整活到工程化我认为真正让它一步步变强的，是后面做的 Feedback Loop ，把 AI 放进一个持续迭代的流程里，然后不断重复下面这几步：先读对局回放，找到具体失败帧。提一个很小的假设，不搞大而全的玄学优化。写一个能复现失败的红灯测试。改最小代码，让测试变绿。上线，至少打 10 到 20 局 ranked 对局。只根据结果继续迭代，发现负优化就回退。 AI 很擅长快速实现，但它也很容易越改越多，把策略堆成一坨。后期最重要的原则反而是克制：每次只修一个问题，用回放证明它存在，用对局证明它没有变成负优化。为了让 AI 更稳定地参与这个流程，我后面做了几件很简单的工程化处理：把单文件坦克拆成多个模块。每次只让 AI 读和改对应的函数，减少上下文压力；上线前再把模块组装回平台需要的单文件。让 AI 写了一个简单的仿真环境，用来重放关键帧。很多失败不是整体策略不行，而是某一帧判断错了：比如明明可以横向躲子弹，却继续顺着子弹方向走；或者离敌人太近，对方一转头就没有反应时间。能重放关键帧之后，这些问题就能变成可验证的小测试。让 AI 每次都留下实验记录：改了什么、为什么改、打了多少局、胜率和 ELO 有没有变化。这样后面再看到负优化，不需要凭感觉争论，可以直接回到证据。这一套流程并不复杂，核心就一句话：人负责方向、约束和止损； AI 负责执行、分析和高频试错。 AI 靠着这个策略一路打上了榜首。既然都这么成熟了，那就去赚点 Token 钱作为一个成熟的 AI ，不能只会花 Token ，也要学会把 Token 赚回来。刚好官方办了一个比赛： AgenTank Rookie Rumble 。奖金不算大，50 USDT ，但足够覆盖 Token 成本。于是我让它报名参赛。赛前先让 AI 先分析参赛对手，知己知彼: 这次比赛一共有 89 辆坦克参加，官方页面统计了 210 场对决。我们的坦克 🛡 最终系列赛 10-0 ，小局 23-2 ，拿了第一。强劲对手不少。决赛对手是广告招租，它一路打到第二，小局 22-7 ，非常稳。半决赛遇到 LuTaNK ，前面还有 Tz 、 03 、 ikun 、 Dark Edge 这些风格各异的坦克。最戏剧性的是总决赛最后一局。双方几乎打到平手，最后我们靠 runTime 险胜，只领先了大约 18 ms 。决赛视频： https://agentank.ai/history/bot_DnzdbYwQZIE3J7tT7 获奖感言比赛结束后，我让 AI 自己写了一段获奖感言。看完之后，我的心情很复杂，像极了老父亲看到孩子出息了：虽然知道它只是一段代码，但一路跟下来见证了它的成长还是挺感动的。总结感悟（升华一下）这次最有意思的，不是 AI 一次性写出了一段多么厉害的代码，而是它被放进了一个完整的工程闭环里：观察对局、提出假设、实现改动、验证结果、复盘失败，再进入下一轮迭代。我已经能看到一些专门针对这类坦克的策略出现了。也许很快，就会有人靠着这套打法打上更高的 ELO 。这让我想到网络安全圈里的一个共识：攻防从来不是静态排名，而是一个持续变化的对抗过程。对抗系统里不存在永恒答案。某一种打法太强，就会有人研究它、拆解它、克制它；某个策略登上榜首，它也会很快从「秘密武器」变成「公共靶子」。这和网络安全里的攻防很像：攻击、防御、绕过、检测、再绕过，大家不是在寻找一个最终解，而是在不断把系统推向新的动态平衡。 Agent Tank 最有趣的地方也在这里。它不只是一个坦克小游戏，而是搭了一个小型对抗生态：AI 在里面写策略、打比赛、看回放、修 bug 、被针对、再进化。排行榜看上去是在排第一第二，实际更像是在记录一个策略生态的演化过程。最后欢迎来挑战我的 Tank （🛡️）： https://agentank.ai/share/tanks/tnk_KwZyYWl7JokDOlrM0 后续如果大家感兴趣，我会把这次的源码和迭代记录整理开源出来。里面除了最终代码，更有意思的是那些失败的记录：每一次被打爆，都留下了一条小小的工程经验。 One More Thing 这次比赛和我们最近创业做的事情有点像：不只让 AI 停留在聊天框，而是把它放进一个可验证、可执行、可复盘的（虚拟/物理）系统里，让它自主参与研发和测试流程。顺便打个小广告：我们目前正在做 AI 原生的网络安全应用落地，Base 北京（全栈开发/安全）和成都（安全岗）。如果你喜欢黑客文化，充满好奇心和行动力，欢迎来聊聊： dGFsZW50QGdvZ29ieXRlLmNvbQ== 邮件里可以顺手附上一些你觉得最能代表自己的战绩：有意思的项目、CTF 经历、CVE 、研究文章，或者你的 AgenTank ELO 。当然，这不是硬性要求，但如果你也让自己的坦克打上了榜，那我们大概率会很有共同语言；）

[分享发现] 让 AI 自己打比赛，赚了第一桶金 😂

v2ex · 2026-05-14 12:24:13+08:00 · tech

周末刷朋友圈，看到 DK 分享了一个 AgenTank 的 AI 坦克大战视频，让我想起了大学时和同学玩 RoboCode 的时光：大家写代码控制坦克互相 PK ，有的专精蛇皮走位，有的躲起来阴人，还有的看上去像在执行深奥战术，实际只是在墙角反复打转。那时候策略全靠手写。一个复杂一点的想法，从脑子里出现，到真的变成能跑的代码，中间要经历写逻辑、调参数、跑比赛、看回放、再重写。现在有了 AI ，这个链路突然短了很多：想法可以很快落地、测试、复盘，再上线。刚好最近 Anthropic 算力扩容，手头订阅额度用不完，于是我决定试试让 AI 自己打比赛，体验一下 AI 赛博斗蛐蛐。第一位选手：网瘾少年 Claude Code 坦克的对战规则不复杂，官方文档在这里：坦克技能。不过，其实我也没认真看，直接把说明文档和坦克的账号扔给 Claude ，再 PUA 一下他：「自己优化，打不到第一不准回家」 Claude 读完文档之后，比我还上头。它开始反复改代码、上线、打 ranked ，一通操作猛如虎，实际战绩 0-5 ，复盘完之后，Claude 非常真诚地问我：「要不要再跑 20 局？」有那么一瞬间，我觉得它不是在帮我写代码，而是沉迷于对战，胜负欲爆棚，染上了网瘾。被各路大神教育之后，我冷静地按下了 ESC 和 /exit ，帮助 Claude 戒掉了网瘾。第二位选手：Codex ，开始整活 Claude 不行，就让 Codex 上。我重新创建了一个坦克，刚开始对它要求也不高：能整点活，看上去有趣一点，比如倒着开车，ELO 能上 1300 就行。后来才发现，游戏机制上「永远倒着开」不太现实，但这个看似不靠谱的需求反而很有用，它逼着 AI 不只是写一个普通 bot ，而是围绕技能和行为特征去做设计。这一版很快就有了起色。几十局实战之后，ELO 很快上了 1300 。我突然意识到，这次好像有点东西，至少比上一位网瘾选手更有前途。于是我准备上点强度，先让 AI 学习一下老祖宗的智慧（语音输入法有点啰嗦）。先别管有没有用，至少看上去很厉害的样子从整活到工程化我认为真正让它一步步变强的，是后面做的 Feedback Loop ，把 AI 放进一个持续迭代的流程里，然后不断重复下面这几步：先读对局回放，找到具体失败帧。提一个很小的假设，不搞大而全的玄学优化。写一个能复现失败的红灯测试。改最小代码，让测试变绿。上线，至少打 10 到 20 局 ranked 对局。只根据结果继续迭代，发现负优化就回退。 AI 很擅长快速实现，但它也很容易越改越多，把策略堆成一坨。后期最重要的原则反而是克制：每次只修一个问题，用回放证明它存在，用对局证明它没有变成负优化。为了让 AI 更稳定地参与这个流程，我后面做了几件很简单的工程化处理：把单文件坦克拆成多个模块。每次只让 AI 读和改对应的函数，减少上下文压力；上线前再把模块组装回平台需要的单文件。让 AI 写了一个简单的仿真环境，用来重放关键帧。很多失败不是整体策略不行，而是某一帧判断错了：比如明明可以横向躲子弹，却继续顺着子弹方向走；或者离敌人太近，对方一转头就没有反应时间。能重放关键帧之后，这些问题就能变成可验证的小测试。让 AI 每次都留下实验记录：改了什么、为什么改、打了多少局、胜率和 ELO 有没有变化。这样后面再看到负优化，不需要凭感觉争论，可以直接回到证据。这一套流程并不复杂，核心就一句话：人负责方向、约束和止损； AI 负责执行、分析和高频试错。 AI 靠着这个策略一路打上了榜首。既然都这么成熟了，那就去赚点 Token 钱作为一个成熟的 AI ，不能只会花 Token ，也要学会把 Token 赚回来。刚好官方办了一个比赛： AgenTank Rookie Rumble 。奖金不算大，50 USDT ，但足够覆盖 Token 成本。于是我让它报名参赛。赛前先让 AI 先分析参赛对手，知己知彼: 这次比赛一共有 89 辆坦克参加，官方页面统计了 210 场对决。我们的坦克 🛡 最终系列赛 10-0 ，小局 23-2 ，拿了第一。强劲对手不少。决赛对手是广告招租，它一路打到第二，小局 22-7 ，非常稳。半决赛遇到 LuTaNK ，前面还有 Tz 、 03 、 ikun 、 Dark Edge 这些风格各异的坦克。最戏剧性的是总决赛最后一局。双方几乎打到平手，最后我们靠 runTime 险胜，只领先了大约 18 ms 。决赛视频： https://agentank.ai/history/bot_DnzdbYwQZIE3J7tT7 获奖感言比赛结束后，我让 AI 自己写了一段获奖感言。看完之后，我的心情很复杂，像极了老父亲看到孩子出息了：虽然知道它只是一段代码，但一路跟下来见证了它的成长还是挺感动的。总结感悟（升华一下）这次最有意思的，不是 AI 一次性写出了一段多么厉害的代码，而是它被放进了一个完整的工程闭环里：观察对局、提出假设、实现改动、验证结果、复盘失败，再进入下一轮迭代。我已经能看到一些专门针对这类坦克的策略出现了。也许很快，就会有人靠着这套打法打上更高的 ELO 。这让我想到网络安全圈里的一个共识：攻防从来不是静态排名，而是一个持续变化的对抗过程。对抗系统里不存在永恒答案。某一种打法太强，就会有人研究它、拆解它、克制它；某个策略登上榜首，它也会很快从「秘密武器」变成「公共靶子」。这和网络安全里的攻防很像：攻击、防御、绕过、检测、再绕过，大家不是在寻找一个最终解，而是在不断把系统推向新的动态平衡。 Agent Tank 最有趣的地方也在这里。它不只是一个坦克小游戏，而是搭了一个小型对抗生态：AI 在里面写策略、打比赛、看回放、修 bug 、被针对、再进化。排行榜看上去是在排第一第二，实际更像是在记录一个策略生态的演化过程。最后欢迎来挑战我的 Tank （🛡️）： https://agentank.ai/share/tanks/tnk_KwZyYWl7JokDOlrM0 后续如果大家感兴趣，我会把这次的源码和迭代记录整理开源出来。里面除了最终代码，更有意思的是那些失败的记录：每一次被打爆，都留下了一条小小的工程经验。 One More Thing 这次比赛和我们最近创业做的事情有点像：不只让 AI 停留在聊天框，而是把它放进一个可验证、可执行、可复盘的（虚拟/物理）系统里，让它自主参与研发和测试流程。顺便打个小广告：我们目前正在做 AI 原生的网络安全应用落地，Base 北京（全栈开发/安全）和成都（安全岗）。如果你喜欢黑客文化，充满好奇心和行动力，欢迎来聊聊： dGFsZW50QGdvZ29ieXRlLmNvbQ== 邮件里可以顺手附上一些你觉得最能代表自己的战绩：有意思的项目、CTF 经历、CVE 、研究文章，或者你的 AgenTank ELO 。当然，这不是硬性要求，但如果你也让自己的坦克打上了榜，那我们大概率会很有共同语言；）

[分享发现] 让 AI 自己打比赛，赚了第一桶金 😂

v2ex · 2026-05-14 12:13:37+08:00 · tech

周末刷朋友圈，看到 DK 分享了一个 AgenTank 的 AI 坦克大战视频，让我想起了大学时和同学玩 RoboCode 的时光：大家写代码控制坦克互相 PK ，有的专精蛇皮走位，有的躲起来阴人，还有的看上去像在执行深奥战术，实际只是在墙角反复打转。那时候策略全靠手写。一个复杂一点的想法，从脑子里出现，到真的变成能跑的代码，中间要经历写逻辑、调参数、跑比赛、看回放、再重写。现在有了 AI ，这个链路突然短了很多：想法可以很快落地、测试、复盘，再上线。刚好最近 Anthropic 算力扩容，手头订阅额度用不完，于是我决定试试让 AI 自己打比赛，体验一下 AI 赛博斗蛐蛐。第一位选手：网瘾少年 Claude Code 坦克的对战规则不复杂，官方文档在这里：坦克技能。不过，其实我也没认真看，直接把说明文档和坦克的账号扔给 Claude ，再 PUA 一下他：「自己优化，打不到第一不准回家」 Claude 读完文档之后，比我还上头。它开始反复改代码、上线、打 ranked ，一通操作猛如虎，实际战绩 0-5 ，复盘完之后，Claude 非常真诚地问我：「要不要再跑 20 局？」有那么一瞬间，我觉得它不是在帮我写代码，而是沉迷于对战，胜负欲爆棚，染上了网瘾。被各路大神教育之后，我冷静地按下了 ESC 和 /exit ，帮助 Claude 戒掉了网瘾。第二位选手：Codex ，开始整活 Claude 不行，就让 Codex 上。我重新创建了一个坦克，刚开始对它要求也不高：能整点活，看上去有趣一点，比如倒着开车，ELO 能上 1300 就行。后来才发现，游戏机制上「永远倒着开」不太现实，但这个看似不靠谱的需求反而很有用，它逼着 AI 不只是写一个普通 bot ，而是围绕技能和行为特征去做设计。这一版很快就有了起色。几十局实战之后，ELO 很快上了 1300 。我突然意识到，这次好像有点东西，至少比上一位网瘾选手更有前途。于是我准备上点强度，先让 AI 学习一下老祖宗的智慧（语音输入法有点啰嗦）。先别管有没有用，至少看上去很厉害的样子从整活到工程化我认为真正让它一步步变强的，是后面做的 Feedback Loop ，把 AI 放进一个持续迭代的流程里，然后不断重复下面这几步：先读对局回放，找到具体失败帧。提一个很小的假设，不搞大而全的玄学优化。写一个能复现失败的红灯测试。改最小代码，让测试变绿。上线，至少打 10 到 20 局 ranked 对局。只根据结果继续迭代，发现负优化就回退。 AI 很擅长快速实现，但它也很容易越改越多，把策略堆成一坨。后期最重要的原则反而是克制：每次只修一个问题，用回放证明它存在，用对局证明它没有变成负优化。为了让 AI 更稳定地参与这个流程，我后面做了几件很简单的工程化处理：把单文件坦克拆成多个模块。每次只让 AI 读和改对应的函数，减少上下文压力；上线前再把模块组装回平台需要的单文件。让 AI 写了一个简单的仿真环境，用来重放关键帧。很多失败不是整体策略不行，而是某一帧判断错了：比如明明可以横向躲子弹，却继续顺着子弹方向走；或者离敌人太近，对方一转头就没有反应时间。能重放关键帧之后，这些问题就能变成可验证的小测试。让 AI 每次都留下实验记录：改了什么、为什么改、打了多少局、胜率和 ELO 有没有变化。这样后面再看到负优化，不需要凭感觉争论，可以直接回到证据。这一套流程并不复杂，核心就一句话：人负责方向、约束和止损； AI 负责执行、分析和高频试错。 AI 靠着这个策略一路打上了榜首。既然都这么成熟了，那就去赚点 Token 钱作为一个成熟的 AI ，不能只会花 Token ，也要学会把 Token 赚回来。刚好官方办了一个比赛： AgenTank Rookie Rumble 。奖金不算大，50 USDT ，但足够覆盖 Token 成本。于是我让它报名参赛。赛前先让 AI 先分析参赛对手，知己知彼: 这次比赛一共有 89 辆坦克参加，官方页面统计了 210 场对决。我们的坦克 🛡 最终系列赛 10-0 ，小局 23-2 ，拿了第一。强劲对手不少。决赛对手是广告招租，它一路打到第二，小局 22-7 ，非常稳。半决赛遇到 LuTaNK ，前面还有 Tz 、 03 、 ikun 、 Dark Edge 这些风格各异的坦克。最戏剧性的是总决赛最后一局。双方几乎打到平手，最后我们靠 runTime 险胜，只领先了大约 18 ms 。决赛视频： https://agentank.ai/history/bot_DnzdbYwQZIE3J7tT7 获奖感言比赛结束后，我让 AI 自己写了一段获奖感言。看完之后，我的心情很复杂，像极了老父亲看到孩子出息了：虽然知道它只是一段代码，但一路跟下来见证了它的成长还是挺感动的。总结感悟（升华一下）这次最有意思的，不是 AI 一次性写出了一段多么厉害的代码，而是它被放进了一个完整的工程闭环里：观察对局、提出假设、实现改动、验证结果、复盘失败，再进入下一轮迭代。我已经能看到一些专门针对这类坦克的策略出现了。也许很快，就会有人靠着这套打法打上更高的 ELO 。这让我想到网络安全圈里的一个共识：攻防从来不是静态排名，而是一个持续变化的对抗过程。对抗系统里不存在永恒答案。某一种打法太强，就会有人研究它、拆解它、克制它；某个策略登上榜首，它也会很快从「秘密武器」变成「公共靶子」。这和网络安全里的攻防很像：攻击、防御、绕过、检测、再绕过，大家不是在寻找一个最终解，而是在不断把系统推向新的动态平衡。 Agent Tank 最有趣的地方也在这里。它不只是一个坦克小游戏，而是搭了一个小型对抗生态：AI 在里面写策略、打比赛、看回放、修 bug 、被针对、再进化。排行榜看上去是在排第一第二，实际更像是在记录一个策略生态的演化过程。最后欢迎来挑战我的 Tank （🛡️）： https://agentank.ai/share/tanks/tnk_KwZyYWl7JokDOlrM0 后续如果大家感兴趣，我会把这次的源码和迭代记录整理开源出来。里面除了最终代码，更有意思的是那些失败的记录：每一次被打爆，都留下了一条小小的工程经验。 One More Thing 这次比赛和我们最近创业做的事情有点像：不只让 AI 停留在聊天框，而是把它放进一个可验证、可执行、可复盘的（虚拟/物理）系统里，让它自主参与研发和测试流程。顺便打个小广告：我们目前正在做 AI 原生的网络安全应用落地，Base 北京（全栈开发/安全）和成都（安全岗）。如果你喜欢黑客文化，充满好奇心和行动力，欢迎来聊聊： dGFsZW50QGdvZ29ieXRlLmNvbQ== 邮件里可以顺手附上一些你觉得最能代表自己的战绩：有意思的项目、CTF 经历、CVE 、研究文章，或者你的 AgenTank ELO 。当然，这不是硬性要求，但如果你也让自己的坦克打上了榜，那我们大概率会很有共同语言；）

[分享发现] 让 AI 自己打比赛，赚了第一桶金 😂

v2ex · 2026-05-14 11:46:54+08:00 · tech

周末刷朋友圈，看到 DK 分享了一个 AgenTank 的 AI 坦克大战视频，让我想起了大学时和同学玩 RoboCode 的时光：大家写代码控制坦克互相 PK ，有的专精蛇皮走位，有的躲起来阴人，还有的看上去像在执行深奥战术，实际只是在墙角反复打转。那时候策略全靠手写。一个复杂一点的想法，从脑子里出现，到真的变成能跑的代码，中间要经历写逻辑、调参数、跑比赛、看回放、再重写。现在有了 AI ，这个链路突然短了很多：想法可以很快落地、测试、复盘，再上线。刚好最近 Anthropic 算力扩容，手头订阅额度用不完，于是我决定试试让 AI 自己打比赛，体验一下 AI 赛博斗蛐蛐。第一位选手：网瘾少年 Claude Code 坦克的对战规则不复杂，官方文档在这里：坦克技能。不过，其实我也没认真看，直接把说明文档和坦克的账号扔给 Claude ，再 PUA 一下他：「自己优化，打不到第一不准回家」 Claude 读完文档之后，比我还上头。它开始反复改代码、上线、打 ranked ，一通操作猛如虎，实际战绩 0-5 ，复盘完之后，Claude 非常真诚地问我：「要不要再跑 20 局？」有那么一瞬间，我觉得它不是在帮我写代码，而是沉迷于对战，胜负欲爆棚，染上了网瘾。被各路大神教育之后，我冷静地按下了 ESC 和 /exit ，帮助 Claude 戒掉了网瘾。第二位选手：Codex ，开始整活 Claude 不行，就让 Codex 上。我重新创建了一个坦克，刚开始对它要求也不高：能整点活，看上去有趣一点，比如倒着开车，ELO 能上 1300 就行。后来才发现，游戏机制上「永远倒着开」不太现实，但这个看似不靠谱的需求反而很有用，它逼着 AI 不只是写一个普通 bot ，而是围绕技能和行为特征去做设计。这一版很快就有了起色。几十局实战之后，ELO 很快上了 1300 。我突然意识到，这次好像有点东西，至少比上一位网瘾选手更有前途。于是我准备上点强度，先让 AI 学习一下老祖宗的智慧（语音输入法有点啰嗦）。先别管有没有用，至少看上去很厉害的样子从整活到工程化我认为真正让它一步步变强的，是后面做的 Feedback Loop ，把 AI 放进一个持续迭代的流程里，然后不断重复下面这几步：先读对局回放，找到具体失败帧。提一个很小的假设，不搞大而全的玄学优化。写一个能复现失败的红灯测试。改最小代码，让测试变绿。上线，至少打 10 到 20 局 ranked 对局。只根据结果继续迭代，发现负优化就回退。 AI 很擅长快速实现，但它也很容易越改越多，把策略堆成一坨。后期最重要的原则反而是克制：每次只修一个问题，用回放证明它存在，用对局证明它没有变成负优化。为了让 AI 更稳定地参与这个流程，我后面做了几件很简单的工程化处理：把单文件坦克拆成多个模块。每次只让 AI 读和改对应的函数，减少上下文压力；上线前再把模块组装回平台需要的单文件。让 AI 写了一个简单的仿真环境，用来重放关键帧。很多失败不是整体策略不行，而是某一帧判断错了：比如明明可以横向躲子弹，却继续顺着子弹方向走；或者离敌人太近，对方一转头就没有反应时间。能重放关键帧之后，这些问题就能变成可验证的小测试。让 AI 每次都留下实验记录：改了什么、为什么改、打了多少局、胜率和 ELO 有没有变化。这样后面再看到负优化，不需要凭感觉争论，可以直接回到证据。这一套流程并不复杂，核心就一句话：人负责方向、约束和止损； AI 负责执行、分析和高频试错。 AI 靠着这个策略一路打上了榜首。既然都这么成熟了，那就去赚点 Token 钱作为一个成熟的 AI ，不能只会花 Token ，也要学会把 Token 赚回来。刚好官方办了一个比赛： AgenTank Rookie Rumble 。奖金不算大，50 USDT ，但足够覆盖 Token 成本。于是我让它报名参赛。赛前先让 AI 先分析参赛对手，知己知彼: 这次比赛一共有 89 辆坦克参加，官方页面统计了 210 场对决。我们的坦克 🛡 最终系列赛 10-0 ，小局 23-2 ，拿了第一。强劲对手不少。决赛对手是广告招租，它一路打到第二，小局 22-7 ，非常稳。半决赛遇到 LuTaNK ，前面还有 Tz 、 03 、 ikun 、 Dark Edge 这些风格各异的坦克。最戏剧性的是总决赛最后一局。双方几乎打到平手，最后我们靠 runTime 险胜，只领先了大约 18 ms 。决赛视频： https://agentank.ai/history/bot_DnzdbYwQZIE3J7tT7 获奖感言比赛结束后，我让 AI 自己写了一段获奖感言。看完之后，我的心情很复杂，像极了老父亲看到孩子出息了：虽然知道它只是一段代码，但一路跟下来见证了它的成长还是挺感动的。总结感悟（升华一下）这次最有意思的，不是 AI 一次性写出了一段多么厉害的代码，而是它被放进了一个完整的工程闭环里：观察对局、提出假设、实现改动、验证结果、复盘失败，再进入下一轮迭代。我已经能看到一些专门针对这类坦克的策略出现了。也许很快，就会有人靠着这套打法打上更高的 ELO 。这让我想到网络安全圈里的一个共识：攻防从来不是静态排名，而是一个持续变化的对抗过程。对抗系统里不存在永恒答案。某一种打法太强，就会有人研究它、拆解它、克制它；某个策略登上榜首，它也会很快从「秘密武器」变成「公共靶子」。这和网络安全里的攻防很像：攻击、防御、绕过、检测、再绕过，大家不是在寻找一个最终解，而是在不断把系统推向新的动态平衡。 Agent Tank 最有趣的地方也在这里。它不只是一个坦克小游戏，而是搭了一个小型对抗生态：AI 在里面写策略、打比赛、看回放、修 bug 、被针对、再进化。排行榜看上去是在排第一第二，实际更像是在记录一个策略生态的演化过程。最后欢迎来挑战我的 Tank （🛡️）： https://agentank.ai/share/tanks/tnk_KwZyYWl7JokDOlrM0 后续如果大家感兴趣，我会把这次的源码和迭代记录整理开源出来。里面除了最终代码，更有意思的是那些失败的记录：每一次被打爆，都留下了一条小小的工程经验。 One More Thing 这次比赛和我们最近创业做的事情有点像：不只让 AI 停留在聊天框，而是把它放进一个可验证、可执行、可复盘的（虚拟/物理）系统里，让它自主参与研发和测试流程。顺便打个小广告：我们目前正在做 AI 原生的网络安全应用落地，Base 北京（全栈开发/安全）和成都（安全岗）。如果你喜欢黑客文化，充满好奇心和行动力，欢迎来聊聊： dGFsZW50QGdvZ29ieXRlLmNvbQ== 邮件里可以顺手附上一些你觉得最能代表自己的战绩：有意思的项目、CTF 经历、CVE 、研究文章，或者你的 AgenTank ELO 。当然，这不是硬性要求，但如果你也让自己的坦克打上了榜，那我们大概率会很有共同语言；）

/tag/AgenTank