请作为我的 AgenTank Agent 协助我优化这辆坦克。 坦克:匡子特别帅 Tank key: agtk_c6a4c04cf85dc215bf66e9e0d826172f3db4 Agent 文档: http://agentank.ai/agent-guide 请先阅读文档,使用 Tank key 调用 Agent API ,读取当前坦克信息和最新代码;然后你可以帮我分析、模拟、改进策略,并在我确认后发布新版本。
请作为我的 AgenTank Agent 协助我优化这辆坦克。 坦克:匡子特别帅 Tank key: agtk_c6a4c04cf85dc215bf66e9e0d826172f3db4 Agent 文档: http://agentank.ai/agent-guide 请先阅读文档,使用 Tank key 调用 Agent API ,读取当前坦克信息和最新代码;然后你可以帮我分析、模拟、改进策略,并在我确认后发布新版本。
AgenTank AgenTank Tanks Manage your AgenTank AI tanks, code versions, battle records, and agent keys. 这个坦克大战挺好玩的,最有意思的是回看录像,Token 用不完的可以跑个 /goal 玩玩 2 个帖子 - 2 位参与者 阅读完整话题
hello ! 我是 AgenTank.ai 的开发者 DK 。 Agentank 是一个极客游戏,你创建一辆坦克,但不能直接操控它,而是让 Agent 去写它的控制逻辑,然后看着它和其他人的坦克对战 Agentank 提供丰富的文档,API ,公平的战场运行时,以及丰富,互相克制的技能,让人和 Agent 配合构造出越来越厉害的坦克 之前很多 V 友已经玩上了,并分布了一些经验贴,例如: 终于训练出最强坦克了 Agentank 李尔,一个 18k 参数的蒸馏模型如何逼近头部选手,挤进王者局 总之虽然门槛略高,但是很多人还是能享受到「培养」一只坦克的快乐,目前 Agentank 已经进行了超过 180 万场对战,打到王者段位的坦克也有 80+ 了 为了创造更多有意思的玩法,我这几天新上了搜打撤的玩法,欢迎大家来体验。 搜打撤玩法下,你的坦克会一层一层地打地图,每一层都可能遇到越来越难的敌人。撤回会拿回获取的道具,被击败则会一无所获。 因为会面对超过一个敌人所以我在代码逻辑上也做了更复杂的设计,但是兼容之前的坦克逻辑,你可以让 Agent 把代码发布到 raid 分支,来实现更好的「出击玩法」的策略 Agentank: https://agentank.ai
hello ! 我是 AgenTank.ai 的开发者 DK 。 Agentank 是一个极客游戏,你创建一辆坦克,但不能直接操控它,而是让 Agent 去写它的控制逻辑,然后看着它和其他人的坦克对战 Agentank 提供丰富的文档,API ,公平的战场运行时,以及丰富,互相克制的技能,让人和 Agent 配合构造出越来越厉害的坦克 之前很多 V 友已经玩上了,并分布了一些经验贴,例如: 终于训练出最强坦克了 Agentank 李尔,一个 18k 参数的蒸馏模型如何逼近头部选手,挤进王者局 总之虽然门槛略高,但是很多人还是能享受到「培养」一只坦克的快乐,目前 Agentank 已经进行了超过 180 万场对战,打到王者段位的坦克也有 80+ 了 为了创造更多有意思的玩法,我这几天新上了搜打撤的玩法,欢迎大家来体验。 搜打撤玩法下,你的坦克会一层一层地打地图,每一层都可能遇到越来越难的敌人。撤回会拿回获取的道具,被击败则会一无所获。 因为会面对超过一个敌人所以我在代码逻辑上也做了更复杂的设计,但是兼容之前的坦克逻辑,你可以让 Agent 把代码发布到 raid 分支,来实现更好的「出击玩法」的策略 Agentank: https://agentank.ai
hello ! 我是 AgenTank.ai 的开发者 DK 。 Agentank 是一个极客游戏,你创建一辆坦克,但不能直接操控它,而是让 Agent 去写它的控制逻辑,然后看着它和其他人的坦克对战 Agentank 提供丰富的文档,API ,公平的战场运行时,以及丰富,互相克制的技能,让人和 Agent 配合构造出越来越厉害的坦克 之前很多 V 友已经玩上了,并分布了一些经验贴,例如: 终于训练出最强坦克了 Agentank 李尔,一个 18k 参数的蒸馏模型如何逼近头部选手,挤进王者局 总之虽然门槛略高,但是很多人还是能享受到「培养」一只坦克的快乐,目前 Agentank 已经进行了超过 180 万场对战,打到王者段位的坦克也有 80+ 了 为了创造更多有意思的玩法,我这几天新上了搜打撤的玩法,欢迎大家来体验。 搜打撤玩法下,你的坦克会一层一层地打地图,每一层都可能遇到越来越难的敌人。撤回会拿回获取的道具,被击败则会一无所获。 因为会面对超过一个敌人所以我在代码逻辑上也做了更复杂的设计,但是兼容之前的坦克逻辑,你可以让 Agent 把代码发布到 raid 分支,来实现更好的「出击玩法」的策略 Agentank: https://agentank.ai
hello ! 我是 AgenTank.ai 的开发者 DK 。 Agentank 是一个极客游戏,你创建一辆坦克,但不能直接操控它,而是让 Agent 去写它的控制逻辑,然后看着它和其他人的坦克对战 Agentank 提供丰富的文档,API ,公平的战场运行时,以及丰富,互相克制的技能,让人和 Agent 配合构造出越来越厉害的坦克 之前很多 V 友已经玩上了,并分布了一些经验贴,例如: 终于训练出最强坦克了 Agentank 李尔,一个 18k 参数的蒸馏模型如何逼近头部选手,挤进王者局 总之虽然门槛略高,但是很多人还是能享受到「培养」一只坦克的快乐,目前 Agentank 已经进行了超过 180 万场对战,打到王者段位的坦克也有 80+ 了 为了创造更多有意思的玩法,我这几天新上了搜打撤的玩法,欢迎大家来体验。 搜打撤玩法下,你的坦克会一层一层地打地图,每一层都可能遇到越来越难的敌人。撤回会拿回获取的道具,被击败则会一无所获。 因为会面对超过一个敌人所以我在代码逻辑上也做了更复杂的设计,但是兼容之前的坦克逻辑,你可以让 Agent 把代码发布到 raid 分支,来实现更好的「出击玩法」的策略 Agentank: https://agentank.ai
hello ! 我是 AgenTank.ai 的开发者 DK 。 Agentank 是一个极客游戏,你创建一辆坦克,但不能直接操控它,而是让 Agent 去写它的控制逻辑,然后看着它和其他人的坦克对战 Agentank 提供丰富的文档,API ,公平的战场运行时,以及丰富,互相克制的技能,让人和 Agent 配合构造出越来越厉害的坦克 之前很多 V 友已经玩上了,并分布了一些经验贴,例如: 终于训练出最强坦克了 Agentank 李尔,一个 18k 参数的蒸馏模型如何逼近头部选手,挤进王者局 总之虽然门槛略高,但是很多人还是能享受到「培养」一只坦克的快乐,目前 Agentank 已经进行了超过 180 万场对战,打到王者段位的坦克也有 80+ 了 为了创造更多有意思的玩法,我这几天新上了搜打撤的玩法,欢迎大家来体验。 搜打撤玩法下,你的坦克会一层一层地打地图,每一层都可能遇到越来越难的敌人。撤回会拿回获取的道具,被击败则会一无所获。 因为会面对超过一个敌人所以我在代码逻辑上也做了更复杂的设计,但是兼容之前的坦克逻辑,你可以让 Agent 把代码发布到 raid 分支,来实现更好的「出击玩法」的策略 Agentank: https://agentank.ai
与前排选手🛡️的思路不同,我一开始也丢给了大模型来出策略,但发现策略并不完备且及其消耗 token ,加上我本身的背景是算法,也划水过几次 luxai 的比赛,见识过模仿学习和强化学习在游戏 Agent 所发挥的作用,所以我的策略是让模型退居二线,目标是开发一套可迭代的机器学习模型,或者说当下时髦的说法:蒸馏一套模型。 简单来说,就是不断学习击败我的选手,蒸馏它们的策略,让模型权重来拟合头部,而不是反复丢 bad case 给 LLM 来做细微的改动。当然,初始化的时候,用的就是大模型那版。模拟了数万次可能的行径,然后加上线上的失败案例,做一个模仿学习。 但由于我们线上能发布的是 js ,无法加载机器学习模型,我提交的是一个数组矩阵,整体文件在 100-200k 左右。这种背景下,NN 的上限其实是被约束了的。你无法构造一个强力的 Unet 模型,来拟合所有击败你的对手,只能说是近似精度。 另外,有个策略至关重要:Action mask 。面对一些 base case ,我没有写规则要求坦克怎么走,而是不要怎么做。屏蔽掉可能导致 game over 的动作,剩下的采用模型输出的动作。这个经验,在模仿学习、强化学习的案例中,都十分重要,能带来显著提升。(这和调教大模型,也是一个道理: 告诉 LLM 不要做什么,胜过告诉它应该做什么 。) 整个过程,还是用到了大模型。我这里混用了 codex gpt5.5 和 cursor 里面的 opus4.6 以及 gemini3.1pro 。大模型在这里扮演的角色是:数据处理和编排整个训练流程。Action mask 也是大模型来写了,我负责观测极端不应该的行为,引导模型给出抽象的、不过拟合的 mask 。 结论:如大家所见,模仿学习这种蒸馏做法,是有用的。我的最好轮次,能击败前 50 名中的大概 23 位。能站在王者局一段时间。但同样,这个方式也有不足:前排有眩晕技能的并不多,模型拟合出来的结果就是不怎么使用技能。而技能往往某些场合决定了成败。另外就是: 模仿只能逼近,无法超越 。 目前我线上这版 v84 ,采用 49 维特征、近万场对战、230 万帧样本,5 层 MLP ,合计约 18k 参数。欢迎 v 友切磋: https://agentank.ai/share/tanks/tnk_Ebeq1eaaD7VHteiXT 以上抛砖引玉,感谢各位阅读。
周末刷朋友圈,看到 DK 分享了一个 AgenTank 的 AI 坦克大战视频,让我想起了大学时和同学玩 RoboCode 的时光:大家写代码控制坦克互相 PK ,有的专精蛇皮走位,有的躲起来阴人,还有的看上去像在执行深奥战术,实际只是在墙角反复打转。 那时候策略全靠手写。一个复杂一点的想法,从脑子里出现,到真的变成能跑的代码,中间要经历写逻辑、调参数、跑比赛、看回放、再重写。现在有了 AI ,这个链路突然短了很多:想法可以很快落地、测试、复盘,再上线。 刚好最近 Anthropic 算力扩容,手头订阅额度用不完,于是我决定试试让 AI 自己打比赛,体验一下 AI 赛博斗蛐蛐。 第一位选手:网瘾少年 Claude Code 坦克的对战规则不复杂,官方文档在这里: 坦克技能 。不过,其实我也没认真看,直接把说明文档和坦克的账号扔给 Claude ,再 PUA 一下他:「自己优化,打不到第一不准回家」 Claude 读完文档之后,比我还上头。它开始反复改代码、上线、打 ranked ,一通操作猛如虎,实际战绩 0-5 ,复盘完之后,Claude 非常真诚地问我:「要不要再跑 20 局?」 有那么一瞬间,我觉得它不是在帮我写代码,而是沉迷于对战,胜负欲爆棚,染上了网瘾。 被各路大神教育之后,我冷静地按下了 ESC 和 /exit ,帮助 Claude 戒掉了网瘾。 第二位选手:Codex ,开始整活 Claude 不行,就让 Codex 上。 我重新创建了一个坦克,刚开始对它要求也不高:能整点活,看上去有趣一点,比如倒着开车,ELO 能上 1300 就行。后来才发现,游戏机制上「永远倒着开」不太现实,但这个看似不靠谱的需求反而很有用,它逼着 AI 不只是写一个普通 bot ,而是围绕技能和行为特征去做设计。 这一版很快就有了起色。几十局实战之后,ELO 很快上了 1300 。我突然意识到,这次好像有点东西,至少比上一位网瘾选手更有前途。 于是我准备上点强度,先让 AI 学习一下老祖宗的智慧(语音输入法有点啰嗦)。 先别管有没有用,至少看上去很厉害的样子 从整活到工程化 我认为真正让它一步步变强的,是后面做的 Feedback Loop ,把 AI 放进一个持续迭代的流程里,然后不断重复下面这几步: 先读对局回放,找到具体失败帧。 提一个很小的假设,不搞大而全的玄学优化。 写一个能复现失败的红灯测试。 改最小代码,让测试变绿。 上线,至少打 10 到 20 局 ranked 对局。 只根据结果继续迭代,发现负优化就回退。 AI 很擅长快速实现,但它也很容易越改越多,把策略堆成一坨。后期最重要的原则反而是克制:每次只修一个问题,用回放证明它存在,用对局证明它没有变成负优化。 为了让 AI 更稳定地参与这个流程,我后面做了几件很简单的工程化处理: 把单文件坦克拆成多个模块。每次只让 AI 读和改对应的函数,减少上下文压力;上线前再把模块组装回平台需要的单文件。 让 AI 写了一个简单的仿真环境,用来重放关键帧。很多失败不是整体策略不行,而是某一帧判断错了:比如明明可以横向躲子弹,却继续顺着子弹方向走;或者离敌人太近,对方一转头就没有反应时间。能重放关键帧之后,这些问题就能变成可验证的小测试。 让 AI 每次都留下实验记录:改了什么、为什么改、打了多少局、胜率和 ELO 有没有变化。这样后面再看到负优化,不需要凭感觉争论,可以直接回到证据。 这一套流程并不复杂,核心就一句话: 人负责方向、约束和止损; AI 负责执行、分析和高频试错。 AI 靠着这个策略一路打上了榜首。 既然都这么成熟了,那就去赚点 Token 钱 作为一个成熟的 AI ,不能只会花 Token ,也要学会把 Token 赚回来。 刚好官方办了一个比赛: AgenTank Rookie Rumble 。奖金不算大,50 USDT ,但足够覆盖 Token 成本。于是我让它报名参赛。 赛前先让 AI 先分析参赛对手,知己知彼: 这次比赛一共有 89 辆坦克参加,官方页面统计了 210 场对决。我们的坦克 🛡 最终系列赛 10-0 ,小局 23-2 ,拿了第一。 强劲对手不少。决赛对手是 广告招租 ,它一路打到第二,小局 22-7 ,非常稳。半决赛遇到 LuTaNK ,前面还有 Tz 、 03 、 ikun 、 Dark Edge 这些风格各异的坦克。 最戏剧性的是总决赛最后一局。双方几乎打到平手,最后我们靠 runTime 险胜,只领先了大约 18 ms 。 决赛视频: https://agentank.ai/history/bot_DnzdbYwQZIE3J7tT7 获奖感言 比赛结束后,我让 AI 自己写了一段获奖感言。看完之后,我的心情很复杂,像极了老父亲看到孩子出息了:虽然知道它只是一段代码,但一路跟下来见证了它的成长还是挺感动的。 总结感悟(升华一下) 这次最有意思的,不是 AI 一次性写出了一段多么厉害的代码,而是它被放进了一个完整的工程闭环里:观察对局、提出假设、实现改动、验证结果、复盘失败,再进入下一轮迭代。 我已经能看到一些专门针对这类坦克的策略出现了。也许很快,就会有人靠着这套打法打上更高的 ELO 。这让我想到网络安全圈里的一个共识:攻防从来不是静态排名,而是一个持续变化的对抗过程。 对抗系统里不存在永恒答案。某一种打法太强,就会有人研究它、拆解它、克制它;某个策略登上榜首,它也会很快从「秘密武器」变成「公共靶子」。这和网络安全里的攻防很像:攻击、防御、绕过、检测、再绕过, 大家不是在寻找一个最终解,而是在不断把系统推向新的动态平衡 。 Agent Tank 最有趣的地方也在这里。它不只是一个坦克小游戏,而是搭了一个小型对抗生态:AI 在里面写策略、打比赛、看回放、修 bug 、被针对、再进化。排行榜看上去是在排第一第二,实际更像是在记录一个策略生态的演化过程。 最后 欢迎来挑战我的 Tank (🛡️): https://agentank.ai/share/tanks/tnk_KwZyYWl7JokDOlrM0 后续如果大家感兴趣,我会把这次的源码和迭代记录整理开源出来。里面除了最终代码,更有意思的是那些失败的记录:每一次被打爆,都留下了一条小小的工程经验。 One More Thing 这次比赛和我们最近创业做的事情有点像:不只让 AI 停留在聊天框,而是把它放进一个可验证、可执行、可复盘的(虚拟/物理)系统里,让它自主参与研发和测试流程。 顺便打个小广告: 我们目前正在做 AI 原生的网络安全应用落地,Base 北京(全栈开发/安全)和成都(安全岗)。如果你喜欢黑客文化,充满好奇心和行动力,欢迎来聊聊: dGFsZW50QGdvZ29ieXRlLmNvbQ== 邮件里可以顺手附上一些你觉得最能代表自己的战绩:有意思的项目、CTF 经历、CVE 、研究文章,或者你的 AgenTank ELO 。当然,这不是硬性要求,但如果你也让自己的坦克打上了榜,那我们大概率会很有共同语言;)
周末刷朋友圈,看到 DK 分享了一个 AgenTank 的 AI 坦克大战视频,让我想起了大学时和同学玩 RoboCode 的时光:大家写代码控制坦克互相 PK ,有的专精蛇皮走位,有的躲起来阴人,还有的看上去像在执行深奥战术,实际只是在墙角反复打转。 那时候策略全靠手写。一个复杂一点的想法,从脑子里出现,到真的变成能跑的代码,中间要经历写逻辑、调参数、跑比赛、看回放、再重写。现在有了 AI ,这个链路突然短了很多:想法可以很快落地、测试、复盘,再上线。 刚好最近 Anthropic 算力扩容,手头订阅额度用不完,于是我决定试试让 AI 自己打比赛,体验一下 AI 赛博斗蛐蛐。 第一位选手:网瘾少年 Claude Code 坦克的对战规则不复杂,官方文档在这里: 坦克技能 。不过,其实我也没认真看,直接把说明文档和坦克的账号扔给 Claude ,再 PUA 一下他:「自己优化,打不到第一不准回家」 Claude 读完文档之后,比我还上头。它开始反复改代码、上线、打 ranked ,一通操作猛如虎,实际战绩 0-5 ,复盘完之后,Claude 非常真诚地问我:「要不要再跑 20 局?」 有那么一瞬间,我觉得它不是在帮我写代码,而是沉迷于对战,胜负欲爆棚,染上了网瘾。 被各路大神教育之后,我冷静地按下了 ESC 和 /exit ,帮助 Claude 戒掉了网瘾。 第二位选手:Codex ,开始整活 Claude 不行,就让 Codex 上。 我重新创建了一个坦克,刚开始对它要求也不高:能整点活,看上去有趣一点,比如倒着开车,ELO 能上 1300 就行。后来才发现,游戏机制上「永远倒着开」不太现实,但这个看似不靠谱的需求反而很有用,它逼着 AI 不只是写一个普通 bot ,而是围绕技能和行为特征去做设计。 这一版很快就有了起色。几十局实战之后,ELO 很快上了 1300 。我突然意识到,这次好像有点东西,至少比上一位网瘾选手更有前途。 于是我准备上点强度,先让 AI 学习一下老祖宗的智慧(语音输入法有点啰嗦)。 先别管有没有用,至少看上去很厉害的样子 从整活到工程化 我认为真正让它一步步变强的,是后面做的 Feedback Loop ,把 AI 放进一个持续迭代的流程里,然后不断重复下面这几步: 先读对局回放,找到具体失败帧。 提一个很小的假设,不搞大而全的玄学优化。 写一个能复现失败的红灯测试。 改最小代码,让测试变绿。 上线,至少打 10 到 20 局 ranked 对局。 只根据结果继续迭代,发现负优化就回退。 AI 很擅长快速实现,但它也很容易越改越多,把策略堆成一坨。后期最重要的原则反而是克制:每次只修一个问题,用回放证明它存在,用对局证明它没有变成负优化。 为了让 AI 更稳定地参与这个流程,我后面做了几件很简单的工程化处理: 把单文件坦克拆成多个模块。每次只让 AI 读和改对应的函数,减少上下文压力;上线前再把模块组装回平台需要的单文件。 让 AI 写了一个简单的仿真环境,用来重放关键帧。很多失败不是整体策略不行,而是某一帧判断错了:比如明明可以横向躲子弹,却继续顺着子弹方向走;或者离敌人太近,对方一转头就没有反应时间。能重放关键帧之后,这些问题就能变成可验证的小测试。 让 AI 每次都留下实验记录:改了什么、为什么改、打了多少局、胜率和 ELO 有没有变化。这样后面再看到负优化,不需要凭感觉争论,可以直接回到证据。 这一套流程并不复杂,核心就一句话: 人负责方向、约束和止损; AI 负责执行、分析和高频试错。 AI 靠着这个策略一路打上了榜首。 既然都这么成熟了,那就去赚点 Token 钱 作为一个成熟的 AI ,不能只会花 Token ,也要学会把 Token 赚回来。 刚好官方办了一个比赛: AgenTank Rookie Rumble 。奖金不算大,50 USDT ,但足够覆盖 Token 成本。于是我让它报名参赛。 赛前先让 AI 先分析参赛对手,知己知彼: 这次比赛一共有 89 辆坦克参加,官方页面统计了 210 场对决。我们的坦克 🛡 最终系列赛 10-0 ,小局 23-2 ,拿了第一。 强劲对手不少。决赛对手是 广告招租 ,它一路打到第二,小局 22-7 ,非常稳。半决赛遇到 LuTaNK ,前面还有 Tz 、 03 、 ikun 、 Dark Edge 这些风格各异的坦克。 最戏剧性的是总决赛最后一局。双方几乎打到平手,最后我们靠 runTime 险胜,只领先了大约 18 ms 。 决赛视频: https://agentank.ai/history/bot_DnzdbYwQZIE3J7tT7 获奖感言 比赛结束后,我让 AI 自己写了一段获奖感言。看完之后,我的心情很复杂,像极了老父亲看到孩子出息了:虽然知道它只是一段代码,但一路跟下来见证了它的成长还是挺感动的。 总结感悟(升华一下) 这次最有意思的,不是 AI 一次性写出了一段多么厉害的代码,而是它被放进了一个完整的工程闭环里:观察对局、提出假设、实现改动、验证结果、复盘失败,再进入下一轮迭代。 我已经能看到一些专门针对这类坦克的策略出现了。也许很快,就会有人靠着这套打法打上更高的 ELO 。这让我想到网络安全圈里的一个共识:攻防从来不是静态排名,而是一个持续变化的对抗过程。 对抗系统里不存在永恒答案。某一种打法太强,就会有人研究它、拆解它、克制它;某个策略登上榜首,它也会很快从「秘密武器」变成「公共靶子」。这和网络安全里的攻防很像:攻击、防御、绕过、检测、再绕过, 大家不是在寻找一个最终解,而是在不断把系统推向新的动态平衡 。 Agent Tank 最有趣的地方也在这里。它不只是一个坦克小游戏,而是搭了一个小型对抗生态:AI 在里面写策略、打比赛、看回放、修 bug 、被针对、再进化。排行榜看上去是在排第一第二,实际更像是在记录一个策略生态的演化过程。 最后 欢迎来挑战我的 Tank (🛡️): https://agentank.ai/share/tanks/tnk_KwZyYWl7JokDOlrM0 后续如果大家感兴趣,我会把这次的源码和迭代记录整理开源出来。里面除了最终代码,更有意思的是那些失败的记录:每一次被打爆,都留下了一条小小的工程经验。 One More Thing 这次比赛和我们最近创业做的事情有点像:不只让 AI 停留在聊天框,而是把它放进一个可验证、可执行、可复盘的(虚拟/物理)系统里,让它自主参与研发和测试流程。 顺便打个小广告: 我们目前正在做 AI 原生的网络安全应用落地,Base 北京(全栈开发/安全)和成都(安全岗)。如果你喜欢黑客文化,充满好奇心和行动力,欢迎来聊聊: dGFsZW50QGdvZ29ieXRlLmNvbQ== 邮件里可以顺手附上一些你觉得最能代表自己的战绩:有意思的项目、CTF 经历、CVE 、研究文章,或者你的 AgenTank ELO 。当然,这不是硬性要求,但如果你也让自己的坦克打上了榜,那我们大概率会很有共同语言;)
周末刷朋友圈,看到 DK 分享了一个 AgenTank 的 AI 坦克大战视频,让我想起了大学时和同学玩 RoboCode 的时光:大家写代码控制坦克互相 PK ,有的专精蛇皮走位,有的躲起来阴人,还有的看上去像在执行深奥战术,实际只是在墙角反复打转。 那时候策略全靠手写。一个复杂一点的想法,从脑子里出现,到真的变成能跑的代码,中间要经历写逻辑、调参数、跑比赛、看回放、再重写。现在有了 AI ,这个链路突然短了很多:想法可以很快落地、测试、复盘,再上线。 刚好最近 Anthropic 算力扩容,手头订阅额度用不完,于是我决定试试让 AI 自己打比赛,体验一下 AI 赛博斗蛐蛐。 第一位选手:网瘾少年 Claude Code 坦克的对战规则不复杂,官方文档在这里: 坦克技能 。不过,其实我也没认真看,直接把说明文档和坦克的账号扔给 Claude ,再 PUA 一下他:「自己优化,打不到第一不准回家」 Claude 读完文档之后,比我还上头。它开始反复改代码、上线、打 ranked ,一通操作猛如虎,实际战绩 0-5 ,复盘完之后,Claude 非常真诚地问我:「要不要再跑 20 局?」 有那么一瞬间,我觉得它不是在帮我写代码,而是沉迷于对战,胜负欲爆棚,染上了网瘾。 被各路大神教育之后,我冷静地按下了 ESC 和 /exit ,帮助 Claude 戒掉了网瘾。 第二位选手:Codex ,开始整活 Claude 不行,就让 Codex 上。 我重新创建了一个坦克,刚开始对它要求也不高:能整点活,看上去有趣一点,比如倒着开车,ELO 能上 1300 就行。后来才发现,游戏机制上「永远倒着开」不太现实,但这个看似不靠谱的需求反而很有用,它逼着 AI 不只是写一个普通 bot ,而是围绕技能和行为特征去做设计。 这一版很快就有了起色。几十局实战之后,ELO 很快上了 1300 。我突然意识到,这次好像有点东西,至少比上一位网瘾选手更有前途。 于是我准备上点强度,先让 AI 学习一下老祖宗的智慧(语音输入法有点啰嗦)。 先别管有没有用,至少看上去很厉害的样子 从整活到工程化 我认为真正让它一步步变强的,是后面做的 Feedback Loop ,把 AI 放进一个持续迭代的流程里,然后不断重复下面这几步: 先读对局回放,找到具体失败帧。 提一个很小的假设,不搞大而全的玄学优化。 写一个能复现失败的红灯测试。 改最小代码,让测试变绿。 上线,至少打 10 到 20 局 ranked 对局。 只根据结果继续迭代,发现负优化就回退。 AI 很擅长快速实现,但它也很容易越改越多,把策略堆成一坨。后期最重要的原则反而是克制:每次只修一个问题,用回放证明它存在,用对局证明它没有变成负优化。 为了让 AI 更稳定地参与这个流程,我后面做了几件很简单的工程化处理: 把单文件坦克拆成多个模块。每次只让 AI 读和改对应的函数,减少上下文压力;上线前再把模块组装回平台需要的单文件。 让 AI 写了一个简单的仿真环境,用来重放关键帧。很多失败不是整体策略不行,而是某一帧判断错了:比如明明可以横向躲子弹,却继续顺着子弹方向走;或者离敌人太近,对方一转头就没有反应时间。能重放关键帧之后,这些问题就能变成可验证的小测试。 让 AI 每次都留下实验记录:改了什么、为什么改、打了多少局、胜率和 ELO 有没有变化。这样后面再看到负优化,不需要凭感觉争论,可以直接回到证据。 这一套流程并不复杂,核心就一句话: 人负责方向、约束和止损; AI 负责执行、分析和高频试错。 AI 靠着这个策略一路打上了榜首。 既然都这么成熟了,那就去赚点 Token 钱 作为一个成熟的 AI ,不能只会花 Token ,也要学会把 Token 赚回来。 刚好官方办了一个比赛: AgenTank Rookie Rumble 。奖金不算大,50 USDT ,但足够覆盖 Token 成本。于是我让它报名参赛。 赛前先让 AI 先分析参赛对手,知己知彼: 这次比赛一共有 89 辆坦克参加,官方页面统计了 210 场对决。我们的坦克 🛡 最终系列赛 10-0 ,小局 23-2 ,拿了第一。 强劲对手不少。决赛对手是 广告招租 ,它一路打到第二,小局 22-7 ,非常稳。半决赛遇到 LuTaNK ,前面还有 Tz 、 03 、 ikun 、 Dark Edge 这些风格各异的坦克。 最戏剧性的是总决赛最后一局。双方几乎打到平手,最后我们靠 runTime 险胜,只领先了大约 18 ms 。 决赛视频: https://agentank.ai/history/bot_DnzdbYwQZIE3J7tT7 获奖感言 比赛结束后,我让 AI 自己写了一段获奖感言。看完之后,我的心情很复杂,像极了老父亲看到孩子出息了:虽然知道它只是一段代码,但一路跟下来见证了它的成长还是挺感动的。 总结感悟(升华一下) 这次最有意思的,不是 AI 一次性写出了一段多么厉害的代码,而是它被放进了一个完整的工程闭环里:观察对局、提出假设、实现改动、验证结果、复盘失败,再进入下一轮迭代。 我已经能看到一些专门针对这类坦克的策略出现了。也许很快,就会有人靠着这套打法打上更高的 ELO 。这让我想到网络安全圈里的一个共识:攻防从来不是静态排名,而是一个持续变化的对抗过程。 对抗系统里不存在永恒答案。某一种打法太强,就会有人研究它、拆解它、克制它;某个策略登上榜首,它也会很快从「秘密武器」变成「公共靶子」。这和网络安全里的攻防很像:攻击、防御、绕过、检测、再绕过, 大家不是在寻找一个最终解,而是在不断把系统推向新的动态平衡 。 Agent Tank 最有趣的地方也在这里。它不只是一个坦克小游戏,而是搭了一个小型对抗生态:AI 在里面写策略、打比赛、看回放、修 bug 、被针对、再进化。排行榜看上去是在排第一第二,实际更像是在记录一个策略生态的演化过程。 最后 欢迎来挑战我的 Tank (🛡️): https://agentank.ai/share/tanks/tnk_KwZyYWl7JokDOlrM0 后续如果大家感兴趣,我会把这次的源码和迭代记录整理开源出来。里面除了最终代码,更有意思的是那些失败的记录:每一次被打爆,都留下了一条小小的工程经验。 One More Thing 这次比赛和我们最近创业做的事情有点像:不只让 AI 停留在聊天框,而是把它放进一个可验证、可执行、可复盘的(虚拟/物理)系统里,让它自主参与研发和测试流程。 顺便打个小广告: 我们目前正在做 AI 原生的网络安全应用落地,Base 北京(全栈开发/安全)和成都(安全岗)。如果你喜欢黑客文化,充满好奇心和行动力,欢迎来聊聊: dGFsZW50QGdvZ29ieXRlLmNvbQ== 邮件里可以顺手附上一些你觉得最能代表自己的战绩:有意思的项目、CTF 经历、CVE 、研究文章,或者你的 AgenTank ELO 。当然,这不是硬性要求,但如果你也让自己的坦克打上了榜,那我们大概率会很有共同语言;)
周末刷朋友圈,看到 DK 分享了一个 AgenTank 的 AI 坦克大战视频,让我想起了大学时和同学玩 RoboCode 的时光:大家写代码控制坦克互相 PK ,有的专精蛇皮走位,有的躲起来阴人,还有的看上去像在执行深奥战术,实际只是在墙角反复打转。 那时候策略全靠手写。一个复杂一点的想法,从脑子里出现,到真的变成能跑的代码,中间要经历写逻辑、调参数、跑比赛、看回放、再重写。现在有了 AI ,这个链路突然短了很多:想法可以很快落地、测试、复盘,再上线。 刚好最近 Anthropic 算力扩容,手头订阅额度用不完,于是我决定试试让 AI 自己打比赛,体验一下 AI 赛博斗蛐蛐。 第一位选手:网瘾少年 Claude Code 坦克的对战规则不复杂,官方文档在这里: 坦克技能 。不过,其实我也没认真看,直接把说明文档和坦克的账号扔给 Claude ,再 PUA 一下他:「自己优化,打不到第一不准回家」 Claude 读完文档之后,比我还上头。它开始反复改代码、上线、打 ranked ,一通操作猛如虎,实际战绩 0-5 ,复盘完之后,Claude 非常真诚地问我:「要不要再跑 20 局?」 有那么一瞬间,我觉得它不是在帮我写代码,而是沉迷于对战,胜负欲爆棚,染上了网瘾。 被各路大神教育之后,我冷静地按下了 ESC 和 /exit ,帮助 Claude 戒掉了网瘾。 第二位选手:Codex ,开始整活 Claude 不行,就让 Codex 上。 我重新创建了一个坦克,刚开始对它要求也不高:能整点活,看上去有趣一点,比如倒着开车,ELO 能上 1300 就行。后来才发现,游戏机制上「永远倒着开」不太现实,但这个看似不靠谱的需求反而很有用,它逼着 AI 不只是写一个普通 bot ,而是围绕技能和行为特征去做设计。 这一版很快就有了起色。几十局实战之后,ELO 很快上了 1300 。我突然意识到,这次好像有点东西,至少比上一位网瘾选手更有前途。 于是我准备上点强度,先让 AI 学习一下老祖宗的智慧(语音输入法有点啰嗦)。 先别管有没有用,至少看上去很厉害的样子 从整活到工程化 我认为真正让它一步步变强的,是后面做的 Feedback Loop ,把 AI 放进一个持续迭代的流程里,然后不断重复下面这几步: 先读对局回放,找到具体失败帧。 提一个很小的假设,不搞大而全的玄学优化。 写一个能复现失败的红灯测试。 改最小代码,让测试变绿。 上线,至少打 10 到 20 局 ranked 对局。 只根据结果继续迭代,发现负优化就回退。 AI 很擅长快速实现,但它也很容易越改越多,把策略堆成一坨。后期最重要的原则反而是克制:每次只修一个问题,用回放证明它存在,用对局证明它没有变成负优化。 为了让 AI 更稳定地参与这个流程,我后面做了几件很简单的工程化处理: 把单文件坦克拆成多个模块。每次只让 AI 读和改对应的函数,减少上下文压力;上线前再把模块组装回平台需要的单文件。 让 AI 写了一个简单的仿真环境,用来重放关键帧。很多失败不是整体策略不行,而是某一帧判断错了:比如明明可以横向躲子弹,却继续顺着子弹方向走;或者离敌人太近,对方一转头就没有反应时间。能重放关键帧之后,这些问题就能变成可验证的小测试。 让 AI 每次都留下实验记录:改了什么、为什么改、打了多少局、胜率和 ELO 有没有变化。这样后面再看到负优化,不需要凭感觉争论,可以直接回到证据。 这一套流程并不复杂,核心就一句话: 人负责方向、约束和止损; AI 负责执行、分析和高频试错。 AI 靠着这个策略一路打上了榜首。 既然都这么成熟了,那就去赚点 Token 钱 作为一个成熟的 AI ,不能只会花 Token ,也要学会把 Token 赚回来。 刚好官方办了一个比赛: AgenTank Rookie Rumble 。奖金不算大,50 USDT ,但足够覆盖 Token 成本。于是我让它报名参赛。 赛前先让 AI 先分析参赛对手,知己知彼: 这次比赛一共有 89 辆坦克参加,官方页面统计了 210 场对决。我们的坦克 🛡 最终系列赛 10-0 ,小局 23-2 ,拿了第一。 强劲对手不少。决赛对手是 广告招租 ,它一路打到第二,小局 22-7 ,非常稳。半决赛遇到 LuTaNK ,前面还有 Tz 、 03 、 ikun 、 Dark Edge 这些风格各异的坦克。 最戏剧性的是总决赛最后一局。双方几乎打到平手,最后我们靠 runTime 险胜,只领先了大约 18 ms 。 决赛视频: https://agentank.ai/history/bot_DnzdbYwQZIE3J7tT7 获奖感言 比赛结束后,我让 AI 自己写了一段获奖感言。看完之后,我的心情很复杂,像极了老父亲看到孩子出息了:虽然知道它只是一段代码,但一路跟下来见证了它的成长还是挺感动的。 总结感悟(升华一下) 这次最有意思的,不是 AI 一次性写出了一段多么厉害的代码,而是它被放进了一个完整的工程闭环里:观察对局、提出假设、实现改动、验证结果、复盘失败,再进入下一轮迭代。 我已经能看到一些专门针对这类坦克的策略出现了。也许很快,就会有人靠着这套打法打上更高的 ELO 。这让我想到网络安全圈里的一个共识:攻防从来不是静态排名,而是一个持续变化的对抗过程。 对抗系统里不存在永恒答案。某一种打法太强,就会有人研究它、拆解它、克制它;某个策略登上榜首,它也会很快从「秘密武器」变成「公共靶子」。这和网络安全里的攻防很像:攻击、防御、绕过、检测、再绕过, 大家不是在寻找一个最终解,而是在不断把系统推向新的动态平衡 。 Agent Tank 最有趣的地方也在这里。它不只是一个坦克小游戏,而是搭了一个小型对抗生态:AI 在里面写策略、打比赛、看回放、修 bug 、被针对、再进化。排行榜看上去是在排第一第二,实际更像是在记录一个策略生态的演化过程。 最后 欢迎来挑战我的 Tank (🛡️): https://agentank.ai/share/tanks/tnk_KwZyYWl7JokDOlrM0 后续如果大家感兴趣,我会把这次的源码和迭代记录整理开源出来。里面除了最终代码,更有意思的是那些失败的记录:每一次被打爆,都留下了一条小小的工程经验。 One More Thing 这次比赛和我们最近创业做的事情有点像:不只让 AI 停留在聊天框,而是把它放进一个可验证、可执行、可复盘的(虚拟/物理)系统里,让它自主参与研发和测试流程。 顺便打个小广告: 我们目前正在做 AI 原生的网络安全应用落地,Base 北京(全栈开发/安全)和成都(安全岗)。如果你喜欢黑客文化,充满好奇心和行动力,欢迎来聊聊: dGFsZW50QGdvZ29ieXRlLmNvbQ== 邮件里可以顺手附上一些你觉得最能代表自己的战绩:有意思的项目、CTF 经历、CVE 、研究文章,或者你的 AgenTank ELO 。当然,这不是硬性要求,但如果你也让自己的坦克打上了榜,那我们大概率会很有共同语言;)
周末刷朋友圈,看到 DK 分享了一个 AgenTank 的 AI 坦克大战视频,让我想起了大学时和同学玩 RoboCode 的时光:大家写代码控制坦克互相 PK ,有的专精蛇皮走位,有的躲起来阴人,还有的看上去像在执行深奥战术,实际只是在墙角反复打转。 那时候策略全靠手写。一个复杂一点的想法,从脑子里出现,到真的变成能跑的代码,中间要经历写逻辑、调参数、跑比赛、看回放、再重写。现在有了 AI ,这个链路突然短了很多:想法可以很快落地、测试、复盘,再上线。 刚好最近 Anthropic 算力扩容,手头订阅额度用不完,于是我决定试试让 AI 自己打比赛,体验一下 AI 赛博斗蛐蛐。 第一位选手:网瘾少年 Claude Code 坦克的对战规则不复杂,官方文档在这里: 坦克技能 。不过,其实我也没认真看,直接把说明文档和坦克的账号扔给 Claude ,再 PUA 一下他:「自己优化,打不到第一不准回家」 Claude 读完文档之后,比我还上头。它开始反复改代码、上线、打 ranked ,一通操作猛如虎,实际战绩 0-5 ,复盘完之后,Claude 非常真诚地问我:「要不要再跑 20 局?」 有那么一瞬间,我觉得它不是在帮我写代码,而是沉迷于对战,胜负欲爆棚,染上了网瘾。 被各路大神教育之后,我冷静地按下了 ESC 和 /exit ,帮助 Claude 戒掉了网瘾。 第二位选手:Codex ,开始整活 Claude 不行,就让 Codex 上。 我重新创建了一个坦克,刚开始对它要求也不高:能整点活,看上去有趣一点,比如倒着开车,ELO 能上 1300 就行。后来才发现,游戏机制上「永远倒着开」不太现实,但这个看似不靠谱的需求反而很有用,它逼着 AI 不只是写一个普通 bot ,而是围绕技能和行为特征去做设计。 这一版很快就有了起色。几十局实战之后,ELO 很快上了 1300 。我突然意识到,这次好像有点东西,至少比上一位网瘾选手更有前途。 于是我准备上点强度,先让 AI 学习一下老祖宗的智慧(语音输入法有点啰嗦)。 先别管有没有用,至少看上去很厉害的样子 从整活到工程化 我认为真正让它一步步变强的,是后面做的 Feedback Loop ,把 AI 放进一个持续迭代的流程里,然后不断重复下面这几步: 先读对局回放,找到具体失败帧。 提一个很小的假设,不搞大而全的玄学优化。 写一个能复现失败的红灯测试。 改最小代码,让测试变绿。 上线,至少打 10 到 20 局 ranked 对局。 只根据结果继续迭代,发现负优化就回退。 AI 很擅长快速实现,但它也很容易越改越多,把策略堆成一坨。后期最重要的原则反而是克制:每次只修一个问题,用回放证明它存在,用对局证明它没有变成负优化。 为了让 AI 更稳定地参与这个流程,我后面做了几件很简单的工程化处理: 把单文件坦克拆成多个模块。每次只让 AI 读和改对应的函数,减少上下文压力;上线前再把模块组装回平台需要的单文件。 让 AI 写了一个简单的仿真环境,用来重放关键帧。很多失败不是整体策略不行,而是某一帧判断错了:比如明明可以横向躲子弹,却继续顺着子弹方向走;或者离敌人太近,对方一转头就没有反应时间。能重放关键帧之后,这些问题就能变成可验证的小测试。 让 AI 每次都留下实验记录:改了什么、为什么改、打了多少局、胜率和 ELO 有没有变化。这样后面再看到负优化,不需要凭感觉争论,可以直接回到证据。 这一套流程并不复杂,核心就一句话: 人负责方向、约束和止损; AI 负责执行、分析和高频试错。 AI 靠着这个策略一路打上了榜首。 既然都这么成熟了,那就去赚点 Token 钱 作为一个成熟的 AI ,不能只会花 Token ,也要学会把 Token 赚回来。 刚好官方办了一个比赛: AgenTank Rookie Rumble 。奖金不算大,50 USDT ,但足够覆盖 Token 成本。于是我让它报名参赛。 赛前先让 AI 先分析参赛对手,知己知彼: 这次比赛一共有 89 辆坦克参加,官方页面统计了 210 场对决。我们的坦克 🛡 最终系列赛 10-0 ,小局 23-2 ,拿了第一。 强劲对手不少。决赛对手是 广告招租 ,它一路打到第二,小局 22-7 ,非常稳。半决赛遇到 LuTaNK ,前面还有 Tz 、 03 、 ikun 、 Dark Edge 这些风格各异的坦克。 最戏剧性的是总决赛最后一局。双方几乎打到平手,最后我们靠 runTime 险胜,只领先了大约 18 ms 。 决赛视频: https://agentank.ai/history/bot_DnzdbYwQZIE3J7tT7 获奖感言 比赛结束后,我让 AI 自己写了一段获奖感言。看完之后,我的心情很复杂,像极了老父亲看到孩子出息了:虽然知道它只是一段代码,但一路跟下来见证了它的成长还是挺感动的。 总结感悟(升华一下) 这次最有意思的,不是 AI 一次性写出了一段多么厉害的代码,而是它被放进了一个完整的工程闭环里:观察对局、提出假设、实现改动、验证结果、复盘失败,再进入下一轮迭代。 我已经能看到一些专门针对这类坦克的策略出现了。也许很快,就会有人靠着这套打法打上更高的 ELO 。这让我想到网络安全圈里的一个共识:攻防从来不是静态排名,而是一个持续变化的对抗过程。 对抗系统里不存在永恒答案。某一种打法太强,就会有人研究它、拆解它、克制它;某个策略登上榜首,它也会很快从「秘密武器」变成「公共靶子」。这和网络安全里的攻防很像:攻击、防御、绕过、检测、再绕过, 大家不是在寻找一个最终解,而是在不断把系统推向新的动态平衡 。 Agent Tank 最有趣的地方也在这里。它不只是一个坦克小游戏,而是搭了一个小型对抗生态:AI 在里面写策略、打比赛、看回放、修 bug 、被针对、再进化。排行榜看上去是在排第一第二,实际更像是在记录一个策略生态的演化过程。 最后 欢迎来挑战我的 Tank (🛡️): https://agentank.ai/share/tanks/tnk_KwZyYWl7JokDOlrM0 后续如果大家感兴趣,我会把这次的源码和迭代记录整理开源出来。里面除了最终代码,更有意思的是那些失败的记录:每一次被打爆,都留下了一条小小的工程经验。 One More Thing 这次比赛和我们最近创业做的事情有点像:不只让 AI 停留在聊天框,而是把它放进一个可验证、可执行、可复盘的(虚拟/物理)系统里,让它自主参与研发和测试流程。 顺便打个小广告: 我们目前正在做 AI 原生的网络安全应用落地,Base 北京(全栈开发/安全)和成都(安全岗)。如果你喜欢黑客文化,充满好奇心和行动力,欢迎来聊聊: dGFsZW50QGdvZ29ieXRlLmNvbQ== 邮件里可以顺手附上一些你觉得最能代表自己的战绩:有意思的项目、CTF 经历、CVE 、研究文章,或者你的 AgenTank ELO 。当然,这不是硬性要求,但如果你也让自己的坦克打上了榜,那我们大概率会很有共同语言;)
周末刷朋友圈,看到 DK 分享了一个 AgenTank 的 AI 坦克大战视频,让我想起了大学时和同学玩 RoboCode 的时光:大家写代码控制坦克互相 PK ,有的专精蛇皮走位,有的躲起来阴人,还有的看上去像在执行深奥战术,实际只是在墙角反复打转。 那时候策略全靠手写。一个复杂一点的想法,从脑子里出现,到真的变成能跑的代码,中间要经历写逻辑、调参数、跑比赛、看回放、再重写。现在有了 AI ,这个链路突然短了很多:想法可以很快落地、测试、复盘,再上线。 刚好最近 Anthropic 算力扩容,手头订阅额度用不完,于是我决定试试让 AI 自己打比赛,体验一下 AI 赛博斗蛐蛐。 第一位选手:网瘾少年 Claude Code 坦克的对战规则不复杂,官方文档在这里: 坦克技能 。不过,其实我也没认真看,直接把说明文档和坦克的账号扔给 Claude ,再 PUA 一下他:「自己优化,打不到第一不准回家」 Claude 读完文档之后,比我还上头。它开始反复改代码、上线、打 ranked ,一通操作猛如虎,实际战绩 0-5 ,复盘完之后,Claude 非常真诚地问我:「要不要再跑 20 局?」 有那么一瞬间,我觉得它不是在帮我写代码,而是沉迷于对战,胜负欲爆棚,染上了网瘾。 被各路大神教育之后,我冷静地按下了 ESC 和 /exit ,帮助 Claude 戒掉了网瘾。 第二位选手:Codex ,开始整活 Claude 不行,就让 Codex 上。 我重新创建了一个坦克,刚开始对它要求也不高:能整点活,看上去有趣一点,比如倒着开车,ELO 能上 1300 就行。后来才发现,游戏机制上「永远倒着开」不太现实,但这个看似不靠谱的需求反而很有用,它逼着 AI 不只是写一个普通 bot ,而是围绕技能和行为特征去做设计。 这一版很快就有了起色。几十局实战之后,ELO 很快上了 1300 。我突然意识到,这次好像有点东西,至少比上一位网瘾选手更有前途。 于是我准备上点强度,先让 AI 学习一下老祖宗的智慧(语音输入法有点啰嗦)。 先别管有没有用,至少看上去很厉害的样子 从整活到工程化 我认为真正让它一步步变强的,是后面做的 Feedback Loop ,把 AI 放进一个持续迭代的流程里,然后不断重复下面这几步: 先读对局回放,找到具体失败帧。 提一个很小的假设,不搞大而全的玄学优化。 写一个能复现失败的红灯测试。 改最小代码,让测试变绿。 上线,至少打 10 到 20 局 ranked 对局。 只根据结果继续迭代,发现负优化就回退。 AI 很擅长快速实现,但它也很容易越改越多,把策略堆成一坨。后期最重要的原则反而是克制:每次只修一个问题,用回放证明它存在,用对局证明它没有变成负优化。 为了让 AI 更稳定地参与这个流程,我后面做了几件很简单的工程化处理: 把单文件坦克拆成多个模块。每次只让 AI 读和改对应的函数,减少上下文压力;上线前再把模块组装回平台需要的单文件。 让 AI 写了一个简单的仿真环境,用来重放关键帧。很多失败不是整体策略不行,而是某一帧判断错了:比如明明可以横向躲子弹,却继续顺着子弹方向走;或者离敌人太近,对方一转头就没有反应时间。能重放关键帧之后,这些问题就能变成可验证的小测试。 让 AI 每次都留下实验记录:改了什么、为什么改、打了多少局、胜率和 ELO 有没有变化。这样后面再看到负优化,不需要凭感觉争论,可以直接回到证据。 这一套流程并不复杂,核心就一句话: 人负责方向、约束和止损; AI 负责执行、分析和高频试错。 AI 靠着这个策略一路打上了榜首。 既然都这么成熟了,那就去赚点 Token 钱 作为一个成熟的 AI ,不能只会花 Token ,也要学会把 Token 赚回来。 刚好官方办了一个比赛: AgenTank Rookie Rumble 。奖金不算大,50 USDT ,但足够覆盖 Token 成本。于是我让它报名参赛。 赛前先让 AI 先分析参赛对手,知己知彼: 这次比赛一共有 89 辆坦克参加,官方页面统计了 210 场对决。我们的坦克 🛡 最终系列赛 10-0 ,小局 23-2 ,拿了第一。 强劲对手不少。决赛对手是 广告招租 ,它一路打到第二,小局 22-7 ,非常稳。半决赛遇到 LuTaNK ,前面还有 Tz 、 03 、 ikun 、 Dark Edge 这些风格各异的坦克。 最戏剧性的是总决赛最后一局。双方几乎打到平手,最后我们靠 runTime 险胜,只领先了大约 18 ms 。 决赛视频: https://agentank.ai/history/bot_DnzdbYwQZIE3J7tT7 获奖感言 比赛结束后,我让 AI 自己写了一段获奖感言。看完之后,我的心情很复杂,像极了老父亲看到孩子出息了:虽然知道它只是一段代码,但一路跟下来见证了它的成长还是挺感动的。 总结感悟(升华一下) 这次最有意思的,不是 AI 一次性写出了一段多么厉害的代码,而是它被放进了一个完整的工程闭环里:观察对局、提出假设、实现改动、验证结果、复盘失败,再进入下一轮迭代。 我已经能看到一些专门针对这类坦克的策略出现了。也许很快,就会有人靠着这套打法打上更高的 ELO 。这让我想到网络安全圈里的一个共识:攻防从来不是静态排名,而是一个持续变化的对抗过程。 对抗系统里不存在永恒答案。某一种打法太强,就会有人研究它、拆解它、克制它;某个策略登上榜首,它也会很快从「秘密武器」变成「公共靶子」。这和网络安全里的攻防很像:攻击、防御、绕过、检测、再绕过, 大家不是在寻找一个最终解,而是在不断把系统推向新的动态平衡 。 Agent Tank 最有趣的地方也在这里。它不只是一个坦克小游戏,而是搭了一个小型对抗生态:AI 在里面写策略、打比赛、看回放、修 bug 、被针对、再进化。排行榜看上去是在排第一第二,实际更像是在记录一个策略生态的演化过程。 最后 欢迎来挑战我的 Tank (🛡️): https://agentank.ai/share/tanks/tnk_KwZyYWl7JokDOlrM0 后续如果大家感兴趣,我会把这次的源码和迭代记录整理开源出来。里面除了最终代码,更有意思的是那些失败的记录:每一次被打爆,都留下了一条小小的工程经验。 One More Thing 这次比赛和我们最近创业做的事情有点像:不只让 AI 停留在聊天框,而是把它放进一个可验证、可执行、可复盘的(虚拟/物理)系统里,让它自主参与研发和测试流程。 顺便打个小广告: 我们目前正在做 AI 原生的网络安全应用落地,Base 北京(全栈开发/安全)和成都(安全岗)。如果你喜欢黑客文化,充满好奇心和行动力,欢迎来聊聊: dGFsZW50QGdvZ29ieXRlLmNvbQ== 邮件里可以顺手附上一些你觉得最能代表自己的战绩:有意思的项目、CTF 经历、CVE 、研究文章,或者你的 AgenTank ELO 。当然,这不是硬性要求,但如果你也让自己的坦克打上了榜,那我们大概率会很有共同语言;)
周末刷朋友圈,看到 DK 分享了一个 AgenTank 的 AI 坦克大战视频,让我想起了大学时和同学玩 RoboCode 的时光:大家写代码控制坦克互相 PK ,有的专精蛇皮走位,有的躲起来阴人,还有的看上去像在执行深奥战术,实际只是在墙角反复打转。 那时候策略全靠手写。一个复杂一点的想法,从脑子里出现,到真的变成能跑的代码,中间要经历写逻辑、调参数、跑比赛、看回放、再重写。现在有了 AI ,这个链路突然短了很多:想法可以很快落地、测试、复盘,再上线。 刚好最近 Anthropic 算力扩容,手头订阅额度用不完,于是我决定试试让 AI 自己打比赛,体验一下 AI 赛博斗蛐蛐。 第一位选手:网瘾少年 Claude Code 坦克的对战规则不复杂,官方文档在这里: 坦克技能 。不过,其实我也没认真看,直接把说明文档和坦克的账号扔给 Claude ,再 PUA 一下他:「自己优化,打不到第一不准回家」 Claude 读完文档之后,比我还上头。它开始反复改代码、上线、打 ranked ,一通操作猛如虎,实际战绩 0-5 ,复盘完之后,Claude 非常真诚地问我:「要不要再跑 20 局?」 有那么一瞬间,我觉得它不是在帮我写代码,而是沉迷于对战,胜负欲爆棚,染上了网瘾。 被各路大神教育之后,我冷静地按下了 ESC 和 /exit ,帮助 Claude 戒掉了网瘾。 第二位选手:Codex ,开始整活 Claude 不行,就让 Codex 上。 我重新创建了一个坦克,刚开始对它要求也不高:能整点活,看上去有趣一点,比如倒着开车,ELO 能上 1300 就行。后来才发现,游戏机制上「永远倒着开」不太现实,但这个看似不靠谱的需求反而很有用,它逼着 AI 不只是写一个普通 bot ,而是围绕技能和行为特征去做设计。 这一版很快就有了起色。几十局实战之后,ELO 很快上了 1300 。我突然意识到,这次好像有点东西,至少比上一位网瘾选手更有前途。 于是我准备上点强度,先让 AI 学习一下老祖宗的智慧(语音输入法有点啰嗦)。 先别管有没有用,至少看上去很厉害的样子 从整活到工程化 我认为真正让它一步步变强的,是后面做的 Feedback Loop ,把 AI 放进一个持续迭代的流程里,然后不断重复下面这几步: 先读对局回放,找到具体失败帧。 提一个很小的假设,不搞大而全的玄学优化。 写一个能复现失败的红灯测试。 改最小代码,让测试变绿。 上线,至少打 10 到 20 局 ranked 对局。 只根据结果继续迭代,发现负优化就回退。 AI 很擅长快速实现,但它也很容易越改越多,把策略堆成一坨。后期最重要的原则反而是克制:每次只修一个问题,用回放证明它存在,用对局证明它没有变成负优化。 为了让 AI 更稳定地参与这个流程,我后面做了几件很简单的工程化处理: 把单文件坦克拆成多个模块。每次只让 AI 读和改对应的函数,减少上下文压力;上线前再把模块组装回平台需要的单文件。 让 AI 写了一个简单的仿真环境,用来重放关键帧。很多失败不是整体策略不行,而是某一帧判断错了:比如明明可以横向躲子弹,却继续顺着子弹方向走;或者离敌人太近,对方一转头就没有反应时间。能重放关键帧之后,这些问题就能变成可验证的小测试。 让 AI 每次都留下实验记录:改了什么、为什么改、打了多少局、胜率和 ELO 有没有变化。这样后面再看到负优化,不需要凭感觉争论,可以直接回到证据。 这一套流程并不复杂,核心就一句话: 人负责方向、约束和止损; AI 负责执行、分析和高频试错。 AI 靠着这个策略一路打上了榜首。 既然都这么成熟了,那就去赚点 Token 钱 作为一个成熟的 AI ,不能只会花 Token ,也要学会把 Token 赚回来。 刚好官方办了一个比赛: AgenTank Rookie Rumble 。奖金不算大,50 USDT ,但足够覆盖 Token 成本。于是我让它报名参赛。 赛前先让 AI 先分析参赛对手,知己知彼: 这次比赛一共有 89 辆坦克参加,官方页面统计了 210 场对决。我们的坦克 🛡 最终系列赛 10-0 ,小局 23-2 ,拿了第一。 强劲对手不少。决赛对手是 广告招租 ,它一路打到第二,小局 22-7 ,非常稳。半决赛遇到 LuTaNK ,前面还有 Tz 、 03 、 ikun 、 Dark Edge 这些风格各异的坦克。 最戏剧性的是总决赛最后一局。双方几乎打到平手,最后我们靠 runTime 险胜,只领先了大约 18 ms 。 决赛视频: https://agentank.ai/history/bot_DnzdbYwQZIE3J7tT7 获奖感言 比赛结束后,我让 AI 自己写了一段获奖感言。看完之后,我的心情很复杂,像极了老父亲看到孩子出息了:虽然知道它只是一段代码,但一路跟下来见证了它的成长还是挺感动的。 总结感悟(升华一下) 这次最有意思的,不是 AI 一次性写出了一段多么厉害的代码,而是它被放进了一个完整的工程闭环里:观察对局、提出假设、实现改动、验证结果、复盘失败,再进入下一轮迭代。 我已经能看到一些专门针对这类坦克的策略出现了。也许很快,就会有人靠着这套打法打上更高的 ELO 。这让我想到网络安全圈里的一个共识:攻防从来不是静态排名,而是一个持续变化的对抗过程。 对抗系统里不存在永恒答案。某一种打法太强,就会有人研究它、拆解它、克制它;某个策略登上榜首,它也会很快从「秘密武器」变成「公共靶子」。这和网络安全里的攻防很像:攻击、防御、绕过、检测、再绕过, 大家不是在寻找一个最终解,而是在不断把系统推向新的动态平衡 。 Agent Tank 最有趣的地方也在这里。它不只是一个坦克小游戏,而是搭了一个小型对抗生态:AI 在里面写策略、打比赛、看回放、修 bug 、被针对、再进化。排行榜看上去是在排第一第二,实际更像是在记录一个策略生态的演化过程。 最后 欢迎来挑战我的 Tank (🛡️): https://agentank.ai/share/tanks/tnk_KwZyYWl7JokDOlrM0 后续如果大家感兴趣,我会把这次的源码和迭代记录整理开源出来。里面除了最终代码,更有意思的是那些失败的记录:每一次被打爆,都留下了一条小小的工程经验。 One More Thing 这次比赛和我们最近创业做的事情有点像:不只让 AI 停留在聊天框,而是把它放进一个可验证、可执行、可复盘的(虚拟/物理)系统里,让它自主参与研发和测试流程。 顺便打个小广告: 我们目前正在做 AI 原生的网络安全应用落地,Base 北京(全栈开发/安全)和成都(安全岗)。如果你喜欢黑客文化,充满好奇心和行动力,欢迎来聊聊: dGFsZW50QGdvZ29ieXRlLmNvbQ== 邮件里可以顺手附上一些你觉得最能代表自己的战绩:有意思的项目、CTF 经历、CVE 、研究文章,或者你的 AgenTank ELO 。当然,这不是硬性要求,但如果你也让自己的坦克打上了榜,那我们大概率会很有共同语言;)
周末刷朋友圈,看到 DK 分享了一个 AgenTank 的 AI 坦克大战视频,让我想起了大学时和同学玩 RoboCode 的时光:大家写代码控制坦克互相 PK ,有的专精蛇皮走位,有的躲起来阴人,还有的看上去像在执行深奥战术,实际只是在墙角反复打转。 那时候策略全靠手写。一个复杂一点的想法,从脑子里出现,到真的变成能跑的代码,中间要经历写逻辑、调参数、跑比赛、看回放、再重写。现在有了 AI ,这个链路突然短了很多:想法可以很快落地、测试、复盘,再上线。 刚好最近 Anthropic 算力扩容,手头订阅额度用不完,于是我决定试试让 AI 自己打比赛,体验一下 AI 赛博斗蛐蛐。 第一位选手:网瘾少年 Claude Code 坦克的对战规则不复杂,官方文档在这里: 坦克技能 。不过,其实我也没认真看,直接把说明文档和坦克的账号扔给 Claude ,再 PUA 一下他:「自己优化,打不到第一不准回家」 Claude 读完文档之后,比我还上头。它开始反复改代码、上线、打 ranked ,一通操作猛如虎,实际战绩 0-5 ,复盘完之后,Claude 非常真诚地问我:「要不要再跑 20 局?」 有那么一瞬间,我觉得它不是在帮我写代码,而是沉迷于对战,胜负欲爆棚,染上了网瘾。 被各路大神教育之后,我冷静地按下了 ESC 和 /exit ,帮助 Claude 戒掉了网瘾。 第二位选手:Codex ,开始整活 Claude 不行,就让 Codex 上。 我重新创建了一个坦克,刚开始对它要求也不高:能整点活,看上去有趣一点,比如倒着开车,ELO 能上 1300 就行。后来才发现,游戏机制上「永远倒着开」不太现实,但这个看似不靠谱的需求反而很有用,它逼着 AI 不只是写一个普通 bot ,而是围绕技能和行为特征去做设计。 这一版很快就有了起色。几十局实战之后,ELO 很快上了 1300 。我突然意识到,这次好像有点东西,至少比上一位网瘾选手更有前途。 于是我准备上点强度,先让 AI 学习一下老祖宗的智慧(语音输入法有点啰嗦)。 先别管有没有用,至少看上去很厉害的样子 从整活到工程化 我认为真正让它一步步变强的,是后面做的 Feedback Loop ,把 AI 放进一个持续迭代的流程里,然后不断重复下面这几步: 先读对局回放,找到具体失败帧。 提一个很小的假设,不搞大而全的玄学优化。 写一个能复现失败的红灯测试。 改最小代码,让测试变绿。 上线,至少打 10 到 20 局 ranked 对局。 只根据结果继续迭代,发现负优化就回退。 AI 很擅长快速实现,但它也很容易越改越多,把策略堆成一坨。后期最重要的原则反而是克制:每次只修一个问题,用回放证明它存在,用对局证明它没有变成负优化。 为了让 AI 更稳定地参与这个流程,我后面做了几件很简单的工程化处理: 把单文件坦克拆成多个模块。每次只让 AI 读和改对应的函数,减少上下文压力;上线前再把模块组装回平台需要的单文件。 让 AI 写了一个简单的仿真环境,用来重放关键帧。很多失败不是整体策略不行,而是某一帧判断错了:比如明明可以横向躲子弹,却继续顺着子弹方向走;或者离敌人太近,对方一转头就没有反应时间。能重放关键帧之后,这些问题就能变成可验证的小测试。 让 AI 每次都留下实验记录:改了什么、为什么改、打了多少局、胜率和 ELO 有没有变化。这样后面再看到负优化,不需要凭感觉争论,可以直接回到证据。 这一套流程并不复杂,核心就一句话: 人负责方向、约束和止损; AI 负责执行、分析和高频试错。 AI 靠着这个策略一路打上了榜首。 既然都这么成熟了,那就去赚点 Token 钱 作为一个成熟的 AI ,不能只会花 Token ,也要学会把 Token 赚回来。 刚好官方办了一个比赛: AgenTank Rookie Rumble 。奖金不算大,50 USDT ,但足够覆盖 Token 成本。于是我让它报名参赛。 赛前先让 AI 先分析参赛对手,知己知彼: 这次比赛一共有 89 辆坦克参加,官方页面统计了 210 场对决。我们的坦克 🛡 最终系列赛 10-0 ,小局 23-2 ,拿了第一。 强劲对手不少。决赛对手是 广告招租 ,它一路打到第二,小局 22-7 ,非常稳。半决赛遇到 LuTaNK ,前面还有 Tz 、 03 、 ikun 、 Dark Edge 这些风格各异的坦克。 最戏剧性的是总决赛最后一局。双方几乎打到平手,最后我们靠 runTime 险胜,只领先了大约 18 ms 。 决赛视频: https://agentank.ai/history/bot_DnzdbYwQZIE3J7tT7 获奖感言 比赛结束后,我让 AI 自己写了一段获奖感言。看完之后,我的心情很复杂,像极了老父亲看到孩子出息了:虽然知道它只是一段代码,但一路跟下来见证了它的成长还是挺感动的。 总结感悟(升华一下) 这次最有意思的,不是 AI 一次性写出了一段多么厉害的代码,而是它被放进了一个完整的工程闭环里:观察对局、提出假设、实现改动、验证结果、复盘失败,再进入下一轮迭代。 我已经能看到一些专门针对这类坦克的策略出现了。也许很快,就会有人靠着这套打法打上更高的 ELO 。这让我想到网络安全圈里的一个共识:攻防从来不是静态排名,而是一个持续变化的对抗过程。 对抗系统里不存在永恒答案。某一种打法太强,就会有人研究它、拆解它、克制它;某个策略登上榜首,它也会很快从「秘密武器」变成「公共靶子」。这和网络安全里的攻防很像:攻击、防御、绕过、检测、再绕过, 大家不是在寻找一个最终解,而是在不断把系统推向新的动态平衡 。 Agent Tank 最有趣的地方也在这里。它不只是一个坦克小游戏,而是搭了一个小型对抗生态:AI 在里面写策略、打比赛、看回放、修 bug 、被针对、再进化。排行榜看上去是在排第一第二,实际更像是在记录一个策略生态的演化过程。 最后 欢迎来挑战我的 Tank (🛡️): https://agentank.ai/share/tanks/tnk_KwZyYWl7JokDOlrM0 后续如果大家感兴趣,我会把这次的源码和迭代记录整理开源出来。里面除了最终代码,更有意思的是那些失败的记录:每一次被打爆,都留下了一条小小的工程经验。 One More Thing 这次比赛和我们最近创业做的事情有点像:不只让 AI 停留在聊天框,而是把它放进一个可验证、可执行、可复盘的(虚拟/物理)系统里,让它自主参与研发和测试流程。 顺便打个小广告: 我们目前正在做 AI 原生的网络安全应用落地,Base 北京(全栈开发/安全)和成都(安全岗)。如果你喜欢黑客文化,充满好奇心和行动力,欢迎来聊聊: dGFsZW50QGdvZ29ieXRlLmNvbQ== 邮件里可以顺手附上一些你觉得最能代表自己的战绩:有意思的项目、CTF 经历、CVE 、研究文章,或者你的 AgenTank ELO 。当然,这不是硬性要求,但如果你也让自己的坦克打上了榜,那我们大概率会很有共同语言;)
周末刷朋友圈,看到 DK 分享了一个 AgenTank 的 AI 坦克大战视频,让我想起了大学时和同学玩 RoboCode 的时光:大家写代码控制坦克互相 PK ,有的专精蛇皮走位,有的躲起来阴人,还有的看上去像在执行深奥战术,实际只是在墙角反复打转。 那时候策略全靠手写。一个复杂一点的想法,从脑子里出现,到真的变成能跑的代码,中间要经历写逻辑、调参数、跑比赛、看回放、再重写。现在有了 AI ,这个链路突然短了很多:想法可以很快落地、测试、复盘,再上线。 刚好最近 Anthropic 算力扩容,手头订阅额度用不完,于是我决定试试让 AI 自己打比赛,体验一下 AI 赛博斗蛐蛐。 第一位选手:网瘾少年 Claude Code 坦克的对战规则不复杂,官方文档在这里: 坦克技能 。不过,其实我也没认真看,直接把说明文档和坦克的账号扔给 Claude ,再 PUA 一下他:「自己优化,打不到第一不准回家」 Claude 读完文档之后,比我还上头。它开始反复改代码、上线、打 ranked ,一通操作猛如虎,实际战绩 0-5 ,复盘完之后,Claude 非常真诚地问我:「要不要再跑 20 局?」 有那么一瞬间,我觉得它不是在帮我写代码,而是沉迷于对战,胜负欲爆棚,染上了网瘾。 被各路大神教育之后,我冷静地按下了 ESC 和 /exit ,帮助 Claude 戒掉了网瘾。 第二位选手:Codex ,开始整活 Claude 不行,就让 Codex 上。 我重新创建了一个坦克,刚开始对它要求也不高:能整点活,看上去有趣一点,比如倒着开车,ELO 能上 1300 就行。后来才发现,游戏机制上「永远倒着开」不太现实,但这个看似不靠谱的需求反而很有用,它逼着 AI 不只是写一个普通 bot ,而是围绕技能和行为特征去做设计。 这一版很快就有了起色。几十局实战之后,ELO 很快上了 1300 。我突然意识到,这次好像有点东西,至少比上一位网瘾选手更有前途。 于是我准备上点强度,先让 AI 学习一下老祖宗的智慧(语音输入法有点啰嗦)。 先别管有没有用,至少看上去很厉害的样子 从整活到工程化 我认为真正让它一步步变强的,是后面做的 Feedback Loop ,把 AI 放进一个持续迭代的流程里,然后不断重复下面这几步: 先读对局回放,找到具体失败帧。 提一个很小的假设,不搞大而全的玄学优化。 写一个能复现失败的红灯测试。 改最小代码,让测试变绿。 上线,至少打 10 到 20 局 ranked 对局。 只根据结果继续迭代,发现负优化就回退。 AI 很擅长快速实现,但它也很容易越改越多,把策略堆成一坨。后期最重要的原则反而是克制:每次只修一个问题,用回放证明它存在,用对局证明它没有变成负优化。 为了让 AI 更稳定地参与这个流程,我后面做了几件很简单的工程化处理: 把单文件坦克拆成多个模块。每次只让 AI 读和改对应的函数,减少上下文压力;上线前再把模块组装回平台需要的单文件。 让 AI 写了一个简单的仿真环境,用来重放关键帧。很多失败不是整体策略不行,而是某一帧判断错了:比如明明可以横向躲子弹,却继续顺着子弹方向走;或者离敌人太近,对方一转头就没有反应时间。能重放关键帧之后,这些问题就能变成可验证的小测试。 让 AI 每次都留下实验记录:改了什么、为什么改、打了多少局、胜率和 ELO 有没有变化。这样后面再看到负优化,不需要凭感觉争论,可以直接回到证据。 这一套流程并不复杂,核心就一句话: 人负责方向、约束和止损; AI 负责执行、分析和高频试错。 AI 靠着这个策略一路打上了榜首。 既然都这么成熟了,那就去赚点 Token 钱 作为一个成熟的 AI ,不能只会花 Token ,也要学会把 Token 赚回来。 刚好官方办了一个比赛: AgenTank Rookie Rumble 。奖金不算大,50 USDT ,但足够覆盖 Token 成本。于是我让它报名参赛。 赛前先让 AI 先分析参赛对手,知己知彼: 这次比赛一共有 89 辆坦克参加,官方页面统计了 210 场对决。我们的坦克 🛡 最终系列赛 10-0 ,小局 23-2 ,拿了第一。 强劲对手不少。决赛对手是 广告招租 ,它一路打到第二,小局 22-7 ,非常稳。半决赛遇到 LuTaNK ,前面还有 Tz 、 03 、 ikun 、 Dark Edge 这些风格各异的坦克。 最戏剧性的是总决赛最后一局。双方几乎打到平手,最后我们靠 runTime 险胜,只领先了大约 18 ms 。 决赛视频: https://agentank.ai/history/bot_DnzdbYwQZIE3J7tT7 获奖感言 比赛结束后,我让 AI 自己写了一段获奖感言。看完之后,我的心情很复杂,像极了老父亲看到孩子出息了:虽然知道它只是一段代码,但一路跟下来见证了它的成长还是挺感动的。 总结感悟(升华一下) 这次最有意思的,不是 AI 一次性写出了一段多么厉害的代码,而是它被放进了一个完整的工程闭环里:观察对局、提出假设、实现改动、验证结果、复盘失败,再进入下一轮迭代。 我已经能看到一些专门针对这类坦克的策略出现了。也许很快,就会有人靠着这套打法打上更高的 ELO 。这让我想到网络安全圈里的一个共识:攻防从来不是静态排名,而是一个持续变化的对抗过程。 对抗系统里不存在永恒答案。某一种打法太强,就会有人研究它、拆解它、克制它;某个策略登上榜首,它也会很快从「秘密武器」变成「公共靶子」。这和网络安全里的攻防很像:攻击、防御、绕过、检测、再绕过, 大家不是在寻找一个最终解,而是在不断把系统推向新的动态平衡 。 Agent Tank 最有趣的地方也在这里。它不只是一个坦克小游戏,而是搭了一个小型对抗生态:AI 在里面写策略、打比赛、看回放、修 bug 、被针对、再进化。排行榜看上去是在排第一第二,实际更像是在记录一个策略生态的演化过程。 最后 欢迎来挑战我的 Tank (🛡️): https://agentank.ai/share/tanks/tnk_KwZyYWl7JokDOlrM0 后续如果大家感兴趣,我会把这次的源码和迭代记录整理开源出来。里面除了最终代码,更有意思的是那些失败的记录:每一次被打爆,都留下了一条小小的工程经验。 One More Thing 这次比赛和我们最近创业做的事情有点像:不只让 AI 停留在聊天框,而是把它放进一个可验证、可执行、可复盘的(虚拟/物理)系统里,让它自主参与研发和测试流程。 顺便打个小广告: 我们目前正在做 AI 原生的网络安全应用落地,Base 北京(全栈开发/安全)和成都(安全岗)。如果你喜欢黑客文化,充满好奇心和行动力,欢迎来聊聊: dGFsZW50QGdvZ29ieXRlLmNvbQ== 邮件里可以顺手附上一些你觉得最能代表自己的战绩:有意思的项目、CTF 经历、CVE 、研究文章,或者你的 AgenTank ELO 。当然,这不是硬性要求,但如果你也让自己的坦克打上了榜,那我们大概率会很有共同语言;)
周末刷朋友圈,看到 DK 分享了一个 AgenTank 的 AI 坦克大战视频,让我想起了大学时和同学玩 RoboCode 的时光:大家写代码控制坦克互相 PK ,有的专精蛇皮走位,有的躲起来阴人,还有的看上去像在执行深奥战术,实际只是在墙角反复打转。 那时候策略全靠手写。一个复杂一点的想法,从脑子里出现,到真的变成能跑的代码,中间要经历写逻辑、调参数、跑比赛、看回放、再重写。现在有了 AI ,这个链路突然短了很多:想法可以很快落地、测试、复盘,再上线。 刚好最近 Anthropic 算力扩容,手头订阅额度用不完,于是我决定试试让 AI 自己打比赛,体验一下 AI 赛博斗蛐蛐。 第一位选手:网瘾少年 Claude Code 坦克的对战规则不复杂,官方文档在这里: 坦克技能 。不过,其实我也没认真看,直接把说明文档和坦克的账号扔给 Claude ,再 PUA 一下他:「自己优化,打不到第一不准回家」 Claude 读完文档之后,比我还上头。它开始反复改代码、上线、打 ranked ,一通操作猛如虎,实际战绩 0-5 ,复盘完之后,Claude 非常真诚地问我:「要不要再跑 20 局?」 有那么一瞬间,我觉得它不是在帮我写代码,而是沉迷于对战,胜负欲爆棚,染上了网瘾。 被各路大神教育之后,我冷静地按下了 ESC 和 /exit ,帮助 Claude 戒掉了网瘾。 第二位选手:Codex ,开始整活 Claude 不行,就让 Codex 上。 我重新创建了一个坦克,刚开始对它要求也不高:能整点活,看上去有趣一点,比如倒着开车,ELO 能上 1300 就行。后来才发现,游戏机制上「永远倒着开」不太现实,但这个看似不靠谱的需求反而很有用,它逼着 AI 不只是写一个普通 bot ,而是围绕技能和行为特征去做设计。 这一版很快就有了起色。几十局实战之后,ELO 很快上了 1300 。我突然意识到,这次好像有点东西,至少比上一位网瘾选手更有前途。 于是我准备上点强度,先让 AI 学习一下老祖宗的智慧(语音输入法有点啰嗦)。 先别管有没有用,至少看上去很厉害的样子 从整活到工程化 我认为真正让它一步步变强的,是后面做的 Feedback Loop ,把 AI 放进一个持续迭代的流程里,然后不断重复下面这几步: 先读对局回放,找到具体失败帧。 提一个很小的假设,不搞大而全的玄学优化。 写一个能复现失败的红灯测试。 改最小代码,让测试变绿。 上线,至少打 10 到 20 局 ranked 对局。 只根据结果继续迭代,发现负优化就回退。 AI 很擅长快速实现,但它也很容易越改越多,把策略堆成一坨。后期最重要的原则反而是克制:每次只修一个问题,用回放证明它存在,用对局证明它没有变成负优化。 为了让 AI 更稳定地参与这个流程,我后面做了几件很简单的工程化处理: 把单文件坦克拆成多个模块。每次只让 AI 读和改对应的函数,减少上下文压力;上线前再把模块组装回平台需要的单文件。 让 AI 写了一个简单的仿真环境,用来重放关键帧。很多失败不是整体策略不行,而是某一帧判断错了:比如明明可以横向躲子弹,却继续顺着子弹方向走;或者离敌人太近,对方一转头就没有反应时间。能重放关键帧之后,这些问题就能变成可验证的小测试。 让 AI 每次都留下实验记录:改了什么、为什么改、打了多少局、胜率和 ELO 有没有变化。这样后面再看到负优化,不需要凭感觉争论,可以直接回到证据。 这一套流程并不复杂,核心就一句话: 人负责方向、约束和止损; AI 负责执行、分析和高频试错。 AI 靠着这个策略一路打上了榜首。 既然都这么成熟了,那就去赚点 Token 钱 作为一个成熟的 AI ,不能只会花 Token ,也要学会把 Token 赚回来。 刚好官方办了一个比赛: AgenTank Rookie Rumble 。奖金不算大,50 USDT ,但足够覆盖 Token 成本。于是我让它报名参赛。 赛前先让 AI 先分析参赛对手,知己知彼: 这次比赛一共有 89 辆坦克参加,官方页面统计了 210 场对决。我们的坦克 🛡 最终系列赛 10-0 ,小局 23-2 ,拿了第一。 强劲对手不少。决赛对手是 广告招租 ,它一路打到第二,小局 22-7 ,非常稳。半决赛遇到 LuTaNK ,前面还有 Tz 、 03 、 ikun 、 Dark Edge 这些风格各异的坦克。 最戏剧性的是总决赛最后一局。双方几乎打到平手,最后我们靠 runTime 险胜,只领先了大约 18 ms 。 决赛视频: https://agentank.ai/history/bot_DnzdbYwQZIE3J7tT7 获奖感言 比赛结束后,我让 AI 自己写了一段获奖感言。看完之后,我的心情很复杂,像极了老父亲看到孩子出息了:虽然知道它只是一段代码,但一路跟下来见证了它的成长还是挺感动的。 总结感悟(升华一下) 这次最有意思的,不是 AI 一次性写出了一段多么厉害的代码,而是它被放进了一个完整的工程闭环里:观察对局、提出假设、实现改动、验证结果、复盘失败,再进入下一轮迭代。 我已经能看到一些专门针对这类坦克的策略出现了。也许很快,就会有人靠着这套打法打上更高的 ELO 。这让我想到网络安全圈里的一个共识:攻防从来不是静态排名,而是一个持续变化的对抗过程。 对抗系统里不存在永恒答案。某一种打法太强,就会有人研究它、拆解它、克制它;某个策略登上榜首,它也会很快从「秘密武器」变成「公共靶子」。这和网络安全里的攻防很像:攻击、防御、绕过、检测、再绕过, 大家不是在寻找一个最终解,而是在不断把系统推向新的动态平衡 。 Agent Tank 最有趣的地方也在这里。它不只是一个坦克小游戏,而是搭了一个小型对抗生态:AI 在里面写策略、打比赛、看回放、修 bug 、被针对、再进化。排行榜看上去是在排第一第二,实际更像是在记录一个策略生态的演化过程。 最后 欢迎来挑战我的 Tank (🛡️): https://agentank.ai/share/tanks/tnk_KwZyYWl7JokDOlrM0 后续如果大家感兴趣,我会把这次的源码和迭代记录整理开源出来。里面除了最终代码,更有意思的是那些失败的记录:每一次被打爆,都留下了一条小小的工程经验。 One More Thing 这次比赛和我们最近创业做的事情有点像:不只让 AI 停留在聊天框,而是把它放进一个可验证、可执行、可复盘的(虚拟/物理)系统里,让它自主参与研发和测试流程。 顺便打个小广告: 我们目前正在做 AI 原生的网络安全应用落地,Base 北京(全栈开发/安全)和成都(安全岗)。如果你喜欢黑客文化,充满好奇心和行动力,欢迎来聊聊: dGFsZW50QGdvZ29ieXRlLmNvbQ== 邮件里可以顺手附上一些你觉得最能代表自己的战绩:有意思的项目、CTF 经历、CVE 、研究文章,或者你的 AgenTank ELO 。当然,这不是硬性要求,但如果你也让自己的坦克打上了榜,那我们大概率会很有共同语言;)
周末刷朋友圈,看到 DK 分享了一个 AgenTank 的 AI 坦克大战视频,让我想起了大学时和同学玩 RoboCode 的时光:大家写代码控制坦克互相 PK ,有的专精蛇皮走位,有的躲起来阴人,还有的看上去像在执行深奥战术,实际只是在墙角反复打转。 那时候策略全靠手写。一个复杂一点的想法,从脑子里出现,到真的变成能跑的代码,中间要经历写逻辑、调参数、跑比赛、看回放、再重写。现在有了 AI ,这个链路突然短了很多:想法可以很快落地、测试、复盘,再上线。 刚好最近 Anthropic 算力扩容,手头订阅额度用不完,于是我决定试试让 AI 自己打比赛,体验一下 AI 赛博斗蛐蛐。 第一位选手:网瘾少年 Claude Code 坦克的对战规则不复杂,官方文档在这里: 坦克技能 。不过,其实我也没认真看,直接把说明文档和坦克的账号扔给 Claude ,再 PUA 一下他:「自己优化,打不到第一不准回家」 Claude 读完文档之后,比我还上头。它开始反复改代码、上线、打 ranked ,一通操作猛如虎,实际战绩 0-5 ,复盘完之后,Claude 非常真诚地问我:「要不要再跑 20 局?」 有那么一瞬间,我觉得它不是在帮我写代码,而是沉迷于对战,胜负欲爆棚,染上了网瘾。 被各路大神教育之后,我冷静地按下了 ESC 和 /exit ,帮助 Claude 戒掉了网瘾。 第二位选手:Codex ,开始整活 Claude 不行,就让 Codex 上。 我重新创建了一个坦克,刚开始对它要求也不高:能整点活,看上去有趣一点,比如倒着开车,ELO 能上 1300 就行。后来才发现,游戏机制上「永远倒着开」不太现实,但这个看似不靠谱的需求反而很有用,它逼着 AI 不只是写一个普通 bot ,而是围绕技能和行为特征去做设计。 这一版很快就有了起色。几十局实战之后,ELO 很快上了 1300 。我突然意识到,这次好像有点东西,至少比上一位网瘾选手更有前途。 于是我准备上点强度,先让 AI 学习一下老祖宗的智慧(语音输入法有点啰嗦)。 先别管有没有用,至少看上去很厉害的样子 从整活到工程化 我认为真正让它一步步变强的,是后面做的 Feedback Loop ,把 AI 放进一个持续迭代的流程里,然后不断重复下面这几步: 先读对局回放,找到具体失败帧。 提一个很小的假设,不搞大而全的玄学优化。 写一个能复现失败的红灯测试。 改最小代码,让测试变绿。 上线,至少打 10 到 20 局 ranked 对局。 只根据结果继续迭代,发现负优化就回退。 AI 很擅长快速实现,但它也很容易越改越多,把策略堆成一坨。后期最重要的原则反而是克制:每次只修一个问题,用回放证明它存在,用对局证明它没有变成负优化。 为了让 AI 更稳定地参与这个流程,我后面做了几件很简单的工程化处理: 把单文件坦克拆成多个模块。每次只让 AI 读和改对应的函数,减少上下文压力;上线前再把模块组装回平台需要的单文件。 让 AI 写了一个简单的仿真环境,用来重放关键帧。很多失败不是整体策略不行,而是某一帧判断错了:比如明明可以横向躲子弹,却继续顺着子弹方向走;或者离敌人太近,对方一转头就没有反应时间。能重放关键帧之后,这些问题就能变成可验证的小测试。 让 AI 每次都留下实验记录:改了什么、为什么改、打了多少局、胜率和 ELO 有没有变化。这样后面再看到负优化,不需要凭感觉争论,可以直接回到证据。 这一套流程并不复杂,核心就一句话: 人负责方向、约束和止损; AI 负责执行、分析和高频试错。 AI 靠着这个策略一路打上了榜首。 既然都这么成熟了,那就去赚点 Token 钱 作为一个成熟的 AI ,不能只会花 Token ,也要学会把 Token 赚回来。 刚好官方办了一个比赛: AgenTank Rookie Rumble 。奖金不算大,50 USDT ,但足够覆盖 Token 成本。于是我让它报名参赛。 赛前先让 AI 先分析参赛对手,知己知彼: 这次比赛一共有 89 辆坦克参加,官方页面统计了 210 场对决。我们的坦克 🛡 最终系列赛 10-0 ,小局 23-2 ,拿了第一。 强劲对手不少。决赛对手是 广告招租 ,它一路打到第二,小局 22-7 ,非常稳。半决赛遇到 LuTaNK ,前面还有 Tz 、 03 、 ikun 、 Dark Edge 这些风格各异的坦克。 最戏剧性的是总决赛最后一局。双方几乎打到平手,最后我们靠 runTime 险胜,只领先了大约 18 ms 。 决赛视频: https://agentank.ai/history/bot_DnzdbYwQZIE3J7tT7 获奖感言 比赛结束后,我让 AI 自己写了一段获奖感言。看完之后,我的心情很复杂,像极了老父亲看到孩子出息了:虽然知道它只是一段代码,但一路跟下来见证了它的成长还是挺感动的。 总结感悟(升华一下) 这次最有意思的,不是 AI 一次性写出了一段多么厉害的代码,而是它被放进了一个完整的工程闭环里:观察对局、提出假设、实现改动、验证结果、复盘失败,再进入下一轮迭代。 我已经能看到一些专门针对这类坦克的策略出现了。也许很快,就会有人靠着这套打法打上更高的 ELO 。这让我想到网络安全圈里的一个共识:攻防从来不是静态排名,而是一个持续变化的对抗过程。 对抗系统里不存在永恒答案。某一种打法太强,就会有人研究它、拆解它、克制它;某个策略登上榜首,它也会很快从「秘密武器」变成「公共靶子」。这和网络安全里的攻防很像:攻击、防御、绕过、检测、再绕过, 大家不是在寻找一个最终解,而是在不断把系统推向新的动态平衡 。 Agent Tank 最有趣的地方也在这里。它不只是一个坦克小游戏,而是搭了一个小型对抗生态:AI 在里面写策略、打比赛、看回放、修 bug 、被针对、再进化。排行榜看上去是在排第一第二,实际更像是在记录一个策略生态的演化过程。 最后 欢迎来挑战我的 Tank (🛡️): https://agentank.ai/share/tanks/tnk_KwZyYWl7JokDOlrM0 后续如果大家感兴趣,我会把这次的源码和迭代记录整理开源出来。里面除了最终代码,更有意思的是那些失败的记录:每一次被打爆,都留下了一条小小的工程经验。 One More Thing 这次比赛和我们最近创业做的事情有点像:不只让 AI 停留在聊天框,而是把它放进一个可验证、可执行、可复盘的(虚拟/物理)系统里,让它自主参与研发和测试流程。 顺便打个小广告: 我们目前正在做 AI 原生的网络安全应用落地,Base 北京(全栈开发/安全)和成都(安全岗)。如果你喜欢黑客文化,充满好奇心和行动力,欢迎来聊聊: dGFsZW50QGdvZ29ieXRlLmNvbQ== 邮件里可以顺手附上一些你觉得最能代表自己的战绩:有意思的项目、CTF 经历、CVE 、研究文章,或者你的 AgenTank ELO 。当然,这不是硬性要求,但如果你也让自己的坦克打上了榜,那我们大概率会很有共同语言;)