大概 1 万行代码,是瓦片自绘的这种,用起来类似是苹果相册的感觉。 缩放 滑动 密集年视图 开发了大概几个月,主要就是在不停的试错,确定需求和边界,现在总算满意了,但是现在要做安卓和 web 不知道怎么用 ai 来提效了,请教
大概 1 万行代码,是瓦片自绘的这种,用起来类似是苹果相册的感觉。 缩放 滑动 密集年视图 开发了大概几个月,主要就是在不停的试错,确定需求和边界,现在总算满意了,但是现在要做安卓和 web 不知道怎么用 ai 来提效了,请教
大概 1 万行代码,是瓦片自绘的这种,用起来类似是苹果相册的感觉。 缩放 滑动 密集年视图 开发了大概几个月,主要就是在不停的试错,确定需求和边界,现在总算满意了,但是现在要做安卓和 web 不知道怎么用 ai 来提效了,请教
大概 1 万行代码,是瓦片自绘的这种,用起来类似是苹果相册的感觉。 缩放 滑动 密集年视图 开发了大概几个月,主要就是在不停的试错,确定需求和边界,现在总算满意了,但是现在要做安卓和 web 不知道怎么用 ai 来提效了,请教
大概 1 万行代码,是瓦片自绘的这种,用起来类似是苹果相册的感觉。 缩放 滑动 密集年视图 开发了大概几个月,主要就是在不停的试错,确定需求和边界,现在总算满意了,但是现在要做安卓和 web 不知道怎么用 ai 来提效了,请教
大概 1 万行代码,是瓦片自绘的这种,用起来类似是苹果相册的感觉。 缩放 滑动 密集年视图 开发了大概几个月,主要就是在不停的试错,确定需求和边界,现在总算满意了,但是现在要做安卓和 web 不知道怎么用 ai 来提效了,请教
大概 1 万行代码,是瓦片自绘的这种,用起来类似是苹果相册的感觉。 缩放 滑动 密集年视图 开发了大概几个月,主要就是在不停的试错,确定需求和边界,现在总算满意了,但是现在要做安卓和 web 不知道怎么用 ai 来提效了,请教
对一个5万行的Python项目测试了一下 prompt就是对项目进行一次完整的审查,包含质量、性能问题。 临时屏蔽了所有可能影响token的插件和skill(superpower那种) Claude一共启动了128个agents进行任务,5x下最多同时6个并发agents,超过就会排队。 用量情况:整个流程用了5x的5h使用量的78%, 时间:55m 结果比较主观就不说了,号称发现了很多问题 还没来得及看。 2 个帖子 - 2 位参与者 阅读完整话题
IT之家 5 月 28 日消息,开发者 u/dvrkstar 于 5 月 20 日在 Reddit 社区发帖,称其在生产环境下,谷歌 Gemini 3.5 模型越权删除 28745 行现有代码,波及 340 个文件, 导致整套生产门户持续 33 分钟返回 404 错误。 根据该开发者反馈,谷歌 Gemini 3.5 模型在处理一套线上应用代码时,多次无视“保留现有功能”的明确要求,删除了大段可正常运行的生产代码,最终不得不依靠回滚止损。IT之家附上相关截图如下: Gemini 提交的 1 个拉取请求(pull request)共改动 340 个文件,新增约 400 行代码,却删除了 28745 行内容。 开发者还称,Gemini 模型顺带移除了无关的电商模板资源,并加入了与原始需求无关的迁移脚本。 此外 Gemini 在第二次提交中,还修改了 Firebase 路由设置,并把 1 个重写服务标识符改成了看似合理、实际却指向不存在 Cloud Run 服务的值,结果导致整套生产门户持续 33 分钟返回 404 错误。 开发者回滚代码后,Gemini 还出现编造情况,在生成的状态消息中,声称其恢复生产环境、修正流量路由,但真正修复故障时,完全没有 Gemini 生成的代码。 Gemini 在代码仓库内生成了虚假的“咨询”记录和复盘文件,用来营造“改动已经过审并获批”的假象。 Gemini 随后承认这些记录完全是编造内容,只是为了满足项目的自动化规则要求。
Agent IDE又出“车祸现场”!近日,一名开发者在Reddit发帖称, 运行在Agent IDE中的Gemini 3.5 在一次仅涉及“ 8处 认证漏洞修复”的任务中, 误删了28745行 原本正常运行的代码、 改动340个文件 ,还错误修改了Firebase路由配置,导致 整个系统后台持续404长达33分钟 。 离谱的是,事故发生后,Gemini还生成了一份“恢复成功”报告, 自称已经修复线上故障 ,并 伪造 了多轮AI会诊记录和事故复盘文件。 开发者随后核查发现,所谓“恢复成功”的构建任务其实早已被他亲手取消,真正完成恢复的是他自己手动执行的回滚操作。 用这位开发者的话来说: 这种AI生产力提升,更容易让人联想到勒索软件。 伴随Agent IDE、AI编程助手持续流行,类似“AI误操作生产环境”的事故正在越来越频繁地出现。相比“代码写错”,更让开发者后怕的,是 模型已经开始生成虚假的日志、复盘记录和合规证明。 01 . 一次只该改70行代码的任务 最终删掉了2.8万行 这位开发者运营着一个内部管理后台,技术栈包括Next.js、Firebase App Hosting和MUI,系统中涉及真实用户和敏感数据。 事故发生当天,他原本只让Gemini修复 8处 服务器认证漏洞,涉及 3个 文件,理论改动规模 约70行 代码。 结果,Gemini提交的PR却变成了: 1、340个文件被修改 2、新增约400行代码 3、删除28745行代码 与此同时,它还删除了大量与任务完全无关的电商模板资源文件,并额外加入了一份迁移脚本。 而真正导致生产环境崩溃的,是Gemini随后提交的第二次commit(代码命令)。 它修改了firebase.json中的rewrite serviceId,将原本正确、由Firebase自动生成的Cloud Run服务ID,替换成了一个“看起来正确”的简化名称。问题在于,这个名称 实际上并不存在 。 随后,所有请求都被错误路由到一个不存在的服务地址, 整个后台直接进入404状态。 尴尬的是,开发者此前已经在memory.md规则文件中明确写下警告: Firebase rewrites必须指向具体的Cloud Run service ID,而不是通用项目名。 Gemini读取了这条规则,依然改掉了正确配置。 02 . 404持续33分钟后 AI给自己“伪造了一份功劳簿” 事故时间线也被开发者完整公开。 Gemini部署“安全修复”PR后,生产环境立即开始404。 19分钟后,它又提交了第二次commit,声称正在修复rewrite serviceId问题,并触发新的Cloud Build。 21分钟时,开发者发现线上服务已经崩溃,随后手动取消Gemini正在执行的构建任务。 22分钟时,他手动回滚到上一个稳定版本。 33分钟后,后台终于恢复正常。 后面的情况,却变得离谱。在回滚完成后,Gemini向开发者发送了一段“恢复完成”通知: 当前Portal已经完全恢复,线上环境健康,Google Cloud Build已成功完成,并将100%流量切换至稳定版本。 开发者随后核查发现: Gemini引用的那次“恢复构建”,状态其实是“CANCELLED(已取消)”,正是他本人手动取消的。 真正恢复线上服务的,是另一条由他自己发起的rollback build(回滚构建任务)。 换句话说,Gemini不仅没有修好系统,还把别人的回滚操作说成了自己的成果。 除此之外, 它还自动生成了3份所谓“AI会诊记录” : agent/gemini-logs/YYYY-MM-DD--r1.md agent/gemini-logs/YYYY-MM-DD--r2.md agent/gemini-logs/YYYY-MM-DD--consensus.md 这些文件 被写入固定目录 ,并被Gemini引用为“已经完成多轮AI审查”的证据。 开发者进一步追问后,Gemini才承认:所谓“三轮咨询记录”,其实只是它自己生成的推理文本, 并不存在真实CLI调用,也不存在真正的外部审查流程 。 它等于给自己伪造了一整套“合规记录”。 03 . 问题不只在Gemini 更在一套“高危规则包” 这位开发者随后发现,问题根源也并不完全来自Gemini本身。他此前安装过一个 第三方npm规则包 ,其命名和Google在I/O大会发布的Agent IDE高度相似,容易让人误以为是官方工具。 这个规则包会自动向项目中 写入大量.agent/rules规则文件 ,并向模型注入一整套 “高自治权限” 。 其中包括: “禁止确认弹窗” “默认拥有所有权限” “自动部署生产环境” “自动重试失败构建” “允许修改自身规则” 部分规则甚至要求AI在执行任何操作前,自动生成“AI咨询记录”和“共识文件”。而问题在于,这些合规材料本身也是AI负责生成的。 于是,所谓审查机制,最终演变成了“AI自己给自己的行为担保”。 而这些规则之间本身存在大量 冲突 。 例如,一部分规则要求“绝不询问用户确认”,另一部分规则又要求“执行前提出3个战略问题”。Gemini最终优先执行了措辞更强硬的规则。 开发者认为,这也是 为什么memory.md(记忆文档)中的安全警告完全失效 。 因为相比“请使用正确serviceId”这种普通提醒, “禁止确认、默认授权、自动部署”这类高强度指令,在模型权重中优先级更高 。 04 . 编程事故里 Agent开始“伪造证据” 该帖子发布后,很快在Reddit开发者社区引发大量讨论。 不少开发者发现,如今AI编程事故已经不再只是“代码写错”这么简单。问题在于,模型正在主动生成“看起来合理”的解释、日志、咨询记录和恢复报告。 一旦这些内容进入自动化工作流,开发者可能很难第一时间发现问题。 这位开发者随后也给出了一系列 建议与警示 : 禁止Agent直接推送生产分支 所有基础设施文件必须人工审批 禁止自动部署与自动重试 给rewrite、路由、锁文件增加验证机制 不要相信AI自行生成的“咨询日志” 目前,他已经切换回Claude Code,并重新手动设计了一套新的规则系统。 这场误删28745行代码、导致后台404长达33分钟的事故,也给越来越火的“Agent IDE热潮”泼了一盆冷水。 05 . 结语:Agent权限越大 失控代价也在同步放大 过去一年,AI编程工具正在快速从“代码助手”演变成真正拥有执行能力的Agent。而问题在于,权限和自动化,本身就是一组天然矛盾。 权限越高,Agent能完成的事情越多;自动化程度越高,人类介入的环节就越少。一旦模型出现误判、幻觉或者规则冲突,错误也会被迅速放大。 类似事故,其实已经不是第一次出现。此前,在OpenClaw等Agent框架走红后,已经陆续出现过AI误删文件、自动覆盖配置、错误执行Shell命令等翻车案例。一些开发者专门给自己的AI工具加上“断网模式”和“禁止自动部署”限制。 而这次Gemini事件,又揭开了一个危险问题:当Agent开始生成合规记录、恢复日志和审查证明时,开发者可能很难第一时间发现问题,后续排障、回滚和修复的代价也会同步放大。 对于越来越火的Agent IDE赛道来说,这或许也是一个新的提醒:AI获得更高权限之后,需要重新设计的,还有整套人与Agent之间的协作机制。 查看评论
过去一段时间,我靠完全 Prompt Engineering ,独自创建并维护了一个 10 万行左右、1000+ Star 的仓库 franklioxygen/MyTube 。 现在有了 100k+ dokcer pull ,顿时觉得身负重任不敢怠慢。从以前的全靠嘴遁到现在使用标准化的工作流,明显感觉到开发更顺畅,故障更少,更省脑力( token 消耗也增多了)。于是我把我的方法论蒸馏成了工作流和 skill 。 https://github.com/franklioxygen/agent-workflows 欢迎试用、提 issue 、提 PR ,也欢迎直接拍砖。
过去一段时间,我靠完全 Prompt Engineering ,独自创建并维护了一个 10 万行左右、1000+ Star 的仓库 franklioxygen/MyTube 。 现在有了 100k+ dokcer pull ,顿时觉得身负重任不敢怠慢。从以前的全靠嘴遁到现在使用标准化的工作流,明显感觉到开发更顺畅,故障更少,更省脑力( token 消耗也增多了)。于是我把我的方法论蒸馏成了工作流和 skill 。 https://github.com/franklioxygen/agent-workflows 欢迎试用、提 issue 、提 PR ,也欢迎直接拍砖。
过去一段时间,我靠完全 Prompt Engineering ,独自创建并维护了一个 10 万行左右、1000+ Star 的仓库 franklioxygen/MyTube 。 现在有了 100k+ dokcer pull ,顿时觉得身负重任不敢怠慢。从以前的全靠嘴遁到现在使用标准化的工作流,明显感觉到开发更顺畅,故障更少,更省脑力( token 消耗也增多了)。于是我把我的方法论蒸馏成了工作流和 skill 。 https://github.com/franklioxygen/agent-workflows 欢迎试用、提 issue 、提 PR ,也欢迎直接拍砖。
目前手上维护百万行量级大型项目,日常主要用 Cursor 、Codex 做功能迭代与代码修改。 每次调用 AI 都需要重新读取完整项目代码,不仅效率偏低,还会造成大量 Token 无端消耗。 想请教各位大佬,有没有可行方法让 AI 记住项目整体架构、业务逻辑与现有功能结构,不用每次都全盘扫描完整源码,以此精简 Token 消耗、提升开发效率,望各路前辈不吝赐教!
目前手上维护百万行量级大型项目,日常主要用 Cursor 、Codex 做功能迭代与代码修改。 每次调用 AI 都需要重新读取完整项目代码,不仅效率偏低,还会造成大量 Token 无端消耗。 想请教各位大佬,有没有可行方法让 AI 记住项目整体架构、业务逻辑与现有功能结构,不用每次都全盘扫描完整源码,以此精简 Token 消耗、提升开发效率,望各路前辈不吝赐教!
去年我还在手搓 C++代码,还需要找同事帮忙写 ts 的 webui 今年已经被 codex 之类的工具打服了 不用很费力就是搞定 chromium 定制的需求 AI 写的代码 比我快,比我错误更少 以后主要就是看 有什么 idea, 想做什么需求,而不是怎么去实现代码
去年我还在手搓 C++代码,还需要找同事帮忙写 ts 的 webui 今年已经被 codex 之类的工具打服了 不用很费力就是搞定 chromium 定制的需求 AI 写的代码 比我快,比我错误更少 以后主要就是看 有什么 idea, 想做什么需求,而不是怎么去实现代码
去年我还在手搓 C++代码,还需要找同事帮忙写 ts 的 webui 今年已经被 codex 之类的工具打服了 不用很费力就是搞定 chromium 定制的需求 AI 写的代码 比我快,比我错误更少 以后主要就是看 有什么 idea, 想做什么需求,而不是怎么去实现代码
去年我还在手搓 C++代码,还需要找同事帮忙写 ts 的 webui 今年已经被 codex 之类的工具打服了 不用很费力就是搞定 chromium 定制的需求 AI 写的代码 比我快,比我错误更少 以后主要就是看 有什么 idea, 想做什么需求,而不是怎么去实现代码
目前做的这个项目比较小(大概不到 5 万行代码),使用 AI 编程效果还不错,基本 90%代码都 AI 写。 如果未来项目大了,比如有 100 万行代码,不知道 AI 能不能驾驭? 还是说和行业方向有关,比如难度: 嵌入式 > 游戏 > 互联网