更强 - WWW.YOUINFO.SITE - WWW.YOUINFO.SITE

LinuxDo 最新话题 · 2026-06-12 09:26:48+08:00 · tech

问了下AI,说是MiMo Code的上下文压缩方式接近无损，佬友们觉得对代码生成的影响大不大？ 6 个帖子 - 3 位参与者阅读完整话题

【论文翻译测评】哪个大模型的中译英能力更强？我找来了11位大模型来比较，结果既意外又意内

LinuxDo 最新话题 · 2026-06-10 10:45:02+08:00 · tech

提前声明，测试不一定严谨，仅供参考，图一乐测试从现在写英语文章最好的大模型是什么？继续讨论：最近导师看我的论文中文稿大概没啥问题了，就让我开始翻译成中文。但是因为自身英语水平过差，所以决定让大模型直接编辑我的letex文件包，然后翻译我的论文。用以下提示词：翻译提示词（点击了解更多详细信息）参赛选手：如题所示，我邀请了11位当前最新的大模型来翻译文献，它们分别是gpt-5.5，claude-opus-4.8（截至发文，它已不是最新，但是最新的用不起），Doubao-Seed-2.0-Code，deepseek-v4-pro，deepseek-v4-flash，Gemini-3.5-flash，GLM-5.1，kimi-k2.5，mimo-v2.5pro，minimax-m3，qwen-3.7max。如果还有遗漏的最新模型，那就是没搞到好的渠道。评分：裁判员gpt-5.5 每个模型的翻译结果分别打分三次，求平均值环境： coding agent用的是站内佬@Mufasa_Dot 的 snow cli ，使用了里面的ultra todo模式；只有Doubao-Seed-2.0-Code是在trea里面用的；正如上所述，除了豆包，其余的都是直接用能保证满血的api接入的snow，到处找满血api真的是幸苦啊，这反而是花时间最久的环节能设置推理强度的皆设置为最高。结果：因为我的要求是不仅要翻译好，而且还要把latex写对写好，所以实际上任务除了翻译维度的评估之外，还需要看是否熟练掌握latex语法，让文本编译正确，所以首先给出一下我要求的维度的结果：总分排名排名模型第1次第2次第3次平均分 / 92 1 deepseek-v4-pro 80 80 80 80.00 2 claude-opus4.8 79 80 79 79.33 3 mimo-v2.5pro 80 79 78 79.00 4 deepseek-v4-flash 77 79 80 78.67 5 minimax-m3 79 78 78 78.33 6 qwen-3.7-max 78 79 77 78.00 7 gpt5.5 79 77 76 77.33 8 glm-5.1 76 78 73 75.67 9 gemini-3.5flash 76 74 76 75.33 10 kimi-k2.6 77 76 71 74.67 11 doubao-2.0-code 61 71 65 65.67 各能力维度平均分模型平均总分 / 92 内容忠实与逻辑一致 /25 术语准确与一致 /18 英文准确与简洁 /17 学术风格与自然度 /12 时态与论文叙述 /8 LaTeX与源码一致 /12 deepseek-v4-pro 80.00 23.00 15.00 14.00 10.00 8.00 10.00 claude-opus4.8 79.33 23.00 15.00 14.00 10.00 7.67 9.67 mimo-v2.5pro 79.00 22.33 14.67 14.00 10.00 8.00 10.00 deepseek-v4-flash 78.67 23.00 15.00 14.33 10.00 7.33 9.00 minimax-m3 78.33 23.00 15.00 14.00 10.00 7.33 9.00 qwen-3.7-max 78.00 21.67 14.00 14.33 10.00 8.00 10.00 gpt5.5 77.33 21.33 15.00 14.00 10.00 7.67 9.33 glm-5.1 75.67 21.33 14.33 13.67 9.67 7.67 9.00 gemini-3.5flash 75.33 21.33 14.00 13.00 9.00 7.67 10.33 kimi-k2.6 74.67 22.33 14.00 13.00 9.00 8.00 10.00 doubao-2.0-code 65.67 16.33 14.00 12.33 8.33 7.33 7.33 多数结果其实跟大家的印象是一样的，deepseek和claude的语言能力还是相对来说很强大，但是deepseek便宜多了，翻译我这一篇论文只用了几毛钱；豆包能力这么次，不知道是因为模型本身的问题还是trea这个工具太差了。但是可能让佬友们比较意外的可能是mimo和minimax两位能在前面，还有就是部分国模还能排在gpt后面，不过5.5也确实是改了自己的说话风格，可能也不奇怪（？）。另外，除了后面几位之外，实际上前几名的分数都差不多，T1大概就是ds、claude、mimo这几位了。当然，正如我所说，我的这个任务同时是需要latex语法编译的，所以不是纯翻译，等于是顺便测试了一点编程能力，为了直观，下面也展示了去掉了letax相关的结果总分排名排名模型第1次第2次第3次平均分 / 80 排名变化 1 deepseek-v4-pro 70 70 70 70.00 — 2 claude-opus4.8 69 70 70 69.67 — 3 deepseek-v4-flash 69 69 71 69.67 ↑1 4 minimax-m3 70 69 69 69.33 ↑1 5 mimo-v2.5pro 70 69 68 69.00 ↓2 6 gpt5.5 69 68 67 68.00 ↑1 7 qwen-3.7-max 68 69 67 68.00 ↓1 8 glm-5.1 67 68 65 66.67 — 9 gemini-3.5flash 65 64 66 65.00 — 10 kimi-k2.6 67 66 61 64.67 — 11 doubao-2.0-code 56 62 57 58.33 — 各能力维度平均分模型平均总分 / 80 内容忠实与逻辑一致 /25 术语准确与一致 /18 英文准确与简洁 /17 学术风格与自然度 /12 时态与论文叙述 /8 deepseek-v4-pro 70.00 23.00 15.00 14.00 10.00 8.00 claude-opus4.8 69.67 23.00 15.00 14.00 10.00 7.67 deepseek-v4-flash 69.67 23.00 15.00 14.33 10.00 7.33 minimax-m3 69.33 23.00 15.00 14.00 10.00 7.33 mimo-v2.5pro 69.00 22.33 14.67 14.00 10.00 8.00 gpt5.5 68.00 21.33 15.00 14.00 10.00 7.67 qwen-3.7-max 68.00 21.67 14.00 14.33 10.00 8.00 glm-5.1 66.67 21.33 14.33 13.67 9.67 7.67 gemini-3.5flash 65.00 21.33 14.00 13.00 9.00 7.67 kimi-k2.6 64.67 22.33 14.00 13.00 9.00 8.00 doubao-2.0-code 58.33 16.33 14.00 12.33 8.33 7.33 这就是纯翻译能力了，如果latex格式可以自己调整，或者根本不需要直接latex，只看翻译水平，那就只看这个结果。写在最后其实kimi和minimax都出现过几次死循环，但是还是给了几次机会，对其他参赛选手来说可能有点不公平，这两个死循环的模型应该直接给零分才对，但因为测试的重点还是翻译，所以就还是希望他们给出结果来。实际上我也知道这个测试可能让一个模型多翻译几次分别给分才算严谨，但是我已经没有这么多精力去搞了。所以才说大家看个乐，能给到有需求的佬参考就更好了 1 个帖子 - 1 位参与者阅读完整话题

[分享创造] [🎁送码] 超级剪贴板 V3.0 - 更强大的剪贴板管理工具：支持置顶、收藏、云同步

v2ex · 2026-06-10 09:59:05+08:00 · tech

「超级剪贴板」获得 12w+ 次安装，常驻「最受欢迎」热门排行榜，持续维护近四年，历经三次重构，精心打磨作为一款剪贴板应用的每一处细节。近期发布了 V3.0 版本，继承旧版基础交互的前提下，进一步提高了信息密度与能力上限，功能更强，性能更优，欢迎体验。极致性能：不限制条数与过期时间，支持上万条数据数据秒启隐私优先：支持按需开启端到端加密，将复制内容加密保存到本地磁盘功能强大：支持置顶、收藏、编辑、多选、内置 OCR 文字搜图等强大功能跨设备同步：支持秒级跨设备同步与基于 WebDAV 的备份与同步定制脚本：编写强大的自定义用户脚本，监听事件、调用系统 API 定制自己的工作流极致高效：支持随时唤起透明悬浮剪贴板，用完即走界面优雅：经过设计的动效与交互，深度适配深色模式，用户界面支持中英双语文末送 10 个季度插件会员兑换码，可以在插件中以 ¥0.01 的价格购买原价 ¥19.9 的季度插件会员：欢迎到 uTools 插件市场下载使用：插件市场 - 超级剪贴板兑换方式：下载并安装 uTools 在插件市场搜索「超级剪贴板」，安装插件进入插件后，点击右上角「用户中心」页面的兑换码入口使用兑换码未被兑换的兑换码将于 2026-06-30 23:59:59 过期，记得及时兑换~ CLIP-dcdd9c10-8b07-467e-81f9-bcadf0839dd2 CLIP-e3aaf088-0ea5-4014-b734-e8475f34ad0a CLIP-d4da263a-3522-482b-b1af-750ff07b48bd CLIP-0bb4beb9-e23c-46d2-b091-f18dc7a72d0c CLIP-fb122820-0318-4c80-b81b-cf2323e6963e CLIP-fc150242-0af5-4cf9-9ceb-410d9282dc2a CLIP-dca99a0c-bc23-487e-b57b-cf765dc16b3b CLIP-ca4ecb84-b5e8-446d-92c2-e18eb2689478 CLIP-548d5ea7-199b-413c-9faa-9fb8faae806f CLIP-4e9eb7f8-df02-4441-95fa-eb918db4b146

[推广] 顶级 Fable 5 已同步上线赞 AI,据说后面可能要从订阅下下来，快来体验！

v2ex · 2026-06-10 08:57:30+08:00 · tech

顶级 Fable 5 已同步上线赞 AI 更强推理、更稳代码、更适合复杂任务与长流程工作。赞 AI 聚合优质模型，价格透明，调用简单，适合高频使用与长期项目。点击注册

无限token的几天，是否能看出cpa和sub哪个更强大

LinuxDo 最新话题 · 2026-06-09 20:17:07+08:00 · tech

突然想到，这次无限token节，站内佬友们建立的无数中转站肯定有用cpa的也有sub2api的，是否可以分享下自己小鸡的配置以及单位时间跑了多少token、多少rpm，这样就可以一定程度上回答大家不知道选哪个性能更好的疑问了 8 个帖子 - 7 位参与者阅读完整话题

相关专题

Google NotebookLM迎来重要更新新增多格式输出与更强研究能力

LinuxDo 最新话题 · 2026-06-09 09:48:08+08:00 · tech

Google近日为其 AI 笔记与研究工具 NotebookLM 推出一系列功能升级，重点提升复杂研究场景下的推理能力，并新增多种成果输出格式，面向全球付费用户和 Workspace 企业客户开放。据介绍，本次升级后，NotebookLM 的底层模型全面切换至 Gemini 3.5，并结合 Antigravity 技术，以提高结果的准确性与可靠性。针对用户长期关心的“思考过程不透明”问题，NotebookLM 现在在聊天界面中展示更为详细的“推理步骤”，让用户可以看到系统如何从资料中抽取信息并得出结论 Google在内部评估中，将新版 NotebookLM 与旧版本进行了对比测试，覆盖准确性与质量、多语言支持、大型文档分析、文档创作以及高级研究等五大核心维度。结果显示，新版在这些指标上的平均“胜率”超过 65%，比基线水平高出 15 个百分点，显示出明显性能提升。其中，在大体量文档分析方面，新版 NotebookLM 的胜率达到 69.9%；在高级网页研究与信息源发现方面，其胜率更是达到 78.2%，被Google形容为取得了“卓越表现”。在输出方式上，NotebookLM 也获得了大幅扩展，支持更多类型的文件格式，方便用户将 AI 生成内容直接用于可视化展示、结构化数据分析或办公文档制作。具体来说，数据可视化结果可导出为 PNG 和 SVG；文档内容可导出为 PDF、DOCX、Markdown 和纯文本文件；图像内容支持导出为 PNG、JPG 和 GIF；结构化数据支持 JSON 与 CSV；同时还新增对 Microsoft Excel（XLSX）和 PowerPoint（PPTX）格式的直接输出支持。用户在生成结果后仍可进行修改，并可通过界面中的“工作室面板”下载对应文件。 Google表示，这些新能力已面向全球开放，用户不仅可以用一种语言下达指令、再以另一种语言生成结果，还可以在项目启动阶段就依托 NotebookLM 搭建资料库。即便在尚未准备好完整资料清单的情况下，用户也可以仅凭一些初步构想与关键词对话，由 NotebookLM 在聊天过程中主动帮助发掘和整理相关信息来源。例如，它可以帮助查找其他语言中的一手资料，以便获得不同视角，或扩展某位作者的相关作品与研究脉络。目前，这些更新率先向已订阅 Google AI Ultra 的用户以及拥有 AI Ultra 访问权限的 Workspace 企业客户开放。Google同时表示，未来计划将上述功能逐步推广至更大范围的用户群体，但尚未公布具体时间表。 1 个帖子 - 1 位参与者阅读完整话题

Google NotebookLM迎来重要更新新增多格式输出与更强研究能力

cnBeta全文版 · 2026-06-09 00:35:11+08:00 · tech

Google近日为其 AI 笔记与研究工具 NotebookLM 推出一系列功能升级，重点提升复杂研究场景下的推理能力，并新增多种成果输出格式，面向全球付费用户和 Workspace 企业客户开放。据介绍，本次升级后，NotebookLM 的底层模型全面切换至 Gemini 3.5，并结合 Antigravity 技术，以提高结果的准确性与可靠性。针对用户长期关心的“思考过程不透明”问题，NotebookLM 现在在聊天界面中展示更为详细的“推理步骤”，让用户可以看到系统如何从资料中抽取信息并得出结论。 Google在内部评估中，将新版 NotebookLM 与旧版本进行了对比测试，覆盖准确性与质量、多语言支持、大型文档分析、文档创作以及高级研究等五大核心维度。结果显示，新版在这些指标上的平均“胜率”超过 65%，比基线水平高出 15 个百分点，显示出明显性能提升。其中，在大体量文档分析方面，新版 NotebookLM 的胜率达到 69.9%；在高级网页研究与信息源发现方面，其胜率更是达到 78.2%，被Google形容为取得了“卓越表现”。在输出方式上，NotebookLM 也获得了大幅扩展，支持更多类型的文件格式，方便用户将 AI 生成内容直接用于可视化展示、结构化数据分析或办公文档制作。具体来说，数据可视化结果可导出为 PNG 和 SVG；文档内容可导出为 PDF、DOCX、Markdown 和纯文本文件；图像内容支持导出为 PNG、JPG 和 GIF；结构化数据支持 JSON 与 CSV；同时还新增对 Microsoft Excel（XLSX）和 PowerPoint（PPTX）格式的直接输出支持。用户在生成结果后仍可进行修改，并可通过界面中的“工作室面板”下载对应文件。 Google表示，这些新能力已面向全球开放，用户不仅可以用一种语言下达指令、再以另一种语言生成结果，还可以在项目启动阶段就依托 NotebookLM 搭建资料库。即便在尚未准备好完整资料清单的情况下，用户也可以仅凭一些初步构想与关键词对话，由 NotebookLM 在聊天过程中主动帮助发掘和整理相关信息来源。例如，它可以帮助查找其他语言中的一手资料，以便获得不同视角，或扩展某位作者的相关作品与研究脉络。目前，这些更新率先向已订阅 Google AI Ultra 的用户以及拥有 AI Ultra 访问权限的 Workspace 企业客户开放。Google同时表示，未来计划将上述功能逐步推广至更大范围的用户群体，但尚未公布具体时间表。查看评论

[AI Agent 智能体] deepseek v4 flash 和本地部署 Qwen3.6-27B-MTP-GGUF Q4_K_M 哪个更强？

v2ex · 2026-06-07 20:55:37+08:00 · tech

hermes agent 主用

写代码用codex还是claude code比较好

LinuxDo 最新话题 · 2026-06-07 11:43:29+08:00 · tech

这两个哪个更强呢，有人说gpt5.5，有人说claude opus4.8，另外codex跟Claude一样也有1M的上下文吗？ 8 个帖子 - 8 位参与者阅读完整话题

[开源]WorkFlowX：一个更强调可控、可追踪和 Token 效率的 AI 多智能体开发工作流

LinuxDo 最新话题 · 2026-06-06 12:04:50+08:00 · tech

本帖使用社区开源推广，符合推广要求。我申明并遵循社区要求的以下内容：我的帖子已经打上开源推广标签：是我的开源项目完整开源，无未开源部分：是我的开源项目已链接认可 LINUX DO 社区：是我帖子内的项目介绍，AI生成、润色内容部分已截图发出：是以上选择我承诺是永久有效的，接受社区和佬友监督：是以下为项目介绍正文内容，AI生成、润色内容已使用截图方式发出 WorkFlowX：一个更强调可控、可追踪和 Token 效率的 AI 多智能体开发工作流项目地址： github.com GitHub - TreeX-X/WorkFlowX: AI... AI 驱动开发的多智能体工作流框架，编排需求分析、任务规划、代码实现与质量评估，形成从需求到交付的闭环协作流程 || A multi-agent workflow framework for AI-driven development, orchestrating requirement analysis, task planning, code implementation, and quality evaluation into a closed-loop delivery process. 为什么做这个项目作为探索AI领域的一名从业者，Superpowers、OMC 这些开源工作流都上手试过。它们各自都有很优秀的设计，但我在实际工作中用的始终有点不顺手。首先就是一个需求扔进去，不知道底部流转机制经历了什么，每一次消耗的token和需求的大小有时候没有直接关系。而且我觉得spec-coding的思想是很重要的，不仅仅是让AI生成更好，而是让开发过程有了沉淀，真实项目要维护的、要复盘的，不能就是地单纯让AI修改生成代码。 vibe-coding和自动化工作是一种很爽的过程，但正经干活时，我还是希望开发者能够在AI开发的流程中进行介入，而不是让他自己一股脑的跑完。针对上面的几个问题，我决定开发一个需求能追踪、质量能审计、Token利用率高的工作流，让开发者能够在全自动&半自动的流程中随时介入。 WorkFlowX 是什么作为一个多智能体协作的开发工作流框架，我设计的核心思路来源于Anthropic 研究里提的 Harness Design，通过标准化的流程，用文档机制去约束我们的Agent去按照一个约束去进行工作。我依赖了主流Agent工具都具备的一个功能"runSubAgent",设计了一个主智能体 orchestratorX 做路由和编排，以及对应调度的子智能体： orchestratorX — 主编排者，管路由、文档、任务分发和迭代控制 promptMasterX — 把用户的输入理清楚，减少歧义和 prompt 里的坑 coderX — 写代码，遵循最小实现原则 evaluatorX — 独立审计代码，不听 coderX 自己说"我写完了" abstracterX — 做代码结构分析和工程总结为什么用子智能体？因为每个子智能体有独立上下文，不会被前面的对话污染。这样每个 Agent 都是在理论能力最强的状态下干活，出来的代码质量会稳定很多。 WorkFlowX可以按照需求大小分为三种模式，不会啥需求都走同一套重流程：模式适用场景特点 `xwhole` 新功能、跨模块重构、大需求完整规划、Hybrid Tree 文档、coder/evaluator 迭代 `xlocal` 1-2 个模块内的修改跳过完整 PRD，但保留需求发现和评估 `xunit` 单文件修 bug、小改动最轻量，快速搞定，默认不走完整评估核心机制：xwhole 完整工作流在本次中我主要介绍xwhole，它是框架的完整工作流，其他的工作流都是其分解出的一部分开发者在提出一个模块开发或者需求时，不会马上开始写代码，而是先走规划，这有点像传统的"plan"模式，但是我们进行了特殊设计首先工作流会进行苏格拉底式的提问，不断将你的需求提问，直到理解明白，并且会在分析需求的时候，进行质疑，并提出方案和指出不合理的地方，反馈你修正，到生成最终计划时只会留下我们交流中实际确认的需求需求确认后，就会开始生成一个工作流中很核心的一部分，我命名为Hybrid Tree，工作流把需求拆分为需求树， Parent 文档记全局目标、范围、非功能要求、路由表； Child 文档记具体子任务、验收标准、涉及的文件、评估结果通过这个结构，后续子智能体干活的时候，就不需要整个项目上下文都吞一遍，通过父文档路由到对应的子文档，只读当前任务真正需要的东西另外规划阶段会提前把项目探索一遍，相关文件、关键实体、依赖关系记到文档和临时记忆里。后面 coderX 和 evaluatorX 不用每次从零开始搜项目，Token 自然就省下来了从需求到代码，再到评估 Hybrid Tree 建好之后，这里我还是采纳了Anthropic 研究里提到的生成对抗网络(GANs)的思路，让生成过程变成一个不断迭代的过程首先，orchestratorX 把子任务分给 coderX，coderX 的工作很明确：读文档、读验收标准、写最小必要实现。我给它引入了Karpathy 那套工程观 —— 别过度设计，别为了显得高级而搞复杂，用最短路径解决真问题代码写完，不会让 coderX 自己评价自己。这是很多 AI 工作流的通病：同一个 Agent 既实现又评估，它天然倾向于觉得自己做得不错所以评估交给了 evaluatorX，一个完全独立的审核 Agent，只读读需求文档和验收标准，只看git diff 和相关代码，不了解coderX 的自我声明，根据逐条AC 判 pass / partial / fail / unevaluable，然后输出问题清单、严重级别、修复建议没过的话，orchestratorX 把 evaluatorX 的意见扔回给 coderX 改。每个 Child 有迭代上限，不会无限循环；evaluatorX 判 PASS 就提前收工，不白烧 Token Token 优化怎么做的首先就是工作流的分级，根据不同的需求，使用不同的流程，合理分配然后就是依赖Hybrid tree机制，将需求分散，每次只给 Agent 当前子任务需要的文档，不灌全量，并将关键文件和知识点沉淀下来，后面按需加载在迭代过程中，我设计了增量评估，evaluatorX 这轮只看 diff、失败的 AC 和相关文件，不每轮都重新吞一遍全量上下文；我还在评估中设计了早退机制，让任务完成了，就不会一直继续迭代，而是直接停止目标不是把 Token 消耗干到零，而是让它透明、可控、花得明白和别的工作流有啥不一样 Superpowers 侧重工程习惯和自动化体验，OMC 侧重工具调度、多模型协作和专业 Agent 覆盖。WorkFlowX 选了另一个方向：需求追踪、质量审计、结构化迭代、Token 可控几个独有的特点： Hybrid Tree 做需求追踪，需求从哪来到哪去都能查 AC 交叉验证，不是 coderX 说了算 orchestratorX 是唯一写文档的人，避免多 Agent 写出冲突 coderX / evaluatorX 职责分离，实现的人不评估人可以在任意节点介入、确认、审阅按任务规模选不同工作流，不一刀切现在还不完美的地方作为作者，我自己都知道WorkFlowX距离完全成熟的工作流还有一定的距离没有一个专业的安全审查机制，TDD机制也是没有的，不同语言和框架的审核可以做的更好，并行工作流和调度还有细节要打磨，文档可视化也有优化的控件但即使如此，作为一个以需求为切入点、强调人为可控和 Token 效率的工作流，我觉得它现在到了可以拿出来让人真实试用、给反馈的阶段接下来的更新计划一个是 ultra 参数模式，参考二级路由能力，可能引入 HTML 结构替代部分 Markdown，做一个更重型但能力更强的模式另一个是把安全审查做得更系统，吸收 OMC 里 security-review 的好思路，但保持 WorkFlowX 自己的结构化风格还有一个方向是参考 Karpathy 最近提的 autoresearch，让模型反过来分析和优化工作流本身，从真实使用里挖升级点。跑通了会继续分享最后如果你用 AI 开发的时候也碰到过这些：需求聊着聊着就丢了 AI 写完代码，不知道是不是真的满足了要求 Token 花了不少，但不知道花在哪想自动化，但不想完全失去控制希望开发过程能留下点什么，以后维护用得上希望你能来试试WorkFlowX 欢迎提 issue、PR，或者直接在帖子里说想法。觉得有帮助的话，顺手点个 star 也行项目地址： github.com GitHub - TreeX-X/WorkFlowX: AI... AI 驱动开发的多智能体工作流框架，编排需求分析、任务规划、代码实现与质量评估，形成从需求到交付的闭环协作流程 || A multi-agent workflow framework for AI-driven development, orchestrating requirement analysis, task planning, code implementation, and quality evaluation into a closed-loop delivery process. 2 个帖子 - 2 位参与者阅读完整话题

OpenAI推出ChatGPT记忆系统升级：长时上下文更强、更准、更省算力

cnBeta全文版 · 2026-06-05 14:06:24+08:00 · tech

OpenAI 近日宣布对 ChatGPT 的记忆系统进行重大架构升级，在长期上下文保留、用户偏好跟随以及跨时间的准确性等方面都有明显提升，并强调这一版本在算力效率上也更为优化。新系统首先面向美国地区的 ChatGPT Plus 和 Pro 订阅用户开放，未来几周将逐步扩展至更多国家以及 Free 与 Go 用户。所谓“记忆”功能，是指 ChatGPT 能自动或按用户指示，长期保留对话中的有用信息，包括用户的个人偏好、正在推进的项目以及各类约束条件，从而避免每次开启新对话都要从零介绍背景。借助这些持久化信息，系统在后续对话中可以更好地“延续上下文”，提供更贴合用户习惯和需求的回答。 OpenAI 最早在 2024 年 2 月推出“保存记忆”功能，允许用户明确要求 ChatGPT 记住某些信息，例如旅行计划、写作风格偏好等。不过，这一初代方案存在明显局限：一方面高度依赖用户主动下指令保存信息，另一方面，存入记忆的信息如果长期不更新，就容易过时或失效。到了 2025 年 4 月，OpenAI 将记忆能力扩展到“保存列表”之外，开始允许 ChatGPT 自动引用过去的聊天内容作为记忆来源。这一阶段的关键基础设施是名为“Dreaming（梦境）”的后台进程，它会在用户不感知的情况下，从历史对话中自动筛选、整理可用信息，形成记忆条目。借助这一机制，系统可以从自然对话中持续学习，无需用户每一次都明确说明“请记住这一点”。此次发布的升级则是在“Dreaming”机制之上进一步重构记忆架构，使之更“能记、会用、记得久、算得省”。OpenAI 内部评估数据显示，新系统在事实回忆、偏好遵循以及随时间推移的准确性方面，均较 2025 年版本有显著提升。具体而言，事实回忆率从 2025 年的 67.9% 提升至 2026 年的 82.8%，对用户偏好的遵循度从 55.3% 提升到 71.3%，而跨时间维度的准确性则从 52.2% 提升到 75.1%。在用户体验层面，本次升级带来的一个直观变化，是新增了“记忆概览页面”。用户可以在这一页面集中查看 ChatGPT 当前保存的各类记忆条目，并可直接对其进行更新、更正，甚至下达“在何种情境下应当主动提及哪些话题”的指示。这一设计在提升透明度的同时，也为用户提供了更细粒度的控制权，降低长期使用中记忆过时或偏差累积的风险。 OpenAI 表示，这一更强大的记忆系统将首先向美国地区的 ChatGPT Plus 和 Pro 用户推送，并已自即日起开始上线。公司计划在未来几周内，将该系统逐步推广至更多国家和地区，并覆盖 ChatGPT Free 与 Go 用户，使更大范围的用户群体都能在日常使用中体验到更“懂自己”的对话式 AI。查看评论