近期在玩Pi,在pi.dev上发现有pi的package,排名第一的是一个叫context-mode的包,生成能够减少98%的token用量,github repo在此 mksglu/context-mode: Context window optimization for AI coding agents. Sandboxes tool output, 98% reduction. 15 platforms

原理(repo原文翻译,不是AI生成
1. 保存上下文 - 沙盒工具将原始数据保存在上下文窗口之外。
2. 会话连续性--每个文件编辑、git 操作、任务、错误和用户决策都会在 SQLite 中进行跟踪。当对话压缩时,上下文模式不会将这些数据转回上下文,而是将事件索引到 FTS5 中,并通过 BM25 搜索只检索相关内容。该模式会从您离开的地方重新开始。如果您不继续,之前的会话数据会立即被删除--新的会话意味着一片空白。
3.用代码思考 - LLM 应该对分析进行编程,而不是计算。代理不需要在上下文中读取 50 个文件来计算函数,而是编写一个脚本来进行计算,并只在 console.log() 中显示结果。一个脚本取代了十次工具调用,节省了 100 倍的上下文。这是所有 16 个平台都必须采用的范式:不要再把 LLM 视为数据处理器,而要把它视为代码生成器。
4.没有散文式的强制执行--上下文模式使原始数据不脱离上下文,但从不规定模型如何写出最终答案。简洁性、完整性、格式--由你的模型决定(或由你通过自己的 CLAUDE.md / AGENTS.md 决定)。咄咄逼人的简洁性提示已被证明会降低编码/推理基准(kimi-k2.5 上的 Mooonshot AI)--路由块始终关注的是数据的去向,而不是模型如何说话。
看起来很make sense,刚开始在Pi里面使用。不知道会不会出现为了节省上下文而导致模型智障的问题。
4 个帖子 - 4 位参与者