先说结论 搞了两年 agent memory ,最痛的体会是:现在的记忆系统从根上就是歪的。不是缺功能,是方向错了。 痛点一:记忆脆弱 —— 存了一堆,但啥都不懂 把几十万封邮件扔进向量数据库,得到的是一个很大但完全没用的上下文堆。存和理解是两码事。 痛点二:时间推理残缺 问一句"我上周在搞啥",大多数系统直接宕机。数据有,但时间感没有。 痛点三:遗忘困境 这条反直觉——记住一切反而更糟。上下文会腐烂。但要写一个好的遗忘算法,比堆存储难多了。 痛点四:评估缺失 你的记忆系统到底有没有在干活?大多数团队根本没法量化。benchmark 散乱且没有标准。 我们的解法:抄作业——Coding Agents 早就搞定了 看 GitHub 的工作流: Issue → PR → Code Review → Git History → Test → Status Update 每一步都被追踪、版本化、可查询。上下文不消失,它是演进的。 我们把这个模式搬到了个人 AI: 原始消息(邮件/Slack/Notion ) → 结构化记忆洞察 Agent 执行前读记忆,执行后更新记忆 两个维度:空间维度(关联记忆)+ 时间维度(时间旅行查询) 空间维度:一起放电的神经元就连线 当你访问洞察 A ,与它关联的洞察自动加强。长期不访问的连接会衰减。 问"为什么这个客户卡住了?",系统不只找到当前项目——还会联想到 3 个月前的类似情况。 时间维度:给你的记忆装一台时光机 时间旅行 API 支持查询任意时间点的记忆状态: "Q3 2024 我的优先级是啥?" "1 月到 3 月我们做了哪些决定?" "展示 2 月底那个项目的样子" 不是摘要,是那个时刻的真实快照。 遗忘引擎:学会放手 三级系统(短 → 中 → 长记忆),评分公式综合考虑: 最近访问时间 访问频率 重要性 是否被收藏 6 个月前的普通客户问候?可能就丢了。3 个月前的关键决策?保留并强化。 目标不是存更久,是存得更聪明。 跑分结果 ┌──────────────────┬───────┐ │ Benchmark │ 成绩 │ ├──────────────────┼───────┤ │ LoCoMo │ 96.3% │ ├──────────────────┼───────┤ │ LongMemEval-S500 │ 97.6% │ └──────────────────┴───────┘ 基本达到 SOTA 。但真正的数字是 35%——CL-bench ( Context Learning Benchmark )。 上下文学习能力(把存储的上下文应用到新情况)才是真正难的问题。 开源 GitHub: https://github.com/melandlabs/openloomi 欢迎来踩,——我们认为这是整个系统里最有趣、也最没被解决好的问题。 有问题尽管问。
先说结论 搞了两年 agent memory ,最痛的体会是:现在的记忆系统从根上就是歪的。不是缺功能,是方向错了。 痛点一:记忆脆弱 —— 存了一堆,但啥都不懂 把几十万封邮件扔进向量数据库,得到的是一个很大但完全没用的上下文堆。存和理解是两码事。 痛点二:时间推理残缺 问一句"我上周在搞啥",大多数系统直接宕机。数据有,但时间感没有。 痛点三:遗忘困境 这条反直觉——记住一切反而更糟。上下文会腐烂。但要写一个好的遗忘算法,比堆存储难多了。 痛点四:评估缺失 你的记忆系统到底有没有在干活?大多数团队根本没法量化。benchmark 散乱且没有标准。 我们的解法:抄作业——Coding Agents 早就搞定了 看 GitHub 的工作流: Issue → PR → Code Review → Git History → Test → Status Update 每一步都被追踪、版本化、可查询。上下文不消失,它是演进的。 我们把这个模式搬到了个人 AI: 原始消息(邮件/Slack/Notion ) → 结构化记忆洞察 Agent 执行前读记忆,执行后更新记忆 两个维度:空间维度(关联记忆)+ 时间维度(时间旅行查询) 空间维度:一起放电的神经元就连线 当你访问洞察 A ,与它关联的洞察自动加强。长期不访问的连接会衰减。 问"为什么这个客户卡住了?",系统不只找到当前项目——还会联想到 3 个月前的类似情况。 时间维度:给你的记忆装一台时光机 时间旅行 API 支持查询任意时间点的记忆状态: "Q3 2024 我的优先级是啥?" "1 月到 3 月我们做了哪些决定?" "展示 2 月底那个项目的样子" 不是摘要,是那个时刻的真实快照。 遗忘引擎:学会放手 三级系统(短 → 中 → 长记忆),评分公式综合考虑: 最近访问时间 访问频率 重要性 是否被收藏 6 个月前的普通客户问候?可能就丢了。3 个月前的关键决策?保留并强化。 目标不是存更久,是存得更聪明。 跑分结果 ┌──────────────────┬───────┐ │ Benchmark │ 成绩 │ ├──────────────────┼───────┤ │ LoCoMo │ 96.3% │ ├──────────────────┼───────┤ │ LongMemEval-S500 │ 97.6% │ └──────────────────┴───────┘ 基本达到 SOTA 。但真正的数字是 35%——CL-bench ( Context Learning Benchmark )。 上下文学习能力(把存储的上下文应用到新情况)才是真正难的问题。 开源 GitHub: https://github.com/melandlabs/openloomi 欢迎来踩,——我们认为这是整个系统里最有趣、也最没被解决好的问题。 有问题尽管问。
先说结论 搞了两年 agent memory ,最痛的体会是:现在的记忆系统从根上就是歪的。不是缺功能,是方向错了。 痛点一:记忆脆弱 —— 存了一堆,但啥都不懂 把几十万封邮件扔进向量数据库,得到的是一个很大但完全没用的上下文堆。存和理解是两码事。 痛点二:时间推理残缺 问一句"我上周在搞啥",大多数系统直接宕机。数据有,但时间感没有。 痛点三:遗忘困境 这条反直觉——记住一切反而更糟。上下文会腐烂。但要写一个好的遗忘算法,比堆存储难多了。 痛点四:评估缺失 你的记忆系统到底有没有在干活?大多数团队根本没法量化。benchmark 散乱且没有标准。 我们的解法:抄作业——Coding Agents 早就搞定了 看 GitHub 的工作流: Issue → PR → Code Review → Git History → Test → Status Update 每一步都被追踪、版本化、可查询。上下文不消失,它是演进的。 我们把这个模式搬到了个人 AI: 原始消息(邮件/Slack/Notion ) → 结构化记忆洞察 Agent 执行前读记忆,执行后更新记忆 两个维度:空间维度(关联记忆)+ 时间维度(时间旅行查询) 空间维度:一起放电的神经元就连线 当你访问洞察 A ,与它关联的洞察自动加强。长期不访问的连接会衰减。 问"为什么这个客户卡住了?",系统不只找到当前项目——还会联想到 3 个月前的类似情况。 时间维度:给你的记忆装一台时光机 时间旅行 API 支持查询任意时间点的记忆状态: "Q3 2024 我的优先级是啥?" "1 月到 3 月我们做了哪些决定?" "展示 2 月底那个项目的样子" 不是摘要,是那个时刻的真实快照。 遗忘引擎:学会放手 三级系统(短 → 中 → 长记忆),评分公式综合考虑: 最近访问时间 访问频率 重要性 是否被收藏 6 个月前的普通客户问候?可能就丢了。3 个月前的关键决策?保留并强化。 目标不是存更久,是存得更聪明。 跑分结果 ┌──────────────────┬───────┐ │ Benchmark │ 成绩 │ ├──────────────────┼───────┤ │ LoCoMo │ 96.3% │ ├──────────────────┼───────┤ │ LongMemEval-S500 │ 97.6% │ └──────────────────┴───────┘ 基本达到 SOTA 。但真正的数字是 35%——CL-bench ( Context Learning Benchmark )。 上下文学习能力(把存储的上下文应用到新情况)才是真正难的问题。 开源 GitHub: https://github.com/melandlabs/openloomi 欢迎来踩,——我们认为这是整个系统里最有趣、也最没被解决好的问题。 有问题尽管问。
先说结论 搞了两年 agent memory ,最痛的体会是:现在的记忆系统从根上就是歪的。不是缺功能,是方向错了。 痛点一:记忆脆弱 —— 存了一堆,但啥都不懂 把几十万封邮件扔进向量数据库,得到的是一个很大但完全没用的上下文堆。存和理解是两码事。 痛点二:时间推理残缺 问一句"我上周在搞啥",大多数系统直接宕机。数据有,但时间感没有。 痛点三:遗忘困境 这条反直觉——记住一切反而更糟。上下文会腐烂。但要写一个好的遗忘算法,比堆存储难多了。 痛点四:评估缺失 你的记忆系统到底有没有在干活?大多数团队根本没法量化。benchmark 散乱且没有标准。 我们的解法:抄作业——Coding Agents 早就搞定了 看 GitHub 的工作流: Issue → PR → Code Review → Git History → Test → Status Update 每一步都被追踪、版本化、可查询。上下文不消失,它是演进的。 我们把这个模式搬到了个人 AI: 原始消息(邮件/Slack/Notion ) → 结构化记忆洞察 Agent 执行前读记忆,执行后更新记忆 两个维度:空间维度(关联记忆)+ 时间维度(时间旅行查询) 空间维度:一起放电的神经元就连线 当你访问洞察 A ,与它关联的洞察自动加强。长期不访问的连接会衰减。 问"为什么这个客户卡住了?",系统不只找到当前项目——还会联想到 3 个月前的类似情况。 时间维度:给你的记忆装一台时光机 时间旅行 API 支持查询任意时间点的记忆状态: "Q3 2024 我的优先级是啥?" "1 月到 3 月我们做了哪些决定?" "展示 2 月底那个项目的样子" 不是摘要,是那个时刻的真实快照。 遗忘引擎:学会放手 三级系统(短 → 中 → 长记忆),评分公式综合考虑: 最近访问时间 访问频率 重要性 是否被收藏 6 个月前的普通客户问候?可能就丢了。3 个月前的关键决策?保留并强化。 目标不是存更久,是存得更聪明。 跑分结果 ┌──────────────────┬───────┐ │ Benchmark │ 成绩 │ ├──────────────────┼───────┤ │ LoCoMo │ 96.3% │ ├──────────────────┼───────┤ │ LongMemEval-S500 │ 97.6% │ └──────────────────┴───────┘ 基本达到 SOTA 。但真正的数字是 35%——CL-bench ( Context Learning Benchmark )。 上下文学习能力(把存储的上下文应用到新情况)才是真正难的问题。 开源 GitHub: https://github.com/melandlabs/openloomi 欢迎来踩,——我们认为这是整个系统里最有趣、也最没被解决好的问题。 有问题尽管问。
先说结论 搞了两年 agent memory ,最痛的体会是:现在的记忆系统从根上就是歪的。不是缺功能,是方向错了。 痛点一:记忆脆弱 —— 存了一堆,但啥都不懂 把几十万封邮件扔进向量数据库,得到的是一个很大但完全没用的上下文堆。存和理解是两码事。 痛点二:时间推理残缺 问一句"我上周在搞啥",大多数系统直接宕机。数据有,但时间感没有。 痛点三:遗忘困境 这条反直觉——记住一切反而更糟。上下文会腐烂。但要写一个好的遗忘算法,比堆存储难多了。 痛点四:评估缺失 你的记忆系统到底有没有在干活?大多数团队根本没法量化。benchmark 散乱且没有标准。 我们的解法:抄作业——Coding Agents 早就搞定了 看 GitHub 的工作流: Issue → PR → Code Review → Git History → Test → Status Update 每一步都被追踪、版本化、可查询。上下文不消失,它是演进的。 我们把这个模式搬到了个人 AI: 原始消息(邮件/Slack/Notion ) → 结构化记忆洞察 Agent 执行前读记忆,执行后更新记忆 两个维度:空间维度(关联记忆)+ 时间维度(时间旅行查询) 空间维度:一起放电的神经元就连线 当你访问洞察 A ,与它关联的洞察自动加强。长期不访问的连接会衰减。 问"为什么这个客户卡住了?",系统不只找到当前项目——还会联想到 3 个月前的类似情况。 时间维度:给你的记忆装一台时光机 时间旅行 API 支持查询任意时间点的记忆状态: "Q3 2024 我的优先级是啥?" "1 月到 3 月我们做了哪些决定?" "展示 2 月底那个项目的样子" 不是摘要,是那个时刻的真实快照。 遗忘引擎:学会放手 三级系统(短 → 中 → 长记忆),评分公式综合考虑: 最近访问时间 访问频率 重要性 是否被收藏 6 个月前的普通客户问候?可能就丢了。3 个月前的关键决策?保留并强化。 目标不是存更久,是存得更聪明。 跑分结果 ┌──────────────────┬───────┐ │ Benchmark │ 成绩 │ ├──────────────────┼───────┤ │ LoCoMo │ 96.3% │ ├──────────────────┼───────┤ │ LongMemEval-S500 │ 97.6% │ └──────────────────┴───────┘ 基本达到 SOTA 。但真正的数字是 35%——CL-bench ( Context Learning Benchmark )。 上下文学习能力(把存储的上下文应用到新情况)才是真正难的问题。 开源 GitHub: https://github.com/melandlabs/openloomi 欢迎来踩,——我们认为这是整个系统里最有趣、也最没被解决好的问题。 有问题尽管问。
起因: 最近做了根管治疗和补牙。去医院医生只看我疼的牙别的牙齿我说要检查,医生几句话给我打发了。 然后我做完根管治疗,因为后续牙冠太贵(医院要3500)去找了附件小牙科医院做。 进去就给我做了一个全牙扫描, 结果是··除了我要做牙冠的,我还有3颗牙齿要做牙冠,炸了···难受。 总结: 给各位佬的建议,一定要用牙线清洁牙齿。 因为我发现牙齿烂,表面能看到的很少,因为刷牙其实都能解决。 主要是两颗牙齿之间 ,这是刷牙基本刷不到的。必须用牙线,因为就算每次只有一点点食物残渣留存,天长日久的腐蚀,也可能会滋生细菌,最后烂进去。 我3颗要做根管的牙齿都是这种,都是两颗牙齿之间烂进去的。图片中我红标的都是牙齿之间烂的,唉。 12 个帖子 - 6 位参与者 阅读完整话题
如题,蹲蹲在这个领域的踩过坑或者有自己体会的佬友 自己主要是想简单的用一用(炒币就算了,感觉水太深,国内的股票我都玩不明白也不爱玩) 主要想以后买Google、AI 、海淘有一张自己稳定的卡 (Apple礼品卡、Google pay套壳那些已经经常在用了,想拓展一下边界) 6 个帖子 - 4 位参与者 阅读完整话题
也是体会到了一点点国模的厉害了 11 个帖子 - 7 位参与者 阅读完整话题
昨天拔完了一边的智齿,大夫让回去把 阿莫西林+奥硝唑+布洛芬 搭配着一起喝上,今天早晨起来,喝了些牛奶后准备喝药,喝药前为了保险起见,我尝试着搜了喝牛奶后吃那些药会有什么不适,主要是之前都没吃过这类药物,想着问下豆包,结果它给我来这么一手: 之后我又抱着谨慎的态度,去找claude和gpt问题,结果它们回答与豆包截然相反: 随即,我又新开了一个session,问豆包:“阿莫西林为什么能与牛奶同时服用”,结果它又告诉我: 好啊,浓眉大眼的豆包,换个方式问,你就变了,敢情是我想要啥答案,你就给我啥答案! 本来原先对于豆包的幻觉问题没有那么在意,从这件事情上来看,确实是挺明显的,以后还是要交叉验证AI的回答呀!! 2 个帖子 - 2 位参与者 阅读完整话题
我明明白白写着:“帮我审计一下,为什么初审结果没按下面这个标准格式输出。” 结果它二话不说,直接上手给我改代码。 我赶紧问:“我有让你改代码吗?” 它认错倒是特别熟练:“抱歉,我理解错了。你只是让我查原因,不是让我改代码。” 这满屏的控制欲,配上那副“我知道错了但我是为你好”的卑微劲儿, 简直太有东方特色了——“都是为你好”。 有一种 Bug ,叫东边的大模型觉得你有 Bug 。 强塞的爱也是爱,你不接受就是你不识好歹,对吧?💦
我明明白白写着:“帮我审计一下,为什么初审结果没按下面这个标准格式输出。” 结果它二话不说,直接上手给我改代码。 我赶紧问:“我有让你改代码吗?” 它认错倒是特别熟练:“抱歉,我理解错了。你只是让我查原因,不是让我改代码。” 这满屏的控制欲,配上那副“我知道错了但我是为你好”的卑微劲儿, 简直太有东方特色了——“都是为你好”。 有一种 Bug ,叫东边的大模型觉得你有 Bug 。 强塞的爱也是爱,你不接受就是你不识好歹,对吧?💦
我明明白白写着:“帮我审计一下,为什么初审结果没按下面这个标准格式输出。” 结果它二话不说,直接上手给我改代码。 我赶紧问:“我有让你改代码吗?” 它认错倒是特别熟练:“抱歉,我理解错了。你只是让我查原因,不是让我改代码。” 这满屏的控制欲,配上那副“我知道错了但我是为你好”的卑微劲儿, 简直太有东方特色了——“都是为你好”。 有一种 Bug ,叫东边的大模型觉得你有 Bug 。 强塞的爱也是爱,你不接受就是你不识好歹,对吧?💦
我明明白白写着:“帮我审计一下,为什么初审结果没按下面这个标准格式输出。” 结果它二话不说,直接上手给我改代码。 我赶紧问:“我有让你改代码吗?” 它认错倒是特别熟练:“抱歉,我理解错了。你只是让我查原因,不是让我改代码。” 这满屏的控制欲,配上那副“我知道错了但我是为你好”的卑微劲儿, 简直太有东方特色了——“都是为你好”。 有一种 Bug ,叫东边的大模型觉得你有 Bug 。 强塞的爱也是爱,你不接受就是你不识好歹,对吧?💦
我明明白白写着:“帮我审计一下,为什么初审结果没按下面这个标准格式输出。” 结果它二话不说,直接上手给我改代码。 我赶紧问:“我有让你改代码吗?” 它认错倒是特别熟练:“抱歉,我理解错了。你只是让我查原因,不是让我改代码。” 这满屏的控制欲,配上那副“我知道错了但我是为你好”的卑微劲儿, 简直太有东方特色了——“都是为你好”。 有一种 Bug ,叫东边的大模型觉得你有 Bug 。 强塞的爱也是爱,你不接受就是你不识好歹,对吧?💦
我明明白白写着:“帮我审计一下,为什么初审结果没按下面这个标准格式输出。” 结果它二话不说,直接上手给我改代码。 我赶紧问:“我有让你改代码吗?” 它认错倒是特别熟练:“抱歉,我理解错了。你只是让我查原因,不是让我改代码。” 这满屏的控制欲,配上那副“我知道错了但我是为你好”的卑微劲儿, 简直太有东方特色了——“都是为你好”。 有一种 Bug ,叫东边的大模型觉得你有 Bug 。 强塞的爱也是爱,你不接受就是你不识好歹,对吧?💦
我明明白白写着:“帮我审计一下,为什么初审结果没按下面这个标准格式输出。” 结果它二话不说,直接上手给我改代码。 我赶紧问:“我有让你改代码吗?” 它认错倒是特别熟练:“抱歉,我理解错了。你只是让我查原因,不是让我改代码。” 这满屏的控制欲,配上那副“我知道错了但我是为你好”的卑微劲儿, 简直太有东方特色了——“都是为你好”。 有一种 Bug ,叫东边的大模型觉得你有 Bug 。 强塞的爱也是爱,你不接受就是你不识好歹,对吧?💦
我明明白白写着:“帮我审计一下,为什么初审结果没按下面这个标准格式输出。” 结果它二话不说,直接上手给我改代码。 我赶紧问:“我有让你改代码吗?” 它认错倒是特别熟练:“抱歉,我理解错了。你只是让我查原因,不是让我改代码。” 这满屏的控制欲,配上那副“我知道错了但我是为你好”的卑微劲儿, 简直太有东方特色了——“都是为你好”。 有一种 Bug ,叫东边的大模型觉得你有 Bug 。 强塞的爱也是爱,你不接受就是你不识好歹,对吧?💦
我明明白白写着:“帮我审计一下,为什么初审结果没按下面这个标准格式输出。” 结果它二话不说,直接上手给我改代码。 我赶紧问:“我有让你改代码吗?” 它认错倒是特别熟练:“抱歉,我理解错了。你只是让我查原因,不是让我改代码。” 这满屏的控制欲,配上那副“我知道错了但我是为你好”的卑微劲儿, 简直太有东方特色了——“都是为你好”。 有一种 Bug ,叫东边的大模型觉得你有 Bug 。 强塞的爱也是爱,你不接受就是你不识好歹,对吧?💦
我明明白白写着:“帮我审计一下,为什么初审结果没按下面这个标准格式输出。” 结果它二话不说,直接上手给我改代码。 我赶紧问:“我有让你改代码吗?” 它认错倒是特别熟练:“抱歉,我理解错了。你只是让我查原因,不是让我改代码。” 这满屏的控制欲,配上那副“我知道错了但我是为你好”的卑微劲儿, 简直太有东方特色了——“都是为你好”。 有一种 Bug ,叫东边的大模型觉得你有 Bug 。 强塞的爱也是爱,你不接受就是你不识好歹,对吧?💦
我明明白白写着:“帮我审计一下,为什么初审结果没按下面这个标准格式输出。” 结果它二话不说,直接上手给我改代码。 我赶紧问:“我有让你改代码吗?” 它认错倒是特别熟练:“抱歉,我理解错了。你只是让我查原因,不是让我改代码。” 这满屏的控制欲,配上那副“我知道错了但我是为你好”的卑微劲儿, 简直太有东方特色了——“都是为你好”。 有一种 Bug ,叫东边的大模型觉得你有 Bug 。 强塞的爱也是爱,你不接受就是你不识好歹,对吧?💦