在昨天研究 qwen3.6-27B 的优化时,看到了这个问题: server: fix context checkpoint restore for hybrid/recurrent models (DeltaNet/Mamba) 大概意思就是,因为 llama.cpp 的缓存巡回逻辑有问题,导致你 n 次调用大模型( n>1 )时,大概率 llama.cpp 找不到之前的对话,会从头再次 prefill 你的对话全文。 翻译成大白话讲,就是你对一个人,每多说一句话,就要从第一句开始重复一遍。 更为悲惨的是: 在 5 月份,llama.cpp 制作组引入了另外一个 checkpoint 逻辑,使得缓存巡回性能再次下降: Commit e98cb51 经过此帖中大神实测,NVIDIA RTX PRO 6000 Blackwell 在运行 qwen3.6-27B Q8 时,上下文 50K 的长度下,每次请求 LLM 都会浪费 40 秒: 3 consecutive full re-processings logged: ┌───────────┬────────────────────┬───────┐ │ Turn │ Tokens reprocessed │ Time │ ├───────────┼────────────────────┼───────┤ │ Task 2795 │ 67,608 │ 38.4s │ ├───────────┼────────────────────┼───────┤ │ Task 3241 │ 71,211 │ 41.0s │ ├───────────┼────────────────────┼───────┤ │ Task 3401 │ 71,105 │ 41.4s │ └───────────┴────────────────────┴───────┘ Root cause visible in logs: The new prompt is ~19k tokens, but all checkpoints sit at positions 39k–71k (from previous longer requests). Every checkpoint is checked against 19340 and rejected because they're all beyond the new prompt length. Result: 0 usable checkpoints → full reprocess from BOS. 结论是,目前的 llama.cpp+qwen3.6-27B 这个组合,在 Agent 工具这个场景下,性能不可用。 目前此 issues 还是 open 状态,待修复。
在昨天研究 qwen3.6-27B 的优化时,看到了这个问题: server: fix context checkpoint restore for hybrid/recurrent models (DeltaNet/Mamba) 大概意思就是,因为 llama.cpp 的缓存巡回逻辑有问题,导致你 n 次调用大模型( n>1 )时,大概率 llama.cpp 找不到之前的对话,会从头再次 prefill 你的对话全文。 翻译成大白话讲,就是你对一个人,每多说一句话,就要从第一句开始重复一遍。 更为悲惨的是: 在 5 月份,llama.cpp 制作组引入了另外一个 checkpoint 逻辑,使得缓存巡回性能再次下降: Commit e98cb51 经过此帖中大神实测,NVIDIA RTX PRO 6000 Blackwell 在运行 qwen3.6-27B Q8 时,上下文 50K 的长度下,每次请求 LLM 都会浪费 40 秒: 3 consecutive full re-processings logged: ┌───────────┬────────────────────┬───────┐ │ Turn │ Tokens reprocessed │ Time │ ├───────────┼────────────────────┼───────┤ │ Task 2795 │ 67,608 │ 38.4s │ ├───────────┼────────────────────┼───────┤ │ Task 3241 │ 71,211 │ 41.0s │ ├───────────┼────────────────────┼───────┤ │ Task 3401 │ 71,105 │ 41.4s │ └───────────┴────────────────────┴───────┘ Root cause visible in logs: The new prompt is ~19k tokens, but all checkpoints sit at positions 39k–71k (from previous longer requests). Every checkpoint is checked against 19340 and rejected because they're all beyond the new prompt length. Result: 0 usable checkpoints → full reprocess from BOS. 结论是,目前的 llama.cpp+qwen3.6-27B 这个组合,在 Agent 工具这个场景下,性能不可用。 目前此 issues 还是 open 状态,待修复。
在昨天研究 qwen3.6-27B 的优化时,看到了这个问题: server: fix context checkpoint restore for hybrid/recurrent models (DeltaNet/Mamba) 大概意思就是,因为 llama.cpp 的缓存巡回逻辑有问题,导致你 n 次调用大模型( n>1 )时,大概率 llama.cpp 找不到之前的对话,会从头再次 prefill 你的对话全文。 翻译成大白话讲,就是你对一个人,每多说一句话,就要从第一句开始重复一遍。 更为悲惨的是: 在 5 月份,llama.cpp 制作组引入了另外一个 checkpoint 逻辑,使得缓存巡回性能再次下降: Commit e98cb51 经过此帖中大神实测,NVIDIA RTX PRO 6000 Blackwell 在运行 qwen3.6-27B Q8 时,上下文 50K 的长度下,每次请求 LLM 都会浪费 40 秒: 3 consecutive full re-processings logged: ┌───────────┬────────────────────┬───────┐ │ Turn │ Tokens reprocessed │ Time │ ├───────────┼────────────────────┼───────┤ │ Task 2795 │ 67,608 │ 38.4s │ ├───────────┼────────────────────┼───────┤ │ Task 3241 │ 71,211 │ 41.0s │ ├───────────┼────────────────────┼───────┤ │ Task 3401 │ 71,105 │ 41.4s │ └───────────┴────────────────────┴───────┘ Root cause visible in logs: The new prompt is ~19k tokens, but all checkpoints sit at positions 39k–71k (from previous longer requests). Every checkpoint is checked against 19340 and rejected because they're all beyond the new prompt length. Result: 0 usable checkpoints → full reprocess from BOS. 结论是,目前的 llama.cpp+qwen3.6-27B 这个组合,在 Agent 工具这个场景下,性能不可用。 目前此 issues 还是 open 状态,待修复。
在昨天研究 qwen3.6-27B 的优化时,看到了这个问题: server: fix context checkpoint restore for hybrid/recurrent models (DeltaNet/Mamba) 大概意思就是,因为 llama.cpp 的缓存巡回逻辑有问题,导致你 n 次调用大模型( n>1 )时,大概率 llama.cpp 找不到之前的对话,会从头再次 prefill 你的对话全文。 翻译成大白话讲,就是你对一个人,每多说一句话,就要从第一句开始重复一遍。 更为悲惨的是: 在 5 月份,llama.cpp 制作组引入了另外一个 checkpoint 逻辑,使得缓存巡回性能再次下降: Commit e98cb51 经过此帖中大神实测,NVIDIA RTX PRO 6000 Blackwell 在运行 qwen3.6-27B Q8 时,上下文 50K 的长度下,每次请求 LLM 都会浪费 40 秒: 3 consecutive full re-processings logged: ┌───────────┬────────────────────┬───────┐ │ Turn │ Tokens reprocessed │ Time │ ├───────────┼────────────────────┼───────┤ │ Task 2795 │ 67,608 │ 38.4s │ ├───────────┼────────────────────┼───────┤ │ Task 3241 │ 71,211 │ 41.0s │ ├───────────┼────────────────────┼───────┤ │ Task 3401 │ 71,105 │ 41.4s │ └───────────┴────────────────────┴───────┘ Root cause visible in logs: The new prompt is ~19k tokens, but all checkpoints sit at positions 39k–71k (from previous longer requests). Every checkpoint is checked against 19340 and rejected because they're all beyond the new prompt length. Result: 0 usable checkpoints → full reprocess from BOS. 结论是,目前的 llama.cpp+qwen3.6-27B 这个组合,在 Agent 工具这个场景下,性能不可用。 目前此 issues 还是 open 状态,待修复。
在昨天研究 qwen3.6-27B 的优化时,看到了这个问题: server: fix context checkpoint restore for hybrid/recurrent models (DeltaNet/Mamba) 大概意思就是,因为 llama.cpp 的缓存巡回逻辑有问题,导致你 n 次调用大模型( n>1 )时,大概率 llama.cpp 找不到之前的对话,会从头再次 prefill 你的对话全文。 翻译成大白话讲,就是你对一个人,每多说一句话,就要从第一句开始重复一遍。 更为悲惨的是: 在 5 月份,llama.cpp 制作组引入了另外一个 checkpoint 逻辑,使得缓存巡回性能再次下降: Commit e98cb51 经过此帖中大神实测,NVIDIA RTX PRO 6000 Blackwell 在运行 qwen3.6-27B Q8 时,上下文 50K 的长度下,每次请求 LLM 都会浪费 40 秒: 3 consecutive full re-processings logged: ┌───────────┬────────────────────┬───────┐ │ Turn │ Tokens reprocessed │ Time │ ├───────────┼────────────────────┼───────┤ │ Task 2795 │ 67,608 │ 38.4s │ ├───────────┼────────────────────┼───────┤ │ Task 3241 │ 71,211 │ 41.0s │ ├───────────┼────────────────────┼───────┤ │ Task 3401 │ 71,105 │ 41.4s │ └───────────┴────────────────────┴───────┘ Root cause visible in logs: The new prompt is ~19k tokens, but all checkpoints sit at positions 39k–71k (from previous longer requests). Every checkpoint is checked against 19340 and rejected because they're all beyond the new prompt length. Result: 0 usable checkpoints → full reprocess from BOS. 结论是,目前的 llama.cpp+qwen3.6-27B 这个组合,在 Agent 工具这个场景下,性能不可用。 目前此 issues 还是 open 状态,待修复。
在昨天研究 qwen3.6-27B 的优化时,看到了这个问题: server: fix context checkpoint restore for hybrid/recurrent models (DeltaNet/Mamba) 大概意思就是,因为 llama.cpp 的缓存巡回逻辑有问题,导致你 n 次调用大模型( n>1 )时,大概率 llama.cpp 找不到之前的对话,会从头再次 prefill 你的对话全文。 翻译成大白话讲,就是你对一个人,每多说一句话,就要从第一句开始重复一遍。 更为悲惨的是: 在 5 月份,llama.cpp 制作组引入了另外一个 checkpoint 逻辑,使得缓存巡回性能再次下降: Commit e98cb51 经过此帖中大神实测,NVIDIA RTX PRO 6000 Blackwell 在运行 qwen3.6-27B Q8 时,上下文 50K 的长度下,每次请求 LLM 都会浪费 40 秒: 3 consecutive full re-processings logged: ┌───────────┬────────────────────┬───────┐ │ Turn │ Tokens reprocessed │ Time │ ├───────────┼────────────────────┼───────┤ │ Task 2795 │ 67,608 │ 38.4s │ ├───────────┼────────────────────┼───────┤ │ Task 3241 │ 71,211 │ 41.0s │ ├───────────┼────────────────────┼───────┤ │ Task 3401 │ 71,105 │ 41.4s │ └───────────┴────────────────────┴───────┘ Root cause visible in logs: The new prompt is ~19k tokens, but all checkpoints sit at positions 39k–71k (from previous longer requests). Every checkpoint is checked against 19340 and rejected because they're all beyond the new prompt length. Result: 0 usable checkpoints → full reprocess from BOS. 结论是,目前的 llama.cpp+qwen3.6-27B 这个组合,在 Agent 工具这个场景下,性能不可用。 目前此 issues 还是 open 状态,待修复。
在昨天研究 qwen3.6-27B 的优化时,看到了这个问题: server: fix context checkpoint restore for hybrid/recurrent models (DeltaNet/Mamba) 大概意思就是,因为 llama.cpp 的缓存巡回逻辑有问题,导致你 n 次调用大模型( n>1 )时,大概率 llama.cpp 找不到之前的对话,会从头再次 prefill 你的对话全文。 翻译成大白话讲,就是你对一个人,每多说一句话,就要从第一句开始重复一遍。 更为悲惨的是: 在 5 月份,llama.cpp 制作组引入了另外一个 checkpoint 逻辑,使得缓存巡回性能再次下降: Commit e98cb51 经过此帖中大神实测,NVIDIA RTX PRO 6000 Blackwell 在运行 qwen3.6-27B Q8 时,上下文 50K 的长度下,每次请求 LLM 都会浪费 40 秒: 3 consecutive full re-processings logged: ┌───────────┬────────────────────┬───────┐ │ Turn │ Tokens reprocessed │ Time │ ├───────────┼────────────────────┼───────┤ │ Task 2795 │ 67,608 │ 38.4s │ ├───────────┼────────────────────┼───────┤ │ Task 3241 │ 71,211 │ 41.0s │ ├───────────┼────────────────────┼───────┤ │ Task 3401 │ 71,105 │ 41.4s │ └───────────┴────────────────────┴───────┘ Root cause visible in logs: The new prompt is ~19k tokens, but all checkpoints sit at positions 39k–71k (from previous longer requests). Every checkpoint is checked against 19340 and rejected because they're all beyond the new prompt length. Result: 0 usable checkpoints → full reprocess from BOS. 结论是,目前的 llama.cpp+qwen3.6-27B 这个组合,在 Agent 工具这个场景下,性能不可用。 目前此 issues 还是 open 状态,待修复。
在昨天研究 qwen3.6-27B 的优化时,看到了这个问题: server: fix context checkpoint restore for hybrid/recurrent models (DeltaNet/Mamba) 大概意思就是,因为 llama.cpp 的缓存巡回逻辑有问题,导致你 n 次调用大模型( n>1 )时,大概率 llama.cpp 找不到之前的对话,会从头再次 prefill 你的对话全文。 翻译成大白话讲,就是你对一个人,每多说一句话,就要从第一句开始重复一遍。 更为悲惨的是: 在 5 月份,llama.cpp 制作组引入了另外一个 checkpoint 逻辑,使得缓存巡回性能再次下降: Commit e98cb51 经过此帖中大神实测,NVIDIA RTX PRO 6000 Blackwell 在运行 qwen3.6-27B Q8 时,上下文 50K 的长度下,每次请求 LLM 都会浪费 40 秒: 3 consecutive full re-processings logged: ┌───────────┬────────────────────┬───────┐ │ Turn │ Tokens reprocessed │ Time │ ├───────────┼────────────────────┼───────┤ │ Task 2795 │ 67,608 │ 38.4s │ ├───────────┼────────────────────┼───────┤ │ Task 3241 │ 71,211 │ 41.0s │ ├───────────┼────────────────────┼───────┤ │ Task 3401 │ 71,105 │ 41.4s │ └───────────┴────────────────────┴───────┘ Root cause visible in logs: The new prompt is ~19k tokens, but all checkpoints sit at positions 39k–71k (from previous longer requests). Every checkpoint is checked against 19340 and rejected because they're all beyond the new prompt length. Result: 0 usable checkpoints → full reprocess from BOS. 结论是,目前的 llama.cpp+qwen3.6-27B 这个组合,在 Agent 工具这个场景下,性能不可用。 目前此 issues 还是 open 状态,待修复。
我所在公司想做一个智能客服,按照我目前的理解,公司落地智能客服的核心逻辑是“降本增效”与“零门槛”。 但是受限于预算和IT能力,我司不具备自研的能力,想找一个开通即用,能7x24小时自动接待,解决人力短缺问题。 我们想只需导入历史问答和产品手册,即可训练出能解答退换货、发货等高频问题的专属机器人。这样的产品有什么好的推荐嘛,或者开源的软件。大家所在公司是自研还是采购的。 3 个帖子 - 3 位参与者 阅读完整话题
使用火山的都报语音开发了一个ai面试的项目,在对话和打断逻辑上总是不尽如人意,有没有这方面的大佬给小弟一些建议 1 个帖子 - 1 位参与者 阅读完整话题
铜、铝、锌这些吧,逻辑看起来都能讲:降息预期、补库、供给扰动、新能源需求、海外矿端问题。但是现在好像不讲逻辑了。一点风吹草动就大跌 3 个帖子 - 2 位参与者 阅读完整话题
反馈一下论坛的一个不知道算不算 bug 的点: 如果搜索结果按“最新帖子”排序,就不能打开 AI 结果。特别是当搜索结果为空,且选了“最新帖子”排序时,既无法直接打开 AI 结果,也无法修改排序依据。 目前只能先搜索其他有结果的关键词,然后修改排序依据,才能打开 AI 结果,再重新搜索原来搜不到结果的问题。 不知道这样表达得清楚不清楚 4 个帖子 - 3 位参与者 阅读完整话题
像程序员的工作,就很容易复利 比如入职第一年,业务逻辑理解清楚,然后就把框架搭建好,再后续就是在这个框架下持续开发,一年比一年舒服,一年比一年轻松,后续往前看自己的框架设计,都觉得太好了,感谢自己的前瞻性。 我家人比如我老婆,她以前的几份工作她都没有一个复利的思维,比如她做过会计,做过猎头, 但是这种工作,就没有复利性,会计每天都是大量的财务报表要计算,要处理 猎头招聘到一个人后,后续还要继续招人,这种工作我判断无复利的工作。当然经验可能会增加一些。 我的建议是,应该做那种比如客户跟单,或者运营,或者管理,而不要做无复利的工作。 这样自己的一生才能越来越幸运,越来越幸福。
像程序员的工作,就很容易复利 比如入职第一年,业务逻辑理解清楚,然后就把框架搭建好,再后续就是在这个框架下持续开发,一年比一年舒服,一年比一年轻松,后续往前看自己的框架设计,都觉得太好了,感谢自己的前瞻性。 我家人比如我老婆,她以前的几份工作她都没有一个复利的思维,比如她做过会计,做过猎头, 但是这种工作,就没有复利性,会计每天都是大量的财务报表要计算,要处理 猎头招聘到一个人后,后续还要继续招人,这种工作我判断无复利的工作。当然经验可能会增加一些。 我的建议是,应该做那种比如客户跟单,或者运营,或者管理,而不要做无复利的工作。 这样自己的一生才能越来越幸运,越来越幸福。
像程序员的工作,就很容易复利 比如入职第一年,业务逻辑理解清楚,然后就把框架搭建好,再后续就是在这个框架下持续开发,一年比一年舒服,一年比一年轻松,后续往前看自己的框架设计,都觉得太好了,感谢自己的前瞻性。 我家人比如我老婆,她以前的几份工作她都没有一个复利的思维,比如她做过会计,做过猎头, 但是这种工作,就没有复利性,会计每天都是大量的财务报表要计算,要处理 猎头招聘到一个人后,后续还要继续招人,这种工作我判断无复利的工作。当然经验可能会增加一些。 我的建议是,应该做那种比如客户跟单,或者运营,或者管理,而不要做无复利的工作。 这样自己的一生才能越来越幸运,越来越幸福。
经过测试,官方没有修改任何后端逻辑,只是封号的速度加快了,但是只要产的快,一个号活 30分钟-1 个小时,理论上还是无限 9 个帖子 - 8 位参与者 阅读完整话题
比较习惯 JetBrains 的 git 提交逻辑,但是 VSCode 上没找到类似的,于是 Vibe Coding 了一个,已上架插件商店 GitConstellation https://marketplace.visualstudio.com/items?itemName=flybugxyz.vscode-git-constellation
比较习惯 JetBrains 的 git 提交逻辑,但是 VSCode 上没找到类似的,于是 Vibe Coding 了一个,已上架插件商店 GitConstellation https://marketplace.visualstudio.com/items?itemName=flybugxyz.vscode-git-constellation
比较习惯 JetBrains 的 git 提交逻辑,但是 VSCode 上没找到类似的,于是 Vibe Coding 了一个,已上架插件商店 GitConstellation https://marketplace.visualstudio.com/items?itemName=flybugxyz.vscode-git-constellation
ST的炒作逻辑是啥,有没有这个赛道里玩的好的,交流交流,看看这只怎么样,准备上车拿已到2周。会有好结果吗? 11 个帖子 - 8 位参与者 阅读完整话题