比如 - WWW.YOUINFO.SITE - WWW.YOUINFO.SITE

LinuxDo 最新话题 · 2026-06-12 11:51:52+08:00 · tech

我已经被封了 3个 Pro / 1个 Max 5x 账号了。后续肯定还是会开 Claude 号，就想咨询下佬友不封号的技巧。最开始本地使用 Claude Code，可能封号原因：有时会忘记挂代理漏 IP 了后面挂过自建中转站 + 两人拼车，可能封号原因：中转站 + 拼车？目前想尝试下在 VPS 上安装 Claude Code 然后走官方登录（当然出口会配置美国家宽代理落地的），本地远程到 VPS 上使用这个 Claude Code，有佬友这样用过吗？ 1 个帖子 - 1 位参与者阅读完整话题

lama.cpp 目前有重大性能 bug： checkpoint 的巡回逻辑对于混合模型（比如 qwen3.6-27B）无效，从而导致大概率每次对话都要 prefill 全文，严重拖慢速度

V2EX - 技术 · 2026-06-12 11:37:58+08:00 · tech

在昨天研究 qwen3.6-27B 的优化时，看到了这个问题： server: fix context checkpoint restore for hybrid/recurrent models (DeltaNet/Mamba) 大概意思就是，因为 llama.cpp 的缓存巡回逻辑有问题，导致你 n 次调用大模型（ n>1 ）时，大概率 llama.cpp 找不到之前的对话，会从头再次 prefill 你的对话全文。翻译成大白话讲，就是你对一个人，每多说一句话，就要从第一句开始重复一遍。更为悲惨的是：在 5 月份，llama.cpp 制作组引入了另外一个 checkpoint 逻辑，使得缓存巡回性能再次下降： Commit e98cb51 经过此帖中大神实测，NVIDIA RTX PRO 6000 Blackwell 在运行 qwen3.6-27B Q8 时，上下文 50K 的长度下，每次请求 LLM 都会浪费 40 秒： 3 consecutive full re-processings logged: ┌───────────┬────────────────────┬───────┐ │ Turn │ Tokens reprocessed │ Time │ ├───────────┼────────────────────┼───────┤ │ Task 2795 │ 67,608 │ 38.4s │ ├───────────┼────────────────────┼───────┤ │ Task 3241 │ 71,211 │ 41.0s │ ├───────────┼────────────────────┼───────┤ │ Task 3401 │ 71,105 │ 41.4s │ └───────────┴────────────────────┴───────┘ Root cause visible in logs: The new prompt is ~19k tokens, but all checkpoints sit at positions 39k–71k (from previous longer requests). Every checkpoint is checked against 19340 and rejected because they're all beyond the new prompt length. Result: 0 usable checkpoints → full reprocess from BOS. 结论是，目前的 llama.cpp+qwen3.6-27B 这个组合，在 Agent 工具这个场景下，性能不可用。目前此 issues 还是 open 状态，待修复。

lama.cpp 目前有重大性能 bug： checkpoint 的巡回逻辑对于混合模型（比如 qwen3.6-27B）无效，从而导致大概率每次对话都要 prefill 全文，严重拖慢速度

V2EX - 技术 · 2026-06-12 11:16:28+08:00 · tech

在昨天研究 qwen3.6-27B 的优化时，看到了这个问题： server: fix context checkpoint restore for hybrid/recurrent models (DeltaNet/Mamba) 大概意思就是，因为 llama.cpp 的缓存巡回逻辑有问题，导致你 n 次调用大模型（ n>1 ）时，大概率 llama.cpp 找不到之前的对话，会从头再次 prefill 你的对话全文。翻译成大白话讲，就是你对一个人，每多说一句话，就要从第一句开始重复一遍。更为悲惨的是：在 5 月份，llama.cpp 制作组引入了另外一个 checkpoint 逻辑，使得缓存巡回性能再次下降： Commit e98cb51 经过此帖中大神实测，NVIDIA RTX PRO 6000 Blackwell 在运行 qwen3.6-27B Q8 时，上下文 50K 的长度下，每次请求 LLM 都会浪费 40 秒： 3 consecutive full re-processings logged: ┌───────────┬────────────────────┬───────┐ │ Turn │ Tokens reprocessed │ Time │ ├───────────┼────────────────────┼───────┤ │ Task 2795 │ 67,608 │ 38.4s │ ├───────────┼────────────────────┼───────┤ │ Task 3241 │ 71,211 │ 41.0s │ ├───────────┼────────────────────┼───────┤ │ Task 3401 │ 71,105 │ 41.4s │ └───────────┴────────────────────┴───────┘ Root cause visible in logs: The new prompt is ~19k tokens, but all checkpoints sit at positions 39k–71k (from previous longer requests). Every checkpoint is checked against 19340 and rejected because they're all beyond the new prompt length. Result: 0 usable checkpoints → full reprocess from BOS. 结论是，目前的 llama.cpp+qwen3.6-27B 这个组合，在 Agent 工具这个场景下，性能不可用。目前此 issues 还是 open 状态，待修复。

lama.cpp 目前有重大性能 bug： checkpoint 的巡回逻辑对于混合模型（比如 qwen3.6-27B）无效，从而导致大概率每次对话都要 prefill 全文，严重拖慢速度

V2EX - 技术 · 2026-06-12 10:38:35+08:00 · tech

在昨天研究 qwen3.6-27B 的优化时，看到了这个问题： server: fix context checkpoint restore for hybrid/recurrent models (DeltaNet/Mamba) 大概意思就是，因为 llama.cpp 的缓存巡回逻辑有问题，导致你 n 次调用大模型（ n>1 ）时，大概率 llama.cpp 找不到之前的对话，会从头再次 prefill 你的对话全文。翻译成大白话讲，就是你对一个人，每多说一句话，就要从第一句开始重复一遍。更为悲惨的是：在 5 月份，llama.cpp 制作组引入了另外一个 checkpoint 逻辑，使得缓存巡回性能再次下降： Commit e98cb51 经过此帖中大神实测，NVIDIA RTX PRO 6000 Blackwell 在运行 qwen3.6-27B Q8 时，上下文 50K 的长度下，每次请求 LLM 都会浪费 40 秒： 3 consecutive full re-processings logged: ┌───────────┬────────────────────┬───────┐ │ Turn │ Tokens reprocessed │ Time │ ├───────────┼────────────────────┼───────┤ │ Task 2795 │ 67,608 │ 38.4s │ ├───────────┼────────────────────┼───────┤ │ Task 3241 │ 71,211 │ 41.0s │ ├───────────┼────────────────────┼───────┤ │ Task 3401 │ 71,105 │ 41.4s │ └───────────┴────────────────────┴───────┘ Root cause visible in logs: The new prompt is ~19k tokens, but all checkpoints sit at positions 39k–71k (from previous longer requests). Every checkpoint is checked against 19340 and rejected because they're all beyond the new prompt length. Result: 0 usable checkpoints → full reprocess from BOS. 结论是，目前的 llama.cpp+qwen3.6-27B 这个组合，在 Agent 工具这个场景下，性能不可用。目前此 issues 还是 open 状态，待修复。

[Wunder] V2EX 的 LLM Chat 实现了一个记忆读写系统

v2ex · 2026-06-12 10:27:35+08:00 · tech

比如你可以这样初始化它，对它说：为了让你更好地了解我，你可以向我提 3 个问题，然后你使用新的记忆系统记住要点 https://edge.v2ex.com/chat/cb5df2a2fb944771b534af4e22fe171e 然后就可以让它根据你的喜好来回答或者推荐内容：根据你对我的了解，向我推荐最近的新内容 https://edge.v2ex.com/chat/efa44e01127a4ebb94447ab93ba5be56

为啥大家不用镜像站啊，论文这些

LinuxDo 最新话题 · 2026-06-12 10:20:39+08:00 · tech

想请问一下大家为啥不用镜像站了，比如Claude这些，虽然api能调用的更多，但是消费不是也高么，我之前写论文用的是网页版本的gpt，改好几天，我感觉同样的要求，让apI的花费会特别高，现在想试试肥波，还是写论文用，镜像站划算么，也是100多一个月，或者有佬有啥好的建议么 8 个帖子 - 3 位参与者阅读完整话题

lama.cpp 目前有重大性能 bug： checkpoint 的巡回逻辑对于混合模型（比如 qwen3.6-27B）无效，从而导致大概率每次对话都要 prefill 全文，严重拖慢速度

V2EX - 技术 · 2026-06-12 10:17:36+08:00 · tech

在昨天研究 qwen3.6-27B 的优化时，看到了这个问题： server: fix context checkpoint restore for hybrid/recurrent models (DeltaNet/Mamba) 大概意思就是，因为 llama.cpp 的缓存巡回逻辑有问题，导致你 n 次调用大模型（ n>1 ）时，大概率 llama.cpp 找不到之前的对话，会从头再次 prefill 你的对话全文。翻译成大白话讲，就是你对一个人，每多说一句话，就要从第一句开始重复一遍。更为悲惨的是：在 5 月份，llama.cpp 制作组引入了另外一个 checkpoint 逻辑，使得缓存巡回性能再次下降： Commit e98cb51 经过此帖中大神实测，NVIDIA RTX PRO 6000 Blackwell 在运行 qwen3.6-27B Q8 时，上下文 50K 的长度下，每次请求 LLM 都会浪费 40 秒： 3 consecutive full re-processings logged: ┌───────────┬────────────────────┬───────┐ │ Turn │ Tokens reprocessed │ Time │ ├───────────┼────────────────────┼───────┤ │ Task 2795 │ 67,608 │ 38.4s │ ├───────────┼────────────────────┼───────┤ │ Task 3241 │ 71,211 │ 41.0s │ ├───────────┼────────────────────┼───────┤ │ Task 3401 │ 71,105 │ 41.4s │ └───────────┴────────────────────┴───────┘ Root cause visible in logs: The new prompt is ~19k tokens, but all checkpoints sit at positions 39k–71k (from previous longer requests). Every checkpoint is checked against 19340 and rejected because they're all beyond the new prompt length. Result: 0 usable checkpoints → full reprocess from BOS. 结论是，目前的 llama.cpp+qwen3.6-27B 这个组合，在 Agent 工具这个场景下，性能不可用。目前此 issues 还是 open 状态，待修复。

lama.cpp 目前有重大性能 bug： checkpoint 的巡回逻辑对于混合模型（比如 qwen3.6-27B）无效，从而导致大概率每次对话都要 prefill 全文，严重拖慢速度

V2EX - 技术 · 2026-06-12 10:04:55+08:00 · tech

在昨天研究 qwen3.6-27B 的优化时，看到了这个问题： server: fix context checkpoint restore for hybrid/recurrent models (DeltaNet/Mamba) 大概意思就是，因为 llama.cpp 的缓存巡回逻辑有问题，导致你 n 次调用大模型（ n>1 ）时，大概率 llama.cpp 找不到之前的对话，会从头再次 prefill 你的对话全文。翻译成大白话讲，就是你对一个人，每多说一句话，就要从第一句开始重复一遍。更为悲惨的是：在 5 月份，llama.cpp 制作组引入了另外一个 checkpoint 逻辑，使得缓存巡回性能再次下降： Commit e98cb51 经过此帖中大神实测，NVIDIA RTX PRO 6000 Blackwell 在运行 qwen3.6-27B Q8 时，上下文 50K 的长度下，每次请求 LLM 都会浪费 40 秒： 3 consecutive full re-processings logged: ┌───────────┬────────────────────┬───────┐ │ Turn │ Tokens reprocessed │ Time │ ├───────────┼────────────────────┼───────┤ │ Task 2795 │ 67,608 │ 38.4s │ ├───────────┼────────────────────┼───────┤ │ Task 3241 │ 71,211 │ 41.0s │ ├───────────┼────────────────────┼───────┤ │ Task 3401 │ 71,105 │ 41.4s │ └───────────┴────────────────────┴───────┘ Root cause visible in logs: The new prompt is ~19k tokens, but all checkpoints sit at positions 39k–71k (from previous longer requests). Every checkpoint is checked against 19340 and rejected because they're all beyond the new prompt length. Result: 0 usable checkpoints → full reprocess from BOS. 结论是，目前的 llama.cpp+qwen3.6-27B 这个组合，在 Agent 工具这个场景下，性能不可用。目前此 issues 还是 open 状态，待修复。

[Local LLM] lama.cpp 目前有重大性能 bug： checkpoint 的巡回逻辑对于混合模型（比如 qwen3.6-27B）无效，从而导致大概率每次对话都要 prefill 全文，严重拖慢速度

v2ex · 2026-06-12 10:04:55+08:00 · tech

在昨天研究 qwen3.6-27B 的优化时，看到了这个问题： server: fix context checkpoint restore for hybrid/recurrent models (DeltaNet/Mamba) 大概意思就是，因为 llama.cpp 的缓存巡回逻辑有问题，导致你 n 次调用大模型（ n>1 ）时，大概率 llama.cpp 找不到之前的对话，会从头再次 prefill 你的对话全文。翻译成大白话讲，就是你对一个人，每多说一句话，就要从第一句开始重复一遍。更为悲惨的是：在 5 月份，llama.cpp 制作组引入了另外一个 checkpoint 逻辑，使得缓存巡回性能再次下降： Commit e98cb51 经过此帖中大神实测，NVIDIA RTX PRO 6000 Blackwell 在运行 qwen3.6-27B Q8 时，上下文 50K 的长度下，每次请求 LLM 都会浪费 40 秒： 3 consecutive full re-processings logged: ┌───────────┬────────────────────┬───────┐ │ Turn │ Tokens reprocessed │ Time │ ├───────────┼────────────────────┼───────┤ │ Task 2795 │ 67,608 │ 38.4s │ ├───────────┼────────────────────┼───────┤ │ Task 3241 │ 71,211 │ 41.0s │ ├───────────┼────────────────────┼───────┤ │ Task 3401 │ 71,105 │ 41.4s │ └───────────┴────────────────────┴───────┘ Root cause visible in logs: The new prompt is ~19k tokens, but all checkpoints sit at positions 39k–71k (from previous longer requests). Every checkpoint is checked against 19340 and rejected because they're all beyond the new prompt length. Result: 0 usable checkpoints → full reprocess from BOS. 结论是，目前的 llama.cpp+qwen3.6-27B 这个组合，在 Agent 工具这个场景下，性能不可用。目前此 issues 还是 open 状态，待修复。

lama.cpp 目前有重大性能 bug： checkpoint 的巡回逻辑对于混合模型（比如 qwen3.6-27B）无效，从而导致大概率每次对话都要 prefill 全文，严重拖慢速度

V2EX - 技术 · 2026-06-12 09:54:53+08:00 · tech

在昨天研究 qwen3.6-27B 的优化时，看到了这个问题： server: fix context checkpoint restore for hybrid/recurrent models (DeltaNet/Mamba) 大概意思就是，因为 llama.cpp 的缓存巡回逻辑有问题，导致你 n 次调用大模型（ n>1 ）时，大概率 llama.cpp 找不到之前的对话，会从头再次 prefill 你的对话全文。翻译成大白话讲，就是你对一个人，每多说一句话，就要从第一句开始重复一遍。更为悲惨的是：在 5 月份，llama.cpp 制作组引入了另外一个 checkpoint 逻辑，使得缓存巡回性能再次下降： Commit e98cb51 经过此帖中大神实测，NVIDIA RTX PRO 6000 Blackwell 在运行 qwen3.6-27B Q8 时，上下文 50K 的长度下，每次请求 LLM 都会浪费 40 秒： 3 consecutive full re-processings logged: ┌───────────┬────────────────────┬───────┐ │ Turn │ Tokens reprocessed │ Time │ ├───────────┼────────────────────┼───────┤ │ Task 2795 │ 67,608 │ 38.4s │ ├───────────┼────────────────────┼───────┤ │ Task 3241 │ 71,211 │ 41.0s │ ├───────────┼────────────────────┼───────┤ │ Task 3401 │ 71,105 │ 41.4s │ └───────────┴────────────────────┴───────┘ Root cause visible in logs: The new prompt is ~19k tokens, but all checkpoints sit at positions 39k–71k (from previous longer requests). Every checkpoint is checked against 19340 and rejected because they're all beyond the new prompt length. Result: 0 usable checkpoints → full reprocess from BOS. 结论是，目前的 llama.cpp+qwen3.6-27B 这个组合，在 Agent 工具这个场景下，性能不可用。目前此 issues 还是 open 状态，待修复。

[Local LLM] lama.cpp 目前有重大性能 bug： checkpoint 的巡回逻辑对于混合模型（比如 qwen3.6-27B）无效，从而导致大概率每次对话都要 prefill 全文，严重拖慢速度

v2ex · 2026-06-12 09:54:53+08:00 · tech

在昨天研究 qwen3.6-27B 的优化时，看到了这个问题： server: fix context checkpoint restore for hybrid/recurrent models (DeltaNet/Mamba) 大概意思就是，因为 llama.cpp 的缓存巡回逻辑有问题，导致你 n 次调用大模型（ n>1 ）时，大概率 llama.cpp 找不到之前的对话，会从头再次 prefill 你的对话全文。翻译成大白话讲，就是你对一个人，每多说一句话，就要从第一句开始重复一遍。更为悲惨的是：在 5 月份，llama.cpp 制作组引入了另外一个 checkpoint 逻辑，使得缓存巡回性能再次下降： Commit e98cb51 经过此帖中大神实测，NVIDIA RTX PRO 6000 Blackwell 在运行 qwen3.6-27B Q8 时，上下文 50K 的长度下，每次请求 LLM 都会浪费 40 秒： 3 consecutive full re-processings logged: ┌───────────┬────────────────────┬───────┐ │ Turn │ Tokens reprocessed │ Time │ ├───────────┼────────────────────┼───────┤ │ Task 2795 │ 67,608 │ 38.4s │ ├───────────┼────────────────────┼───────┤ │ Task 3241 │ 71,211 │ 41.0s │ ├───────────┼────────────────────┼───────┤ │ Task 3401 │ 71,105 │ 41.4s │ └───────────┴────────────────────┴───────┘ Root cause visible in logs: The new prompt is ~19k tokens, but all checkpoints sit at positions 39k–71k (from previous longer requests). Every checkpoint is checked against 19340 and rejected because they're all beyond the new prompt length. Result: 0 usable checkpoints → full reprocess from BOS. 结论是，目前的 llama.cpp+qwen3.6-27B 这个组合，在 Agent 工具这个场景下，性能不可用。目前此 issues 还是 open 状态，待修复。

如何让 ai 更会写测试（求答与讨论）

LinuxDo 最新话题 · 2026-06-12 09:49:34+08:00 · tech

让 ai 写测试总是会出现这些问题： 1、错误的断言数据，比如会猜测某个字段的实际情况去错误断言，基于这个错误断言写出来的逻辑也会错误，从而出现：测试 ok，正式运行寄了 2、懒惰不堪，测试用例懒得写，覆盖不完整，想的不够边界 3、瞎几把测试无用的逻辑或断言，浪费 Token 写出一些没必要的测试，如测试常量返回（我都写常量了你测个 damn，改个常量值测试也得崩），也就是不去测真正的业务逻辑 4、部分情况会出现在测试中复写业务逻辑，而不是进行导入使用（天啊，到时候业务改一下，测试一直不过，留个坑在那）基于以上发现，我让 ai 给的提示词规则为： # AI 测试编写约束规则 ## 1. 断言数据准则 - **禁止猜测数据**：不确定的字段值必须先读取代码确认，或明确标注 - **使用真实数据源**：优先从代码中提取常量、类型定义、实际返回值 - **验证而非假设**：对不确定的业务逻辑，先问用户确认预期行为 ## 2. 覆盖率要求必须覆盖： - **边界条件**：空值、null、undefined、空数组/对象、极值 - **错误路径**：异常抛出、错误返回、失败分支 - **核心业务分支**：if/else、switch 的主要路径禁止遗漏： - 必须至少包含 1 个成功用例 + 1 个失败/边界用例 - 对于有明显分支的函数（如有 3+ 个 if），需覆盖每个分支 ## 3. 避免无效测试 **不要测试的内容**： - 常量的值（`const MAX = 100` 不需要测 `expect(MAX).toBe(100)`） - 第三方库的行为（除非是 mock 验证） - 纯类型定义（TypeScript 类型检查已覆盖） - getter/setter 无逻辑的直接赋值取值 **应该测试的内容**： - 包含计算、转换、判断的业务逻辑 - 数据处理流程（输入 → 处理 → 输出） - 副作用：API 调用、数据库操作、状态变更（通过 mock 验证） ## 4. 复用业务代码 - **绝对禁止**：在测试中重写业务逻辑实现 - **必须导入**：直接 import 被测函数、工具函数、常量不知道各位有没有更好的 rule 和相关处理方案呢 1 个帖子 - 1 位参与者阅读完整话题

lama.cpp 目前有重大性能 bug： checkpoint 的巡回逻辑对于混合模型（比如 qwen3.6-27B）无效，从而导致大概率每次对话都要 prefill 全文，严重拖慢速度

V2EX - 技术 · 2026-06-12 09:35:47+08:00 · tech

在昨天研究 qwen3.6-27B 的优化时，看到了这个问题： server: fix context checkpoint restore for hybrid/recurrent models (DeltaNet/Mamba) 大概意思就是，因为 llama.cpp 的缓存巡回逻辑有问题，导致你 n 次调用大模型（ n>1 ）时，大概率 llama.cpp 找不到之前的对话，会从头再次 prefill 你的对话全文。翻译成大白话讲，就是你对一个人，每多说一句话，就要从第一句开始重复一遍。更为悲惨的是：在 5 月份，llama.cpp 制作组引入了另外一个 checkpoint 逻辑，使得缓存巡回性能再次下降： Commit e98cb51 经过此帖中大神实测，NVIDIA RTX PRO 6000 Blackwell 在运行 qwen3.6-27B Q8 时，上下文 50K 的长度下，每次请求 LLM 都会浪费 40 秒： 3 consecutive full re-processings logged: ┌───────────┬────────────────────┬───────┐ │ Turn │ Tokens reprocessed │ Time │ ├───────────┼────────────────────┼───────┤ │ Task 2795 │ 67,608 │ 38.4s │ ├───────────┼────────────────────┼───────┤ │ Task 3241 │ 71,211 │ 41.0s │ ├───────────┼────────────────────┼───────┤ │ Task 3401 │ 71,105 │ 41.4s │ └───────────┴────────────────────┴───────┘ Root cause visible in logs: The new prompt is ~19k tokens, but all checkpoints sit at positions 39k–71k (from previous longer requests). Every checkpoint is checked against 19340 and rejected because they're all beyond the new prompt length. Result: 0 usable checkpoints → full reprocess from BOS. 结论是，目前的 llama.cpp+qwen3.6-27B 这个组合，在 Agent 工具这个场景下，性能不可用。目前此 issues 还是 open 状态，待修复。

[Local LLM] lama.cpp 目前有重大性能 bug： checkpoint 的巡回逻辑对于混合模型（比如 qwen3.6-27B）无效，从而导致大概率每次对话都要 prefill 全文，严重拖慢速度

v2ex · 2026-06-12 09:32:36+08:00 · tech

在昨天研究 qwen3.6-27B 的优化时，看到了这个问题： server: fix context checkpoint restore for hybrid/recurrent models (DeltaNet/Mamba) 大概意思就是，因为 llama.cpp 的缓存巡回逻辑有问题，导致你 n 次调用大模型（ n>1 ）时，大概率 llama.cpp 找不到之前的对话，会从头再次 prefill 你的对话全文。翻译成大白话讲，就是你对一个人，每多说一句话，就要从第一句开始重复一遍。更为悲惨的是：在 5 月份，llama.cpp 制作组引入了另外一个 checkpoint 逻辑，使得缓存巡回性能再次下降： Commit e98cb51 经过此帖中大神实测，NVIDIA RTX PRO 6000 Blackwell 在运行 qwen3.6-27B Q8 时，上下文 50K 的长度下，每次请求 LLM 都会浪费 40 秒： 3 consecutive full re-processings logged: ┌───────────┬────────────────────┬───────┐ │ Turn │ Tokens reprocessed │ Time │ ├───────────┼────────────────────┼───────┤ │ Task 2795 │ 67,608 │ 38.4s │ ├───────────┼────────────────────┼───────┤ │ Task 3241 │ 71,211 │ 41.0s │ ├───────────┼────────────────────┼───────┤ │ Task 3401 │ 71,105 │ 41.4s │ └───────────┴────────────────────┴───────┘ Root cause visible in logs: The new prompt is ~19k tokens, but all checkpoints sit at positions 39k–71k (from previous longer requests). Every checkpoint is checked against 19340 and rejected because they're all beyond the new prompt length. Result: 0 usable checkpoints → full reprocess from BOS. 结论是，目前的 llama.cpp+qwen3.6-27B 这个组合，在 Agent 工具这个场景下，性能不可用。目前此 issues 还是 open 状态，待修复。

加密勒索病毒有针对的防护手段吗比如检测到异常大量读写直接拦截之类的？

LinuxDo 最新话题 · 2026-06-12 09:30:36+08:00 · tech

近期看到佬友用AI中招实在是怕了 AI权限太高了搞不好哪天也中了 1 个帖子 - 1 位参与者阅读完整话题

lama.cpp 目前有重大性能 bug： checkpoint 的巡回逻辑对于混合模型（比如 qwen3.6-27B）无效，从而导致大概率每次对话都要 prefill 全文，严重拖慢速度

V2EX - 技术 · 2026-06-12 09:26:27+08:00 · tech

在昨天研究 qwen3.6-27B 的优化时，看到了这个问题： server: fix context checkpoint restore for hybrid/recurrent models (DeltaNet/Mamba) 大概意思就是，因为 llama.cpp 的缓存巡回逻辑有问题，导致你 n 次调用大模型（ n>1 ）时，大概率 llama.cpp 找不到之前的对话，会从头再次 prefill 你的对话全文。翻译成大白话讲，就是你对一个人，每多说一句话，就要从第一句开始重复一遍。更为悲惨的是：在 5 月份，llama.cpp 制作组引入了另外一个 checkpoint 逻辑，使得缓存巡回性能再次下降： Commit e98cb51 经过此帖中大神实测，NVIDIA RTX PRO 6000 Blackwell 在运行 qwen3.6-27B Q8 时，上下文 50K 的长度下，每次请求 LLM 都会浪费 40 秒： 3 consecutive full re-processings logged: ┌───────────┬────────────────────┬───────┐ │ Turn │ Tokens reprocessed │ Time │ ├───────────┼────────────────────┼───────┤ │ Task 2795 │ 67,608 │ 38.4s │ ├───────────┼────────────────────┼───────┤ │ Task 3241 │ 71,211 │ 41.0s │ ├───────────┼────────────────────┼───────┤ │ Task 3401 │ 71,105 │ 41.4s │ └───────────┴────────────────────┴───────┘ Root cause visible in logs: The new prompt is ~19k tokens, but all checkpoints sit at positions 39k–71k (from previous longer requests). Every checkpoint is checked against 19340 and rejected because they're all beyond the new prompt length. Result: 0 usable checkpoints → full reprocess from BOS. 结论是，目前的 llama.cpp+qwen3.6-27B 这个组合，在 Agent 工具这个场景下，性能不可用。目前此 issues 还是 open 状态，待修复。

有人能把原生AI供应商的订阅下游一次性讲清楚么？

LinuxDo 最新话题 · 2026-06-12 00:47:44+08:00 · tech

比如我从Anthropic订阅了它的API，现在我有了一个账号、有订阅。我听到AI拼车、家宽车队等等，这些词很陌生不知道是什么，但我推理它应该是把这个订阅分给多个人用的意思。有懂的佬一次奖清楚么？例如：这一个订阅有多少种玩法，每种都是怎么玩的。 20 个帖子 - 10 位参与者阅读完整话题

新价比如何？感觉很抽象

LinuxDo 最新话题 · 2026-06-11 21:23:25+08:00 · tech

这个是100ldc的（用完了）这个是150ldc的自己寻思这差了多少token吧 1 个帖子 - 1 位参与者阅读完整话题

今晚gpt5.6能不能来

LinuxDo 最新话题 · 2026-06-11 21:21:11+08:00 · tech

感觉不会，估计下周了吧？目前还没症状要来，比如大批量封号，降智，连不上之类的。 21 个帖子 - 20 位参与者阅读完整话题

某些中转站有生图api 可以该怎么用

LinuxDo 最新话题 · 2026-06-11 21:15:36+08:00 · tech

如题我把中转站的api 比如gpt-image 放在那使用？有没有佬友解答一下 4 个帖子 - 4 位参与者阅读完整话题

/tag/比如