WWW.YOUINFO.SITE
标签聚合 we

/tag/we

LinuxDo 最新话题 · 2026-06-12 09:51:36+08:00 · tech

从 关于反代 ChatGPT 网页 Pro 模型的降智问题 继续讨论。 目前我怀疑降智的原因只剩下两个:一个是 IP 的问题,一个是使用量过大的问题。 目前我的 Pro 模型使用量大概是一天 50 次左右,我用的是 Pro 20x。我现在的情况是,两并发就会降智,一并发偶尔也会降智。 所以我想问问其他的佬友,高强度使用会不会也遇到降智的情况(就在 IP 特别稳定的情况下)? 补充一下,我试了香港、台湾还有美国的真家宽,都无一例外地有降智的情况,但是我也没法排除不是 IP 的问题,因为我不知道是不是我的几个 IP 都被 OpenAI 标记了,之前有过自动化的操作。 1 个帖子 - 1 位参与者 阅读完整话题

V2EX - 技术 · 2026-06-12 09:35:47+08:00 · tech

在昨天研究 qwen3.6-27B 的优化时,看到了这个问题: server: fix context checkpoint restore for hybrid/recurrent models (DeltaNet/Mamba) 大概意思就是,因为 llama.cpp 的缓存巡回逻辑有问题,导致你 n 次调用大模型( n>1 )时,大概率 llama.cpp 找不到之前的对话,会从头再次 prefill 你的对话全文。 翻译成大白话讲,就是你对一个人,每多说一句话,就要从第一句开始重复一遍。 更为悲惨的是: 在 5 月份,llama.cpp 制作组引入了另外一个 checkpoint 逻辑,使得缓存巡回性能再次下降: Commit e98cb51 经过此帖中大神实测,NVIDIA RTX PRO 6000 Blackwell 在运行 qwen3.6-27B Q8 时,上下文 50K 的长度下,每次请求 LLM 都会浪费 40 秒: 3 consecutive full re-processings logged: ┌───────────┬────────────────────┬───────┐ │ Turn │ Tokens reprocessed │ Time │ ├───────────┼────────────────────┼───────┤ │ Task 2795 │ 67,608 │ 38.4s │ ├───────────┼────────────────────┼───────┤ │ Task 3241 │ 71,211 │ 41.0s │ ├───────────┼────────────────────┼───────┤ │ Task 3401 │ 71,105 │ 41.4s │ └───────────┴────────────────────┴───────┘ Root cause visible in logs: The new prompt is ~19k tokens, but all checkpoints sit at positions 39k–71k (from previous longer requests). Every checkpoint is checked against 19340 and rejected because they're all beyond the new prompt length. Result: 0 usable checkpoints → full reprocess from BOS. 结论是,目前的 llama.cpp+qwen3.6-27B 这个组合,在 Agent 工具这个场景下,性能不可用。 目前此 issues 还是 open 状态,待修复。

v2ex · 2026-06-12 09:32:36+08:00 · tech

在昨天研究 qwen3.6-27B 的优化时,看到了这个问题: server: fix context checkpoint restore for hybrid/recurrent models (DeltaNet/Mamba) 大概意思就是,因为 llama.cpp 的缓存巡回逻辑有问题,导致你 n 次调用大模型( n>1 )时,大概率 llama.cpp 找不到之前的对话,会从头再次 prefill 你的对话全文。 翻译成大白话讲,就是你对一个人,每多说一句话,就要从第一句开始重复一遍。 更为悲惨的是: 在 5 月份,llama.cpp 制作组引入了另外一个 checkpoint 逻辑,使得缓存巡回性能再次下降: Commit e98cb51 经过此帖中大神实测,NVIDIA RTX PRO 6000 Blackwell 在运行 qwen3.6-27B Q8 时,上下文 50K 的长度下,每次请求 LLM 都会浪费 40 秒: 3 consecutive full re-processings logged: ┌───────────┬────────────────────┬───────┐ │ Turn │ Tokens reprocessed │ Time │ ├───────────┼────────────────────┼───────┤ │ Task 2795 │ 67,608 │ 38.4s │ ├───────────┼────────────────────┼───────┤ │ Task 3241 │ 71,211 │ 41.0s │ ├───────────┼────────────────────┼───────┤ │ Task 3401 │ 71,105 │ 41.4s │ └───────────┴────────────────────┴───────┘ Root cause visible in logs: The new prompt is ~19k tokens, but all checkpoints sit at positions 39k–71k (from previous longer requests). Every checkpoint is checked against 19340 and rejected because they're all beyond the new prompt length. Result: 0 usable checkpoints → full reprocess from BOS. 结论是,目前的 llama.cpp+qwen3.6-27B 这个组合,在 Agent 工具这个场景下,性能不可用。 目前此 issues 还是 open 状态,待修复。

V2EX - 技术 · 2026-06-12 09:26:27+08:00 · tech

在昨天研究 qwen3.6-27B 的优化时,看到了这个问题: server: fix context checkpoint restore for hybrid/recurrent models (DeltaNet/Mamba) 大概意思就是,因为 llama.cpp 的缓存巡回逻辑有问题,导致你 n 次调用大模型( n>1 )时,大概率 llama.cpp 找不到之前的对话,会从头再次 prefill 你的对话全文。 翻译成大白话讲,就是你对一个人,每多说一句话,就要从第一句开始重复一遍。 更为悲惨的是: 在 5 月份,llama.cpp 制作组引入了另外一个 checkpoint 逻辑,使得缓存巡回性能再次下降: Commit e98cb51 经过此帖中大神实测,NVIDIA RTX PRO 6000 Blackwell 在运行 qwen3.6-27B Q8 时,上下文 50K 的长度下,每次请求 LLM 都会浪费 40 秒: 3 consecutive full re-processings logged: ┌───────────┬────────────────────┬───────┐ │ Turn │ Tokens reprocessed │ Time │ ├───────────┼────────────────────┼───────┤ │ Task 2795 │ 67,608 │ 38.4s │ ├───────────┼────────────────────┼───────┤ │ Task 3241 │ 71,211 │ 41.0s │ ├───────────┼────────────────────┼───────┤ │ Task 3401 │ 71,105 │ 41.4s │ └───────────┴────────────────────┴───────┘ Root cause visible in logs: The new prompt is ~19k tokens, but all checkpoints sit at positions 39k–71k (from previous longer requests). Every checkpoint is checked against 19340 and rejected because they're all beyond the new prompt length. Result: 0 usable checkpoints → full reprocess from BOS. 结论是,目前的 llama.cpp+qwen3.6-27B 这个组合,在 Agent 工具这个场景下,性能不可用。 目前此 issues 还是 open 状态,待修复。

LinuxDo 最新话题 · 2026-06-12 02:48:47+08:00 · tech

Mimo送的API额度要过期了,尝试把最近看到的一本有意思的专著机翻来看看,否则数学部分实在是不想混着英文看。跑了四个小时,本着不要重新造轮子的想法,分享给佬友 P.S. 500页的书好像最后也没有烧掉很多token,大概20块 (x pan.baidu.com 百度网盘 请输入提取码 百度网盘为您提供文件的网络备份、同步和分享服务。空间大、速度快、安全稳固,支持教育网加速,支持手机端。注册使用百度网盘即可享受免费存储空间 1 个帖子 - 1 位参与者 阅读完整话题

V2EX - 技术 · 2026-06-11 22:26:44+08:00 · tech

Fable 5 发布后,weekly 额度被重置了,但没有同步调整重置时间,距离下次重置还剩 6 个 5h 窗口。机会难得,果断升 20x 站起来蹬。过去 24h 用完 20x 的 99%,消耗 10 亿 token 等值约 $2100 。现在已全部重置,满血复活。 Fable token 消耗速度很快,1 - 2 小时可以用完 20x 的 5h 余额,大概占到 weekly 进度条的 15% - 20%。也就是 6 个 5h 窗口就能用完整个 weekly 额度。不记得 5x 的比例但明显比 20x 能容纳更多的 5h 窗口,从侧面也验证了 20x 用量其实只是 5x 的 2 倍,但 5h 是 5x 的 4 倍,适合爆发使用。 主要用 fable 审查代码和重构任务,刚做完的一个模块经过 codex 和 opus 反复确认没有遗留问题,被 fable 轻松检查出大大小小 12 处 bug ,丢回 codex 和 opus 也都得到了确认。有 3 处 bug 只在特殊情况下发生,fable 梳理出来了特殊情况的触发条件,因此感觉 fable 对代码库的理解更全面更深刻。这个模块 80% 用 codex 完成,fable 反馈实现质量很高,是这个需求下理想的架构方案,对特殊情况的理解和处理是 fable 能力提升的地方。 最近一段时间很少用 opus ,上周已经点了退订,因为 fable 才升级,22 号之后再退。原因之一是不好好说话,输出的中文别扭不自然,每个字都认识,读起来却很吃力。codex 没有这个情况,fable 好很多。原因之二是输出不符合预期,每次任务需求不可能面面具到,一些省略的地方留给模型自己发挥,最近 opus 的发挥结果常在预期之外,而最近 codex 多在预期之内甚至会超出预期,可能跟个人使用的方式有关。 没有给 fable 开发任务,感觉太贵了,用不到,做审查挺合适。

LinuxDo 最新话题 · 2026-06-11 22:18:42+08:00 · tech

环境:Windows 11 x64,Claude Code v2.1.170 众所周知claude系列模型并不是非常擅长写powershell,经常写错,而且有因为转义问题导致删库的风险。 但是之前claude code 在windows上默认调用的终端都是git bash而不是powershell,claude可以使用熟悉的bash语法,不会遇到这些问题。 然鹅,今天更新claude code到2.1.170后,发现它开始使用powershell作为终端,/config也找不到切回git bash 的选项。 有佬友知道怎么把claude code终端切回git bash吗? 5 个帖子 - 5 位参与者 阅读完整话题

V2EX - 技术 · 2026-06-11 21:26:44+08:00 · tech

Fable 5 发布后,weekly 额度被重置了,但没有同步调整重置时间,距离下次重置还剩 6 个 5h 窗口。机会难得,果断升 20x 站起来蹬。过去 24h 用完 20x 的 99%,消耗 10 亿 token 等值约 $2100 。现在已全部重置,满血复活。 Fable token 消耗速度很快,1 - 2 小时可以用完 20x 的 5h 余额,大概占到 weekly 进度条的 15% - 20%。也就是 6 个 5h 窗口就能用完整个 weekly 额度。不记得 5x 的比例但明显比 20x 能容纳更多的 5h 窗口,从侧面也验证了 20x 用量其实只是 5x 的 2 倍,但 5h 是 5x 的 4 倍,适合爆发使用。 主要用 fable 审查代码和重构任务,刚做完的一个模块经过 codex 和 opus 反复确认没有遗留问题,被 fable 轻松检查出大大小小 12 处 bug ,丢回 codex 和 opus 也都得到了确认。有 3 处 bug 只在特殊情况下发生,fable 梳理出来了特殊情况的触发条件,因此感觉 fable 对代码库的理解更全面更深刻。这个模块 80% 用 codex 完成,fable 反馈实现质量很高,是这个需求下理想的架构方案,对特殊情况的理解和处理是 fable 能力提升的地方。 最近一段时间很少用 opus ,上周已经点了退订,因为 fable 才升级,22 号之后再退。原因之一是不好好说话,输出的中文别扭不自然,每个字都认识,读起来却很吃力。codex 没有这个情况,fable 好很多。原因之二是输出不符合预期,每次任务需求不可能面面具到,一些省略的地方留给模型自己发挥,最近 opus 的发挥结果常在预期之外,而最近 codex 多在预期之内甚至会超出预期,可能跟个人使用的方式有关。 没有给 fable 开发任务,感觉太贵了,用不到,做审查挺合适。

V2EX - 技术 · 2026-06-11 21:02:07+08:00 · tech

Fable 5 发布后,weekly 额度被重置了,但没有同步调整重置时间,距离下次重置还剩 6 个 5h 窗口。机会难得,果断升 20x 站起来蹬。过去 24h 用完 20x 的 99%,消耗 10 亿 token 等值约 $2100 。现在已全部重置,满血复活。 Fable token 消耗速度很快,1 - 2 小时可以用完 20x 的 5h 余额,大概占到 weekly 进度条的 15% - 20%。也就是 6 个 5h 窗口就能用完整个 weekly 额度。不记得 5x 的比例但明显比 20x 能容纳更多的 5h 窗口,从侧面也验证了 20x 用量其实只是 5x 的 2 倍,但 5h 是 5x 的 4 倍,适合爆发使用。 主要用 fable 审查代码和重构任务,刚做完的一个模块经过 codex 和 opus 反复确认没有遗留问题,被 fable 轻松检查出大大小小 12 处 bug ,丢回 codex 和 opus 也都得到了确认。有 3 处 bug 只在特殊情况下发生,fable 梳理出来了特殊情况的触发条件,因此感觉 fable 对代码库的理解更全面更深刻。这个模块 80% 用 codex 完成,fable 反馈实现质量很高,是这个需求下理想的架构方案,对特殊情况的理解和处理是 fable 能力提升的地方。 最近一段时间很少用 opus ,上周已经点了退订,因为 fable 才升级,22 号之后再退。原因之一是不好好说话,输出的中文别扭不自然,每个字都认识,读起来却很吃力。codex 没有这个情况,fable 好很多。原因之二是输出不符合预期,每次任务需求不可能面面具到,一些省略的地方留给模型自己发挥,最近 opus 的发挥结果常在预期之外,而最近 codex 多在预期之内甚至会超出预期,可能跟个人使用的方式有关。 没有给 fable 开发任务,感觉太贵了,用不到,做审查挺合适。

V2EX - 技术 · 2026-06-11 20:47:13+08:00 · tech

Fable 5 发布后,weekly 额度被重置了,但没有同步调整重置时间,距离下次重置还剩 6 个 5h 窗口。机会难得,果断升 20x 站起来蹬。过去 24h 用完 20x 的 99%,消耗 10 亿 token 等值约 $2100 。现在已全部重置,满血复活。 Fable token 消耗速度很快,1 - 2 小时可以用完 20x 的 5h 余额,大概占到 weekly 进度条的 15% - 20%。也就是 6 个 5h 窗口就能用完整个 weekly 额度。不记得 5x 的比例但明显比 20x 能容纳更多的 5h 窗口,从侧面也验证了 20x 用量其实只是 5x 的 2 倍,但 5h 是 5x 的 4 倍,适合爆发使用。 主要用 fable 审查代码和重构任务,刚做完的一个模块经过 codex 和 opus 反复确认没有遗留问题,被 fable 轻松检查出大大小小 12 处 bug ,丢回 codex 和 opus 也都得到了确认。有 3 处 bug 只在特殊情况下发生,fable 梳理出来了特殊情况的触发条件,因此感觉 fable 对代码库的理解更全面更深刻。这个模块 80% 用 codex 完成,fable 反馈实现质量很高,是这个需求下理想的架构方案,对特殊情况的理解和处理是 fable 能力提升的地方。 最近一段时间很少用 opus ,上周已经点了退订,因为 fable 才升级,22 号之后再退。原因之一是不好好说话,输出的中文别扭不自然,每个字都认识,读起来却很吃力。codex 没有这个情况,fable 好很多。原因之二是输出不符合预期,每次任务需求不可能面面具到,一些省略的地方留给模型自己发挥,最近 opus 的发挥结果常在预期之外,而最近 codex 多在预期之内甚至会超出预期,可能跟个人使用的方式有关。 没有给 fable 开发任务,感觉太贵了,用不到,做审查挺合适。