128k - WWW.YOUINFO.SITE - WWW.YOUINFO.SITE

LinuxDo 最新话题 · 2026-05-28 16:16:39+08:00 · tech

GPT-5.3-Codex-Spark 这个模型我没感觉很快啊，而且上下文只有128k 你们会用这个模型来开发？ 5 个帖子 - 4 位参与者阅读完整话题

LinuxDo 最新话题 · 2026-05-12 21:05:47+08:00 · tech

大家帮我看下，gpt5.5的这个参数对不对。我不太懂这个 2 个帖子 - 2 位参与者阅读完整话题

linux.do · 2026-05-01 09:26:17+08:00 · tech

官方文档 LongCat-2.0-Preview: 上下文长度1M，最大输出长度128K Tokens，能达到1M上下文，说明有这个实力不过or里面的输出比这个大官方给内测用户每2小时10M 之前叫S什么的模型代号，这几天改名Longcat2.0了官方文档叫自己高性能Agentic模型，OR里面叫自己高性能Agentic基础模型（high-performance foundation model designed for agentic workloads）当然，只是个人猜测，也有可能是百度/阶跃的 3 个帖子 - 3 位参与者阅读完整话题

求助CPA+hermes上下文窗口只有128k，动不动就满了，怎么调整

linux.do · 2026-04-26 18:16:12+08:00 · tech

RT，在windows上部署的CPA，里面放了两个gpt账号，连上wsl中的ubuntu后对话窗口只有128k，体验太差了，动不动就满了，有没有什么办法调一下 2 个帖子 - 2 位参与者阅读完整话题

2080ti 11g本地部署qwen 3.6 35b a3b，128k 上下文，67tps

linux.do · 2026-04-26 16:52:57+08:00 · tech

我是windows上llama.cpp部署的，先看效果图。这里面，我用的模型是 unsloth 量化的 Qwen3.6-35B-A3B-UD-IQ1_M 模型。得益于其超强的量化，整个模型可以完美装在 2080ti 11g 显存里面，用 q4 量化上下文可以跑到128k 的上下文。单并发 67 tps 的速度，如果2-4并发最多可以翻倍tps。模型性能跑在 pi-coding-agent 里面绰绰有余，我让他复现了一个自动证明系统，要求如下最后也是保质保量完成了，而且自己跑通了测试流程。为什么不用qwen 3.6 27B 我下载了qwen 3.6 27B 比较小的量化版本，可以全部跑在显存里面，但是上下文只有32k而且tps只有22左右，而且我接入 pi-coding-agent 里面还发生了死循环，感觉不太可用，虽然网上说 27B 版本很牛，但是我还是觉得moe版本的更好。有什么用本地部署可以搞一些隐私数据，其他我觉得真的不如薅点免费或者低价的api。接入openclaw应该是能玩的，但是电费成本算下来不一定打得过低价api。不过在二手1200元左右淘到的2080ti上跑起来agent还是很有成就感的简单的 benchmark 用了 GitHub - stevibe/BenchLocal: Test LLMs on real tasks. Compare models side-by-side. · GitHub 这个来做测试。跑的是其中这个 DataExtract-15 benchmark。对比模型找了好久，感觉不是很能找到主流的更弱的模型。注意，这个 Qwen3.6-35B-A3B-UD-IQ1_M 是超级量化版本，不代表 Qwen 该模型满血水平。 Model Total Clean Extraction Noisy and Informal Multi-Entity Implicit and Missing Complex Documents GLM Model 91 97 86 92 90 91 DeepSeek V4 Flash Free 90 95 84 92 85 97 Step 3.5 Flash 83 95 57 82 97 84 Local qwen 81 85 69 84 84 78 注： deepseek用的zenmux api，然后Step用的魔搭api，然后glm是学校本地部署的，我猜是4.7模型。结论：勉勉强强能打step 3.5 flash，也是没出乎意料垫底了。碎碎念（如果你也想部署）想清楚自己想要什么，如果load一点模型到内存里面，会减至少一半tps，但是上下文更多，能跑的模型更好。具体运行代码 \llama-server.exe -m "C:\Users\……\Qwen3.6-35B-A3B-UD-IQ1_M.gguf" -c 131072 -ngl 99 --parallel 1 --flash-attn on --cache-type-k q4_0 --cache-type-v q4_0 -b 512 -ub 64 --port 8080 --host 0.0.0.0 ，这是没加载识图模型的版本，qwen该模型支持识图，但是显存开销会变大。 pi-coding-agent 很轻便，很好用，适合本地模型。 1 个帖子 - 1 位参与者阅读完整话题

deepseekapi又回滚了.被戏耍🥲

linux.do · 2026-04-22 20:34:49+08:00 · tech

现在又变回128k长下文了，很难绷啊感觉在耍我们 9 个帖子 - 7 位参与者阅读完整话题

/tag/128k