WWW.YOUINFO.SITE
标签聚合 fill

/tag/fill

V2EX - 技术 · 2026-06-09 17:06:23+08:00 · tech

看到很多人对 llm 推理速度的描述都是 decode 主导/带宽控制/prefill 忽略不计,我想要提醒的是,这只对高算力 gpu/代码等密集推理来说是客观的,如 pro6000/5090 这类,本地 agent 场景并不是这样。 首先明确几个问题: 1 、未命中缓存的输入量:输出量是多少?长输出的密集推理往往输出大于输入(未命中缓存部分),甚至能达到 2:1 。工具密集的 agent 场景,根据我的 hermes agent 的数据,最近三天的数据是新输入量 / 输出量 = 4,882,795 / 377,561 ≈ 12.9 : 1,主要任务是信息检索/汇总/文件处理/智能家居。 2 、本地 agent 更多的工作在哪个场景?我认为主流场景是 12.9:1 这种,指望本地 ai 跑密集推理+编码任务不太现实啊。 3 、不同硬件的 prefill 速度和 decode 速度?以近期最火的 qwen3.6 27b 为例( 8bit 开 mtp 参考值),5090 prefill 3000tps ,decode 70tps ,m3 ultra prefill 300tps ,decode 30tps 。 4 、此时,5090 prefill 1628s ,decode 5394s ,确实是 decode/带宽主导; m3 ultra prefill 16276s ,decode 12585s, prefill 占比 56%。 5 、对于本地部署常见的 4bit ,prefill 时间占比更高。 综上所述,对于低算力/大显存设备,prefill 所用时长是相当显著的,在工具调用密集型 agent 中甚至占有主导地位。

V2EX - 技术 · 2026-06-09 16:06:23+08:00 · tech

看到很多人对 llm 推理速度的描述都是 decode 主导/带宽控制/prefill 忽略不计,我想要提醒的是,这只对高算力 gpu/代码等密集推理来说是客观的,如 pro6000/5090 这类,本地 agent 场景并不是这样。 首先明确几个问题: 1 、未命中缓存的输入量:输出量是多少?长输出的密集推理往往输出大于输入(未命中缓存部分),甚至能达到 2:1 。工具密集的 agent 场景,根据我的 hermes agent 的数据,最近三天的数据是新输入量 / 输出量 = 4,882,795 / 377,561 ≈ 12.9 : 1,主要任务是信息检索/汇总/文件处理/智能家居。 2 、本地 agent 更多的工作在哪个场景?我认为主流场景是 12.9:1 这种,指望本地 ai 跑密集推理+编码任务不太现实啊。 3 、不同硬件的 prefill 速度和 decode 速度?以近期最火的 qwen3.6 27b 为例( 8bit 开 mtp 参考值),5090 prefill 3000tps ,decode 70tps ,m3 ultra prefill 300tps ,decode 30tps 。 4 、此时,5090 prefill 1628s ,decode 5394s ,确实是 decode/带宽主导; m3 ultra prefill 16276s ,decode 12585s, prefill 占比 56%。 5 、对于本地部署常见的 4bit ,prefill 时间占比更高。 综上所述,对于低算力/大显存设备,prefill 所用时长是相当显著的,在工具调用密集型 agent 中甚至占有主导地位。

V2EX - 技术 · 2026-06-09 15:06:23+08:00 · tech

看到很多人对 llm 推理速度的描述都是 decode 主导/带宽控制/prefill 忽略不计,我想要提醒的是,这只对高算力 gpu/代码等密集推理来说是客观的,如 pro6000/5090 这类,本地 agent 场景并不是这样。 首先明确几个问题: 1 、未命中缓存的输入量:输出量是多少?长输出的密集推理往往输出大于输入(未命中缓存部分),甚至能达到 2:1 。工具密集的 agent 场景,根据我的 hermes agent 的数据,最近三天的数据是新输入量 / 输出量 = 4,882,795 / 377,561 ≈ 12.9 : 1,主要任务是信息检索/汇总/文件处理/智能家居。 2 、本地 agent 更多的工作在哪个场景?我认为主流场景是 12.9:1 这种,指望本地 ai 跑密集推理+编码任务不太现实啊。 3 、不同硬件的 prefill 速度和 decode 速度?以近期最火的 qwen3.6 27b 为例( 8bit 开 mtp 参考值),5090 prefill 3000tps ,decode 70tps ,m3 ultra prefill 300tps ,decode 30tps 。 4 、此时,5090 prefill 1628s ,decode 5394s ,确实是 decode/带宽主导; m3 ultra prefill 16276s ,decode 12585s, prefill 占比 56%。 5 、对于本地部署常见的 4bit ,prefill 时间占比更高。 综上所述,对于低算力/大显存设备,prefill 所用时长是相当显著的,在工具调用密集型 agent 中甚至占有主导地位。

V2EX - 技术 · 2026-06-09 15:06:23+08:00 · tech

看到很多人对 llm 推理速度的描述都是 decode 主导/带宽控制/prefill 忽略不计,我想要提醒的是,这只对高算力 gpu/代码等密集推理来说是客观的,如 pro6000/5090 这类,本地 agent 场景并不是这样。 首先明确几个问题: 1 、未命中缓存的输入量:输出量是多少?长输出的密集推理往往输出大于输入(未命中缓存部分),甚至能达到 2:1 。工具密集的 agent 场景,根据我的 hermes agent 的数据,最近三天的数据是新输入量 / 输出量 = 4,882,795 / 377,561 ≈ 12.9 : 1,主要任务是信息检索/汇总/文件处理/智能家居。 2 、本地 agent 更多的工作在哪个场景?我认为主流场景是 12.9:1 这种,指望本地 ai 跑密集推理+编码任务不太现实啊。 3 、不同硬件的 prefill 速度和 decode 速度?以近期最火的 qwen3.6 27b 为例( 8bit 开 mtp 参考值),5090 prefill 3000tps ,decode 70tps ,m3 ultra prefill 300tps ,decode 30tps 。 4 、此时,5090 prefill 1628s ,decode 5394s ,确实是 decode/带宽主导; m3 ultra prefill 16276s ,decode 12585s, prefill 占比 56%。 5 、对于本地部署常见的 4bit ,prefill 时间占比更高。 综上所述,对于低算力/大显存设备,prefill 所用时长是相当显著的,在工具调用密集型 agent 中甚至占有主导地位。

V2EX - 技术 · 2026-06-09 14:49:41+08:00 · tech

看到很多人对 llm 推理速度的描述都是 decode 主导/带宽控制/prefill 忽略不计,我想要提醒的是,这只对高算力 gpu/代码等密集推理来说是客观的,如 pro6000/5090 这类,本地 agent 场景并不是这样。 首先明确几个问题: 1 、未命中缓存的输入量:输出量是多少?长输出的密集推理往往输出大于输入(未命中缓存部分),甚至能达到 2:1 。工具密集的 agent 场景,根据我的 hermes agent 的数据,最近三天的数据是新输入量 / 输出量 = 4,882,795 / 377,561 ≈ 12.9 : 1,主要任务是信息检索/汇总/文件处理/智能家居。 2 、本地 agent 更多的工作在哪个场景?我认为主流场景是 12.9:1 这种,指望本地 ai 跑密集推理+编码任务不太现实啊。 3 、不同硬件的 prefill 速度和 decode 速度?以近期最火的 qwen3.6 27b 为例( 8bit 开 mtp 参考值),5090 prefill 3000tps ,decode 70tps ,m3 ultra prefill 300tps ,decode 30tps 。 4 、此时,5090 prefill 1628s ,decode 5394s ,确实是 decode/带宽主导; m3 ultra prefill 16276s ,decode 12585s, prefill 占比 56%。 5 、对于本地部署常见的 4bit ,prefill 时间占比更高。 综上所述,对于低算力/大显存设备,prefill 所用时长是相当显著的,在工具调用密集型 agent 中甚至占有主导地位。

V2EX - 技术 · 2026-06-09 13:27:28+08:00 · tech

看到很多人对 llm 推理速度的描述都是 decode 主导/带宽控制/prefill 忽略不计,我想要提醒的是,这只对高算力 gpu/代码等密集推理来说是客观的,如 pro6000/5090 这类,本地 agent 场景并不是这样。 首先明确几个问题: 1 、未命中缓存的输入量:输出量是多少?长输出的密集推理往往输出大于输入(未命中缓存部分),甚至能达到 2:1 。工具密集的 agent 场景,根据我的 hermes agent 的数据,最近三天的数据是新输入量 / 输出量 = 4,882,795 / 377,561 ≈ 12.9 : 1,主要任务是信息检索/汇总/文件处理/智能家居。 2 、本地 agent 更多的工作在哪个场景?我认为主流场景是 12.9:1 这种,指望本地 ai 跑密集推理+编码任务不太现实啊。 3 、不同硬件的 prefill 速度和 decode 速度?以近期最火的 qwen3.6 27b 为例( 8bit 开 mtp 参考值),5090 prefill 3000tps ,decode 70tps ,m3 ultra prefill 300tps ,decode 30tps 。 4 、此时,5090 prefill 1628s ,decode 5394s ,确实是 decode/带宽主导; m3 ultra prefill 16276s ,decode 12585s, prefill 占比 56%。 5 、对于本地部署常见的 4bit ,prefill 时间占比更高。 综上所述,对于低算力/大显存设备,prefill 所用时长是相当显著的,在工具调用密集型 agent 中甚至占有主导地位。

V2EX - 技术 · 2026-06-09 13:27:28+08:00 · tech

看到很多人对 llm 推理速度的描述都是 decode 主导/带宽控制/prefill 忽略不计,我想要提醒的是,这只对高算力 gpu/代码等密集推理来说是客观的,如 pro6000/5090 这类,本地 agent 场景并不是这样。 首先明确几个问题: 1 、未命中缓存的输入量:输出量是多少?长输出的密集推理往往输出大于输入(未命中缓存部分),甚至能达到 2:1 。工具密集的 agent 场景,根据我的 hermes agent 的数据,最近三天的数据是新输入量 / 输出量 = 4,882,795 / 377,561 ≈ 12.9 : 1,主要任务是信息检索/汇总/文件处理/智能家居。 2 、本地 agent 更多的工作在哪个场景?我认为主流场景是 12.9:1 这种,指望本地 ai 跑密集推理+编码任务不太现实啊。 3 、不同硬件的 prefill 速度和 decode 速度?以近期最火的 qwen3.6 27b 为例( 8bit 开 mtp 参考值),5090 prefill 3000tps ,decode 70tps ,m3 ultra prefill 300tps ,decode 30tps 。 4 、此时,5090 prefill 1628s ,decode 5394s ,确实是 decode/带宽主导; m3 ultra prefill 16276s ,decode 12585s, prefill 占比 56%。 5 、对于本地部署常见的 4bit ,prefill 时间占比更高。 综上所述,对于低算力/大显存设备,prefill 所用时长是相当显著的,在工具调用密集型 agent 中甚至占有主导地位。

V2EX - 技术 · 2026-06-09 12:45:14+08:00 · tech

看到很多人对 llm 推理速度的描述都是 decode 主导/带宽控制/prefill 忽略不计,我想要提醒的是,这只对高算力 gpu/代码等密集推理来说是客观的,如 pro6000/5090 这类,本地 agent 场景并不是这样。 首先明确几个问题: 1 、未命中缓存的输入量:输出量是多少?长输出的密集推理往往输出大于输入(未命中缓存部分),甚至能达到 2:1 。工具密集的 agent 场景,根据我的 hermes agent 的数据,最近三天的数据是新输入量 / 输出量 = 4,882,795 / 377,561 ≈ 12.9 : 1,主要任务是信息检索/汇总/文件处理/智能家居。 2 、本地 agent 更多的工作在哪个场景?我认为主流场景是 12.9:1 这种,指望本地 ai 跑密集推理+编码任务不太现实啊。 3 、不同硬件的 prefill 速度和 decode 速度?以近期最火的 qwen3.6 27b 为例( 8bit 开 mtp 参考值),5090 prefill 3000tps ,decode 70tps ,m3 ultra prefill 300tps ,decode 30tps 。 4 、此时,5090 prefill 1628s ,decode 5394s ,确实是 decode/带宽主导; m3 ultra prefill 16276s ,decode 12585s, prefill 占比 56%。 5 、对于本地部署常见的 4bit ,prefill 时间占比更高。 综上所述,对于低算力/大显存设备,prefill 所用时长是相当显著的,在工具调用密集型 agent 中甚至占有主导地位。

V2EX - 技术 · 2026-06-09 12:18:31+08:00 · tech

看到很多人对 llm 推理速度的描述都是 decode 主导/带宽控制/prefill 忽略不计,我想要提醒的是,这只对高算力 gpu/代码等密集推理来说是客观的,如 pro6000/5090 这类,本地 agent 场景并不是这样。 首先明确几个问题: 1 、未命中缓存的输入量:输出量是多少?长输出的密集推理往往输出大于输入(未命中缓存部分),甚至能达到 2:1 。工具密集的 agent 场景,根据我的 hermes agent 的数据,最近三天的数据是新输入量 / 输出量 = 4,882,795 / 377,561 ≈ 12.9 : 1,主要任务是信息检索/汇总/文件处理/智能家居。 2 、本地 agent 更多的工作在哪个场景?我认为主流场景是 12.9:1 这种,指望本地 ai 跑密集推理+编码任务不太现实啊。 3 、不同硬件的 prefill 速度和 decode 速度?以近期最火的 qwen3.6 27b 为例( 8bit 开 mtp 参考值),5090 prefill 3000tps ,decode 70tps ,m3 ultra prefill 300tps ,decode 30tps 。 4 、此时,5090 prefill 1628s ,decode 5394s ,确实是 decode/带宽主导; m3 ultra prefill 16276s ,decode 12585s, prefill 占比 56%。 5 、对于本地部署常见的 4bit ,prefill 时间占比更高。 综上所述,对于低算力/大显存设备,prefill 所用时长是相当显著的,在工具调用密集型 agent 中甚至占有主导地位。

LinuxDo 最新话题 · 2026-05-24 18:44:38+08:00 · tech

有点糊 paypal-auto-filler.zip (47.5 KB) 使用教程 (点击了解更多详细信息) 主要能力: 可视化 Auto Filler 面板。 本地配置与远程配置同步。 接码号池导入、选择、换号和使用记录。 随机 Visa 卡生成。 打开 ChatGPT 页面时进入 GPT 域内清理 GPT/OpenAI/PayPal 登录 Cookie,并在 https://chatgpt.com 自动点击免费注册入口。 注册/取链代理切换和支付页前恢复原节点。 自动获取 ChatGPT Plus hosted checkout 链接。 OpenAI hosted checkout 自动选择支付方式、填写地址并提交。 PayPal 登录页和结账页自动填写。 OTP 验证码自动拉取和填写。 手机号无效、卡无效、地址错误、支付方式未选等场景恢复。 导出 CPA JSON。 导出 SUB2API JSON。 手动或支付后自动导入 SUB2API。 SUB2API 导入时已存在账号则更新,不存在则创建。 近期稳定性约定: 巡逻恢复已改为阶段状态机,只执行当前阶段对应的恢复动作。 恢复动作已增加统一冷却和阶段内最大次数限制。 新增阶段变化与卡住诊断日志,便于定位当前卡在哪个页面和哪个条件。 支付方式补选失败时刷新结账页重试。 PayPal 手机号无效换号后刷新页面重新填表。 2 个帖子 - 2 位参与者 阅读完整话题