WWW.YOUINFO.SITE
标签聚合 带宽

/tag/带宽

V2EX - 技术 · 2026-06-09 17:06:23+08:00 · tech

看到很多人对 llm 推理速度的描述都是 decode 主导/带宽控制/prefill 忽略不计,我想要提醒的是,这只对高算力 gpu/代码等密集推理来说是客观的,如 pro6000/5090 这类,本地 agent 场景并不是这样。 首先明确几个问题: 1 、未命中缓存的输入量:输出量是多少?长输出的密集推理往往输出大于输入(未命中缓存部分),甚至能达到 2:1 。工具密集的 agent 场景,根据我的 hermes agent 的数据,最近三天的数据是新输入量 / 输出量 = 4,882,795 / 377,561 ≈ 12.9 : 1,主要任务是信息检索/汇总/文件处理/智能家居。 2 、本地 agent 更多的工作在哪个场景?我认为主流场景是 12.9:1 这种,指望本地 ai 跑密集推理+编码任务不太现实啊。 3 、不同硬件的 prefill 速度和 decode 速度?以近期最火的 qwen3.6 27b 为例( 8bit 开 mtp 参考值),5090 prefill 3000tps ,decode 70tps ,m3 ultra prefill 300tps ,decode 30tps 。 4 、此时,5090 prefill 1628s ,decode 5394s ,确实是 decode/带宽主导; m3 ultra prefill 16276s ,decode 12585s, prefill 占比 56%。 5 、对于本地部署常见的 4bit ,prefill 时间占比更高。 综上所述,对于低算力/大显存设备,prefill 所用时长是相当显著的,在工具调用密集型 agent 中甚至占有主导地位。

V2EX - 技术 · 2026-06-09 16:06:23+08:00 · tech

看到很多人对 llm 推理速度的描述都是 decode 主导/带宽控制/prefill 忽略不计,我想要提醒的是,这只对高算力 gpu/代码等密集推理来说是客观的,如 pro6000/5090 这类,本地 agent 场景并不是这样。 首先明确几个问题: 1 、未命中缓存的输入量:输出量是多少?长输出的密集推理往往输出大于输入(未命中缓存部分),甚至能达到 2:1 。工具密集的 agent 场景,根据我的 hermes agent 的数据,最近三天的数据是新输入量 / 输出量 = 4,882,795 / 377,561 ≈ 12.9 : 1,主要任务是信息检索/汇总/文件处理/智能家居。 2 、本地 agent 更多的工作在哪个场景?我认为主流场景是 12.9:1 这种,指望本地 ai 跑密集推理+编码任务不太现实啊。 3 、不同硬件的 prefill 速度和 decode 速度?以近期最火的 qwen3.6 27b 为例( 8bit 开 mtp 参考值),5090 prefill 3000tps ,decode 70tps ,m3 ultra prefill 300tps ,decode 30tps 。 4 、此时,5090 prefill 1628s ,decode 5394s ,确实是 decode/带宽主导; m3 ultra prefill 16276s ,decode 12585s, prefill 占比 56%。 5 、对于本地部署常见的 4bit ,prefill 时间占比更高。 综上所述,对于低算力/大显存设备,prefill 所用时长是相当显著的,在工具调用密集型 agent 中甚至占有主导地位。

V2EX - 技术 · 2026-06-09 15:06:23+08:00 · tech

看到很多人对 llm 推理速度的描述都是 decode 主导/带宽控制/prefill 忽略不计,我想要提醒的是,这只对高算力 gpu/代码等密集推理来说是客观的,如 pro6000/5090 这类,本地 agent 场景并不是这样。 首先明确几个问题: 1 、未命中缓存的输入量:输出量是多少?长输出的密集推理往往输出大于输入(未命中缓存部分),甚至能达到 2:1 。工具密集的 agent 场景,根据我的 hermes agent 的数据,最近三天的数据是新输入量 / 输出量 = 4,882,795 / 377,561 ≈ 12.9 : 1,主要任务是信息检索/汇总/文件处理/智能家居。 2 、本地 agent 更多的工作在哪个场景?我认为主流场景是 12.9:1 这种,指望本地 ai 跑密集推理+编码任务不太现实啊。 3 、不同硬件的 prefill 速度和 decode 速度?以近期最火的 qwen3.6 27b 为例( 8bit 开 mtp 参考值),5090 prefill 3000tps ,decode 70tps ,m3 ultra prefill 300tps ,decode 30tps 。 4 、此时,5090 prefill 1628s ,decode 5394s ,确实是 decode/带宽主导; m3 ultra prefill 16276s ,decode 12585s, prefill 占比 56%。 5 、对于本地部署常见的 4bit ,prefill 时间占比更高。 综上所述,对于低算力/大显存设备,prefill 所用时长是相当显著的,在工具调用密集型 agent 中甚至占有主导地位。

V2EX - 技术 · 2026-06-09 15:06:23+08:00 · tech

看到很多人对 llm 推理速度的描述都是 decode 主导/带宽控制/prefill 忽略不计,我想要提醒的是,这只对高算力 gpu/代码等密集推理来说是客观的,如 pro6000/5090 这类,本地 agent 场景并不是这样。 首先明确几个问题: 1 、未命中缓存的输入量:输出量是多少?长输出的密集推理往往输出大于输入(未命中缓存部分),甚至能达到 2:1 。工具密集的 agent 场景,根据我的 hermes agent 的数据,最近三天的数据是新输入量 / 输出量 = 4,882,795 / 377,561 ≈ 12.9 : 1,主要任务是信息检索/汇总/文件处理/智能家居。 2 、本地 agent 更多的工作在哪个场景?我认为主流场景是 12.9:1 这种,指望本地 ai 跑密集推理+编码任务不太现实啊。 3 、不同硬件的 prefill 速度和 decode 速度?以近期最火的 qwen3.6 27b 为例( 8bit 开 mtp 参考值),5090 prefill 3000tps ,decode 70tps ,m3 ultra prefill 300tps ,decode 30tps 。 4 、此时,5090 prefill 1628s ,decode 5394s ,确实是 decode/带宽主导; m3 ultra prefill 16276s ,decode 12585s, prefill 占比 56%。 5 、对于本地部署常见的 4bit ,prefill 时间占比更高。 综上所述,对于低算力/大显存设备,prefill 所用时长是相当显著的,在工具调用密集型 agent 中甚至占有主导地位。

V2EX - 技术 · 2026-06-09 14:49:41+08:00 · tech

看到很多人对 llm 推理速度的描述都是 decode 主导/带宽控制/prefill 忽略不计,我想要提醒的是,这只对高算力 gpu/代码等密集推理来说是客观的,如 pro6000/5090 这类,本地 agent 场景并不是这样。 首先明确几个问题: 1 、未命中缓存的输入量:输出量是多少?长输出的密集推理往往输出大于输入(未命中缓存部分),甚至能达到 2:1 。工具密集的 agent 场景,根据我的 hermes agent 的数据,最近三天的数据是新输入量 / 输出量 = 4,882,795 / 377,561 ≈ 12.9 : 1,主要任务是信息检索/汇总/文件处理/智能家居。 2 、本地 agent 更多的工作在哪个场景?我认为主流场景是 12.9:1 这种,指望本地 ai 跑密集推理+编码任务不太现实啊。 3 、不同硬件的 prefill 速度和 decode 速度?以近期最火的 qwen3.6 27b 为例( 8bit 开 mtp 参考值),5090 prefill 3000tps ,decode 70tps ,m3 ultra prefill 300tps ,decode 30tps 。 4 、此时,5090 prefill 1628s ,decode 5394s ,确实是 decode/带宽主导; m3 ultra prefill 16276s ,decode 12585s, prefill 占比 56%。 5 、对于本地部署常见的 4bit ,prefill 时间占比更高。 综上所述,对于低算力/大显存设备,prefill 所用时长是相当显著的,在工具调用密集型 agent 中甚至占有主导地位。

V2EX - 技术 · 2026-06-09 13:27:28+08:00 · tech

看到很多人对 llm 推理速度的描述都是 decode 主导/带宽控制/prefill 忽略不计,我想要提醒的是,这只对高算力 gpu/代码等密集推理来说是客观的,如 pro6000/5090 这类,本地 agent 场景并不是这样。 首先明确几个问题: 1 、未命中缓存的输入量:输出量是多少?长输出的密集推理往往输出大于输入(未命中缓存部分),甚至能达到 2:1 。工具密集的 agent 场景,根据我的 hermes agent 的数据,最近三天的数据是新输入量 / 输出量 = 4,882,795 / 377,561 ≈ 12.9 : 1,主要任务是信息检索/汇总/文件处理/智能家居。 2 、本地 agent 更多的工作在哪个场景?我认为主流场景是 12.9:1 这种,指望本地 ai 跑密集推理+编码任务不太现实啊。 3 、不同硬件的 prefill 速度和 decode 速度?以近期最火的 qwen3.6 27b 为例( 8bit 开 mtp 参考值),5090 prefill 3000tps ,decode 70tps ,m3 ultra prefill 300tps ,decode 30tps 。 4 、此时,5090 prefill 1628s ,decode 5394s ,确实是 decode/带宽主导; m3 ultra prefill 16276s ,decode 12585s, prefill 占比 56%。 5 、对于本地部署常见的 4bit ,prefill 时间占比更高。 综上所述,对于低算力/大显存设备,prefill 所用时长是相当显著的,在工具调用密集型 agent 中甚至占有主导地位。

V2EX - 技术 · 2026-06-09 13:27:28+08:00 · tech

看到很多人对 llm 推理速度的描述都是 decode 主导/带宽控制/prefill 忽略不计,我想要提醒的是,这只对高算力 gpu/代码等密集推理来说是客观的,如 pro6000/5090 这类,本地 agent 场景并不是这样。 首先明确几个问题: 1 、未命中缓存的输入量:输出量是多少?长输出的密集推理往往输出大于输入(未命中缓存部分),甚至能达到 2:1 。工具密集的 agent 场景,根据我的 hermes agent 的数据,最近三天的数据是新输入量 / 输出量 = 4,882,795 / 377,561 ≈ 12.9 : 1,主要任务是信息检索/汇总/文件处理/智能家居。 2 、本地 agent 更多的工作在哪个场景?我认为主流场景是 12.9:1 这种,指望本地 ai 跑密集推理+编码任务不太现实啊。 3 、不同硬件的 prefill 速度和 decode 速度?以近期最火的 qwen3.6 27b 为例( 8bit 开 mtp 参考值),5090 prefill 3000tps ,decode 70tps ,m3 ultra prefill 300tps ,decode 30tps 。 4 、此时,5090 prefill 1628s ,decode 5394s ,确实是 decode/带宽主导; m3 ultra prefill 16276s ,decode 12585s, prefill 占比 56%。 5 、对于本地部署常见的 4bit ,prefill 时间占比更高。 综上所述,对于低算力/大显存设备,prefill 所用时长是相当显著的,在工具调用密集型 agent 中甚至占有主导地位。

V2EX - 技术 · 2026-06-09 12:45:14+08:00 · tech

看到很多人对 llm 推理速度的描述都是 decode 主导/带宽控制/prefill 忽略不计,我想要提醒的是,这只对高算力 gpu/代码等密集推理来说是客观的,如 pro6000/5090 这类,本地 agent 场景并不是这样。 首先明确几个问题: 1 、未命中缓存的输入量:输出量是多少?长输出的密集推理往往输出大于输入(未命中缓存部分),甚至能达到 2:1 。工具密集的 agent 场景,根据我的 hermes agent 的数据,最近三天的数据是新输入量 / 输出量 = 4,882,795 / 377,561 ≈ 12.9 : 1,主要任务是信息检索/汇总/文件处理/智能家居。 2 、本地 agent 更多的工作在哪个场景?我认为主流场景是 12.9:1 这种,指望本地 ai 跑密集推理+编码任务不太现实啊。 3 、不同硬件的 prefill 速度和 decode 速度?以近期最火的 qwen3.6 27b 为例( 8bit 开 mtp 参考值),5090 prefill 3000tps ,decode 70tps ,m3 ultra prefill 300tps ,decode 30tps 。 4 、此时,5090 prefill 1628s ,decode 5394s ,确实是 decode/带宽主导; m3 ultra prefill 16276s ,decode 12585s, prefill 占比 56%。 5 、对于本地部署常见的 4bit ,prefill 时间占比更高。 综上所述,对于低算力/大显存设备,prefill 所用时长是相当显著的,在工具调用密集型 agent 中甚至占有主导地位。

V2EX - 技术 · 2026-06-09 12:18:31+08:00 · tech

看到很多人对 llm 推理速度的描述都是 decode 主导/带宽控制/prefill 忽略不计,我想要提醒的是,这只对高算力 gpu/代码等密集推理来说是客观的,如 pro6000/5090 这类,本地 agent 场景并不是这样。 首先明确几个问题: 1 、未命中缓存的输入量:输出量是多少?长输出的密集推理往往输出大于输入(未命中缓存部分),甚至能达到 2:1 。工具密集的 agent 场景,根据我的 hermes agent 的数据,最近三天的数据是新输入量 / 输出量 = 4,882,795 / 377,561 ≈ 12.9 : 1,主要任务是信息检索/汇总/文件处理/智能家居。 2 、本地 agent 更多的工作在哪个场景?我认为主流场景是 12.9:1 这种,指望本地 ai 跑密集推理+编码任务不太现实啊。 3 、不同硬件的 prefill 速度和 decode 速度?以近期最火的 qwen3.6 27b 为例( 8bit 开 mtp 参考值),5090 prefill 3000tps ,decode 70tps ,m3 ultra prefill 300tps ,decode 30tps 。 4 、此时,5090 prefill 1628s ,decode 5394s ,确实是 decode/带宽主导; m3 ultra prefill 16276s ,decode 12585s, prefill 占比 56%。 5 、对于本地部署常见的 4bit ,prefill 时间占比更高。 综上所述,对于低算力/大显存设备,prefill 所用时长是相当显著的,在工具调用密集型 agent 中甚至占有主导地位。

v2ex · 2026-06-09 02:07:15+08:00 · tech

阿里云国际站的香港和新加坡轻量应用服务器一直以稳定和高带宽著称。但是很多搬砖党和技术党在注册第一步就被风控拦截。今天聊聊如何正确注册并持有一个稳定的阿里云国际站账号。 注册前的准备工作 为了避开阿里云严格的防欺诈风控系统,自主注册时需要注意以下几点: 干净的本地环境:尽量使用纯净的海外住宅 IP ,避免使用万人骑的公用机房节点。 合规的支付手段:姓名、注册地址需要与你的 PayPal 或境外信用卡账单地址大致相符。 更安全的路线:代理商合作开户 如果你觉得搞定海外支付和防风控太麻烦,最简单的破局点是找阿里云国际站分销商(代理商)。 零门槛开户:代理商可以通过后台给你发关联邮件,直接绕过官方的支付方式强制绑定。 灵活代充值:可以直接找代理商代充余额,支持国内常用的支付工具,甚至支持加密货币。 独立控制面板:注册成功后,你依然是在阿里云官网登录和管理实例,安全性和官方直接注册完全一致。 关于选机房的建议 注册成功后,如果主打国内方向,首选 中国香港( Hong Kong ) 和 新加坡( Singapore ) 节点,其延迟和吞吐量在同类海外云服务中表现非常亮眼。 🌐 lingducloud | 全球云资源一站式服务商 📩 客服 Telegram: @cloudcup 🔥 合作平台: 阿里云国际|腾讯云国际|华为云国际| AWS | GCP | Azure 🔗 官方自助开户网站: https://cloudcup.online

LinuxDo 最新话题 · 2026-06-08 17:42:56+08:00 · tech

目前有腾讯云4核4G、5M带宽云服务器,部署有小程序django后端程序,受限与内存大小,服务器经常拉满内存,如果在升级内存,费用太高。 手头上还有一款N100小主机,4核4线程,内存可支持到16G。现在就想能不能让本地小主机承载小程序的业务。 家里安装的是移动宽带,没有免费的ipv6; 查了下豆包可以按以下架构进行部署 各位帮忙看看按这个方案实施行不行?或者有没有其他更好的实现方式? 15 个帖子 - 11 位参与者 阅读完整话题