Pre - WWW.YOUINFO.SITE - WWW.YOUINFO.SITE

cnBeta全文版 · 2026-06-12 00:35:06+08:00 · tech

自动驾驶出行公司 Waymo 日前宣布，将面向高频乘客推出名为“Waymo Premier”的忠诚度会员计划，月费为 29.99 美元，为付费会员提供包括行程返现、优先叫车和免费取消在内的一系列权益。根据 Waymo 介绍，Premier 会员可以在叫车时“插队”，优先获得自动驾驶出租车服务，同时每次行程可获得 10% 现金返还，在出行高峰时期返现比例还将进一步提高。会员每月还可享受 5 次免费取消行程的额度，此外，即便在仍处于候补名单阶段的城市，Premier 会员也有机会直接呼叫到 Waymo 车辆。目前，Waymo Premier 会员计划暂不向奥斯汀和亚特兰大两地用户开放，原因是 Waymo 在这两座城市仅通过 Uber 应用提供自动驾驶出行服务，相关整合尚未覆盖本次会员体系。此次推出忠诚度计划之际，Waymo 正在加速其在美国市场的扩张，并为今年稍晚启动的国际化布局做准备。与此同时，Waymo 也在洛杉矶、菲尼克斯和旧金山等城市逐步投放其最新一代自动驾驶车型——由极氪代工、内部代号为“Ojai”的自动驾驶面包车，以进一步拓展车队能力和营收空间。业内普遍认为，此次会员计划有望成为 Waymo 在扩大运营规模过程中的一条新增营收线。 Waymo 的重要合作伙伴 Uber 已经通过其自有会员项目 Uber One 构建起可观的经常性收入来源，目前该服务的订阅费为每月 9.99 美元或每年 96 美元。公开信息显示，Uber One 的付费会员数量已超过 5000 万人，会员可享受包括 Uber Eats 订单或酒店预订 9 折优惠、免配送费以及其他第三方品牌合作优惠等一系列权益。在更广泛的出行和交通行业中，忠诚度计划已被证明是一项“印钞机”式业务。相关报道指出，若不考虑忠诚度计划收入，美国规模最大的四家航空公司在 2024 年都将陷入亏损，这些会员项目在疫情期间甚至被用作抵押资产，为航空公司从联邦政府获取紧急贷款提供担保，体现出其超越直接营收之外的金融价值。 Waymo 表示，其之所以将 Waymo Premier 的月费定在 29.99 美元，并设计相应的返现比例和权益组合，是在充分吸收乘客“对会员服务期待”的直接反馈基础上形成的方案。虽然该定价是 Uber One 的三倍左右，但 Waymo 称其历史出行数据表明，相比传统网约车服务，不少用户愿意为自动驾驶出租车支付更高价格，以换取体验和服务上的差异化。从当前公布的信息来看，Waymo Premier 的核心逻辑，是通过月费+返现+优先权的组合，锁定高频乘客、提升单客贡献度，同时借鉴网约车与航空业忠诚度计划的成熟模式，在自动驾驶出行业务中探索稳定且可扩展的订阅收入来源。在 Waymo 加快车队部署和国际化扩张的背景下，这一会员计划未来如何影响用户行为和整体商业模型，仍有待市场与时间检验。查看评论

莫比乌斯nebius要下架ds32了，我的翻译模型啊

LinuxDo 最新话题 · 2026-06-11 21:39:17+08:00 · tech

莫比乌斯nebius要下架ds32了，我的翻译模型啊 List of deprecated models deepseek-ai/DeepSeek-V3.2 deepseek-ai/DeepSeek-V3.2-fast MiniMaxAI/MiniMax-M2.5-fast moonshotai/Kimi-K2.5 moonshotai/Kimi-K2.5-fast openai/gpt-oss-120b-fast PrimeIntellect/INTELLECT-3 Qwen/Qwen3-235B-A22B-Thinking-2507-fast Qwen/Qwen3-Next-80B-A3B-Thinking-fast Qwen/Qwen3.5-397B-A17B-fast zai-org/GLM-5 List of deprecated models deepseek-ai/DeepSeek-V3.2 deepseek-ai/DeepSeek-V3.2-fast MiniMaxAI/MiniMax-M2.5-fast moonshotai/Kimi-K2.5 moonshotai/Kimi-K2.5-fast openai/gpt-oss-120b-fast PrimeIntellect/INTELLECT-3 Qwen/Qwen3-235B-A22B-Thinking-2507-fast Qwen/Qwen3-Next-80B-A3B-Thinking-fast Qwen/Qwen3.5-397B-A17B-fast zai-org/GLM-5 3 个帖子 - 3 位参与者阅读完整话题

CRISPR 酶能精确检测并粉碎癌症突变中的 DNA

LinuxDo 最新话题 · 2026-06-11 19:41:18+08:00 · tech

Medical Xpress – 10 Jun 26 CRISPR enzyme precisely detects and shreds DNA in cancer mutations once... In 2020, Jennifer Doudna won the Nobel Prize in chemistry for her work on the CRISPR-Cas9 gene-editing technology that allows scientists to precisely modify DNA by cutting it at specific locations. Six years later, a new study in Nature by a team led... [!quote]+ 2020 年，珍妮弗-杜德娜（Jennifer Doudna）因研究 CRISPR-Cas9 基因编辑技术而获得诺贝尔化学奖，该技术允许科学家通过在特定位置切割 DNA 来精确修改 DNA。六年后，杜德娜领导的团队在《自然》杂志上发表的一项新研究发现了一种强大的新方法，可以利用一种名为 Cas12a2 的 CRISPR 酶选择性地杀死癌细胞。一旦这种酶检测到癌症特异性基因特征，它就会开始切碎目标细胞内的染色质–一种由 DNA 和蛋白质组成染色体的混合物。许多癌症都是由肿瘤抑制蛋白（如 TP53）的突变引起的。然而，这些突变一直难以治疗，因为它们缺乏传统药物可以抓住的结合口袋。因此，许多致癌突变长期以来一直被认为是无法治疗的。有了这种新方法，现在就能精确锁定并消除这些无法治愈的致病突变，因为它并不依赖于附着在突变蛋白质上。相反，一旦检测到与癌症有关的特征，它就会开始疯狂破坏 DNA。癌细胞具有正常细胞所缺乏的独特蛋白质特征，因此很容易被识别和靶向治疗。TP53，即转录因子 p53，是癌症中最常见的突变基因之一，出现在高达 90% 的卵巢和胰腺肿瘤中。这种突变通常出现在早期，并持续存在于肿瘤的整个生长期，因此是一个极具吸引力的治疗靶点。然而，这种蛋白质很难被药物靶向。在这项新研究中，研究小组将细菌防御系统变成了精确杀癌工具。他们选择了 Cas12a2 酶，并用引导 RNA 对其进行编程，以识别癌症特异性特征，包括 p53 和表皮生长因子受体的常见突变，以及 MYC 等致癌基因的异常高水平。 CRISPR Medicine News: CRISPR-Cas12a2 Targets Mutant Cancer Transcripts for Selective Cell... A new CRISPR-based strategy turns cancer cells' own mutant transcripts against them, opening a potential route to one of oncology's most stubborn unsolved problems: the targeting of mutant p53. Rather than attempting to fix or restore the defective... 2 个帖子 - 2 位参与者阅读完整话题

问问有没有佬能提供开票的全称质保的claude team

LinuxDo 最新话题 · 2026-06-11 16:20:35+08:00 · tech

Premium 月付40刀，现在市场价应该是500多？那个你可以加价，但是要全质保加能开票~ 1 个帖子 - 1 位参与者阅读完整话题

薄荷，你又搞砸了一切！

LinuxDo 最新话题 · 2026-06-10 11:16:37+08:00 · tech

成为 Premium 的代价，你能承受吗！锅来！ @BOHE 4 个帖子 - 4 位参与者阅读完整话题

FREEBUFF上新了MINIMAX M3

LinuxDo 最新话题 · 2026-06-10 10:37:13+08:00 · tech

FREEBUFF从昨天上新了MINIMAX M3。而且不是PREMIUM的MODEL。随便用的那种。现在DS4 FLASH和MIMO 2.5还在限免。现在已经是我的主力cli了，我还挺喜欢他们的cli的。好像有自己做一些HARNESS 1 个帖子 - 1 位参与者阅读完整话题

逆天A/发布新模型专门提到防‘’敌对势力‘’蒸馏模型，检测到就降智

LinuxDo 最新话题 · 2026-06-10 01:23:34+08:00 · tech

Distillation . We’ve previously identified large-scale attempts to extract (“distill”) Claude’s capabilities to train competing models in authoritarian countries. Distillation of Fable 5’s abilities could indirectly lead to the proliferation of near-frontier AI capabilities—and these could be released without the appropriate safeguards. Requests that are flagged by our classifiers as being part of such distillation attempts will fall back to Opus 4.8. 提炼。我们之前已发现有人试图大规模提取（“提炼”）Claude 的能力，用于在专制国家训练竞争模型。提炼 Fable 5 的能力可能间接导致接近前沿人工智能能力的扩散——而这些能力可能在缺乏适当保障措施的情况下被发布。被我们的分类器标记为此类提炼尝试的请求将回退到 Opus 4.8 版本。 14 个帖子 - 10 位参与者阅读完整话题

相关专题

关于低算力 gpu 推理时 prefill 在总时长中的占比问题

V2EX - 技术 · 2026-06-09 17:06:23+08:00 · tech

看到很多人对 llm 推理速度的描述都是 decode 主导/带宽控制/prefill 忽略不计，我想要提醒的是，这只对高算力 gpu/代码等密集推理来说是客观的，如 pro6000/5090 这类，本地 agent 场景并不是这样。首先明确几个问题： 1 、未命中缓存的输入量：输出量是多少？长输出的密集推理往往输出大于输入（未命中缓存部分），甚至能达到 2:1 。工具密集的 agent 场景，根据我的 hermes agent 的数据，最近三天的数据是新输入量 / 输出量 = 4,882,795 / 377,561 ≈ 12.9 : 1,主要任务是信息检索/汇总/文件处理/智能家居。 2 、本地 agent 更多的工作在哪个场景？我认为主流场景是 12.9:1 这种，指望本地 ai 跑密集推理+编码任务不太现实啊。 3 、不同硬件的 prefill 速度和 decode 速度？以近期最火的 qwen3.6 27b 为例（ 8bit 开 mtp 参考值），5090 prefill 3000tps ，decode 70tps ，m3 ultra prefill 300tps ，decode 30tps 。 4 、此时，5090 prefill 1628s ，decode 5394s ，确实是 decode/带宽主导； m3 ultra prefill 16276s ，decode 12585s, prefill 占比 56%。 5 、对于本地部署常见的 4bit ，prefill 时间占比更高。综上所述，对于低算力/大显存设备，prefill 所用时长是相当显著的，在工具调用密集型 agent 中甚至占有主导地位。

关于低算力 gpu 推理时 prefill 在总时长中的占比问题

V2EX - 技术 · 2026-06-09 16:06:23+08:00 · tech

看到很多人对 llm 推理速度的描述都是 decode 主导/带宽控制/prefill 忽略不计，我想要提醒的是，这只对高算力 gpu/代码等密集推理来说是客观的，如 pro6000/5090 这类，本地 agent 场景并不是这样。首先明确几个问题： 1 、未命中缓存的输入量：输出量是多少？长输出的密集推理往往输出大于输入（未命中缓存部分），甚至能达到 2:1 。工具密集的 agent 场景，根据我的 hermes agent 的数据，最近三天的数据是新输入量 / 输出量 = 4,882,795 / 377,561 ≈ 12.9 : 1,主要任务是信息检索/汇总/文件处理/智能家居。 2 、本地 agent 更多的工作在哪个场景？我认为主流场景是 12.9:1 这种，指望本地 ai 跑密集推理+编码任务不太现实啊。 3 、不同硬件的 prefill 速度和 decode 速度？以近期最火的 qwen3.6 27b 为例（ 8bit 开 mtp 参考值），5090 prefill 3000tps ，decode 70tps ，m3 ultra prefill 300tps ，decode 30tps 。 4 、此时，5090 prefill 1628s ，decode 5394s ，确实是 decode/带宽主导； m3 ultra prefill 16276s ，decode 12585s, prefill 占比 56%。 5 、对于本地部署常见的 4bit ，prefill 时间占比更高。综上所述，对于低算力/大显存设备，prefill 所用时长是相当显著的，在工具调用密集型 agent 中甚至占有主导地位。

关于低算力 gpu 推理时 prefill 在总时长中的占比问题

V2EX - 技术 · 2026-06-09 15:06:23+08:00 · tech

看到很多人对 llm 推理速度的描述都是 decode 主导/带宽控制/prefill 忽略不计，我想要提醒的是，这只对高算力 gpu/代码等密集推理来说是客观的，如 pro6000/5090 这类，本地 agent 场景并不是这样。首先明确几个问题： 1 、未命中缓存的输入量：输出量是多少？长输出的密集推理往往输出大于输入（未命中缓存部分），甚至能达到 2:1 。工具密集的 agent 场景，根据我的 hermes agent 的数据，最近三天的数据是新输入量 / 输出量 = 4,882,795 / 377,561 ≈ 12.9 : 1,主要任务是信息检索/汇总/文件处理/智能家居。 2 、本地 agent 更多的工作在哪个场景？我认为主流场景是 12.9:1 这种，指望本地 ai 跑密集推理+编码任务不太现实啊。 3 、不同硬件的 prefill 速度和 decode 速度？以近期最火的 qwen3.6 27b 为例（ 8bit 开 mtp 参考值），5090 prefill 3000tps ，decode 70tps ，m3 ultra prefill 300tps ，decode 30tps 。 4 、此时，5090 prefill 1628s ，decode 5394s ，确实是 decode/带宽主导； m3 ultra prefill 16276s ，decode 12585s, prefill 占比 56%。 5 、对于本地部署常见的 4bit ，prefill 时间占比更高。综上所述，对于低算力/大显存设备，prefill 所用时长是相当显著的，在工具调用密集型 agent 中甚至占有主导地位。

关于低算力 gpu 推理时 prefill 在总时长中的占比问题

V2EX - 技术 · 2026-06-09 15:06:23+08:00 · tech

看到很多人对 llm 推理速度的描述都是 decode 主导/带宽控制/prefill 忽略不计，我想要提醒的是，这只对高算力 gpu/代码等密集推理来说是客观的，如 pro6000/5090 这类，本地 agent 场景并不是这样。首先明确几个问题： 1 、未命中缓存的输入量：输出量是多少？长输出的密集推理往往输出大于输入（未命中缓存部分），甚至能达到 2:1 。工具密集的 agent 场景，根据我的 hermes agent 的数据，最近三天的数据是新输入量 / 输出量 = 4,882,795 / 377,561 ≈ 12.9 : 1,主要任务是信息检索/汇总/文件处理/智能家居。 2 、本地 agent 更多的工作在哪个场景？我认为主流场景是 12.9:1 这种，指望本地 ai 跑密集推理+编码任务不太现实啊。 3 、不同硬件的 prefill 速度和 decode 速度？以近期最火的 qwen3.6 27b 为例（ 8bit 开 mtp 参考值），5090 prefill 3000tps ，decode 70tps ，m3 ultra prefill 300tps ，decode 30tps 。 4 、此时，5090 prefill 1628s ，decode 5394s ，确实是 decode/带宽主导； m3 ultra prefill 16276s ，decode 12585s, prefill 占比 56%。 5 、对于本地部署常见的 4bit ，prefill 时间占比更高。综上所述，对于低算力/大显存设备，prefill 所用时长是相当显著的，在工具调用密集型 agent 中甚至占有主导地位。

关于低算力 gpu 推理时 prefill 在总时长中的占比问题

V2EX - 技术 · 2026-06-09 14:49:41+08:00 · tech

看到很多人对 llm 推理速度的描述都是 decode 主导/带宽控制/prefill 忽略不计，我想要提醒的是，这只对高算力 gpu/代码等密集推理来说是客观的，如 pro6000/5090 这类，本地 agent 场景并不是这样。首先明确几个问题： 1 、未命中缓存的输入量：输出量是多少？长输出的密集推理往往输出大于输入（未命中缓存部分），甚至能达到 2:1 。工具密集的 agent 场景，根据我的 hermes agent 的数据，最近三天的数据是新输入量 / 输出量 = 4,882,795 / 377,561 ≈ 12.9 : 1,主要任务是信息检索/汇总/文件处理/智能家居。 2 、本地 agent 更多的工作在哪个场景？我认为主流场景是 12.9:1 这种，指望本地 ai 跑密集推理+编码任务不太现实啊。 3 、不同硬件的 prefill 速度和 decode 速度？以近期最火的 qwen3.6 27b 为例（ 8bit 开 mtp 参考值），5090 prefill 3000tps ，decode 70tps ，m3 ultra prefill 300tps ，decode 30tps 。 4 、此时，5090 prefill 1628s ，decode 5394s ，确实是 decode/带宽主导； m3 ultra prefill 16276s ，decode 12585s, prefill 占比 56%。 5 、对于本地部署常见的 4bit ，prefill 时间占比更高。综上所述，对于低算力/大显存设备，prefill 所用时长是相当显著的，在工具调用密集型 agent 中甚至占有主导地位。

[酷工作] 阿里国际(Aliexpress)急招 Agent 开发，流程快，最核心的交易业务，速来

v2ex · 2026-06-09 14:40:25+08:00 · tech

职位描述 1 、负责阿里国际(Aliexpress)电商交易系统的购物车、下单、订单管理和逆向流程的开发与优化，确保交易流程的顺畅与高效。 2 、设计并实施高可用、高性能的 Java 架构，以支持大规模并发交易处理。 3 、参与 Agent 开发，提升系统自动化处理能力和智能化水平。 4 、与团队协作，利用大模型训练技术，优化 Agent 处理效率和正确率。职位要求 1 、本科及以上学历，计算机科学或相关专业，扎实的 Java 基础和架构设计能力。 2 、具有至少 3 年的 Java/python 或者其他语音开发经验，有实际的 Agent 开发项目经验者优先。 3 、熟悉大模型训练技术，有实际应用经验者更佳。 4 、良好的团队合作精神，具备优秀的沟通和协调能力，能与跨部门团队有效协作。 5 、对电商交易流程有深入理解，善于解决问题，有创新思维，致力于提升交易系统的质量和效率。流程超快，速来，我专程跟进。 (985 、211 、双一流）或者（中大厂经验）联系 vx：czQ1NDU2OTQ2 (base64)

[酷工作] 逆向工程一场面试：给上次发的 /prepme skill 加了一个拍档 /anslog

v2ex · 2026-06-09 13:45:00+08:00 · tech

上次发的 prepme 有朋友用了、也提了建议，也有朋友提了 PR ，谢谢大家。这两天我把它做得更完整了一些: 核心还是一件事：逆向工程你的面试。丢进 CV + JD ，它从招聘要求里反推面试官大概率会问的题，从你简历里反推哪些经历会被追问，每道题都预判好后续的 2–4 个追问。输出一个自包含的 HTML 题库，点复制一段组织好的 prompt ，喂给任一个 AI 工具就能拿到初步的详解。之后可以在同一个 session 里追问 AI 直到你得到一个完整的理解。这次新增了一个搭档 skill —— anslog ，补上了"知识整理和回流"这一环：一道题和 AI 聊透、你满意之后，说一句"log this answer" 或直接 `/anslog`，它就把答案整理成一页归档，并回链进题库，对应的卡片标记为已回答。进度是答案驱动的，真正存下答案才算数。逆向出题，喂给 AI 聊透，再把答案沉淀回来，刷满进度条就可以上场了。仍然欢迎大家提建议或直接贡献 PR ，祝都顺利。 https://github.com/pplam/prepme

SILX AI 正式发布 Quasar-Preview：18B MoE 架构的早期预览版拥有5M上下文长度

LinuxDo 最新话题 · 2026-06-09 13:28:35+08:00 · tech

今日，SILX AI 宣布推出其 Quasar 基础模型系列的首个公开版本—— Quasar-Preview 。 Quasar-Preview 并非旨在与当前顶尖模型“刷榜”竞争，而是一个用于验证和探索前沿架构的奠基之作。它的主要技术规格包括：采用约 18B 总参数的混合专家（MoE）架构，其中激活参数（Active Parameters）仅为 2B 级别，保持了极高的推理效率。配置了实验性的 500万（5M）Token 上下文窗口，采用 Safe NoPE / DrOPE 风格的阶段性长上下文扩展方法，专为未来的基于内存的系统而设计。模型基于 Loop Transformer 和 Quasar 混合注意力构建，内部包含了 Quasar、Raven 和 GLA 混合层，并结合了稀疏 MoE 路由技术。目前训练所用的 Token 数量在 1T 到 1.5T 之间（其中长上下文扩展路径目前接收了不到 1B 的 Token）。官方强调， Quasar-Preview 并非最终形态的 Quasar 模型，也不能代表该架构的最终质量。它采用 MIT 协议开源发布，旨在将架构公之于众，方便研究人员进行测试与开发。该模型依托 Bittensor（SN24）去中心化基础设施进行训练。SILX AI 计划在未来通过以下方式持续提升模型性能：迭代式的子网训练与知识蒸馏更长的训练周期与更强的后训练进一步的长上下文扩展训练以及架构更新 huggingface.co silx-ai/Quasar-Preview · Hugging Face We’re on a journey to advance and democratize artificial intelligence through open source and open science. 1 个帖子 - 1 位参与者阅读完整话题

关于低算力 gpu 推理时 prefill 在总时长中的占比问题

V2EX - 技术 · 2026-06-09 13:27:28+08:00 · tech

看到很多人对 llm 推理速度的描述都是 decode 主导/带宽控制/prefill 忽略不计，我想要提醒的是，这只对高算力 gpu/代码等密集推理来说是客观的，如 pro6000/5090 这类，本地 agent 场景并不是这样。首先明确几个问题： 1 、未命中缓存的输入量：输出量是多少？长输出的密集推理往往输出大于输入（未命中缓存部分），甚至能达到 2:1 。工具密集的 agent 场景，根据我的 hermes agent 的数据，最近三天的数据是新输入量 / 输出量 = 4,882,795 / 377,561 ≈ 12.9 : 1,主要任务是信息检索/汇总/文件处理/智能家居。 2 、本地 agent 更多的工作在哪个场景？我认为主流场景是 12.9:1 这种，指望本地 ai 跑密集推理+编码任务不太现实啊。 3 、不同硬件的 prefill 速度和 decode 速度？以近期最火的 qwen3.6 27b 为例（ 8bit 开 mtp 参考值），5090 prefill 3000tps ，decode 70tps ，m3 ultra prefill 300tps ，decode 30tps 。 4 、此时，5090 prefill 1628s ，decode 5394s ，确实是 decode/带宽主导； m3 ultra prefill 16276s ，decode 12585s, prefill 占比 56%。 5 、对于本地部署常见的 4bit ，prefill 时间占比更高。综上所述，对于低算力/大显存设备，prefill 所用时长是相当显著的，在工具调用密集型 agent 中甚至占有主导地位。

相关专题

关于低算力 gpu 推理时 prefill 在总时长中的占比问题

V2EX - 技术 · 2026-06-09 13:27:28+08:00 · tech

看到很多人对 llm 推理速度的描述都是 decode 主导/带宽控制/prefill 忽略不计，我想要提醒的是，这只对高算力 gpu/代码等密集推理来说是客观的，如 pro6000/5090 这类，本地 agent 场景并不是这样。首先明确几个问题： 1 、未命中缓存的输入量：输出量是多少？长输出的密集推理往往输出大于输入（未命中缓存部分），甚至能达到 2:1 。工具密集的 agent 场景，根据我的 hermes agent 的数据，最近三天的数据是新输入量 / 输出量 = 4,882,795 / 377,561 ≈ 12.9 : 1,主要任务是信息检索/汇总/文件处理/智能家居。 2 、本地 agent 更多的工作在哪个场景？我认为主流场景是 12.9:1 这种，指望本地 ai 跑密集推理+编码任务不太现实啊。 3 、不同硬件的 prefill 速度和 decode 速度？以近期最火的 qwen3.6 27b 为例（ 8bit 开 mtp 参考值），5090 prefill 3000tps ，decode 70tps ，m3 ultra prefill 300tps ，decode 30tps 。 4 、此时，5090 prefill 1628s ，decode 5394s ，确实是 decode/带宽主导； m3 ultra prefill 16276s ，decode 12585s, prefill 占比 56%。 5 、对于本地部署常见的 4bit ，prefill 时间占比更高。综上所述，对于低算力/大显存设备，prefill 所用时长是相当显著的，在工具调用密集型 agent 中甚至占有主导地位。

关于低算力 gpu 推理时 prefill 在总时长中的占比问题

V2EX - 技术 · 2026-06-09 12:45:14+08:00 · tech

看到很多人对 llm 推理速度的描述都是 decode 主导/带宽控制/prefill 忽略不计，我想要提醒的是，这只对高算力 gpu/代码等密集推理来说是客观的，如 pro6000/5090 这类，本地 agent 场景并不是这样。首先明确几个问题： 1 、未命中缓存的输入量：输出量是多少？长输出的密集推理往往输出大于输入（未命中缓存部分），甚至能达到 2:1 。工具密集的 agent 场景，根据我的 hermes agent 的数据，最近三天的数据是新输入量 / 输出量 = 4,882,795 / 377,561 ≈ 12.9 : 1,主要任务是信息检索/汇总/文件处理/智能家居。 2 、本地 agent 更多的工作在哪个场景？我认为主流场景是 12.9:1 这种，指望本地 ai 跑密集推理+编码任务不太现实啊。 3 、不同硬件的 prefill 速度和 decode 速度？以近期最火的 qwen3.6 27b 为例（ 8bit 开 mtp 参考值），5090 prefill 3000tps ，decode 70tps ，m3 ultra prefill 300tps ，decode 30tps 。 4 、此时，5090 prefill 1628s ，decode 5394s ，确实是 decode/带宽主导； m3 ultra prefill 16276s ，decode 12585s, prefill 占比 56%。 5 、对于本地部署常见的 4bit ，prefill 时间占比更高。综上所述，对于低算力/大显存设备，prefill 所用时长是相当显著的，在工具调用密集型 agent 中甚至占有主导地位。

关于低算力 gpu 推理时 prefill 在总时长中的占比问题

V2EX - 技术 · 2026-06-09 12:18:31+08:00 · tech

看到很多人对 llm 推理速度的描述都是 decode 主导/带宽控制/prefill 忽略不计，我想要提醒的是，这只对高算力 gpu/代码等密集推理来说是客观的，如 pro6000/5090 这类，本地 agent 场景并不是这样。首先明确几个问题： 1 、未命中缓存的输入量：输出量是多少？长输出的密集推理往往输出大于输入（未命中缓存部分），甚至能达到 2:1 。工具密集的 agent 场景，根据我的 hermes agent 的数据，最近三天的数据是新输入量 / 输出量 = 4,882,795 / 377,561 ≈ 12.9 : 1,主要任务是信息检索/汇总/文件处理/智能家居。 2 、本地 agent 更多的工作在哪个场景？我认为主流场景是 12.9:1 这种，指望本地 ai 跑密集推理+编码任务不太现实啊。 3 、不同硬件的 prefill 速度和 decode 速度？以近期最火的 qwen3.6 27b 为例（ 8bit 开 mtp 参考值），5090 prefill 3000tps ，decode 70tps ，m3 ultra prefill 300tps ，decode 30tps 。 4 、此时，5090 prefill 1628s ，decode 5394s ，确实是 decode/带宽主导； m3 ultra prefill 16276s ，decode 12585s, prefill 占比 56%。 5 、对于本地部署常见的 4bit ，prefill 时间占比更高。综上所述，对于低算力/大显存设备，prefill 所用时长是相当显著的，在工具调用密集型 agent 中甚至占有主导地位。

[推广] SpaceX pre-ipo

v2ex · 2026-06-09 12:15:25+08:00 · tech

SpaceX 终于要 IPO 了？满大街的消息都在传，但真正安全、能给散户提前埋伏的合规渠道基本没有。 Bybit 刚开的 IPO Express 这次直接给 Web3 人开了个后门。不需要繁琐的传统券商开户，直接用你现成的 USDC 就能 1:1 参与全球潜力 IPO 的早期认购。必须强调一点：这绝对不是那种随时会跑路的 Pre-IPO 空气对赌盘！ Bybit xStocks 背后的每一股，都是有真实美股股票在合规托管机构放着的，跟传统券商同步打新，甚至自动享有真实股东的股息分润权益。机制是高效公平的 Pro-rata （按比例分配），没中签的钱自动秒退。因为这业务海外抢得太火爆了，对 VIP 用户的超额需求可以找客户开白名单。别等上市暴涨了才去二级市场接盘，最低 100 U ，先去把早期的身位给占住。链接： https://partner.bybit.com/b/142229

/tag/Pre