在英伟达 Nemotron 3 Ultra、谷歌 Gemma 4 12B 等 25 款开源权重模型集中发布后,科技投资人 Chamath Palihapitiya 指出,开源与闭源前沿模型的能力差距正在迅速收窄,但调用价格仍存在巨大鸿沟。 以企业每月消耗 10 亿输入与 10 亿输出 Token 测算,GPT-5.5 Pro 成本高达 10.5 万美元,Claude Opus 4.8 为 3 万美元,而 DeepSeek R1 仅需 2740 美元,GPT-5.5 Pro 的溢价近 40 倍。Chamath 警告,多数公司 CEO 并不知道技术团队在缺乏治理与审计的情况下,直接默认选用最昂贵的大模型 API,导致预算超支。 随着他本人联合创立并担任首席执行官的 AI 原生软件开发生命周期编排平台 Software Factory 等模型路由控制面逐渐普及,企业将转向模型无关架构,将大规模推理默认分流至 DeepSeek,高端代理流导入 Claude Opus,仅在产生明确高额增量价值时按需调用 GPT-5.5 Pro。Chamath 预测,精细化路由将导致 OpenAI 和 Anthropic 等前沿实验室的 API 营收增速显著放缓,而开源及低成本推理生态的收入将迎来暴增。 1 个帖子 - 1 位参与者 阅读完整话题
openrouter.ai Nemotron 3 Ultra (free) - API Pricing & Benchmarks NVIDIA Nemotron 3 Ultra is an open frontier-reasoning and orchestration model from NVIDIA, with 55B active parameters out of 550B total (MoE). $0 per million input tokens, $0 per million output tokens. 1,000,000 token context window, maximum output... 自家模型build算力应该是给够了,要不就是目前还没什么人用,无等待时间,40t/s NVIDIA NIM nemotron-3-ultra-550b-a55b Model by NVIDIA | NVIDIA NIM Open, efficient hybrid Mamba-Transformer MoE with 1M context, excelling in agentic reasoning, coding, planning, tool calling, and more 1 个帖子 - 1 位参与者 阅读完整话题
目前已经上线openrouter( nvidia/nemotron-3-ultra-550b-a55b:free ) 和build.nvidia.com 权重: nvidia/NVIDIA-Nemotron-3-Ultra-550B-A55B-BF16 · Hugging Face 7 个帖子 - 5 位参与者 阅读完整话题
基准测试平台 Artificial Analysis 最新数据显示,英伟达新推出的开源大模型 Nemotron 3 Ultra 被评为目前美国能力最强的开源人工智能模型,但在整体水平上仍落后于中国头部开源模型。该模型采用混合专家架构,整体参数规模约为 5500 亿,其中任一时刻实际激活约 550 亿参数。 在 Artificial Analysis 的智能评分榜单中,Nemotron 3 Ultra 获得 48 分,明显领先于其他美国开源模型,例如Google Gemma 4 31B 的 39 分、英伟达上一代 Nemotron 3 Super 的 36 分,以及 gpt-oss-120b 的 33 分。 不过,与中国最强开源模型相比,Nemotron 3 Ultra 仍有差距:来自月之暗面的 Kimi K2.6 在同一榜单中获得 54 分,而当前综合实力最强的闭源模型 Claude Opus 4.8 则拿到 61 分。 Artificial Analysis 的可视化图表显示,Nemotron 3 Ultra 落在其划定的“最具吸引力象限”,在智能得分处于第一梯队的同时,推理和生成速度也位居前列。 在推理性能方面,托管 Nemotron 3 Ultra 的平台 DeepInfra 实测吞吐量超过每秒 300 个 token,而相近规模的 DeepSeek 和 Moonshot 模型目前通常只能达到每秒 50 至 100 个 token 左右,Nemotron 3 Ultra 在速度上的优势十分明显。 英伟达表示,Nemotron 3 Ultra 将于 6 月 4 日正式向开发者社区开放,首批将登陆 Hugging Face、OpenRouter 等主流模型托管与调用平台,方便企业和个人开发者集成与测试。 外界普遍认为,随着这一模型的发布,美国开源模型阵营在高端能力段获得了一次重要补强,但在综合智能和性能上与中国领先开源模型及国际顶级闭源模型之间仍存在一定差距。 查看评论
这个模型应该是英伟达自己弄得最大的模型了,看分数其实智能水平还不错,而且300tps以上的输出速度,就是不知道用来coding怎么样,上一个super之前opencode有免费试用,可惜才128B,只能说勉强做点简单任务,这个如果速度快的话可以试试,说不定能代替minimax2.7的生态位。 4 个帖子 - 2 位参与者 阅读完整话题
IT之家 6 月 1 日消息,为加强自主智能体的智能能力,英伟达今日发布了面向全天候运行智能体的全新开源模型与数据集,相关成果由英伟达 Nemotron 联盟联合打造。 据官方介绍,英伟达 Nemotron 3 Ultra 是一款拥有 5500 亿参数的混合专家模型,可为代码开发、科研及企业业务流程中的长效智能体提供顶尖智能能力。相较于同级别主流开源前沿模型,该模型推理速度最高提升 5 倍,使用成本最高降低 30%,助力智能体更高效、低成本地完成各项任务。 Nemotron 3 Ultra 已完成适配主流智能体平台与调度框架的后置训练,企业可借助这类框架部署、统筹管理智能体,涵盖 Hermes Agent、LangChain Deep Agents、OpenClaw、OpenHands 以及 OpenCode。 此外,全新推出的安全防护与语音识别类 Nemotron 模型,进一步丰富了该模型系列的能力,可用于打造高效、专业化的企业级智能体。 目前,英伟达 Nemotron 模型已助力新一代长效人工智能智能体落地于多家企业平台,其中包括 CrowdStrike、Palantir。这类智能体能够协助团队分析复杂数据、统筹工作任务,并优化网络安全及企业整体运营流程。 CrowdStrike 将 Nemotron 模型应用于旗下专用智能体,可不间断排查漏洞、划分风险等级并修复配置错误,既能更快抵御网络攻击,也减轻了安全团队的运维压力。 Palantir 则把 Nemotron 模型接入其前线部署工程师(AI FDE)人工智能平台,实现复杂任务自主执行;同时依托智能体的交互数据持续迭代优化,搭建出适配特定业务领域、物理隔离的企业系统。 据IT之家了解,Nemotron 3 Ultra 预计将于 6 月 4 日通过 Hugging Face、ModelScope、OpenRouter 以及 build.nvidia.com 以 NVIDIA NIM™ 微服务的形式推出,同时也将通过广泛的 NVIDIA 云合作伙伴生态系统、推理平台和云服务提供商提供。
nvidia/nemotron-3-nano-omni-30b-a3b-reasoning:free poolside是下面公司出的 laguna-m.1 应该这个效果会好点 Poolside Introducing Laguna XS.2 and Laguna M.1 We’re releasing two foundation models and two products into preview today. openrouter.ai Laguna XS.2 (free) - API Pricing & Providers Laguna XS.2 is the second-generation model in the XS size class from [Poolside](https://poolside.ai), their efficient coding agent series. $0 per million input tokens, $0 per million output tokens. 131,072 token context window, maximum output of... openrouter.ai Laguna M.1 (free) - API Pricing & Providers Laguna M.1 is the flagship coding agent model from [Poolside](https://poolside.ai), optimized for complex software engineering tasks. $0 per million input tokens, $0 per million output tokens. 131,072 token context window, maximum output of 8,192... 3 个帖子 - 2 位参与者 阅读完整话题
当地时间周二(4月28日),英伟达在官网发布了开放式多模态模型“Nemotron 3 Nano Omni”。英伟达表示,新模型可以将多种功能整合到一个系统中,使智能体能够利用视频、音频、图像和文本的高级推理能力,提供更快、更智能的响应。 新闻稿写道,“这款一流的模型为企业和开发者提供了一条高效、精准的多模态AI智能体生产路径,并具备全面的部署灵活性和控制力。” 英伟达声称,Nemotron 3 Nano Omni以领先的准确性和低成本,为开放式多模态模型树立了新的效率标杆,在复杂文档智能、视频和音频理解方面,荣登六大排行榜榜首。 根据新闻稿的说道,Nemotron 3 Nano Omni采用30B-A3B混合专家架构,将视觉和音频编码器集成于其中,无需单独的感知模型,从而显著提升了大规模推理效率。 它不仅效率高,而且拥有强大的多模态感知精度,使AI系统的吞吐量是其他具有相同交互性的开放式全向模型的9倍。最终实现了更低的成本和更好的可扩展性,同时又不牺牲响应速度或质量。 声明称,已有一批公司已经采用该模型,H Company首席执行官Gautier Cloix表示,“基于该模型,我们的智能体可以快速解读全高清屏幕录像——这在以前是无法实现的。” Cloix补充称,“这不仅仅是速度的提升,更是智能体实时感知和与数字环境交互方式的根本性转变。” 英伟达表示,在代理系统中,Nemotron 3 Nano Omni可以与专有云模型或其他英伟达Nemotron开放模型以及其他提供商的专有模型协同工作,为代理工作流程的子代理提供支持。 声明最后还提到,Nemotron 3系列模型(包括Nano、Super和Ultra型号)在过去一年中的下载量超过5000万次。 查看评论
IT之家 4 月 29 日消息,当地时间 4 月 28 日,英伟达宣布推出名为 Nemotron 3 Nano Omni 的开源全模态推理模型,旨在为企业级 AI Agent 提供一体化基础模型底座。 据介绍,这是一款将视频、音频、图像和文本的统一多模态推理集成于单个高效开放模型中的产品。该模型旨在替代智能体系统中常见的碎片化视觉-语音-语言模型链,从而减少推理跳数与编排复杂度,降低推理成本,同时增强跨模态上下文一致性。 Nemotron 3 Nano Omni 可在智能体系统中充当多模态感知与上下文子 Agent,使智能体能够在单个共享的“感知-行动”循环中处理视觉、音频和文本输入,提升收敛速度,降低编排复杂度和推理成本。 在文档智能榜单(如 MMlongbench-Doc 和 OCRBenchV2)上,该模型取得了同类领先的准确率;同时在视频与音频理解基准(WorldSense、DailyOmni、VoiceBench)中也表现优异。 行业基准 MediaPerf(基于真实媒体数据和生成任务评估视频理解模型的性能、成本和吞吐量)显示,Nemotron 3 Nano Omni 在所有任务上实现了最高吞吐量,且视频级标注的推理成本最低。 ▲ 在固定的用户交互阈值下,各模型所能维持的总系统吞吐量 该模型基于 30B‑A3B 混合专家(MoE)架构,可根据任务和模态进行激活,实现高吞吐量与可扩展的多模态性能。IT之家注意到,其模型权重、数据集和训练配方完全开放,开发者可在本地、云端或企业环境中定制、部署和集成多模态子 Agent。 英伟达表示,在固定交互延迟阈值下,Nemotron 3 Nano Omni 在视频推理任务中可持续提供更高的聚合吞吐量,相比其他开放式全模态模型有效系统容量最高提升约 9.2 倍;在多文档推理任务中,有效系统容量最高提升约 7.4 倍。在 Blackwell GPU 上采用 NVFP4 量化时,该模型在处理复杂文档、长时推理和大批量视频的企业级工作负载中,吞吐量在开放式全模态模型中居于领先。 架构设计方面,Nemotron 3 Nano Omni 核心为混合 MoE,结合 Mamba 层(提升序列与内存效率)和 Transformer 层(实现精准推理),内存和计算效率最高可提升 4 倍。 视觉处理方面,它采用 3D 卷积捕捉帧间运动,推理时通过高效视频采样层将高密度视觉 token 压缩为 LLM 可处理的精简集合;音频部分则基于 NVIDIA Parakeet 编码器与专用数据集;文本部分以强大的文本模型作为中心解码器,保留基础模型的语言能力;视觉编码采用 C-RADIOv4-H,支持高分辨率图像与 OCR 精度。 其训练方法涵盖适配器与编码器训练(约 1270 亿跨模态 token)、多阶段监督微调及后监督强化学习(超过 230 万次环境 rollout)。该模型权重已在 Hugging Face 上提供,并即将作为 NVIDIA NIM 微服务上线。英伟达还开放了完整的端到端训练与评估配方、部署指南、微调食谱以及开放数据集。
当地时间4月28日,英伟达在公司博客宣布,推出名为Nemotron 3 Nano Omni的开源全模态推理模型,旨在为企业级AI Agent提供一体化基础模型底座。英伟达介绍,这款模型融合了视觉、音频与语言能力,将帮助AI智能体实现高达9倍的效率提升。(界面)