NVL72 - WWW.YOUINFO.SITE - WWW.YOUINFO.SITE

AMD 展示其首个机架级 AI 平台 Helios，对垒英伟达 NVL72 VR200

IT之家 · 2026-06-05 09:51:33+08:00 · tech

IT之家 6 月 5 日消息，科技媒体 Tom's Hardware 今天（6 月 5 日）发布博文，报道称在 2026 台北国际电脑展上， AMD 公开展示其首个机架级 AI 平台 Helios。 IT之家注：首批方案由合作伙伴展示，核心配置包括第 6 代 EPYC Venice 处理器与 Instinct MI455X 加速器，计划于 2026 年内供货，定位高端 AI 基础设施市场，对垒英伟达的 NVL72 VR200。硬件规格方面，AMD Helios 可搭载最多 256 核的 EPYC Venice 处理器，并集成 72 颗 Instinct MI455X 加速器，总计配备 31TB HBM4 显存与 1400TB/s 带宽。性能方面，在 FP4（4 位浮点，常见于 AI 训练和推理加速场景）稠密精度下，理论可以达到 2900 PFLOPS（每秒千万亿次浮点运算）。该媒体指出在算力方面，Helios 略落后于英伟达 VR200 NVL72，但在 HBM4 显存容量上占优，更适合大语言模型等显存密集型任务。互联设计方面，72 颗加速器之间通过 UALink-over-Ethernet（基于以太网的 UALink）互连，聚合 scale-up 带宽最高可达 260TB/s，与英伟达 NVL72 VR200 处于同一量级。系统还将配备 Pensando Vulcano 网卡，这是业内较早支持 Ultra Ethernet（超以太网）规范的 800GbE 网卡之一，可提供最高 43TB/s 的 scale-out 带宽。

戴尔向 CoreWeave 交付全球首套可运行的 NVIDIA Vera Rubin NVL72 系统

IT之家 · 2026-06-01 08:58:43+08:00 · tech

IT之家 6 月 1 日消息，综合 Dell、CoreWeave 双方社媒动态，戴尔近日向 CoreWeave 交付了全球首套可运行的 NVIDIA（英伟达）Vera Rubin NVL72 AI 超级计算机系统，该产品成功通过所有测试。戴尔基于 Vera Rubin NVL72 打造了 PowerEdge XE9812 液冷服务器，集成 72 个 Rubin GPU、36 颗 Vera CPU，支持 T 级参数超大规模 AI 模型、MoE AI 模型训练，并可在大规模 AI 推理中实现更低的单位 Token（词元）成本。参考英伟达此前公告，CoreWeave 这家代表性 "Neocloud" 企业将从 2026H2 开始把基于 NVIDIA Rubin 的系统集成至其 AI 云平台中。相关阅读：《 CoreWeave 率先全面提供英伟达 RTX PRO 6000 Blackwell 服务器版云实例》《云服务新贵 CoreWeave 拔得头筹：率先部署英伟达 GB300 NVL72 系统》

英伟达已适配 DeepSeek-V4 AI 模型，GB200 NVL72 开箱性能超 150 tokens / sec / user

www.ithome.com · 2026-04-25 15:36:02+08:00 · tech

IT之家 4 月 25 日消息，英伟达今天（4 月 25 日）发布博文，宣布其 NVIDIA Blackwell 平台已适配 DeepSeek-V4-Pro 与 DeepSeek-V4-Flash 两款模型，开发者可通过 NVIDIA NIM 微服务下载部署，或利用 SGLang 与 vLLM 框架进行定制化推理。英伟达在博文指出，DeepSeek-V4-Pro 拥有 1.6T 总参数量与 49B 激活参数，定位高级推理任务；DeepSeek-V4-Flash 版本则为 284B 总参数量与 13B 激活参数，主打高速高效场景。两款模型均支持 100 万 Token 上下文窗口与最高 38.4 万 Token 输出长度，覆盖长文本编码、文档分析等核心应用，并采用 MIT 开源协议。实测数据显示， DeepSeek-V4-Pro 在 NVIDIA GB200 NVL72 上开箱即用性能超 150 tokens / sec / user ，借助 vLLM 的 Day 0 配方，开发者可在 Blackwell B300 上快速部署。随着 Dynamo、NVFP4 及 CUDA 内核的深度优化，预期性能将进一步提升。部署生态方面，开发者可通过 NVIDIA NIM 微服务下载部署，或利用 SGLang 与 vLLM 框架进行定制化推理。SGLang 提供低延迟、均衡及最大吞吐量三种配方；vLLM 则支持多节点扩展至 100 个以上 GPU，具备工具调用与推测解码能力。 IT之家附上参考 Build with DeepSeek V4 Using NVIDIA Blackwell and GPU-Accelerated Endpoints

/tag/NVL72