但算力 - WWW.YOUINFO.SITE - WWW.YOUINFO.SITE

马斯克 xAI 坐拥 55 万张英伟达 GPU 但算力利用率仅 11%，Meta 和谷歌可达 43~46%

linux.do · 2026-05-04 12:40:01+08:00 · tech

马斯克 xAI 坐拥 55 万张英伟达 GPU 但算力利用率仅 11%，Meta 和谷歌可达 43~46% - IT之家 2 个帖子 - 2 位参与者阅读完整话题

马斯克 xAI 坐拥 55 万张英伟达 GPU 但算力利用率仅 11%，Meta 和谷歌可达 43~46%

www.ithome.com · 2026-05-03 21:30:07+08:00 · tech

IT之家 5 月 3 日消息，据《The Information》今日报道，马斯克旗下人工智能公司 xAI—— 也就是 Grok 大模型的幕后团队，目前手头上约有 55 万块英伟达 GPU（包括 H100 与 H200），但实际利用率仅有 11%。据介绍，这些硬件目前主要部署在孟菲斯的 Colossus 超算集群中，采用液冷配置。尽管与 Blackwell 最新一代产品相比稍显老旧，但这样的体量在全球范围内依然位居前列。然而，如此海量的硬件并未转化为有效的计算产出。该集群的实际利用率仅有 11%。当然，这并非意味着其余 89% 的 GPU 处于完全闲置状态，而是指模型的实际浮点运算利用率远远低于理论峰值。业内人士解释称，衡量 AI 算力效率的关键指标叫做 MFU（Model FLOPs Utilization），即模型浮点运算利用率。11% 的 MFU 意味着，理论上能产生 100 份训练吞吐量的硬件，实际只产出了 11 份，大量的电力和硬件时间都消耗在了数据等待、通信开销和重新计算等环节，而没有转化为有效的训练吞吐。面对这一数字，xAI 总裁 Michael Nicolls 在一份内部备忘录中承认其“低得尴尬”，并为团队设定了在未来几个月内将利用率拉升至 50% 的目标。 xAI 并非个例，算力利用率偏低是整个 AI 基础设施领域的行业性难题。报道指出，在超大规模集群下，软件优化跟不上硬件部署速度是普遍现象。作为对比，Meta 和谷歌在软件堆栈上投入了大量精力，因此其 GPU 利用率相对较高，但也只有约 43% 和约 46%。 IT之家此前曾报道，Colossus 集群的建设速度令人瞠目，从启动到首阶段投用仅用了 19 天，英伟达 CEO 黄仁勋更指出“这通常需要四年的时间”。这种飞速扩张虽然让 xAI 在硬件储备上占据了先机，但目前似乎也暴露出了软件配套与分布式训练能力的滞后。此外，业界分析指出，AI 训练具有间歇性特征，硬件在模型推理时满负荷运转，但在数据分析阶段则会陷入闲置，这是导致利用率较低的重要因素。除了 AI 训练本身的间歇性，业内人士指出，GPU 供应短缺带来的行为扭曲也加剧了算力浪费。由于高端 GPU 产能紧张且获取周期长，许多企业担心被回收资源而倾向于囤积硬件，实际负载却无法消化，从而造成了庞大的闲置资源与高昂的闲置成本并存的现象。为了改变现状，xAI 计划从基础设施和软件堆栈优化入手。同时，有消息指出，xAI 未来可能会推出针对其庞大 GPU 集群的租赁服务，将闲置算力转化为收入。此外，马斯克也在大力投入 TeraFab 项目，旨在为 xAI、SpaceX 等企业设计自研 AI 芯片，并基于 Intel 14A 工艺打造下一代先进计算方案。

[投资] AI 真正的分水岭，是“模型竞争结束”之后吗？

v2ex.com · 2026-04-24 02:54:03+08:00 · tech

模型差距收敛，但算力需求开始向基础设施集中。在这个结构切换里，Nebius Group 成为直接受益者。AI 浪潮从“买显卡”走向“建系统”，GPU 云服务开始承接长期算力外包需求。 NBIS 今年以来上涨约 87%，目前在 160 美元附近震荡，短期回调约 6%后进入趋势回踩区间。估值层面虽然 PS 偏高，但 DCF 模型仍显示内在价值支撑，市场尚未完全定价其长期增长。这是 AI 基础设施的二阶段起点，还是阶段性情绪高点。但可以确定的是——AI 的钱，正在从模型端，流向基础设施端。现在 NBIS 价格在 158 附近，我建议可以先建立一个观察仓位，目前 170 是一个压力位，短期肯定是能突破的，只要突破就是打开一道新路线，长线依然看 210 。

/tag/但算力