得克萨斯州阿比林一片尘土飞扬的草原地带,OpenAI 与甲骨文的数据中心承建商 Crusoe 公司的硬件工程师们连日加班,只为让多台燃气涡轮机组与这座史上造价最高的 AI 超级计算机稳定协同运行。 得克萨斯州阿比林,甲骨文与 OpenAI 共建的星门 AI 数据中心旁布置燃气涡轮机组。 多位知情项目人士、驻场工程师及电网专家透露,该项目属于 OpenAI 星门算力基建工程,整体落地难度与资金投入均远超最初预期。 阿比林基地长期被视作全球 AI 数据中心建设的风向标。Crusoe 的客户甲骨文已在此为 OpenAI 部署服务器,耗电规模至少数百兆瓦;企业计划今年夏季在新增楼宇中部署更多芯片,总用电负荷最高可达 1.2 吉瓦,这一供电量足以支撑旧金山整座城市的照明需求。 但首要难题是保障不间断供电。知情人士称,受冷却系统故障、涡轮机组异常、得州电网监管机构即将出台的电网波动管控新规等多重问题影响,Crusoe 不得不阶段性停工复盘,规避设备、人力、资金面临的多重风险。 除了项目现场各类运营难题,所有 AI 基建厂商都正遭遇成本失控。几周前,Crusoe 首席执行官蔡斯・洛克米勒在斯坦福大学客座讲座中透露,建成一座 1 吉瓦规模数据中心的 “通电主体厂房” 成本高达 192 亿美元,涵盖建筑主材、机电设备、配套燃气电站及全部人工成本。 这一数字较两三年前同规格项目报价大幅攀升:AI 算力热潮下,承包商技术工种薪资普遍上涨 30%,人工成本已占到总投资额近四分之一。洛克米勒表示:“行业技术人力争夺空前激烈。” 其余硬件配套成本同样暴涨。他向学生介绍,过去数年单吉瓦配套燃气电站造价近乎翻三倍,最高可达 30 亿美元;圣路易斯联储数据显示,变压器与开关柜价格自 2020 年以来涨幅达 80%。一座 1 吉瓦数据中心所需芯片与服务器配套设备,采购成本另需约 400 亿美元。 目前 Crusoe、甲骨文、OpenAI 及其他合作方的成本分摊方案尚未对外披露;若出现预算超支、工期延误,相关法律追责主体也无明确定论。Crusoe 一名发言人回应称,公司预算已预留应对各类突发状况的风险准备金。 有一点十分明确:全球数据中心建设周期普遍拉长,用地审批周期拉长、核心设备紧缺、用工短缺三重因素持续拖慢进度。摩根大通经济学家上月发布报告称,卫星影像显示,原定 2027 年前投运的数据中心中,超六成尚未动工,另有 7% 项目工期延后,预示行业扩张节奏或将放缓。 Crusoe 在阿比林基地的故障排查工作也给全行业敲响警钟:吉瓦级超大规模数据中心建设容不得半点马虎。任何一处失误,都可能导致芯片过热损毁、涡轮叶片与传动轴断裂、施工人员触电伤亡,或是电网配套设备彻底烧毁。 Crusoe 首席执行官蔡斯・洛克米勒 电力配套瓶颈、监管新规约束等多重难关,也是 OpenAI、Anthropic 等 AI 企业反馈无法从新建数据中心获取充足算力、难以按预期速度迭代新技术的核心原因。 Crusoe 成立已有八年,早期依托废弃能源运营加密货币矿场,2022 年全面转型 AI 基础设施赛道。七个月前公司私募估值突破 100 亿美元,最新消息显示其 IPO 前一轮融资估值有望达到 3000 亿至 4000 亿美元区间。曾与 Crusoe 合作的企业高管对其管理团队给予正面评价,称团队大幅提速行业建设效率,同时灵活化解工程落地与监管层面的各类难题。 Crusoe 官方发布声明表示:“AI 算力负载的用电需求特性,与电力行业传统备用电源的设计适配逻辑存在根本性差异,这是全行业共同攻克的重大工程难题。我们为客户交付的项目,无论建设速度还是落地规模都开创行业先例,对此我们深感自豪。” 作为 AI 数据中心赛道先行者,Crusoe 项目暴露出的各类隐患,相当于为全行业提前排雷。类似特斯拉此前部署储能电池,化解 xAI(现并入 SpaceX)数据中心电力脉冲冲击的做法。 另一家得州本地基建厂商评价,Crusoe 敢于快速试错、迭代方案,以此换取极致施工速度,但代价是投入成本居高不下。一名熟悉阿比林项目的前 OpenAI 工程师证实了这一点。项目内部人士透露,基地初期备用供电方案抗电压骤变、功率振荡能力不足,团队不得不修改多版设计。 由于这批燃气涡轮仅作为数据中心备用电源,并未影响基地与得州公共电网的主线接入。项目合作方 Lancium 负责承建场内变电站,知情工期人士表示,变电站工程进度达标甚至超前,可保障 OpenAI 今年夏季最高调用 1.2 吉瓦外网电力。 但充足电网供电不代表 OpenAI 与甲骨文可即刻满负荷使用。工程师需完成服务器芯片烤机测试,同步优化供电、冷却整套系统设计,才能在夏季前完成全部算力集群调试。一名参与项目的前工程师透露,今年早些时候,用于防止芯片服务器过热熔毁(热失控故障)的制冷机组在低温环境下失灵,导致算力中断近一整天。 脱离电网风险 AI 算力负载毫秒间用电功率波动极大,相关研究指出,管控不当会产生频率失配(谐波畸变),损毁居民家电与变电站设备,同时加速数据中心自有电池损耗。一旦检测到电网异常,数据中心会主动脱网自保。2024、2025 年弗吉尼亚 “数据中心走廊” 曾两度出现数十座机房集体脱网,险些引发区域性大停电。 2024 年夏秋,西德克萨斯一处加密矿场因固件程序缺陷持续诱发电网功率剧烈振荡,厂商重写固件后故障才得以解决。 得州电网运营方对此高度警惕。电网会议追踪机构 GridMonitor 统计,仅今年年内,得州电力可靠性委员会(ERCOT)的各类会议中,“功率振荡” 一词被提及 80 次之多。该机构正落地畸变管控新规,强制数据中心配套高精度电力缓冲稳压系统,主流方案以储能电池为主,厂商也在同步研发小型发电机组、电容、燃料电池等替代方案。 另一项待落地新规要求数据中心具备电网故障穿越能力,不得一遇异常就直接脱网。利好消息是新一代园区整体设计搭载效能更强的储能缓冲电池,配套 AI 硬件也做了适配优化。英伟达能源系统架构师肖恩・詹姆斯称:“英伟达持续优化服务器内置电路,提升对电力脉冲的缓冲能力。” 防范 AI 算力冲击电网已上升至北美统一监管层面。北美电力可靠性公司(NERC)于 5 月 4 日发布罕见三级预警,要求电网规划方在 8 月 3 日前落地核心整改举措,证明电网可承载 AI 数据中心等新型超大算力负荷。 NERC 首席执行官吉姆・罗布表示:“硅谷一贯信奉快速试错、破旧立新,但这套逻辑不适用于电网 —— 社会运转的一切基础设施都依赖稳定供电。数据中心、加密矿场的运行模式必须保障电网整体可靠。” 甲骨文发言人回应:“保障电网稳定是甲骨文超大规模数据中心的核心设计准则,公司深度联合 Lancium 与各地电力企业协同推进,全力维护电网安全运行。” 查看评论
IT之家 4 月 15 日消息,据彭博社报道,微软公司已同意租用挪威一处数据中心的算力资源,该场地最初是为 OpenAI 准备的,并被宣传为这家人工智能公司“星门(Stargate)计划”的一部分。 云基础设施服务商 Nscale 在一份声明中表示,微软将在挪威纳尔维克的北极圈内园区,向 Nscale 额外租用 3 万块英伟达公司的 Vera Rubin 芯片。这是对微软此前在该园区 62 亿美元(IT之家注:现汇率约合 423.4 亿元人民币)投入计划的进一步扩充。 据知情人士透露,OpenAI 最初曾就该园区的算力资源进行洽谈,用于运行其人工智能相关业务,但最终并未与 Nscale 达成协议。该公司去年在一份声明中将此项目宣传为“挪威星门”,这与其计划投入 5000 亿美元、用于支撑下一代人工智能发展的美国基础设施合资项目相呼应。 上周,OpenAI 宣布暂停其在英国的同类星门项目,该项目同样由 Nscale 开发,理由是英国能源成本高昂且监管严格。 与此同时,Nscale 在伦敦西部的另一座数据中心设施找到了新客户:Alphabet 旗下的谷歌。据一位知情人士称,谷歌将租用该数据中心的算力资源,该中心搭载英伟达的 Grace Blackwell 芯片。 OpenAI 暂停英国星门项目,且未能与挪威 Nscale 达成协议,与这家人工智能巨头此前公布的基础设施规划形成反差。在近年一系列高调宣布之后,面对不断攀升的服务器农场成本,OpenAI 似乎正采取更为谨慎的策略。该公司今年 2 月向投资者表示,到 2030 年将在基础设施上投入约 6000 亿美元(现汇率约合 4.1 万亿元人民币),这一具体数字低于其此前透露的 1.4 万亿美元(现汇率约合 9.56 万亿元人民币)长期承诺。 OpenAI 一位发言人表示,公司仍在就挪威算力资源的合作协议进行洽谈,并正与多家合作伙伴合作搭建基础设施。 OpenAI 首席执行官萨姆 · 奥尔特曼去年 7 月在一份声明中称:“我一直说,如果条件合适,我们很乐意将星门计划带到欧洲,我们认为纳尔维克就具备这样的条件。” 微软已与 Nscale 等多家新型云服务商达成多项合作,旨在快速推进数据中心上线,以满足市场需求。上月,微软宣布接手一个原本为 OpenAI 和甲骨文公司开发的得克萨斯州项目。 尽管微软通过与 OpenAI 的合作在人工智能热潮中抢占先机,但近期其云服务算力资源仍显紧张。华尔街预计,微软今年的资本支出将达到 1430 亿美元(现汇率约合 9765.52 亿元人民币),主要用于数据中心建设。 另据周二消息,微软表示将收购怀俄明州 3200 英亩土地,以扩大其在该州的数据中心布局。
IT之家 4 月 12 日消息,据彭博社报道,知情人士透露,参与 OpenAI 斥资数千亿美元建设大规模人工智能数据中心产能这一重大项目的三名核心人员,即将加盟 Meta 公司。 这些知情人士称,曾在 OpenAI“星门”(Stargate)项目中发挥关键作用的彼得 · 赫舍勒(Peter Hoeschele)是新入职 Meta 的人员之一。与他一同加入的还有负责算力战略与业务拓展的沙梅兹 · 赫马尼(Shamez Hemani),以及算力部门另一位负责人阿努杰 · 萨哈兰(Anuj Saharan)。科技媒体《The Information》当地时间周四曾报道,这三人已从 OpenAI 离职。 OpenAI 暂未就置评请求作出回应,但此前曾表示,公司感谢这三名员工的贡献,并仍在为其基础设施规划招募人才。去年 11 月,OpenAI 已聘请前英特尔高管萨钦 · 卡蒂(Sachin Katti)负责其工业算力业务。 Meta 首席执行官马克 · 扎克伯格已承诺大举投入,建设在瞬息万变的人工智能竞赛中竞争所需的数据中心、算力与人才。仅今年一年,Meta 就预计资本支出最高可达 1350 亿美元(IT之家注:现汇率约合 9242.65 亿元人民币),重点投向人工智能基础设施项目。扎克伯格还承诺,在本十年末前,将再投入数千亿美元用于人工智能基础设施建设。 这些算力将支撑 Meta 超智能实验室(Meta Superintelligence Labs)的运作,该团队由扎克伯格牵头成立,旨在追赶人工智能领域的竞争对手。Meta 刚刚发布了由该实验室研发的全新模型 Muse Spark。 与此同时,“星门”项目于去年在白宫宣布,是 OpenAI、甲骨文公司(Oracle Corp.)与软银集团(SoftBank Group Corp.)联手打造的一项规模达 5000 亿美元的合作计划。近期,该项目已演变为 OpenAI 所有数据中心规划的统称。 OpenAI 曾表示,在扩张算力基础设施以支撑旗下模型方面,其进度领先于人工智能同行。这其中包括由赫舍勒及其团队主导的美国得克萨斯州阿比林数据中心项目等。OpenAI 近期在致投资者的备忘录中称,相较于竞争对手 Anthropic PBC,其较早布局算力建设是一大优势。 尽管如此,“星门”项目自启动以来已历经多次调整。OpenAI 当地时间周四宣布,将暂停其在英国的“星门”人工智能基础设施项目,原因是在备受市场期待的上市前夕,公司正收紧大手笔的支出计划。此外,OpenAI 与甲骨文也决定不再续租阿比林数据中心的扩建场地。
OpenAI放弃直接从英国AI云服务商Nscale在挪威运营的数据中心租赁算力的计划。微软将接手该数据中心的剩余算力。OpenAI 表示,正与微软洽谈从其手中租赁算力。(新浪财经)