WWW.YOUINFO.SITE
标签聚合 MRC

/tag/MRC

IT之家 · 2026-05-07 11:28:20+08:00 · tech

IT之家 5 月 7 日消息,OpenAI 昨日(5 月 6 日)发布公告,为解决大规模 AI 训练中的网络延迟和故障问题,已携手 AMD、博通、英特尔、微软和英伟达公司, 联合推出多路径可靠连接(MRC)协议,并通过 OCP(开放计算项目)向全行业开放该协议。 IT之家援引博文介绍,MRC 全称为 Multipath Reliable Connection,基于 RoCE 标准扩展,结合 SRv6 技术,通过开放计算项目(OCP)向全行业开源,致力于提升超级计算机网络的性能与韧性。 大规模训练 AI 模型面临严峻的网络挑战,单一数据传输延迟可能导致整个进程中断,致使 GPU(图形处理器)闲置。网络拥塞、链路及设备故障是主要诱因,且集群规模越大,问题发生频率越高。 针对传统网络架构扩展性不足的问题,MRC 采用多平面网络设计。通过将单一 800Gb/s 接口拆分为多个较小链路,系统仅需两层交换机即可连接约 13.1 万块 GPU。相比传统三层或四层架构,这一设计显著降低了网络功耗与组件数量,在降低成本的同时提升了路径多样性。 在流量调度方面,MRC 引入自适应数据包喷淋技术。与传统单路径传输不同,该技术将单一传输任务的数据包分散至数百条路径并行传输,有效避免了核心网络拥塞。即使数据包乱序到达,接收端也能依据内存地址信息正确重组。 为简化网络控制,MRC 摒弃了复杂的动态路由协议(如 BGP),转而采用 SRv6 源路由。发送端直接指定数据包路径,交换机仅需依据静态配置表转发。这种机制消除了动态路由的故障行为,使网络故障恢复时间从秒级缩短至微秒级。 实际部署数据显示,MRC 已应用于 NVIDIA GB200 超级计算机及 Oracle Cloud Infrastructure(OCI)站点。在真实训练场景中,即使发生链路抖动或交换机重启,MRC 也能在不中断训练任务的情况下自动绕过故障。 参考 Supercomputer networking to accelerate large scale AI training

LinuxDo 最新话题 · 2026-05-06 22:37:55+08:00 · tech

https://openai.com/index/mrc-supercomputer-networking/ Frontier模型训练依赖于可靠的超级计算机网络,这些网络能够快速在GPU间传输数据。为了加快效率,OpenAI与AMD、博通、英特尔、Microsoft和NVIDIA合作开发了MRC(多径可靠连接):一种新颖协议,能提升大型训练集群中的GPU网络性能和韧性。我们MRC,通过开放计算项目(OCP)实现,使更广泛的行业能够使用它。 1 个帖子 - 1 位参与者 阅读完整话题

linux.do · 2026-04-22 11:53:22+08:00 · tech

Birmingham Live – 12 Apr 26 HMRC set to tax UK households 60% when they hit certain wage The Organisation for Economic Cooperation and Development (OECD) published Foundations for Growth and Competitiveness 2026 report on Thursday, April 9. [!quote]+ 因英国税务海关总署(HMRC)10万英镑税收陷阱而受挫的工人被迫停工。经济合作与发展组织(OECD)于4月9日星期四发布了《2026年增长与竞争力基础》报告。 英国政府网站解释:“当你的调整净收入超过10万英镑时,每增加2英镑,个人免税额减少1英镑。”“这意味着如果你的收入达到125,140英镑或以上,免税额为零。” Tax Assistance Accounants解释说,对于收入介于10万英镑至12.5万英镑之间的纳税人,实际边际税率为60%。 此外,超过10万英镑门槛的家长将失去价值近2万英镑的育儿支持。自2010年和2017年引入后,这些门槛已被冻结。 经合组织还表示,英国税制"有提升效率和公平性的空间",认为其部分内容复杂,“导致高额合规成本”。 1 个帖子 - 1 位参与者 阅读完整话题

36氪 · None · tech

5月6日,OpenAI宣布与AMD、博通、英特尔、微软及英伟达达成合作,正式发布名为“多路径可靠连接”(Multipath Reliable Connection,MRC)的新型开放网络协议。该协议旨在提升大型AI训练集群的运行速度与可靠性,通过减少GPU的闲置浪费,显著优化计算效率。目前,MRC已全面部署于OpenAI所有用于训练前沿模型的大型超级计算机中,包括位于美国得克萨斯州阿比林的甲骨文云基础设施站点以及微软的Fairwater超级计算机集群。(界面)