7/31/2025,光纤在线讯,为推动算力产业高质发展,ODCC(开放数据中心委员会)网络工作组启动了ETH-X超节点系列项目。该项目由中国信通院、腾讯联合快手科技、京东、燧原科技、英特尔、博通、华勤技术、锐捷网络、新华三、联想、中兴、云豹智能、云合智网、盛科通信、立讯精密、光迅科技等合作伙伴共同推动,以产品化样机以及相关技术规范为目标,打造大型多GPU互联算力集群系统。项目计划于2025年秋季前,完成ETH-X超节点原型机的软件和硬件开发,并对其业务系统进行综合验证测试。同期,还将正式发布ETH-X超节点技术规范的第一个版本,即ETH-X超节点技术规范1.0,以此引领高性能计算领域的发展方向。
AI算力集群Scale Up新趋势
在过去的五年间,人工智能(AI)模型计算需求量呈现出显著的指数级增长态势。比如,2017年推出的Transformer模型训练所需的计算量约7400PFLOPs。2023年谷歌发布的Gemini Ultra模型所需的计算量陡然跃升至50亿PFLOPs[1],直观反映了AI模型规模扩张与计算需求激增的迅猛趋势。随着AI模型规模的不断扩大,其所需的计算量已经远远超出了现有单体计算芯片的处理上限,进而凸显了构建基于多节点、多GPU互联系统的超大规模计算集群的必要性与紧迫性。
扩展计算集群的规模有如下两种方式:
(1)Scale Up方式是基于单个节点内部多芯片的高速互联网络来构建高算力的节点;
(2)Scale Out方式则是通过RoCEv2/InfiniBand互联网络将多个节点扩展至千个甚至万个节点的规模。
图1 AI模型对算力的需求
在Meta发布的研究论文中,提出了HBD(High Band width Domain,高带宽域)的概念,即通过采用超高速带宽(HB)技术互联GPU集合,形成了一种扩展性的网络架构。论文中引入了“HBD Size”量度指标,系统地衡量高带宽域架构内部集成的GPU单元总量,旨在为评估该网络规模、优化资源分配及预测整体计算潜力提供了一个标准化的度量工具,进一步推动了对大规模并行计算领域深入探索的边界。
目前,如NVLink之类的超高带宽互联技术主要由单一企业专有维护,这种封闭性在一定程度上制约了技术的持续演进与效能优化潜力。相比之下,ETH-X超节点[3]项目提供了一种新的探索方向,旨在基于以太网技术,实现高带宽容量,构建一个开放且可扩展的Scale Up超节点体系。
本文将重点分析ETH-X超节点扩大Scale Up规模(HBD Size)对AI模型训练和推理的性能影响以及相应的成本变化。
图2 ETH-X超节点基于以太网技术进行Scale up的方案
ETH-X超节点Scale Up性能收益定性分析
在采用并行策略训练大型语言模型(LLM)时,不同的并行策略有不同网络流量模式,要求对Scale Out和Scale Up网络进行明确的通信负载分工,提高整个计算集群的训练效率。Scale Up网络利用Nvlink的高带宽能力,处理张量并行(Tensor Parallel,TP)中产生的大量通信数据,支持训练过程中超大张量的高效传输。Scale Out网络主要负责承载数据并行(Data Parallel,DP)和流水线并行(Pipeline Parallel,PP)的通信负载,若模型中包含MoE的All-to-All通信,也将通过Scale Out网络[4]进行。
目前,DGX H100集群配置的Scale Up Size为8。通过扩容Scale Up Size,有效转移在Scale Out模式下进行的通信负载,提高模型训练效率。如DPAll Reduce和MoEAll-to-All通信等,利用Nvlink的超高带宽进行Scale Up通信,预期将缩短模型训练周期。
通过扩展Scale Up Size,可以使更多原先在Scale Out的通信数据,下图展示了128卡集群在不同Scale Up Size下的通信差异:
(1)当Scale Up Size为8时(图3),所有的All-to-All通信都在Scale Out网络中进行,其通信带宽相对较低。
(2)当Scale Up Size扩展到32时(图4),部分All-to-All通信已从Scale Out通信转变为Scale Up通信。
图3 Scale Up Size=8时MoE使用Scale Out网络在同号卡间All-to-All
图4 Scale Up Size=8时部分All-to-All通信转为ScaleUp网络
由于通信数据量相同,部分通信数据从Scale Out网络转变为Scale Up网络,通信耗时更少。根据GPU利用率的计算公式(图5),在通信总时间下降时,GPU利用率将会提升。因此,扩展Scale Up Size有利于提升GPU利用率。
图5 ScaleUp后部分GPU间带宽提升,通信总时间下降
ETH-X超节点ScaleUp在训练场景收益 定量分析
借助企业自研的AIGC计算量化分析平台,对不同规模参数的稠密型大模型(如Llama、GPT)在ETH-X超节点(以NVIDIA A800GPU性能指标为参考)Scale Up场景的训练性能收益进行了理论分析。如以Scale Up Size=8作为基准,分析在8K、16K及64K不同规模的ETH-X超节点集群中,将Scale Up Size从8扩展至256对模型训练迭代时间的影响。
(1)在8KETH-X超节点集群规模下,将Scale Up Size从8增加到256,可以使得70B至1T规模模型的单次迭代时间降低0.2%至11.2%;
(2)在16KETH-X超节点集群规模下,Scale Up Size的提升(从8到256)能够使单次迭代时间减少7%至26%;
(3)在64K集群规模下,Scale Up Size的增加(同样从8至256)能够实现更显著的性能提升,单次迭代时间减少幅度为31%至51%。
从整体趋势上看,Scale Up Size扩增到64后收益趋于平缓。同时,随着模型参数规模增大,Scale Up Size扩增的收益有所下降,更大规模的集群带来的收益更大。
图6 训练场景下不同参数规模的稠密型模型受Scale Up的影响(注:均基于最优并行策略配置进行理论评估)
由于稠密型与稀疏型大模型在模型架构与并行计算时的通信流量模型上存在差异,因此需对不同参数规模的稀疏型大模型在Scale Up场景下的性能收益进行分析。分析结果表明,在8KETH-X超节点集群规模下,将Scale Up Size从8增加到256,不同参数量模型的单次迭代时间可以减少14%至23%;在16KETH-X超节点集群规模下,这一提升可以使单次迭代时间减少21%至34%;而在64K集群规模下,单次迭代时间的减少幅度为37%至52%。
图7 训练场景下不同参数规模的稀疏型模型受Scale Up的影响(注:均基于最优并行策略配置进行理论评估)
从总体趋势来看,对于稠密型模型还是稀疏型大模型,Scale Up均能带来显著的训练效率提升。对于稠密型大模型,主要收益来源于Scale Up带来的带宽增加,减少了数据并行中的Allreduce通信时间和流水并行中的P2P通信时间。对于稀疏型大模型,带宽的提升除了减少上述两种通信时间外,显著减少了MoE结构中的All-to-All通信时间。
ETH-X超节点ScaleUp在推理场景收益定量分析
提高Scale Up Size能够带来模型推理性能的显著增益。在一组配置有64张NVIDIA B200 GPU的推理实例分析中,将Scale Up Size从8增加到64,TTFT(Time To First Token)最大降幅达到了46%,同时单卡的吞吐量也提高了41%。当推理集群扩展到128张NVIDIA B200卡时,性能提升更加显著。此时,Scale Up Size的增加从8到128,TTFT的最大降幅可达57%,单卡的吞吐量增幅甚至最高可达59%。另外,当采用更低计算精度时,FP16精度下从8卡提升到128卡,单卡吞吐提升倍率为1.36,而在FP4精度下从8卡提升到128卡,单卡的吞吐提升倍率为1.63,凸显了在更高效精度模式下Scale Up的巨大潜力。
图8 推理场景下稀疏型模型受Scale Up的影响(均基于最优并行策略配置进行理论评估)
TTFT过程本质上是预训练场景中的前向计算过程,Scale Up后通信耗时相应减少,故TTFT总耗时减少[5]。当使用更低的计算精度时,由于低精度计算本身占用的计算资源减少,通信耗时在TTFT总耗时中所占的比例相对增大,故在低精度下,Scale Up减少通信延迟的效益更为显著,性能提升更为明显。
ETH-X超节点在不同Scale Up规模下 成本对比分析
ETH-X超节点架构相较于传统的8卡节点设计有了显著变化,打破了以往一体式设备的限制,将其重构为独立的计算节点与交换机节点,并将设备尺寸从常规的6RU/8RU缩减至更为紧凑的1RU规格,而且还增加了cabletray、manifold、CDU、powershelf、busbar及HBD互联等一系列组件,极大地增强了系统的模块化与可扩展性。另外,从成本构成分析显示,占据总成本超过80%的关键高价值部件,包括GPU、CPU、DDR内存以及网络接口控制器(NIC)的数量并未发生改变,确保了成本效益的最优化。
图9 不同ETH-X规模与传统8卡节点成本分析
如图所示,ETH-64相对8台8卡节点设备成本仅增加6%。ETH-128相对ETH-64节点由于增加了柜间互联,成本稍有涨幅。基于ETH-128,ETH-256增加了多柜互联交换机及光模块,成本涨幅较大。
ETH-X超节点性能/成本综合收益对比
基于上文Scale up的收益定量分析结果与成本影响,进行综合收益分析。以LLama-70B稠密型模型在64K集群下的训练场景为例,对比Scale Up Size为8和256时,二者的支出分别为11.04和6.85,可得在该训练场景下Scale up可以减少约38%的支出。
推理场景下使用上文128张NVIDIA B200卡FP4精度的分析结果,对比Scale Up Size为8和128时,二者的单位时间收益支出比分别为72.25*K和101.50*K,可以得出在该推理场景下Scale up有40.48%的提升。
因此,综合对比ETH-X不同Scale up规模的成本与性能变化,在训练和推理场景下,Scale up带来的性能提升远超过成本的增加,Scale up能够实现综合收益的提升。
结论
ETH-X超节点Scale Up后性能提升的本质主要体现在两个方面:
(1)部分通信流量(如All Reduce/All-to-All)的带宽得到了8到10倍的提升,加快了数据的传输速度。
(2)通过调整TP和PP的组合来减少Bubble Time,进而优化并行计算过程,提升整体的计算效率。
另外,Scale Up实现的性能收益受多个关键因素的影响,具体包含如下:
(1)Global batch size与mini batch size配置
(2)通信总时间在单次迭代总耗时中的占比
(3)并行策略(DP/TP/PP/EP)
(4)集群GPU规模数
(5)模型参数规模
(6)计算精度(FP16/FP8/FP4)
(7)单卡峰值浮点算力
基于上述Scale up性能收益的定性与定量分析表明,扩大ETH-X超节点的Scale Up规模相较于使用传统的8卡节点,在硬件成本上影响不大,在大模型的训练与推理获得较可观的收益,但实际收益幅度受多种因素影响,需特定业务来精细衡量。
来源ODCC订阅号