搭建10万卡GPU集群技能指南

栏目分类

热点资讯

军事新闻你的位置：军事瞭望网 > 军事新闻 > 搭建10万卡GPU集群技能指南

搭建10万卡GPU集群技能指南

发布日期：2024-12-21 03:57 点击次数：139

手把手教你搭建10万卡GPU集群

引子

建设10万卡集群的必要性无庸赘述，刻下AI公司第一梯队的门票还是是3.2万卡集群。瞻望来岁，这一数字将高涨至10万卡(H100)集群，普及空间巨大。

由10万张H100组成的AI集群，其功耗高达150MW,投资逾越40亿好意思元(约300亿东说念主民币)。每年耗能约为$1.59\times10^9$千瓦时。按照0.078好意思元/kWh的费率诡计，每年电费高达1.24亿好意思元。这一数字令东说念主瞠目，足以激勉对动力破钞和本钱效益的深远念念考。

挑战

（1）动力跟空间挑战

算力瓶颈的背后，有着“动力”和“工程能力”这两座大山。

"10万块H100组成的集群，功率需求高达150MW,卓绝了当今天下最大的超等诡计机El Capitan的30MW,后者的功率仅为前者的五分之一。"

在H100 Server里面，每块GPU的独建功耗约为700W。为同意其运行需求，梗概需要575W的电源来驱动与之配套的CPU、齐集接口卡(NIC)和电源单位(PSU)。

H100 Server外部，AI集群还囊括了存储管事器、齐集交换机、光收发器等许多其他开采，约占总功耗的10%。

X.AI 将田纳西州孟菲斯市的一家旧工场改酿成了数据中心，每天破钞100万加仑水和150兆瓦电力。当今天下上还莫得任何一座数据中心有能力部署150MW的AI集群。

这些AI集群通过光通讯进行互联，而光通讯的本钱与传输距离成正比。

多模 SR 和 AOC收发器的最长传输距离约为50米。

在数据中心的天下中，每栋大楼齐被赞赏为一个“诡计岛”。这些岛屿里面充满了多个“诡计仓”，它们之间的贯串是通过经济实用的铜缆或者多模互联终了的。而为了终了这些岛屿之间的联通，咱们遴荐长距离的单模光通讯技能。这种阵势不仅高效，而况概况确保数据的踏实传输，从而同意当代数据中心对高性能和可靠性的需求。

由于数据并行相对的通讯量比较少，因此，不错跑在不同诡计岛之间：

当今，这个领有10万+节点的集群中，已有3栋建筑(3个诡计岛)完工，每座诡计岛容纳约1000-1100个机柜，总功耗约为50MW。

（2）齐集架构及并行计谋

数据并行（Data Parallelism）

这种并行阵势的通讯条款最低，因为GPU之间只需要传递梯度数据。

然则，数据并行条款每块GPU具备充足的内存以存储悉数这个词模子的权重。关于领有1.8万亿参数的GPT-4模子而言，这意味着高达10.8TB的内存需求。

张量并行（Tensor Parallelism）

为了克服数据并行带来的内存限制，东说念主们发明了张量并行技能。

在张量并行中，GPU之间需要时常通讯，以交换中间诡计收尾，从而终了更高效的诡计。因此，张量并行需要高带宽和低蔓延的齐集贯串。通过张量并行，不错灵验减少每块GPU的内存条款。例如，使用8个张量并行等第进行NVLink贯串时，每块GPU使用的内存不错减少8倍。

活水线并行（Pipeline Parallelism）

另一个克服GPU内存限制的次第是活水线并行技能。

活水线并行是一种在漫衍式诡计环境中终了模子并行的技能，主要用于深度学习范畴，极度是在处理大范畴神经齐集模子时。通过将模子的不同部分(如神经齐集的层)分派到不同的诡计节点上，活水线并行概况在不糟跶检会后果的情况下，期骗集群中的多台机器共同完成模子检会。

当一块GPU完成层的前向、反向传播运算后，它不错将中间收尾传递给下一块GPU,以便立即出手诡计下一个数据批次。这么不错提高诡计后果，裁减检会时候。尽管引入了GPU之间的通讯量，但每个GPU在完成诡计后需将数据传递给下一个GPU,因此需要高效的齐集贯串以确保数据快速传输。

活水线并行对通讯量的条款很高，但莫得张量并行那么高。

3D并行（3D Parallelism）

遴荐H100 Server内的GPU张量并行，诡计岛内节点活水线并行，跨诡计岛终了数据并行，提高后果。

齐集架构

进行齐集拓扑遐想时需要同期研讨到所用的并行化决策。

GPU部署有多种齐集，包括前端齐集、后端齐集和彭胀齐集(NVLink),每个采蚁合运行不同的并行决策。

NVLink齐集是处理张量并行带宽需求的唯独快速弃取。尽管后端齐集能简短应付大多数其他类型的并行，但在存在拘谨比问题时，数据并行成为首选。

刻下建设10万张H100的超等AI算力集群，不错弃取的齐集决策主要有三种，别离是Broadcom Tomahawk 5,Nvidia Infiniband,以及Nvidia Spectrum-X。在大型AI集群中，Spectrum-X比较InfiniBand具有显赫上风，包括性能、功耗和本钱。其中，Spectrum-X是NVIDIA推出的高性能以太网交换芯片平台，仅用于Spectrum-X平台，不只独销售。这三种决策各有优劣，具体弃取需要笔据骨子需求进行评估。如若您需要更多信息，请参考关连文件或磋磨专科东说念主士。

InfiniBand

InfiniBand的上风在于，以太网并不复古SHARP齐集内缩减。

InfiniBand NDR Quantum-2交换机领有64个400G端口，相较之下，Spectrum-X以太网的SN5600交换机和Broadcom的Tomahawk 5交换机ASIC均提供128个400G端口，提供了更高的端口密度和性能。

"Quantum-2交换机端口有限，10万节点集群中最多只可终了65,536个H100 GPU的竣工互联。"

下一代InfiniBand交换机Quantum-X800将通过144个800G端口惩处容量问题，但仅适用于NVL72和NVL36系统，因此不太可能在B200或B100集群中平凡应用。

Spectrum-X

Spectrum-X,收货于NVIDIA库如NCCL的一级复古，为您带来无与伦比的上风。加入他们的新家具线，您将成为首批客户，体验前所未有的革命。

Spectrum-X需搭配Nvidia LinkX收发器购买，因为其他收发器可能无法浩瀚责任或未通过考证。

英伟达在400G Spectrum-X中，遴荐Bluefield-3替代了ConnectX-7当作暂时的惩处决策，而ConnectX-8瞻望将与800G Spectrum-X完整协同。

在广大的数据中心中，Bluefield-3和ConnectX-7的本钱别离为约300好意思元/ASP,但Bluefield-3需特等破钞50瓦电力。因此，每个节点需增多400瓦功率，从而遏抑了举座检会管事器的每皮焦尔智能度。

Spectrum-X在数据中心部署10万个GPU需5MW功率，相较之下，Broadcom Tomahawk 5无需此功率。

为了幸免给英伟达支付上流的用度，许多客户弃取部署基于Broadcom Tomahawk 5的交换机。这款芯片概况以5.5W的功率为800Gbps的流量供电，减少了将信号驱动到交换机前端的可插拔光学器件的需要。此外，Broadcom周二推出了该公司最新的交换芯片Tomahawk 5,概况在端点之间互连共计每秒51.2太比特的带宽。

基于Tomahawk 5的交换机与Spectrum-X SN5600交换机相同具备128个400G端口，若公司领有不凡的齐集工程师，可终了等同性能。此外，您可从任何供应商购打通用收发器及铜缆并进行混杂使用。

稠密客户弃取与ODM厂商协作，如Celestica的交换机、Innolight和Eoptolink的收发器等。

"笔据交换机和通用收发器的本钱研讨，Tomahawk 5在价钱上大大优于Nvidia InfiniBand。而况，与Nvidia Spectrum-X比较，它更具本钱效益。"

缺憾的是，要为Tomahawk 5修补和优化NCCL通讯集群，您需要具备塌实的工程手段。虽然，NCCL开箱即用，但其仅针对Nvidia Spectrum-X和Nvidia InfiniBand进行了优化。

如若你有40亿好意思元用于10万个集群，那么你应该也有迷漫的工程能力来修补NCCL并进行优化。软件开发充满挑战，然则Semianalysis预测，超大范畴数据中心将转向其他优化决策，甩掉InfiniBand。

轨说念优化

为了提高齐集景仰性和延长铜缆(<3米)及多模(<50米)齐集的使用寿命，部分客户弃取甩掉英伟达保举的轨说念优化遐想(rail optimized design),转向遴荐中间架遐想(Middle of Rack design)。

"轨说念优化技能，让每台H100管事器与八个落寞的叶交换机建立贯串，而非汇注在兼并机架。这种遐想让每个GPU仅需一次跳转就能与更远的GPU进行通讯，从而大幅普及全对全集体通讯性能。"

比如在混杂行家（MoE）并行中，就大齐使用了全对全集体通讯。

在兼并机架内，交换机可遴荐无源直连电缆(DAC)和有源电缆(AEC)。但在轨说念优化遐想中，若交换机位置不同，需借助光学器件终了贯串。

此外，叶交换机到骨架交换机的距离可能大于50米，因此必须使用单模光收发器。

通过非轨说念优化遐想，您不错用低价的直连铜缆替换贯串GPU和叶交换机的98304个光纤收发器，从而使您的GPU链路中铜缆占比提高至25-33%。

DAC铜缆在运行温度、耗电和本钱方面相较于光缆具有显赫上风，同期可靠性更高。这种遐想灵验遏抑了齐集链路间歇性瘫痪和故障，是高速互连范畴光学器件所靠近的主要挑战的要害惩处决策。

Quantum-2IB骨架交换机在遴荐DAC铜缆时，功耗为747瓦；若使用多模光纤收发器，功耗将升至1500瓦。

运转布线对数据中心技能东说念主员来说耗时巨大，每条链路两头距离50米且不在兼并机架，轨说念优化遐想助力普及后果。

在中间机架遐想中，叶交换机与悉数贯串的GPU分享兼并机架。以致在遐想完成前，就不错在集成工场测试诡计节点到叶交换机的链路，因为悉数链路齐在兼并机架内。

组网例如

如图所示，这是常见的三层Fat-Tree拓扑(SuperSpine-Spine-Leaf),其中两个Spine-Leaf组成一个Pod。

Spine Switch 和 SuperSpine Switch 需要贯串，因此相应 Group 的数量要减半。一个 Pod 有 64 个 Spine Switch,对应 8 个 Group。因此，一个 Pod 有 64 个 Leaf Switch。有了多个 Pod，不错进一步构建 64 个 SuperSpine Fabric，每一个 Fabric 要与不同 Pod 中的 Spine Switch 终了全互联。这里以 8 个 Pod 为例，将 8 个 Pod 里的第 i 个 Spine Switch 与 Fabric i 中的 SuperSpine Switch 终了 Full Mesh，这里有 8 个 Pod，因此一个 Fabric 中只需要 4 个 128 Port 的 SuperSpine Switch 即可。以上建设 8 个 Pod 对应：总的 GPU：4096*8=32768SuperSpine Switch：64*4=256Spine Switch：64*8=512Leaf Switch：64*8=512总的 Switch：256+512+512=1280总的光模块数：1280*128+32768=196608骨子上表面最多不错复古 128 个 Pod，对应的开采数为：GPU：4096*128=524288=2*(128/2)^3SuperSpine Switch：64*64=4096=(128/2)^2Spine Switch：64*128=8192=2*(128/2)^2Leaf Switch：64*128=8192=2*(128/2)^2优化后的著作：Switch性能分析：$4096+8192+8192$ =20480,极度于$5\times(128/2)^2$.

万卡集群循序彭胀3个肖似的pod即可。

（3）可靠性与复兴

同步模子检会导致巨型集群的可靠性成问题。常见问题包括GPU HBM ECC失实、GPU驱动卡死、光纤收发器故障和网卡过热等。

为了裁减故障复兴时候，数据中心需建设热备与冷备开采。在发生问题时，最好计谋是期骗备用节点不竭检会，而非平直中断。

数据中心技能东说念主员可在数小时内确立受损GPU管事器，但在某些情况下，节点可能需数日方可再行干涉使用。

在检会模子经由中，为了幸免HBM ECC等失实，咱们需要按期将搜检点存储到CPU内存或SSD捏久化存储。一朝出现失实，再行加载模子和优化器权重并不竭检会是必不行少的。

容错检会技能可用于提供用户级应用驱动次第，以处理GPU和齐集故障。

缺憾的是，时常备份搜检点和容错检会技能可能导致系统举座MFU受损。集群需握住暂停以保存权重至捏久存储或CPU内存。

每100次迭代仅保存一次搜检点，可能导致要紧亏蚀。以一个领有10万卡的集群为例，若每次迭代耗时2秒，那么在第99次迭代失败时，可能亏蚀高达229个GPU日的责任。

另一种故障复兴计谋是期骗备用节点通事后端结构从其他GPU进行RDMA复制。这种次第具有高效性，后端GPU的速率高达400Gbps,每个GPU还配备了80GB的HBM内存，因此复制经由仅需约1.6秒。

通过此计谋，最多亏蚀1个法子(因为更多GPU HBM将取得权重更新),从而在2.3个GPU日的诡计时候内完成，再加上从其他GPU HBM内存RDMA复制权重所需的1.85个GPU日。

稠密顶尖AI实验室已继承此技能，然许多袖珍公司仍信守繁琐、渐渐且低效的阵势——重启处理以还原故障。借助内存重构终了故障复兴，可大幅普及大型检会运行的MFU后果，检朴数个百分点的时候。

在齐集故障范畴，Infiniband/RoCE链路故障是最常见的问题。尽管收发器数量较多，但在全新且浩瀚运行的集群中，第一次功课故障仅需26.28分钟，即使每个网卡到最底层交换机链路的平均故障率为5年。

在10万卡GPU集群中，光纤故障导致再行启动运行所需时候远超模子诡计，未经内存重建的故障复兴计谋将影响后果。

由于GPU与ConnectX-7网卡平直相连，齐集架构无容错遐想，导致故障需在用户检会代码中惩处，从而增多代码库复杂性。

大言语模子(LLM)在节点内使用张量并行，如若一个网卡、一个收发器或一个GPU故障，悉数这个词管事器就会宕机。由于该计谋波及的齐集通讯量较大，需要期骗管事器里面的不同诡计开采之间进行高速通讯带宽。

当今，有好多责任正在进行，以使齐集可重建设，减少节点的脆弱性。这项责任至关焦灼，因为近况意味着悉数这个词GB200 NVL72仅因一个GPU或光学故障就会宕机。 RAS引擎通过深远分析诸如温度、ECC重试次数、时钟速率和电压等要害芯片级数据，准确预测潜在故障并实时见知数据中心工程师，确保系统踏实运行。

"此举使技能团队能主动景仰，如普及电扇速率以保踏实，并在景仰窗口期将管事器撤回运行队伍进行深远搜检。"

在检会任务出手前，每颗芯片的RAS引擎将进行全面自检，例如履行已知收尾的矩阵乘法以侦测静默数据损坏(SDC)。

（4）物料清单

具体来说，不错分为四种（原文中是7：1，骨子上应该是8：1？）：

"坚毅的4层InfiniBand齐集，领有32,768个GPU集群，轨说念优化技能，终了7:1拘谨速率普及。"

Spectrum X齐集是一种以太网平台，由NVIDIA开发。它是一种专为提高Ethernet-based AI云的性能和后果而遐想的以太网平台。该齐集平台提供了3层架构，其中包括32,768个GPU集群，轨说念优化遐想，7:1拘谨比。

3. 3层InfiniBand齐集，包含24,576个GPU集群，非轨说念优化遐想，用于前端齐集的集群间贯串。

"搭载3层Broadcom Tomahawk 5以太网齐集，领有32,768个GPU集群，终了轨说念优化，7:1拘谨比。"