博客
深度解析 | 新型智算中心技术构建中 AI 大模型应用的建设
一、革新计算架构:计算效能飞跃
1.1 下一代 AI 芯片的创新路径
在 AI 芯片设计领域,当前主流路径主要分为两大阵营:一类是以 GPU 为代表的通用高性能并行计算架构,另一类则是针对 AI 特定领域优化的专用加速架构(DSA)。GPU 最初设计用于图形渲染,其强大的并行处理能力得益于数千个小计算核心的布局,这些核心专为同时处理大量任务而设计。随着 AI 深度学习技术的演进,GPU 逐步引入了 AI Core/Tensor Core 等专用电路,以加速矩阵运算,从而在大规模并行计算和浮点运算上展现出超越 CPU 的能力。
相比之下,AI DSA 芯片作为神经网络计算的专用处理器,专注于加速数据处理、传递及反向传播等核心环节。由于设计上的专用性,AI DSA 在功耗、可靠性、体积及性能上具备显著优势,但定制化的电路设计也带来了开发周期长、通用性和可编程性相对较弱的问题。当前,GPU 阵营以英伟达为代表,而 AI DSA 则涵盖了 Google TPU、华为昇腾、寒武纪思元等。
面对未来万亿级模型及大模型应用的普及,现有芯片架构面临性能瓶颈,尤其是内存带宽限制和功耗激增问题。为解决这些挑战,下一代 AI 芯片设计正探索以下方向:
-
存算一体化:通过融合计算单元与存储单元,减少数据访问和搬运,显著提升能效并降低功耗。
-
稀疏化计算能力:利用神经网络中的稀疏性,减少无效计算,优化功耗。
-
复杂 AI 算子支持:针对 Transformer 等复杂结构,设计能够高效分解和映射这些算子的芯片架构,实现算法与硬件的协同优化。
-
聚焦于芯片对更低推理延迟的迫切需求:为了推动预训练大型模型更快地融入实际应用,业界正积极探索一系列技术途径,如量化技术、知识蒸馏、模型剪枝等,旨在实现大模型的轻量化与高效化。在大型模型进行推理的过程中,计算任务涉及多种精度的混合使用,尤其是8位甚至更低精度的运算,这促使研究向如何提升芯片在推理任务中的即时响应能力和并行处理效率转移,成为又一关键探索领域。
1.2 存算一体:新型计算范式的崛起
存算一体作为突破冯诺依曼瓶颈的新型计算范式,通过直接在存储介质中完成计算,有效解决了传统架构中频繁数据访问导致的功耗问题。对于 CNN、Transformer 等主流 AI 模型,矩阵乘加运算占据了大量计算资源,存算一体架构因此成为实现高效计算的关键路径。
Ⅰ.存算一体的模拟
Ⅱ.数字化的存算一体
图1 展示了模拟与数字融合的存算一体化设计
存算一体技术可通过 RRAM、SRAM、MRAM、Nor Flash 等多种介质实现,每种介质在成熟度、读写次数等方面各具优势,多介质共存策略可进一步发挥综合性能。同时,存算一体架构既可采用模拟计算,也可采用数字计算,或两者结合,以灵活应对不同应用场景的需求。
在大模型推理场景中,存算一体架构充分利用非规则稀疏性,实现能效最大化。例如,复旦大学在 ISSCC 2023 上发布的基于蝶形数据分配网络的稀疏前馈计算架构,结合存内阵列设计,在 28nm 工艺下展现出显著的能效提升,相较于现有 Transformer 加速器,能效提升可达3.2倍至9.7倍。
展望未来,面向智算中心的多核、多芯片存算一体架构方案将成为主流趋势,为 AI 大模型的广泛应用提供坚实的计算支撑。
图2 Transformer 加速器采用存算一体化设计的实现概念图
当前,智算中心的核心发展聚焦于构建多核、多芯片的存算一体化架构,这被视为未来研究与商业化应用的关键趋势。在此前沿领域,三大核心挑战亟待解决,以推动技术向前迈进:
-
算法结构协同优化:为更有效地支撑稀疏 Transformer 等先进算法,需开发创新的存算一体阵列设计。通过分块结构化稀疏、动态激活值稀疏以及特定Transformer稀疏等策略,智能选择计算单元,并结合创新的加法树电路设计,缩减面积同时提升能效,进而加速推理过程,实现算法与硬件的紧密协同。
-
精度需求与计算架构的匹配:面对大模型推理的高精度要求,设计可变精度的存算一体架构显得尤为重要。采用数字存内计算与模拟存内计算混合、双生多bit等技术,灵活支持 INT8、BF16 等多种精度模式,确保计算精度与效率的双重优化。
-
封装技术的创新与集成能力:借助 Chiplet 技术,解决存算一体专用性与通用可扩展性之间的矛盾,提升算力与 I/O 带宽,减少访存瓶颈。同时,通过 3D 堆叠等先进封装手段,将存内计算(CIM)、近存(PNM)与存内处理(PIM)技术深度融合,为访存密集型应用提供前所未有的大容量、高带宽计算能力,满足多样化的性能需求。
然而,存算一体芯片在实际应用中仍面临诸多挑战,如介质优化、集成规模、工具链支持、算法适配及产业生态构建等,这些障碍限制了其快速普及。因此,建议聚焦智算核心应用场景,推出标杆性产品,通过攻克关键技术难题,在现有工艺基础上实现性能的反超。
1.3 关于 DPU 的深度协同作用:
DPU 作为数据中心的新兴核心组件,与 CPU、GPU 并驾齐驱,专注于数据处理、网络、存储、安全及管理等基础设施的虚拟化能力。面对智算业务的严苛需求,DPU 展现了其独特价值:
-
1. 云化管理一体化:针对智算服务中裸金属、容器、虚机等多种部署模式的挑战,DPU 通过提供计算资源的快速调配与回收能力,实现了 AI 节点的并池管理,显著提升了资源利用效率。同时,支持云盘启动、灵活的存储分配、多租户隔离及快速容灾,使交付效率倍增。
-
2. 高性能存储解决方案:面对大模型训练与推理所需的 PB 级数据存储需求,DPU 通过高性能存储卸载与加速技术,有效应对分布式存储设备面对大量计算节点的挑战。通过优化存储访问路径,减少网络延迟,确保数据的高效流通与处理,为大规模智算业务提供坚实支撑。
-
3.RDMA 网络优化同步:在智算集群的构建中,通过 RDMA 低延迟 Fabric 网络实现了节点间的高效互联,这是由大量智算服务器节点构成的分布式系统所依赖的。为了进一步优化这一网络性能,DPU 产品被引入,它不仅能够提供 GPUDirect RDMA 的能力,还增强了 RDMA 大规模队列资源的效能。利用 DPU 的卓越可编程性,与网络侧协同工作,对高性能 RDMA 及无损网络进行深度优化,确保了数据传输的高吞吐量和低延迟特性。这一举措有效解决了大规模并行训练场景下多机间的高速互联难题,显著提升了网络传输效率,并构建了一个端网协同运作的高性能智算架构。
为了实现上述优化,新引入的 DPU 部件作为智算服务器的输入输出(I/O)接口,取代了原有的网卡部件。在硬件配置上,这种替代呈现出两种典型模式(如图3所示):
首先,DPU 可以替代服务器中负责存储面及管理面的网卡,其工作区域位于CPU域。在这一配置下,原本挂载在多个CPU下的多块网卡被一张DPU卡所取代,旨在满足云化平台的统一管理和高性能存储加速需求。
其次,DPU 还能替代服务器中用于参数面的网卡,其操作区域则位于 GPU 域。具体地,原本通过 PCI-e Switch 连接的多块大带宽 RDMA 参数面网卡被 DPU 卡以1:1的比例直接替换。这一配置特别针对 RDMA 网络的协同优化需求,旨在进一步提升网络性能和效率。
图3 展示了智算中心采纳 DPU(数据处理单元)的两种集成模式
在 DPU 于智算领域的试验推广与规模化部署进程中,当前仍横亘着三大核心挑战:
-
首要挑战聚焦于云平台层面,DPU 的软硬件融合层标准化问题成为制约其广泛通用化的关键瓶颈。DPU 作为云化与虚拟化技术向软硬一体化转型的产物,其技术架构与云计算环境紧密相连,导致技术迭代中虚拟化技术栈的差异化发展。不同厂商间的 DPU 产品在同一技术实现上路径各异,软件实现方式大相径庭,这显著增加了与云平台软件定向开发的适配成本。因此,亟需围绕管理、网络、存储、计算、安全等核心软件系统,推动 DPU 软件功能需求与交互接口的标准化进程,并分阶段实施,以促进生态的健康发展。
-
其次,在网络层面,网络技术的创新需要与 DPU 实现深度协作。鉴于智算业务对零丢包、超低时延及高吞吐网络能力的严苛要求,RDMA 网络成为了智算中心高性能网络的首选方案。众多行业领军企业正积极投入自研 RDMA 协议栈及无损网络相关技术。作为服务器 I/O 的门户,DPU 在网络与存储路径中扮演着至关重要的角色,因此,网络技术的创新需与 DPU 紧密配合,确保算力传输的无损性,从而助力计算效率的飞跃。
-
再者,硬件层面的标准化与通用化亦是亟待解决的问题。特别是服务器整机层及 DPU 部件层的标准化工作,应优先得到推动。这要求我们在服务器结构设计、供电系统、散热方案、带外管理策略以及上下电控制等四个方面进行统一规划,为DPU与上层软件的深度融合及生态的繁荣奠定坚实的硬件基础。
二、新存储探索——数据价值的深度挖掘
2.1 计算与存储的紧密协作机制
大模型训练任务艰巨且耗时,尤其是类似 GPT-3 级别的模型,其训练数据集规模庞大,难以一次性加载至内存中。因此,这一过程涉及从外部分布式存储中分批读取数据,并高效传输至 GPU 的高带宽内存(HBM)上。
如图4所示,从用户上传原始数据集开始,直至模型训练完成并向用户提供训练成果,整个流程中计算与存储系统之间的数据交互至关重要。
步骤一:数据上传阶段
在大模型预训练之初,需收集来自广泛渠道的训练数据集,并进行严格的预处理与清洗工作,以确保数据质量。随后,这些数据集被上传至存储系统中,考虑到对象存储提供的灵活访问接口及高吞吐性能,其成为存储大模型训练数据的理想选择。值得注意的是,此类数据集动辄可达TB级规模,且以大规模文件传输为主,对存储系统的稳定性和性能提出了极高的要求。
图 4 深入解析大模型训练中计算与存储的动态交互流程
步骤二:数据迁移策略
鉴于文件存储在处理大规模 I/O 及与主流训练框架(如 TensorFlow、PyTorch)的卓越兼容性,数据在模型训练启动前需从对象存储迁移至文件存储系统。此过程侧重于大文件的高效顺序读写,确保数据准备阶段的流畅性。
步骤三:数据预处理与读取机制
数据入驻文件存储后,需经过定制化预处理。图像数据需序列化并附加元数据,而语音数据则需转换为特定格式以满足训练框架需求。随后,数据通过 shuffle 操作随机化,并分割成多个 batch,计算节点依次从文件存储中读取这些数据块至 GPU 的 HBM,加速训练过程。
步骤四:持久化保障与性能监控
鉴于 HBM 的易失性,采用 Checkpoint 机制定期将训练状态保存至外部存储,确保训练过程的连续性与可恢复性。同时,文件存储还负责记录训练过程中的关键指标,支持后续的策略优化与可视化分析。这些操作以大规模写操作为主,对文件存储系统构成适度压力。
步骤五:模型部署与共享
训练完成后,模型权重被安全存储于文件存储中,并需转移至对象存储以实现便捷的共享与分发。此步骤聚焦于大文件的写入操作,确保模型数据的高效流通。
步骤六:模型交付
用户根据实际需求,从对象存储中便捷下载训练好的模型,快速部署至其应用环境中。
2.2 智算存储面临的严峻挑战
在智算中心,海量非结构化数据的存储管理成为一大难题。传统存储模式(文件、对象、块存储)各自为政,命名空间独立,由此引发三大挑战:
挑战一:性能瓶颈
大模型训练中的小文件小 I/O 密集访问,对文件存储系统构成严峻考验,易导致“存储墙”现象,阻碍 GPU 效能的充分发挥,延长训练周期。当前,业界正通过硬件升级、网络带宽提升、存储介质优化及软件算法改进等多维度策略,力求突破性能瓶颈。
挑战二:容量规划
数据在文件存储与对象存储间的迁移涉及大量数据拷贝,加之存储内部的冗余机制与 SSD 的写放大效应,使得存储容量需求远超实际数据量,对智算中心提出更高要求。因此,探索高效的存储解决方案成为当务之急。
挑战三:跨域调度难题
未来超大规模模型训练或将跨越地域界限,实现多中心并行训练。这一愿景要求存储系统具备跨地域统一命名空间、高效资源调度及卓越的数据传输性能。然而,当前技术架构与远距离传输性能的限制,使得这一目标的实现仍面临诸多挑战,业界正积极探索可行的解决方案。
2.3 异构数据融合存储:多协议协同的革新
鉴于文件存储与对象存储在架构与协议上的差异,两者均依赖元数据机制管理非结构化数据,这为它们的合并升级至融合存储提供了可能。市场上已涌现诸如 MinIO、Ceph RGW 等开源及商业解决方案,它们通过提供统一接口,优化了跨系统数据交互的效率。这一转变使用户能够集中存储数据,规避了重复复制与迁移的繁琐,不仅节省了宝贵的存储空间与管理成本,还实现了多协议并存的便捷访问。在统一的存储架构下,文件与对象存储协议得以更加紧密地协作,促进了数据的无缝共享与高效传输。
然而,推进存储协议融合需审慎应对两大挑战:一是协议转换过程中可能导致的语义损失,如文件系统的特定功能(如硬链接、符号链接)难以完全适配对象存储模型,以及访问控制列表(ACLs)的兼容性问题;二是安全访问策略的差异,文件存储基于传统权限模型(如 POSIX),而对象存储则倾向于角色或资源导向的控制方式,这要求在转换过程中进行策略适配,以确保安全性不受影响。
面对智算中心等对存储高效性与灵活性的日益增长需求,协议融合存储已成为不可逆转的趋势。为解决融合过程中的语义与安全挑战,原生协议融合存储的概念应运而生,它旨在构建一个统一的存储框架,通过底层元素的抽象与按需组合,直接响应用户的协议请求,从而避免了转换过程中的信息流失与安全隐患。
实现原生协议融合需产业界共同努力,包括制定统一的数据模型标准,确保文件与对象存储特性的兼容与保留;精确映射文件系统与对象存储的元数据,维持数据一致性;设计统一的访问控制策略,保障安全访问;以及实现高级特性(如 QoS、分级、配额)的共享,提升存储系统的整体效能。
2.4 跨越地域界限的全局统一存储愿景
在跨地域多数据中心的背景下,全局统一存储的构想旨在打破单体存储的局限,通过逻辑命名空间的构建,实现存储资源的全局抽象。这一方案不仅简化了数据跨地域复制与同步的过程,确保了数据的高可用性与一致性,还借助负载均衡策略,优化了应用的访问体验,降低了延迟。全局统一存储为智算应用提供了无缝的数据访问能力,支持跨域分布式并行训练,摆脱了单体智算中心存储容量的束缚。
然而,全局统一存储作为中远期技术,目前仍处于探索阶段,面临跨厂商资源调度、长距离数据交互时延等挑战。产业界需重构存储架构,制定统一接口标准,推动技术创新,以克服这些难题。未来,随着存储、网络、传输等领域的不断突破,全局统一存储的愿景将更加接近现实。
2.5 整合计算总线以塑造一体化内存池架构
面对大模型训练任务对内存与显存的严苛要求,数据在计算核心、缓存层(如 Cache、HBM)、以及主存(DDR)间的频繁迁移成为一大瓶颈。缺乏统一的内存寻址空间不仅加剧了编程模型的复杂度,还限制了设备间的协同效率,迫使开发者手动介入数据管理,进而提升了开发难度与出错风险。此外,DDR 与 HBM 间的数据转换频繁且效率低下,异构设备间的数据共享障碍重重,难以发挥各自的最优性能,整体系统性能因此受限。
为破解这一难题,推动新型智算中心的高效运行,我们亟需引入基于先进计算总线协议(如 CXL)的统一内存池解决方案。该方案旨在通过构建一体化的内存池,实现内存空间的统一寻址与语义一致性,从而大幅提升 CPU、GPU、Cache、DDR、HBM 等组件间的协同效率,为复杂多变的计算模型提供强有力的支撑。
为实现这一目标,以 CXL 协议为例,我们应聚焦于以下几个关键领域的强化:首先,加速完善支持内存池技术的计算总线协议及其子协议(如 CXL.io 与 CXL.mem),优化设备间的 I/O 通信与内存访问路径,减少数据传输与复制的开销,确保系统性能的最大化。
其次,加速推进 GPU、AI 加速卡等硬件对 CXL 或类似计算总线协议的内存一致性机制的支持。这一举措将大幅减少数据在不同计算与存储单元间的协议转换次数,通过优化内存、显存、缓存间的一致性算法,确保共享数据的实时同步与可用性,同时构建强健的错误纠正机制,保障内存池系统的稳定运行。
再者,加快制定多异构设备与内存池之间的标准化接口,并融入隔离保护机制。这一努力旨在促进设备间的无缝协作与资源共享,减少数据传输延迟与能耗,同时增强系统的安全性,确保只有授权处理器能够访问内存池资源,有效避免访问冲突与数据泄露的风险。
综上所述,基于计算总线协议构建的新型智算中心内存池技术,将是推动智能计算领域变革的重要力量。该技术将实现异构设备间的内存共享与统一管理,极大地简化数据传输流程,降低系统复杂度与能耗,为 AI 领域的创新发展开辟更加广阔的空间。
三、新平台展望:构建无界生态,赋能智能算力
在智能计算的新纪元,智算平台的核心价值在于对智能算力的精细化管理,旨在实现资源效率的最大化、计算性能的飞跃、业务部署的便捷化以及算力协同的广泛覆盖。为实现这一目标,四大关键技术路径尤为关键。短期内,应优先引入并持续优化资源池化技术与分布式训练框架技术,以提升资源利用率与计算效能;长远来看,则需加速国内自主分布式训练产品的孵化与完善,同时,推动算力原生技术的成熟以降低业务接入门槛,并深入探索跨节点分布式训练技术,以实现对离散异构智算资源的无缝整合。
3.1 资源池化:重塑效率,优化利用
传统智算中心常面临 GPU 资源利用率低下的困境,据多方数据显示,平均 GPU 利用率普遍徘徊在30%以下,这一现状极大地制约了资源的有效发挥。究其根源,传统资源分配方式粗放,整卡分配或虚拟化分配模式导致资源分配粒度大、静态绑定且碎片化严重。
为此,智算资源池化平台应运而生,它以“软件定义”为核心,通过四大创新功能,实现了资源利用效率的显著提升与成本的有效控制:
-
精细拆分:摒弃整卡分配的旧习,实现资源按需精细分配,确保 AI 任务能以1%的细粒度灵活获取所需资源;
-
跨域调度:依托高速无损网络,实现跨节点智算资源的灵活调用,CPU与GPU深度解耦,显著降低资源碎片化;
-
聚沙成塔:将分散于多机之上的零散资源汇聚成池,为大模型业务提供充足且高效的资源支持;
-
动态适配:打破资源静态绑定的局限,根据负载变化动态调整资源分配与回收,实现多任务间的峰谷互补与全局资源的超分利用。
当前,市场上已涌现出如趋动科技的 OrionX、VMware 的 BitFusion 等成熟的智算资源池化产品,它们深度融合 Kubernetes 容器管理技术与 GPU 池化技术,为资源的高效敏捷管理提供了强有力的支撑。
图 5 智能化算力资源池化架构概览
在图5所描绘的智能化算力资源池化平台中,Kubernetes 扮演了核心基石的角色,它不仅管理着 CPU 的调度,还负责AI任务承载容器 POD 的生命周期监控。通过扩展 Kubernetes 的调度能力,GPU 等高端算力资源的管理职责被巧妙地转移至一个独立的池化控制器,实现了资源的集中高效管理。业务层面,池化运行时组件被无缝集成到容器 POD 中,该组件能模拟真实 GPU 卡的环境,让 AI 应用毫无察觉地运行。这一过程中,池化运行时拦截了 AI 应用对 GPU 的直接访问请求,转而通过池化服务代理进行间接处理,进而与池化控制器协同工作,实现资源的精细化、动态化分配与回收。
尽管上述池化技术在提升 GPU 等资源管理效率上成效显著,但面对 GPU/AI 芯片种类繁多、原生运行时快速迭代的现状,仿真原生运行时的技术路径显得尤为复杂,增加了开发与维护的难度,不利于技术的持续进步与运维的顺畅进行。
为解决这一问题,另一类创新的池化技术应运而生,它们将 API 劫持操作下沉至驱动层面,极大地简化了仿真工作,如 VMware 的 Radium、阿里云的 cGPU、腾讯云的 pGPU 等产品便是此类技术的佼佼者。这些技术通过设备虚拟化和远程处理机制,实现了对多种硬件的透明支持,无需特定软件即可启用新硬件架构。其工作原理分为前端监控与后端处理两部分:前端捕捉应用对驱动的调用请求,并转发至后端进行处理;后端则根据请求分配相应资源,或将应用分布到多台机器上执行,确保代码、数据及执行环境的一致性,从而灵活高效地管理算力资源。
与 API 劫持技术直接干预应用资源访问流程不同,这种基于系统调用的方法更加底层且广泛兼容,不依赖于特定的运行时 API(如 CUDA),展现出更强的通用性和适应性。然而,由于 GPU/AI 加速卡驱动接口的封闭性和不透明性,驱动劫持技术可能遭遇兼容性问题,并涉及一定的法律风险。
综上所述,两种池化方案各有千秋,用户需根据实际需求和场景审慎选择。面对芯片多样化、生态割裂的现状,我们呼吁产业界、学术界及研究机构携手合作,打破竖井壁垒,推动算力生态的深度融合,实现算力资源的无缝对接与高效利用,共同促进智能计算产业的繁荣与发展。
3.2 算力原生:解锁多样算力生态的钥匙
新型智能计算中心致力于构建一个集泛在、多样计算系统于一体的灵活服务平台,旨在随时响应智能应用对算力的多样化需求,支撑人工智能等产业的迅猛发展。然而,当前多样异构计算系统的协同应用面临严重的生态竖井问题,各厂商基于自身硬件优势构建的封闭工具链系统,不仅限制了 AI 框架的跨平台兼容性,还造成了上层智算应用与特定系统的深度绑定,阻碍了算力的灵活迁移与高效利用。
为打破这一困境,亟需构建算力原生的融通机制,即通过标准化接口和统一的管理平台,屏蔽底层算力资源的复杂性,使上层应用能够无缝接入并高效利用多样化的算力资源。这一目标的实现,将促进算力资源的有效整合与高效配置,为智能应用提供更加灵活、便捷的算力支撑,推动智能计算产业迈向更加繁荣的发展阶段。
图 6 “芯合”跨架构算力原生融合平台
随着技术的演进,算力原生技术横空出世,它旨在解决异构计算架构的多样性与动态变化带来的挑战。该技术首先通过构建统一的算力设备抽象层,为不同架构的计算资源提供了一致的访问接口;其次,为开发者设计了统一的编程框架与模式,实现了代码的自动转译与性能优化;最后,为算力厂商构建了动态适应、统一管理的软硬件生态系统,实现了任务在不同架构间的无缝映射。这一创新机制有效打破了厂商间的技术壁垒,解除了上层应用对特定工具链的依赖,使得在混合算力环境下,应用能够跨越底层硬件差异,实现灵活迁移与部署,达到了“应用一次封装,跨芯无缝迁移,智算统一部署”的愿景。
基于算力原生技术的深厚底蕴,中国移动携手业界伙伴,全力打造“芯合”跨架构算力原生平台,该平台集成了跨架构编译器、原生运行时环境及一体化开发环境等核心组件,为开发者提供了云端一键接入的便捷通道,覆盖了从异构算力资源监控、跨架构程序开发到原生程序管理、调试部署的全流程解决方案。目前,我们正加速推进平台的组件研发、系统适配、联合测试及标准制定工作,期待与产业界、学术界及研究机构紧密合作,共同推动算力原生技术的成熟与发展,携手构建智算产业的全“芯”繁荣生态。
3.3 分布式训练:加速模型训练效率的利器
分布式训练框架,作为构建于大型算力资源池之上的高效工具集,其核心在于将深度学习模型的训练任务拆解为多个子任务,并行部署于多台计算机上执行,以此实现模型训练的高效性、可靠性与快速性,进而提升模型的精度与效率。当前,分布式训练框架领域呈现出多元化发展的态势,既有硬件厂商依托自身优势研发的框架,如英伟达的 Megatron、华为的 Mindspore,它们与硬件深度整合,能够充分发挥硬件潜能;也有传统主流AI框架拓展的分布式训练库,如微软的 DeepSpeed,以及国内厂商针对自身需求研发的框架,如百度的 PaddlePaddle,它们在并行策略、接口设计、算法优化等方面各具特色。
然而,分布式训练领域仍面临诸多挑战,包括通信开销的优化、同步机制的设计、容错能力的提升以及调试监控的便捷性等。如何有效减少设备间的通信成本,确保模型参数的同步更新,提高系统的容错性,以及实现高效的调试与监控,是当前分布式训练技术亟待解决的关键问题。
尽管目前分布式训练技术面临诸多技术障碍,科研人员与工程师们仍致力于不断精进与革新,旨在使该技术能够驾驭更大规模、结构更复杂的深度学习模型与海量数据集。他们通过在硬件架构、算法策略、网络传输以及系统整合等多个维度的持续探索与创新,推动分布式训练技术不断向前发展。展望未来,分布式训练框架的演进趋势将涵盖以下关键方面:
-
智能化与便捷化:框架设计者致力于开发更加直观易用的接口与工具,推动分布式训练的半自动化乃至全自动化进程,旨在加速算法研发周期,简化用户编写分布式代码及配置调试流程,提升整体工作效率。
-
灵活性与动态扩展性:未来的分布式训练框架将实现按需资源分配与释放,确保云计算环境下计算资源的高效利用,灵活应对各种规模与需求的训练任务,提升资源利用率与响应速度。
-
跨平台无缝迁移:为满足用户跨平台需求,分布式训练框架将增强跨硬件平台的兼容性与迁移能力,使用户能够轻松地在不同设备间切换和迁移训练任务,提升应用的灵活性与广泛性。
-
超大规模模型训练的优化:随着数据量与模型复杂度的攀升,分布式训练框架将深化并行训练策略的设计,探索跨集群训练的可能性,以解决单集群算力瓶颈问题,同时优化底层通信与资源调度机制,确保训练的高效与稳定。
-
边缘端训练与推理:鉴于边缘计算技术的兴起,分布式训练框架将针对边缘设备的资源限制,引入模型压缩、轻量化及异步训练等技术,以满足边缘场景下大模型的实时训练与推理需求。
-
增强的容错与鲁棒性:分布式训练框架将不断优化其容错机制与鲁棒性设计,通过构建更加高效的任务检查点、容错调度策略等,有效应对计算故障与通信中断等挑战,保障训练过程的稳定可靠。
-
多模态与多任务处理能力:随着多模态数据与多任务学习需求的增长,分布式训练框架将扩展其数据处理与学习任务的能力,支持多模态数据输入与输出,并探索多任务学习的优化路径,提升模型的泛化性能与应用效果。
-
在线与增量学习能力:针对动态变化的数据环境,未来的分布式训练框架将融入在线学习与增量学习机制,允许在训练过程中实时接收新数据并进行模型更新,以适应不断变化的应用场景。
综上所述,未来的分布式训练框架将围绕智能化、灵活性、跨平台性、大规模训练支持、边缘计算能力、容错性、多模态多任务处理及在线学习等多个维度持续优化与升级,旨在为开发者提供更加高效、便捷、可靠的模型训练工具,降低大模型开发过程中的资源消耗与技术门槛。
3.4 广域资源优化:跨域分布式调度的关键驱动力
在当今智算资源高度异构且分布广泛的背景下,各地智算中心在硬件配置上(如 GPU/AI 加速卡、网络架构)的差异显著,加之物理空间与电力供应的限制,导致部分中心资源紧张难以满足大模型训练需求,而另一部分则面临资源闲置的困境。因此,如何高效整合并利用这些分散的智算资源,实现跨地域的高性能、高可靠性并行训练,成为推动多智算中心协同合作、促进算力资源共享的重要课题。
跨智算中心的分布式训练作为学术界与工业界共同关注的焦点,其核心在于通过构建统一的资源管理与调度机制,打破地域界限,实现模型的跨域训练。然而,随着智算中心内部算力和网络带宽的不断提升,跨域分布式训练面临的主要挑战已转变为通信效率问题:
-
带宽限制与通信瓶颈:跨智算中心的可用传输带宽有限,特别是在异地场景下,需依赖广域网专线连接,这在大模型训练过程中周期性同步模型参数时,极易引发网络拥塞,成为制约训练效率的关键因素。
-
资源差异与同步障碍:不同智算中心的算力和网络资源分布不均且动态变化,导致计算和传输步调难以协调,算力低、带宽小的节点会成为拖慢整体训练进度的瓶颈。此外,广域网带宽还需服务于其他通信业务,资源的实时竞争进一步加剧了同步的复杂性。
针对上述问题,优化跨域模型训练的通信效率和提升训练性能成为当务之急,需从系统架构、传输协议及算法设计等多个维度进行综合优化:
-
系统架构优化:构建跨域分布式训练框架与全局资源调度系统,通过统一的资源抽象支持多样化的并行训练策略,实现训练任务的智能拆分、分发与参数聚合。全局调度系统实时监测各智算中心的资源状态与带宽变化,采用断点续训等机制增强系统的容错性与灵活性。
-
传输协议创新:设计面向梯度差异性的传输协议,基于梯度对模型收敛的贡献度进行差异化传输,减少不必要的带宽占用。与传统精确传输协议相比,这种协议能更高效地利用有限的跨域带宽资源。
-
算法层面改进:探索模型压缩与稀疏化技术,减少每次模型同步所需传输的数据量。通过量化减少参数或梯度的表示位数,以及筛选关键梯度进行传输,可以有效缓解通信瓶颈,缩短训练周期。
综上所述,跨域分布式调度不仅是促进广域资源高效利用的关键手段,也是推动智算中心协同发展的重要途径。通过不断优化系统架构、创新传输协议及改进算法设计,我们可以克服跨域训练中的通信瓶颈,实现更加高效、可靠的分布式训练模式。
四、新节能途径:迈向可持续发展的未来
随着高性能智算服务器的快速发展,其功率密度正急剧攀升,CPU 从 150W 跃升至 300W 以上,GPU更是突破 700W 大关。以一台装备8块 NVDIA 企业级内存带宽最高达 2TB/s 的 GPU 智算服务器为例,其功耗高达 6.5KW,远超传统通用服务器的10倍之多,这无疑对散热提出了更为严峻的挑战。散热量的激增不仅加剧了单机柜的功率密度,也显著提升了散热难度。值得注意的是,半导体元器件的可靠性与其工作温度息息相关,每上升10度,可靠性便减半。据统计,过半数的电子器件失效可归因于温度过高或温度分布不均,而芯片的极限工作温度设定为85度,一旦超出此限,芯片将自动降低性能和功耗以维持稳定运行。
为有效应对这一挑战,液冷技术应运而生,以其卓越的导热性能和高效的散热能力成为解决之道。相较于传统风冷,液冷技术的传热速度提升20至25倍,散热效率更是高出2000至3000倍,显著降低了设备温度。这一技术的引入,不仅提升了数据中心的空间利用率(液冷机柜密度是传统风冷的3至4倍,相同算力下节省约75%的机房面积),还增强了芯片的可靠性和性能,确保了芯片在最大负荷下的持续稳定运行。
液冷技术细分为冷板式、浸没式和喷淋式三种主要形式。冷板式液冷作为非接触式冷却方案,通过冷板中的液体循环带走热量,避免了液体与发热器件的直接接触,具有较高的兼容性和改造便捷性。浸没式液冷则采用直接接触式冷却,将发热器件完全沉浸在冷却液中,实现高效的热交换,但面临冷却液成本高及与现有基础设施兼容性问题。喷淋式液冷则通过直接喷淋冷却液至发热器件表面进行冷却,同样具有显著效果。
在液冷技术的选择上,冷板式与单相浸没式各有千秋。冷板式以其良好的兼容性和较低的改造成本成为当前主流,而单相浸没式则在PUE方面表现更优,但受限于成本和技术成熟度。未来,两者有望并存发展,共同推动数据中心节能技术的进步。
然而,在大规模引入冷板式液冷技术的过程中,仍需克服一系列挑战,包括统一标准的缺失、可靠性的保障以及监控运维的复杂性。为解决这些问题,建议行业采取以下措施:推动液冷整机柜和 CDU 接口的标准化,降低跨厂商部署成本;在冷却液中添加缓蚀剂以提升系统可靠性;采用集中式 CDU 部署模式,简化运维流程,提高机房空间利用率。通过这些努力,我们有望在新节能技术的推动下,实现数据中心的可持续发展。
针对上述挑战,我们提出以下策略以供业界借鉴与实践:
1)倡导液冷整机柜与 CDU 分离架构,并标准化液冷整机柜的关键接口参数(如液体压力差、流速、温度、管路接口规格等),确保不同制造商的液冷机柜能够无缝对接同型号 CDU,实现跨厂商液冷整机柜在数据中心内的共享部署,从而降低基础设施建设与长期运营的成本负担。
2)为提升冷却液的稳定性和安全性,建议添加具备防腐与抗冻性能的缓蚀剂成分(如乙二醇溶液),以减少管道腐蚀与液体冻结的风险。同时,设计集成漏液导向与隔离功能的结构,确保在发生泄漏时能够迅速控制并隔离故障区域。
3)推行集中式 CDU 部署策略,此举旨在简化运维流程,保障故障维护期间服务的连续性,并有效提升机房空间的有效利用率。
展望未来,我们将持续深化液冷技术的研发与应用推广:
1)深化服务器与机柜的解耦进程:鉴于通用冷板式液冷服务器已在行业内获得广泛认可,且相关生态系统日益完善,我们将聚焦于加快制定针对快接头等关键部件的标准,以推动双路通用计算服务器在机柜与服务器层面实现更灵活的解耦。针对 NICC 等特定场景,鉴于当前产业生态标准化程度不足、产品设计差异大等问题,我们将积极推动相关标准的建立,以促进液冷产业全链条的健康发展,降低采购成本,简化运维流程。
2)优化运维管理体系:加强对液冷系统中新增设备(如 CDU、液泵、液冷ICT设备等)的统一管理,并强化运维过程中的健康防护措施。特别地,冷却液的更换与排放需严格遵守化学品安全规范,同时,运维人员的专业能力需持续提升以适应技术发展的需求。
3)不断降低 PUE 值:通过扩大冷板散热技术的应用范围,减少对传统风冷散热的依赖,并结合高效风冷系统,进一步优化冷板式液冷数据中心的散热效率。通过精细化的制冷与散热设计,包括科学设定服务器冷却液入口温度、合理分配散热温差等措施,实现数据中心整体能耗的最大化节约。
五、总结与展望及倡议
随着大模型技术的飞速发展,对智能计算基础设施的升级需求日益迫切。鉴于硬件迭代周期较长且成本高昂,相较于上层软件和算法的快速演进,前瞻性地规划与部署基础设施技术方案显得尤为关键。
-
关于新互联:为应对百卡级高速互联需求,业界需携手制定统一的计算总线协议标准,确保数据访问的缓存一致性,并强化通信与数据传输效能,涵盖流量优化、拥塞管理、网络无损传输及高效重传机制。同时,推动 GSE 技术引领下的新型智算中心网络建设,实现无阻、高速、低延迟及自动化运维,逐步向精细化负载分配、端网协同拥塞控制及全局智能运维方向迈进。
-
聚焦新算效:在 AI 芯片设计上,需深化存算融合、稀疏化策略、AI 算子硬件加速及降低推理延迟等方面的优化。特别要加速存算一体与大模型技术的深度融合,从算法架构、精度需求及先进封装技术三维度出发,促进多核多芯片存算一体架构的成熟应用。此外,灵活引入 DPU,加速云平台软件、DPU 硬件及服务器硬件的标准化进程,以最大化提升计算效率。
-
探索新存储:针对新型智算中心多元异构数据特性,需打破传统存储架构的协议壁垒,共同推动多协议原生融合存储解决方案的研发、技术成熟与商业化应用。同时,积极试验基于 CXL 的统一内存池技术,以及跨地域全局统一存储方案,以应对数据存储与访问的新挑战。
-
构建新平台:依托智算池化技术与分布式训练框架,加速算力原生技术的成熟步伐,降低业务部署门槛。同时,深入探索跨域分布式训练技术,实现离散异构智算资源的有效整合与高效利用。
-
倡导新节能:坚定不移地推动液冷技术的成熟应用,以应对新型智算中心面临的散热难题与节能挑战。重点聚焦于液冷服务器与机柜的接口标准化工作,优化液冷环境下的运维管理体系,促进产业链上下游生态的协同发展,不断提升能效利用水平。
相关贴子
-
技术分享
如何安装 ColabFold 并在本地运行 AI 蛋白质折叠
2024.04.28 31分钟阅读 -
技术分享
使用 cuCIM 和 NVIDIA GPU DIRECT STORAGE加速数字病理学工作流程
2023.01.12 86分钟阅读 -
技术分享
选 CPU 看核心数量还是时钟速度?
2024.10.11 27分钟阅读