博客
部署人工智能的成本构成:能源、冷却和管理
人工智能正在改变所有行业的企业,从小公司到财富 100 强企业。随着组织将人工智能集成到其工作流程中,许多组织正在转向本地解决方案,以实现更好的控制、安全和成本管理。最初部署时的硬件投资很昂贵,这些强大系统的持续运营成本可能会迅速激增。
云计算可以在短期内通过借用硬件帮助到企业,但广泛的高性能工作负载将使成本飙升。对于医疗保健和政府等数据安全行业,内部部署硬件是唯一的选择。
这就是拥有总成本(TCO)成为关键考虑因素的地方,它不仅包括前期成本,还包括系统生命周期内的功耗、冷却和管理费用。所有这些成本都必须由云提供商考虑并转嫁给客户。通过仔细考虑这些因素,组织可以构建一个高效且可扩展的内部部署人工智能基础设施,从长远来看,该基础设施能够以比云更好的 TCO 提供长期价值。
运行 AI 的专用硬件是一项巨大的投资。NVIDIA 是专门为 AI 和 HPC 工作负载构建的系统可配置 GPU 的顶级供应商。当前一代 NVIDIA Blackwell 和上一代 NVIDIA Hopper 在性能上表现出色,但这是有代价的。
NVIDIA H 系列 NVL 每个 GPU 的成本超过 25000 美元。然而,随着更快、更多的内存和 NVLink GPU 到 GPU 的互连,这就保证了价格。一台 8 x H 系列 NVL 服务器如果最大限度地提高性能,价格高达几十万美元。当企业重视速度时,像 NVIDIA H 系列 NVL 这样的企业级 GPU 将超越任何其他 PCI-e GPU。然而,任何时候它的闲置,都会导致机会成本的损失。
-
加速广泛的训练过程:训练最先进或定制的人工智能模型可能需要几天、几周甚至几个月的时间。在训练过程中,您的 GPU 和计算集群会持续运行。
-
不断的微调和迭代:使用新数据进行模型更新和优化类似于训练新模型,使您的计算基础设施消耗更多电力。
-
7*24 大规模推理:部署模型以服务于现实世界的应用程序是一个要求很高的过程,需要处理查询。根据您的部署(公共或私有),卷在所需的必要计算中起着重要作用。
只查看硬件投资的前期成本是一种疏忽。更高性能硬件的价值可能超过替代品,具体取决于您的价值。如果你已经有了现有的数据中心基础设施,那么你的新硬件仍然需要持续的成本,如电力、维护、空间和冷却,才能运行一个人工智能项目。
运行人工智能的范围不仅限于硬件成本;它还包括电力消耗或能源。把它想象成一辆性能车。你可以把世界上所有的钱都花在改装你的车上,让它在直道上跑得快,在弯道上跑得紧,但你也需要更多的燃料。
训练模型和人工智能计算本质上是计算性的,因此是能源密集型的,涉及在海量数据集中执行数十亿或数万亿次计算。就像你的高性能赛车一样,你的计算也需要能源。像这样的企业工作流程会在很长一段时间内将硬件推向极限。让我们把一些数字列入考虑:
-
GPU 功耗:功耗仅适用于单个计算服务器。根据您的数据中心大小,该数字可以是 10 倍或 100 倍。
-
单个 PCI-e GPU NVIDIA H 系列的 TDP 为 600W(可配置)。一个 8 x GPU 服务器节点,加上 CPU 和内存,在满载时可以轻松消耗 5-7kW 或更多。
-
NVIDIA HGX B 系列中的单个 SXM GPU 消耗 1000W(可配置)。HGX 基板上总共有 8 个,加上 CPU、内存和其他硬件,每个系统超过 15kW。
-
训练能耗:训练模型所需的能耗惊人。你可能没有训练最先进的模型,但能耗仍然很大
-
训练 GPT-3(1750 亿个参数)估计消耗了约 1287 兆瓦时(MWh)的电力。这大致相当于 120 多个美国家庭的年用电量。
-
虽然较小,但像谷歌的**BERT(大型)**这样的训练模型也需要大量的能量,一些估计约为 650 千瓦时(kWh)。
借助本地基础集群设施,团队可以调整系统,在非高峰时段进行培训,并减少浪费。但人工智能推理,如 ChatGPT 或电子商务推荐引擎,可以滚雪球。如果我们估计每次查询 0.5 Wh,那么 10 亿次查询相当于每天 500 MWh,或者每年 182500 MWh(仅用于推理)!
能源成本是全球电价上涨的一个严重因素。但是,本地基础集群设施让您自己掌握主动权,让您的团队完全控制使用,在非高峰时段安排工作负载,并实施高效的冷却和电源策略。
人工智能计算系统会产生大量热量,必须加以妥善管理。高温是计算机硬件的敌人。随着硅变得太热,变得不稳定、效率低下,更容易受到损坏。
冷却是计算领域最大的挑战之一,占数据中心总能耗的一半以上。数据中心冷却系统的效率是通过电力使用效率(PUE)来衡量的,其中较低的值表示效率更好。例如,PUE 为 2.0 意味着每瓦计算能力需要额外的瓦用于冷却,而 PUE 为 1.5 意味着需要额外的半瓦。
-
空气冷却:传统方法涉及使用机房空调(CRAC)或空气处理器(CRAH)向数据中心注入冷空气,并将热废气引导到热交换器。虽然热岛和冷岛空气冷却很常见,但随着 NVIDIA Hopper 和 NVIDIA Blackwell 等极端人工智能解决方案的引入以及现代人工智能集群的高温密度,它开始面临挑战。
-
液体冷却:随着热密度的增加,液体冷却变得越来越必要。直接到芯片的液体冷却使用直接连接到 GPU 和 CPU 等发热组件的冷板,循环冷却剂以比空气更有效地散热。
冷却系统的选择和效率在管理运营预算中起着至关重要的作用。液体冷却解决方案需要前期投资,但可以显著降低能源成本,提高密集人工智能工作负载的效率。但是,如果您的空气冷却实施足够,它也可以提供很好的效果。
本地团队具有选择和定制符合其需求的冷却解决方案的优势。通过正确的策略,这些投资使本地设置随着时间的推移更具成本效益和可持续性。
管理大型本地 GPU 集群带来了运营挑战,但代价是对性能、成本和正常运行时间的完全控制。使用正确的工具和流程,强大的管理层是有效优化资源的关键。联泰集群使用 LtCOS 和 LtHCS 作为我们的集群管理工具,既有效又用户友好。该管理层涉及协调几个关键功能:
-
作业调度:使用 Kubernetes 等调度器高效地将 AI 任务分配给 GPU,以管理优先级和资源。
-
负载平衡:在 GPU 之间分配工作负载,以最大限度地提高利用率并防止瓶颈。
-
节点通信和监控:维护节点之间的高速连接并监控系统健康状况。
-
数据管理:处理集群中大型训练数据集的移动和访问。
确保高可靠性和正常运行时间对于依赖人工智能的业务运营至关重要,这进一步增加了成本和复杂性:
-
硬件冗余:实施冗余电源、网络连接和潜在的备用节点以容忍故障。
-
故障转移机制:允许工作负载在节点或组件发生故障时自动重启或迁移的软件和基础设施设计。
随着人工智能工作负载的扩展,管理集群的复杂性呈指数级增长:
-
互连管理:更多的 GPU 意味着需要管理和优化更复杂的网络拓扑。
-
冷却和电源集成:确保冷却和电源供应与计算资源有效地扩展。
-
资源跟踪和分配:准确跟踪使用情况,将资源分配给不同的团队或项目,并管理配额成为一项重要任务。
集群管理、作业调度工具、系统监控和运营专业知识是维护高性能人工智能基础设施的重要组成部分。一支敬业且经验丰富的 IT 团队对于管理本地解决方案至关重要。当有意图地设计时,它们成为对可扩展性、可靠性的长期投资,与云计算方法相比,有助于降低 TCO。
虽然人工智能工作负载无疑是资源密集型的,但运行本地基础设施的组织拥有强大的优势:完全控制。通过周密的规划和有针对性的优化策略,本地部署可以显著降低总体拥有成本,并释放最大的长期投资回报率。
硬件优化
-
节能硬件选择:在选择 GPU 和服务器时,请关注特定工作负载的性能。如果你的工作量和行业需要快速的结果,那就投资最好的。如果你的工作负载不是计算密集型的(例如,没有仅训练的推理),可以考虑其他 GPU 选项。
-
模块化组件:选择模块化硬件设计,无需更换整个系统即可进行升级和维护,从而减少停机时间和总成本。
-
尺寸合适的电源和备用系统:避免过度配置 PDU 和 UPS,以防止不必要的能源和资本支出。
-
工作负载对齐硬件:部署特定于工作负载的节点。为中等强度作业分配资源,同时为要求苛刻的任务保留高性能节点。
冷却策略
-
液体冷却解决方案:对于高密度部署和高性能服务器,强烈考虑液体冷却以减少能耗。
-
气流管理:在风冷环境中实施遏制策略(热通道/冷通道)以提高效率。
-
人工智能驱动的冷却:与 DeepMind x 谷歌的案例研究一样,使用人工智能算法优化冷却系统,显著降低能耗。
管理与优化
-
智能 GPU 调度:实施高级作业调度器和资源管理器,通过资源池和作业优先级来保持高利用率。
-
全面监控:在每个级别部署监控工具,以跟踪利用率、功耗、温度和性能指标。
-
软件优化:使用模型修剪、量化和知识蒸馏等技术来创建更高效的模型。
通过硬件、调度、监控和冷却的正确组合,内部部署的人工智能基础设施不仅可以与云竞争,还可以在长期成本效益和运营控制方面超越云。
虽然人工智能提供了令人难以置信的潜力,但成功实施它需要仔细考虑整个运营情况。对强大模型和尖端硬件的兴奋必须与实际考虑相平衡。
在规划人工智能基础设施时,总拥有成本(TCO)至关重要。这包括三个关键因素:能耗、冷却要求和集群管理。这些因素直接影响企业的底线和扩展能力。
人工智能部署的成功需要一种战略方法。组织需要投资于高效的硬件,优化冷却系统,实施强有力的管理实践,并持续监控性能。这不仅仅是运行先进的模型,而是高效和可持续地运行它们。
对于具有稳定人工智能计算需求的组织来说,与云替代方案相比,优化良好的本地解决方案通常可以提供更好的成本控制、总拥有成本和投资回报率。立即联系联泰集群的工程师,了解如何构建理想的计算基础架构。
相关贴子
-
人工智能与大模型
什么是 LLM 蒸馏与量化
2025.05.16 31分钟阅读 -
人工智能与大模型
几何深度学习:超越文本与图像的 AI
2025.04.18 16分钟阅读 -
人工智能与大模型
人工智能自动化如何提高科研生产力
2025.02.26 20分钟阅读