博客

人工智能与大模型

异构集群助力全球车厂智驾升级

2025.04.25 22分钟阅读

项目背景

某科技公司专注提供全球国际车厂高级辅助驾驶系统解决方案及各种车用电子产品。我们本次的项目便是为其自动驾驶控制系统定制搭建高性能、高扩展的人工智能训练平台。通过人工智能应用整合摄像头、倒车雷达、微波雷达等多种感测器数据,取得更精准的道路信息,实现更高端的自动驾驶功能。

 

01
项目需求
采用高性能 CPU 和 GPU 服务器构建异构计算平台,主要进行感知与识别、决策与规划、预测与模拟、人机交互、端到端学习、持续学习和适应,以及数据挖掘与分析训练。集群整体AI算力不低于 7pFLOPS,显存容量不低于 900GB。为保证业务的高效及连续性,集群网络采用高速链路,并保留集群的扩展性,后续可无缝加入计算节点和存储节点等。
02
痛点分析
通过和用户充分沟通、实地勘察和演示发现,现有的GPU服务器不能满足 AI 训练任务,随着产品的更新迭代,GPU 算力资源更加紧缺。加上 AI 开发流程及环境部署复杂,企业缺少完整的管理平台。现有的服务器使用管理上较为混乱,新建集群需采购一套集群管理软件,对集群设备进行统一管理调度。计算节点预留 80T 可用存储空间足够满足日常的训练任务。

 

03
解决方案
结合用户痛点和对需求的分析,本次方案采用GPU加速的 Kubernetes 集群架构,提供简洁的 WEB 界面,丰富的功能以及多样化工具,支持资源调度管理、用户管理、模型训练、数据标注、vGPU 等技术特性,为用户提供充足的异构计算资源、丰富的模型框架和开箱即用的开发环境。搭建整体集群解决方案,AI 算力不低于 7.5 pFLOPS,GPU 显存容量不低于 960GB,基本规格如下:
  • 管理节点:1 台双路 Intel® Xeon® CPU 4314 16 核心管理服务器;

  • 计算节点:3 台双路 AMD Rome 7H12  64 个 核心 4 GPU 卡服务器(NVIDIA Ampere 架构 80GB);

  • 网络部分:千兆交换机 1 台, 200GbE IB 交换机 1 台;

  • 集群管理:LtAI 异构资源管理平台,搭建统一 AI 计算资源池; 

    -支持资源调度、监控、管理;

    -支持组织、用户管理;

    -支持存储管理,将各节点的本地存储组成分布式存储使用;

    -支持数据标注;

    -支持数据管理;

    -支持模型训练、模型管理、模型服务;

    -支持开发环境管理,各种AI框架;

    -支持 AutoML 超参调优;

     

集群网络架构
图片2.png
软件平台架构

04
用户收益
某科技公司的 AI 集群在半年的试运行后,用户对本次方案的使用情况和具体服务高度赞赏,其具体用户收益如下:
-CPU 核心 416,GPU AI 算力可达 7.5pFlops;
-高速 IB 网络,超低延时,提供了高速的数据交互体验;
-资源统一管理与调度,提升了资源的利用率;
-显著提高了自动驾驶算法的开发、测试和训练效率。

相关贴子

敬请登记。

登记
本网站受 reCAPTCHA 保护,适用 Google隐私政策和服务条款。
请您留言

感谢您的关注,当前客服人员不在线,请填写一下您的信息,我们会尽快和您联系。

提交