博客

HPC

破局算力孤岛!长安大学车联网实验平台“异构进化”实录

2025.03.14 35分钟阅读

01
项目背景
长安大学工程机械学院是长安大学特色学院之一和国内著名的工程机械学府,拥有“公路养护装备”国家工程研究中心、国家级工程机械虚拟仿真实验教学中心陕西省重点实验室、陕西省“机械实验教学示范中心”和交通部西安筑路机械测试中心;本次项目预搭建一套车联网与智能汽车实验模拟计算平台,对现有的数据进行模拟计算、测试。
02
项目需求
在进行车联网与智能汽车实验模拟计算时,采用高性能 CPU 和 GPU 服务器构建异构计算平台。随着后续用户科研水平逐步向前迈进的同时,所产生的数据量也与日俱增,如何进一步加速和提升计算性能、合理分配使用算力资源是本次方案的一个重要的考量因素。本次项目主核心要采用5台高性能计算节点,其中 2 台 CPU 采用双路 Intel Xeon Platinum 8358P 处理器,2 台采用 Intel Xeon Gold 6342,GPU 分别采用 40G 以上企业级加速卡、Ada Lovelace 架构加速卡,利用管理软件统一调度,融合统一异构计算资源池,针对不同科研人员的需求,还要将部分资源划分出来用来接入试车场地的摄像头。
03
痛点分析
通过和用户充分沟通后发现,目前采用单台工作站或者单机多卡服务器作为算力核心,在针对大规模数据训练时,由于工作站和服务器支持的网络带宽有限,极大的影响了训练效率;随着数据量和需求的增加,单点的算力有限及网络带宽方面的限制,无法满足大规模分布式训练的要求。成为各自分散的计算资源孤岛,无法和前端的业务形成高效的对接,更无法满足研究人员的计算需求。
04
解决方案
结合用户痛点和对需求的分析,本次方案采用 1 台管理节点和 4 台计算节点、网络设备、集群附件及1套异构资源管理软件的总体架构,搭建一套以 NVIDIA 加速卡为核心其他类型加速卡为辅助,支持划分算力资源池,支持资源虚拟化、支持容器管理、作业管理、镜像创建与管理、分布式存储管理、用户管理、数据处理标注、模型开发、作业建模、模型纳管、部署等功能,搭建整体集群解决方案,基本规格如下:

图片

  • 高性能计算服务器01:双路 Intel Xeon Gold 6342 、2卡 40G 以上企业级加速卡 GPU 服务器2台;

  • 高性能计算服务器02:双路 Intel Xeon Platinum 8358P 、8 卡 Ada Lovelace 架构 GPU 服务器 2 台;

  • 网络部分:24 端口千兆交换机 1 台,48 端口 10GbE 以太网交换机1台;

  • 集群附件:配备多台 42U 标准服务器机柜、PDU、KVM 显示器、UPS 不间断电源等设备;

  • 集群管理:LtAI 异构资源管理平台,搭建统一异构计算资源池,其平台的主要特性如下:

  1. 支持集群管理及资源池虚拟化,构建统一资源池;

  2. 支持 X86/ARM 芯片;

  3. 整体功能方面,支持容器管理、作业管理、镜像创建与管理、分布式存储管理;

  4. 用户管理、数据处理标注、模型开发、作业建模、模型纳管、部署;

  5. 资源监控方面,支持集群详情查看,支持系统组件监控、CPU 监控;支持自动识别加速卡类别,并根据识别结果对加速卡信息进行自适应展示:

图片3.png
                                                                     图,软件架构

用户收益

仿真实验平台在部署验收完成及半年的试运行后,用户对本次方案的使用情况和具体服务高度赞赏,其具体用户收益如下:

 

· 计算能力上:

 

高性能计算服务器01:2 台 2 卡 40G 以上企业级加速卡,主要用于大型计算任务;

 

高性能计算服务器02::2 台 8 卡 Ada Lovelace 架构加速卡;

 

平台使用方面,LtAI 异构资源管理平台,搭建统一异构计算资源池,按需分配对应的异构算力资源,解决计算资源孤岛问题;

 

软件框架兼容方面,兼容 Tensorflow/Pytorch 等框架,以及仿真模拟软件等,代码无需修改,可无缝移植;

 

大规模数据分布式训练方面,兼容 MPI 等分布式调度方式,结合 25GbE 网络,极大的提升了训练效率。

如果您对您的企业或高校机构等如何通过混合或内部部署存储解决方案增加数据容量有任何疑问,请立即联系我们联泰集群的专业工程师!

相关贴子

敬请登记。

登记
本网站受 reCAPTCHA 保护,适用 Google隐私政策和服务条款。