博客

HPC

破局算力孤岛！长安大学车联网实验平台“异构进化”实录

2025.03.14 35分钟阅读

项目背景

长安大学工程机械学院是长安大学特色学院之一和国内著名的工程机械学府，拥有“公路养护装备”国家工程研究中心、国家级工程机械虚拟仿真实验教学中心陕西省重点实验室、陕西省“机械实验教学示范中心”和交通部西安筑路机械测试中心；本次项目预搭建一套车联网与智能汽车实验模拟计算平台，对现有的数据进行模拟计算、测试。

项目需求

在进行车联网与智能汽车实验模拟计算时，采用高性能 CPU 和 GPU 服务器构建异构计算平台。随着后续用户科研水平逐步向前迈进的同时，所产生的数据量也与日俱增，如何进一步加速和提升计算性能、合理分配使用算力资源是本次方案的一个重要的考量因素。本次项目主核心要采用5台高性能计算节点，其中 2 台 CPU 采用双路 Intel Xeon Platinum 8358P 处理器，2 台采用 Intel Xeon Gold 6342，GPU 分别采用 40G 以上企业级加速卡、Ada Lovelace 架构加速卡，利用管理软件统一调度，融合统一异构计算资源池，针对不同科研人员的需求，还要将部分资源划分出来用来接入试车场地的摄像头。

痛点分析

通过和用户充分沟通后发现，目前采用单台工作站或者单机多卡服务器作为算力核心，在针对大规模数据训练时，由于工作站和服务器支持的网络带宽有限，极大的影响了训练效率；随着数据量和需求的增加，单点的算力有限及网络带宽方面的限制，无法满足大规模分布式训练的要求。成为各自分散的计算资源孤岛，无法和前端的业务形成高效的对接，更无法满足研究人员的计算需求。

解决方案

结合用户痛点和对需求的分析，本次方案采用 1 台管理节点和 4 台计算节点、网络设备、集群附件及1套异构资源管理软件的总体架构，搭建一套以 NVIDIA 加速卡为核心其他类型加速卡为辅助，支持划分算力资源池，支持资源虚拟化、支持容器管理、作业管理、镜像创建与管理、分布式存储管理、用户管理、数据处理标注、模型开发、作业建模、模型纳管、部署等功能，搭建整体集群解决方案，基本规格如下：