博客

HPC

创新不止,联泰集群为高校毫米波雷达测试系统注入新活力

2025.01.17 26分钟阅读

项目背景

毫米波雷达利用毫米波频段的电磁波进行探测和感知,具有高分辨率、抗干扰等特点,因此在许多场景下都能发挥重要作用。主要在自动驾驶、安防、医疗、气象、军事等领域得到了广泛的应用。

 

本次项目预搭建一套毫米波雷达目标模拟测试系统,对现有的数据进行模拟计算、测试。随着科研需求和业务发展,在满足现有需求的算力的同时,资源利用、环境搭建、大规模计算等问题愈发重要,关乎科研成果的达成和前端业务的推进。

项目需求

在进行毫米波雷达目标模拟测试系统相关科研实验分析时,采用高性能 CPU 和 GPU 服务器构建异构计算平台,主要进行毫米波雷达目标模拟等科学计算分析。随着后续用户科研水平逐步向前迈进的同时,所产生的数据量也与日俱增,如何进一步加速和提升计算性能、合理分配使用国产算力资源、国产算力芯片兼容软件框架和用户应用是否自洽,是本次方案的一个重要的考量因素。

 

本次项目主核心要采用 5 台高性能计算节点,其中 3 台 CPU 采用双路 AMD EPYC™7642 处理器,2 台 Intel Xeon Gold 6342,GPU 采用 NVIDIA 企业级加速器(40GB)、NVIDIA 高性能加速器(24GB),采用管理软件统一调度,融合统一异构计算资源池,针对不用科研人员的需求,满足其对应的算力资源分配和使用需求。

痛点分析

通过和用户充分沟通后发现,目前采用多台桌边工作站为算力核心的主要仿真模拟计算形式,在针对大规模数据训练时,由于工作站间支持的网络带宽有限,极大的影响了训练效率;随着数据量和需求的增加,因工作站单台的算力有限及网络带宽方面的限制,无法满足大规模分布式训练的要求。结果变成各自分散的计算资源孤岛,无法和前端的业务形成高效的对接,满足科研人员的计算要求。

解决方案

结合用户痛点和对需求的分析,本次方案采用 5 台计算节点、网络设备、集群附件及 1 套异构资源管理软件的总体架构,搭建以 NVIDIA 加速卡为核心,支持划分算力资源池,支持资源虚拟化、支持容器管理、作业管理、镜像创建与管理、分布式存储管理、用户管理、数据处理标注、模型开发、作业建模、模型纳管、部署等功能,搭建整体集群解决方案,基本规格如下:

 

  • 雷达信号目标模拟实时处理后台核心服务器:双路 Intel Xeon Gold 6342 、4 卡(40GB) 企业级加速卡GPU 服务器1台。

     

  • 雷达信号目标模拟实时处理后台离线服务器:双路 AMD EPYC™7642 、8 卡(24GB)高性能加速卡 GPU 服务器 3 台。

     

  • 雷达信号目标模拟实时处理后台备用服务器:双路 Intel Xeon Gold 6342 、4 卡(24GB)高性能加速卡 GPU 服务器 1 台。

     

  • 网络部分:24 端口千兆交换机1台,48 端口 25GbE 以太网交换机1台。

     

  • 集群附件:配备多台 42U 标准服务器机柜、PDU、KVM 显示器、UPS 不间断电源等设备。

     

  • 集群管理:LtAI 异构资源管理平台,搭建统一异构计算资源池,其平台的主要特性如下:

1. 支持集群管理及资源池虚拟化,构建统一资源池。

2. 支持 X86/ARM 芯片。

3. 整体功能方面,支持容器管理、作业管理、镜像创建与管理、分布式存储管理。

4. 用户管理、数据处理标注、模型开发、作业建模、模型纳管、部署。

5. 资源监控方面,支持集群详情查看,支持系统组件监控、CPU监控;支持自动识别加速卡类别,并根据识别结果对加速卡信息进行自适应展示。

用户收益

实验室在部署验收完成及半年的试运行后,用户对本次方案的使用情况和具体服务高度赞赏,其具体用户收益如下:

 

  • 计算能力上:

1)雷达信号目标模拟实时处理后台核心服务器 1 台 4 卡(48GB)企业级加速卡(FP64:38.8Tflops、 FP32:78TFlops)。

2)雷达信号目标模拟实时处理后台离线服务器 3 台 8 卡(24GB)高性能加速卡(FP32:664TFlops)。

3)雷达信号目标模拟实时处理后台备用服务器 1 台 4 卡(24GB)高性能加速卡(FP32:332TFlops)。

 

  • 平台使用方面,LtAI 异构资源管理平台,搭建统一异构计算资源池,按需分配对应的异构算力资源,解决计算资源孤岛问题。

     

  • 软件框架兼容方面,兼容 Tensorflow/Pytorch 等框架,以及仿真模拟软件等,代码无需修改,可无缝移植。

     

  • 大规模数据分布式训练方面,兼容 MPI 等分布式调度方式,结合 25GbE 网络,极大的提升了训练效率。

相关贴子

敬请登记。

登记
本网站受 reCAPTCHA 保护,适用 Google隐私政策和服务条款。