博客
创新不止,联泰集群为高校毫米波雷达测试系统注入新活力
毫米波雷达利用毫米波频段的电磁波进行探测和感知,具有高分辨率、抗干扰等特点,因此在许多场景下都能发挥重要作用。主要在自动驾驶、安防、医疗、气象、军事等领域得到了广泛的应用。
本次项目预搭建一套毫米波雷达目标模拟测试系统,对现有的数据进行模拟计算、测试。随着科研需求和业务发展,在满足现有需求的算力的同时,资源利用、环境搭建、大规模计算等问题愈发重要,关乎科研成果的达成和前端业务的推进。
在进行毫米波雷达目标模拟测试系统相关科研实验分析时,采用高性能 CPU 和 GPU 服务器构建异构计算平台,主要进行毫米波雷达目标模拟等科学计算分析。随着后续用户科研水平逐步向前迈进的同时,所产生的数据量也与日俱增,如何进一步加速和提升计算性能、合理分配使用国产算力资源、国产算力芯片兼容软件框架和用户应用是否自洽,是本次方案的一个重要的考量因素。
本次项目主核心要采用 5 台高性能计算节点,其中 3 台 CPU 采用双路 AMD EPYC™7642 处理器,2 台 Intel Xeon Gold 6342,GPU 采用 NVIDIA 企业级加速器(40GB)、NVIDIA 高性能加速器(24GB),采用管理软件统一调度,融合统一异构计算资源池,针对不用科研人员的需求,满足其对应的算力资源分配和使用需求。
通过和用户充分沟通后发现,目前采用多台桌边工作站为算力核心的主要仿真模拟计算形式,在针对大规模数据训练时,由于工作站间支持的网络带宽有限,极大的影响了训练效率;随着数据量和需求的增加,因工作站单台的算力有限及网络带宽方面的限制,无法满足大规模分布式训练的要求。结果变成各自分散的计算资源孤岛,无法和前端的业务形成高效的对接,满足科研人员的计算要求。
结合用户痛点和对需求的分析,本次方案采用 5 台计算节点、网络设备、集群附件及 1 套异构资源管理软件的总体架构,搭建以 NVIDIA 加速卡为核心,支持划分算力资源池,支持资源虚拟化、支持容器管理、作业管理、镜像创建与管理、分布式存储管理、用户管理、数据处理标注、模型开发、作业建模、模型纳管、部署等功能,搭建整体集群解决方案,基本规格如下:
-
雷达信号目标模拟实时处理后台核心服务器:双路 Intel Xeon Gold 6342 、4 卡(40GB) 企业级加速卡GPU 服务器1台。
-
雷达信号目标模拟实时处理后台离线服务器:双路 AMD EPYC™7642 、8 卡(24GB)高性能加速卡 GPU 服务器 3 台。
-
雷达信号目标模拟实时处理后台备用服务器:双路 Intel Xeon Gold 6342 、4 卡(24GB)高性能加速卡 GPU 服务器 1 台。
-
网络部分:24 端口千兆交换机1台,48 端口 25GbE 以太网交换机1台。
-
集群附件:配备多台 42U 标准服务器机柜、PDU、KVM 显示器、UPS 不间断电源等设备。
-
集群管理:LtAI 异构资源管理平台,搭建统一异构计算资源池,其平台的主要特性如下:
1. 支持集群管理及资源池虚拟化,构建统一资源池。
2. 支持 X86/ARM 芯片。
3. 整体功能方面,支持容器管理、作业管理、镜像创建与管理、分布式存储管理。
4. 用户管理、数据处理标注、模型开发、作业建模、模型纳管、部署。
5. 资源监控方面,支持集群详情查看,支持系统组件监控、CPU监控;支持自动识别加速卡类别,并根据识别结果对加速卡信息进行自适应展示。
实验室在部署验收完成及半年的试运行后,用户对本次方案的使用情况和具体服务高度赞赏,其具体用户收益如下:
-
计算能力上:
1)雷达信号目标模拟实时处理后台核心服务器 1 台 4 卡(48GB)企业级加速卡(FP64:38.8Tflops、 FP32:78TFlops)。
2)雷达信号目标模拟实时处理后台离线服务器 3 台 8 卡(24GB)高性能加速卡(FP32:664TFlops)。
3)雷达信号目标模拟实时处理后台备用服务器 1 台 4 卡(24GB)高性能加速卡(FP32:332TFlops)。
-
平台使用方面,LtAI 异构资源管理平台,搭建统一异构计算资源池,按需分配对应的异构算力资源,解决计算资源孤岛问题。
-
软件框架兼容方面,兼容 Tensorflow/Pytorch 等框架,以及仿真模拟软件等,代码无需修改,可无缝移植。
-
大规模数据分布式训练方面,兼容 MPI 等分布式调度方式,结合 25GbE 网络,极大的提升了训练效率。
相关贴子
-
HPC
AMD EPYC Genoa-X 和 EPYC Bergamo — 同类最佳性能
2023.12.01 19分钟阅读 -
HPC
G2232 G3 | 2U双路机架服务器 采用第四代Intel Xeon可扩展处理器
2023.01.13 12分钟阅读 -
HPC
重塑高性能计算新标准--联泰集群 GA4228 G3
2024.07.26 20分钟阅读