博客

HPC

让 AI 训练不再「排队」！集群扩容，70 个科研任务并行无忧

2025.03.21 35分钟阅读

项目背景

该项目主要服务软件工程、计算机科学与技术学科（内涵）建设，支撑***教育部重点实验室（培育）、某大数据与智能系统工程技术研究中心、特种能源及新能源科学数据库、某科技资源共享服务平台等科研平台，拟解决装备数据资源治理中的一致性与可靠性，多模态、大数据小样本数据中的知识发现，智能仿真方法等科学问题。

项目需求

目前项目需求部门已有的计算集群平台 GPU FP32 算力有 1279.8TFLOPS，GPU 显存 960GB，并缺少存储设备。随着科研团队的不断扩大，算力和存储资源已满足不了日常的科研训练，特别是不能满足数据与知识工程、机器视觉团队、神经网络与图像处理团队对算力和存储的需求，故需进行算力和存储扩容。满足 70 个用户进行日常科研训练，主要进行图像训练和自然语言处理训练。集群整体 GPU FP32 算力不低于 3.5 pFLOPS，显存容量不低于 2 TB，可用存储容量不低于 600 TB。

痛点分析

通过和用户充分沟通、实地勘察和演示发现，学院现有的计算服务器不能满足 AI 科研任务，随着科研团队人员的壮大，GPU 算力资源更加紧缺。同时 AI 训练、科学计算和大数据分析的普及，数据规模呈指数级增长，学院缺少一套存储系统。算力集群如果已经具备强大的计算能力，但存储系统性能不足，仍会成为性能瓶颈。

解决方案

结合用户痛点和对需求的分析，本次采购相关的人工智能算力、存储、网络设备和相关软件，主要包括 4 台 GPU 服务器、3 台存储服务器（分布式存储系统）、1套异构集群管理软件及网络设备，加入到已建设的高性能异构集群中，与现有的集群系统集成，形成统一管理。基本规格如下：

异构计算节点 1：2 台双路 Intel 4316 8 GPU 卡服务器（Ada Lovelace 架构 24GB）；
异构计算节点 2：2 台双路 Intel 4316 8 GPU 卡服务器（Ada Lovelace 架构 48GB）；
存储节点：3 台双路 36 盘位存储服务器（352TB*3）；
网络部分：机房改造；
集群管理：LtAI 异构资源管理平台，搭建统一 AI 计算资源池；

支持资源调度、监控、管理；
支持组织、用户管理；
支持存储管理；
支持数据标注；
支持数据管理；
支持模型训练、模型管理、模型服务；
支持开发环境管理，各种 AI 框架；
支持 AutoML 超参调优；

存储管理：LTHPC 并行存储系统，搭建高性能存储资源池；

支持副本/纠删码技术特性；
支持在线横向扩展，容量可达 EB 级；
支持 NFS/SMB/POSIX 等协议，无性能瓶颈；
多级可靠性保障，保证业务连续性和安全性；；
支持非结构化数据之间协议融合互通访问，基于 ROW 的可以快照功能等；

硬件平台架构

软件平台架构

用户收益

某科技大学的 AI 集群系统（二期）的部署和 2 个月的试运行后，用户对本次方案的使用情况和具体服务高度赞赏，其具体用户收益如下：

AI 集群整体单精度算力 3558.4 TFLOPS，GPU 总显存 2112GB；
存储裸容量 1PB,可用容量高达 600TB；
新增设备无缝加入原集群，用户业务不中断；
分布式存储支持 RDMA、GDS 等技术，对前端 GPU 服务器的增速巨大，超额完成训练任务；
纠删码/副本的部署方式，一定程度上保证了用户的数据安全。

注册我们的通讯。

免费资源

浏览我们的白皮书、电子书、案例研究和参考架构

搜索

主题

有什么问题吗？

联系我们

博客

让 AI 训练不再「排队」！集群扩容，70 个科研任务并行无忧

相关贴子

GR2134 服务器：云计算时代的革命性源动力

联泰集群助力北京高校实验室成功部署电磁仿真高性能服务器

G2232 G3 | 2U双路机架服务器采用第四代Intel Xeon可扩展处理器

聨泰集群推出支持第四代AMD EPYC™ 处理器的服务器平台

联泰集群国产液冷大模型一体机：多行业赋能的算力新贵

注册我们的通讯。

免费资源

主题

有什么问题吗？

相关贴子

什么是集群计算？

科研升级计划：打造高效异构计算集群，赋能材料科学研究

集群拓扑结构：什么是头节点？

注册我们的通讯。

敬请登记。

博客

让 AI 训练不再「排队」！集群扩容，70 个科研任务并行无忧

相关贴子

GR2134 服务器：云计算时代的革命性源动力

联泰集群助力北京高校实验室成功部署电磁仿真高性能服务器

G2232 G3 | 2U双路机架服务器 采用第四代Intel Xeon可扩展处理器

聨泰集群推出支持第四代AMD EPYC™ 处理器的服务器平台

联泰集群国产液冷大模型一体机：多行业赋能的算力新贵

注册我们的通讯。

免费资源

主题

有什么问题吗？

相关贴子

什么是集群计算？

科研升级计划：打造高效异构计算集群，赋能材料科学研究

集群拓扑结构：什么是头节点？

注册我们的通讯。

敬请登记。

G2232 G3 | 2U双路机架服务器采用第四代Intel Xeon可扩展处理器