博客

HPC

让 AI 训练不再「排队」!集群扩容,70 个科研任务并行无忧

2025.03.21 35分钟阅读

项目背景
该项目主要服务软件工程、计算机科学与技术学科(内涵)建设,支撑***教育部重点实验室(培育)、某大数据与智能系统工程技术研究中心、特种能源及新能源科学数据库、某科技资源共享服务平台等科研平台,拟解决装备数据资源治理中的一致性与可靠性,多模态、大数据小样本数据中的知识发现,智能仿真方法等科学问题。
项目需求
目前项目需求部门已有的计算集群平台 GPU FP32 算力有 1279.8TFLOPS,GPU 显存 960GB,并缺少存储设备。随着科研团队的不断扩大,算力和存储资源已满足不了日常的科研训练,特别是不能满足数据与知识工程、机器视觉团队、神经网络与图像处理团队对算力和存储的需求,故需进行算力和存储扩容。满足 70 个用户进行日常科研训练,主要进行图像训练和自然语言处理训练。集群整体 GPU FP32 算力不低于 3.5 pFLOPS,显存容量不低于 2 TB,可用存储容量不低于 600 TB。
痛点分析
通过和用户充分沟通、实地勘察和演示发现,学院现有的计算服务器不能满足 AI 科研任务,随着科研团队人员的壮大,GPU 算力资源更加紧缺。同时 AI 训练、科学计算和大数据分析的普及,数据规模呈指数级增长,学院缺少一套存储系统。算力集群如果已经具备强大的计算能力,但存储系统性能不足,仍会成为性能瓶颈。
解决方案
结合用户痛点和对需求的分析,本次采购相关的人工智能算力、存储、网络设备和相关软件,主要包括 4 台 GPU 服务器、3 台存储服务器(分布式存储系统)、1套异构集群管理软件及网络设备,加入到已建设的高性能异构集群中,与现有的集群系统集成,形成统一管理。基本规格如下:
  • 异构计算节点 1:2 台双路 Intel 4316 8 GPU 卡服务器(Ada Lovelace 架构 24GB); 
  • 异构计算节点 2:2 台双路 Intel 4316 8 GPU 卡服务器(Ada Lovelace 架构 48GB);

  • 存储节点:3 台双路 36 盘位存储服务器(352TB*3);

  • 网络部分:机房改造;

  • 集群管理:LtAI 异构资源管理平台,搭建统一 AI 计算资源池;

  • 支持资源调度、监控、管理;

  • 支持组织、用户管理;

  • 支持存储管理;

  • 支持数据标注;

  • 支持数据管理;

  • 支持模型训练、模型管理、模型服务;

  • 支持开发环境管理,各种 AI 框架;

  • 支持 AutoML 超参调优;

  • 存储管理:LTHPC 并行存储系统,搭建高性能存储资源池; 

  • 支持副本/纠删码技术特性;
  • 支持在线横向扩展,容量可达 EB 级
  • 支持 NFS/SMB/POSIX 等协议,无性能瓶颈;
  • 多级可靠性保障,保证业务连续性和安全性;;
  • 支持非结构化数据之间协议融合互通访问,基于 ROW 的可以快照功能等;
硬件平台架构
图片
软件平台架构
图片
用户收益
某科技大学的 AI 集群系统(二期)的部署和 2 个月的试运行后,用户对本次方案的使用情况和具体服务高度赞赏,其具体用户收益如下:
  • AI 集群整体单精度算力 3558.4 TFLOPS,GPU 总显存 2112GB;
  • 存储裸容量 1PB,可用容量高达 600TB;
  • 新增设备无缝加入原集群,用户业务不中断;
  • 分布式存储支持 RDMA、GDS 等技术,对前端 GPU 服务器的增速巨大,超额完成训练任务;
  • 纠删码/副本的部署方式,一定程度上保证了用户的数据安全。

相关贴子

敬请登记。

登记
本网站受 reCAPTCHA 保护,适用 Google隐私政策和服务条款。