博客

人工智能与大模型

联泰集群赋能四川某科大计算机学院 AI 科研平台,打造高性能 GPU 算力集群!

2024.12.20 27分钟阅读

图片

项目背景

 

四川某科技大学计算机学院在人工智能与深度学习、医学影像技术等前沿领域成果斐然,广泛应用于政府、医疗等多个行业。随着科研团队的壮大和需求的增长,学院急需提升 GPU 算力。为此,我们携手共建高性能、高扩展的人工智能科研平台,为学院师生团队插上 AI 科研的翅膀!

项目需求

 

本次集群建设旨在满足 30 个以上用户的日常科研训练需求,采用高性能 CPU 和 GPU 服务器构建异构计算平台,专注于图像训练和自然语言处理训练。集群整体 GPU 算力不低于 1PFLOPS显存容量高达 900GB,确保科研任务的高效运行。同时,集群网络采用高速链路,并保留扩展性,为后续无缝加入计算节点和存储节点打下坚实基础。

痛点分析

 

学院现有的通用服务器已无法满足 AI 科研任务的需求,GPU 算力资源紧缺。AI 开发流程及环境部署复杂,缺乏完整的科研平台。服务器使用管理混乱,急需采购集群管理软件进行统一分配管理。此外,学院机房条件还需进行电力改造,以满足大功耗 GPU 服务器的加入。

解决方案

 

针对学院痛点,我们采用 GPU 加速的 Kubernetes 集群架构,提供简洁的 WEB 界面和丰富的功能工具。该方案支持资源调度管理、用户管理、模型训练、数据标注等多样化技术特性,为用户提供充足的异构计算资源和开箱即用的开发环境。具体硬件平台架构包括:

 

  • 管理节点:1 台双路 Intel® Xeon CPU 4310 管理服务器

  • 计算节点:3 台双路Intel® 4316 8 GPU 服务器(L20 48GB)

  • 网络部分:千兆交换机和 100GbE IB 交换机各 1 台

  • 集群管理:LtAI 异构资源管理平台,实现资源的统一调度、监控和管理

硬件平台架构:

图片

(点击放大查看)

软件平台架构:

图片

(点击放大查看)

用户收益

 

经过半年的试运行,该校 AI 集群系统赢得了用户的高度赞赏。具体收益包括:

 

  • CPU 核心数高达 144,GPU AI 算力可达 1280 TFlops

  • 资源统一管理与调度,提升资源利用率

  • 全流程 AI 开发与管理,降低 AI 开发复杂度

  • 无缝拓展集群节点,为二期建设降低门槛

 

此次 AI 科研平台的升级不仅提升了学院的科研实力,也为师生团队提供了更加便捷、高效的 AI 研究环境。

相关贴子

敬请登记。

登记
本网站受 reCAPTCHA 保护,适用 Google隐私政策和服务条款。