博客
北京某生物医疗单位国产 AI 计算集群项目落地,助力蛋白质科研创新
项目背景
北京某生物医疗单位蛋白质工程实验室聚焦于蛋白质晶体学、蛋白质动力学、蛋白质化学等核心领域的研究,同时覆盖医药研发、农业技术、工业应用、环境保护、生物传感器及诊断技术等多个方向。为应对生物数据计算的迫切需求,单位计划搭建一套国产 AI 计算集群,支撑现有科研数据的深度分析与模型训练。随着科研任务复杂化与业务规模扩展,如何高效利用算力资源、优化计算环境架构、突破大规模分布式计算瓶颈,已成为推动科研成果转化与业务发展的关键。本项目以国产芯片为核心,致力于构建自主可控的AI训练平台,打造高性能国产化 AI 集群计算系统。
项目需求
为满足蛋白质工程领域的高精度科研实验需求,需构建基于高性能 CPU 和 GPU 服务器的异构计算平台,支撑 AI 训练、推理及复杂科学计算分析。随着科研数据量的指数级增长,亟需解决以下问题:
-
算力性能提升:突破现有计算瓶颈,优化国产芯片(如海光 CPU、昆仑芯GPU)与软件框架的兼容性;
-
资源动态调配:实现算力资源的智能分配与弹性扩展,满足不同科研任务的差异化需求;
-
系统自洽性:确保国产芯片、AI 管理平台与用户科研应用的无缝对接。
项目核心采用 12 台国产AI计算节点(CPU 为双路 Hygon7285 处理器,GPU 为 4 路昆仑芯 R200-8F 处理器),通过统一 AI 管理平台整合算力资源池,为科研人员提供灵活、高效的算力支持。
痛点分析
当前实验室依赖多台桌面工作站进行 AI 计算,存在显著瓶颈:
-
算力分散:工作站单机性能有限,网络带宽不足,导致大规模AI训练效率低下;
-
资源孤岛化:分散的计算资源难以统一调度,无法支撑分布式训练需求;
-
业务脱节:算力供给与前端科研需求脱节,阻碍实验进程与成果转化。
解决方案
基于国产化技术路线,部署 3 台管理节点+12 台计算节点+AI 异构资源管理软件 的集群架构,实现以下功能:
-
国产芯片深度适配:以海光 CPU、昆仑芯 GPU 为核心,构建高性能异构计算资源池;
-
全栈 AI 能力集成:支持资源虚拟化、容器化部署、分布式存储管理、模型开发与纳管等全流程功能;
-
智能调度优化:通过统一管理平台动态分配算力资源,满足蛋白质动力学模拟、药物分子筛选等场景的高并发需求;
-
业务无缝对接:打通数据标注、模型训练、推理部署链路,助力科研效率提升与成果快速落地。
项目价值:为生物医疗领域提供首个国产化 AI 集群标杆案例,推动蛋白质工程研究向智能化、高效化迈进。
基本规格如下:
-管理节点:双路 Hygon 5380 管理服务器 3 台;
-计算节点:双路 Hygon 7285 + 四路昆仑芯 R200-8F GPU 服务器 12 台;
-网络部分:24 端口千兆交换机 1 台,48 端口 25GbE 以太网交换机 1 台;
-集群附件:配备多台 42U 标准服务器机柜、PDU、KVM 显示器、UPS 不间断电源等设备;
-集群管理:LtAI 异构资源管理平台,搭建统一 AI 计算资源池,其平台的主要特性如下:
-
支持集群管理及资源池虚拟化,构建统一资源池;
-
支持 X86/ARM 芯片,兼容国产 AI 集群;
-
整体功能方面,支持容器管理、作业管理、镜像创建与管理、分布式存储管理、用户管理、数据处理标注、模型开发、作业建模、模型纳管、部署;
-
资源监控方面,支持集群详情查看,支持系统组件监控、CPU 监控;支持自动识别加速卡类别,并根据识别结果对加速卡信息进行自适应展示:
软件部署架构:
用户收益
实验室在部署验收完成和半年的试运行后,用户对本次方案的使用情况和具体服务高度赞赏,其具体用户收益如下:
-计算能力上,原有单机 4 卡 18 年发行(FP32:53.6TFlops),现有性能(12 台 4 卡 R200-8F,单卡 FP32:32TFlops,总计 1.5PFlops)可达原有工作站 AI 训练理论性能的 28 倍以上,并且兼容 INT8/INT16,可以更广泛的应用到 AI 推理任务当中。
-平台使用方面,LtAI 异构资源管理平台,搭建统一 AI 计算资源池,按需分配对应的 AI 算力资源,解决AI计算资源孤岛问题;
-软件框架兼容方面,兼容 Tensorflow/Pytorch/pandle 等框架,代码无需修改,可无缝移植;
-大规模数据 AI 分布式训练方面,兼容 Horovod,MPI 等分布式调度方式,结合 25GbE 网络,极大的提升了训练效率。
在联泰集群,我们致力于提供高性能计算解决方案,这些解决方案是经过验证和测试的系统。如果您对解决计算基础架构中的硬件问题有任何疑问,请与我们的技术支持团队联系,与我们联泰集群的工程师一同规划下一个算力方案决策。
相关贴子
-
HPC
创新不止,联泰集群为高校毫米波雷达测试系统注入新活力
2025.01.17 26分钟阅读 -
HPC
四卡 AI 服务器 G4234 G3V3 — 带你从容应对大数据时代的挑战
2024.11.01 21分钟阅读 -
HPC
探索极致性能新体验——WA7232 G3 双路 AMD 第四代霄龙工作站
2024.08.16 11分钟阅读