博客

HPC

北京某生物医疗单位国产 AI 计算集群项目落地,助力蛋白质科研创新

2025.04.03 22分钟阅读

项目背景

 

北京某生物医疗单位蛋白质工程实验室聚焦于蛋白质晶体学、蛋白质动力学、蛋白质化学等核心领域的研究,同时覆盖医药研发、农业技术、工业应用、环境保护、生物传感器及诊断技术等多个方向。为应对生物数据计算的迫切需求,单位计划搭建一套国产 AI 计算集群,支撑现有科研数据的深度分析与模型训练。随着科研任务复杂化与业务规模扩展,如何高效利用算力资源、优化计算环境架构、突破大规模分布式计算瓶颈,已成为推动科研成果转化与业务发展的关键。本项目以国产芯片为核心,致力于构建自主可控的AI训练平台,打造高性能国产化 AI 集群计算系统。

项目需求

 

为满足蛋白质工程领域的高精度科研实验需求,需构建基于高性能 CPU 和 GPU 服务器的异构计算平台,支撑 AI 训练、推理及复杂科学计算分析。随着科研数据量的指数级增长,亟需解决以下问题:

  • 算力性能提升‌:突破现有计算瓶颈,优化国产芯片(如海光 CPU、昆仑芯GPU)与软件框架的兼容性;

  • 资源动态调配‌:实现算力资源的智能分配与弹性扩展,满足不同科研任务的差异化需求;

  • 系统自洽性‌:确保国产芯片、AI 管理平台与用户科研应用的无缝对接。
    项目核心采用 12 台国产AI计算节点(CPU 为双路 Hygon7285 处理器,GPU 为 4 路昆仑芯 R200-8F 处理器),通过统一 AI 管理平台整合算力资源池,为科研人员提供灵活、高效的算力支持。

痛点分析

 

当前实验室依赖多台桌面工作站进行 AI 计算,存在显著瓶颈:

  • 算力分散‌:工作站单机性能有限,网络带宽不足,导致大规模AI训练效率低下;

  • 资源孤岛化‌:分散的计算资源难以统一调度,无法支撑分布式训练需求;

  • 业务脱节‌:算力供给与前端科研需求脱节,阻碍实验进程与成果转化。


解决方案

 

基于国产化技术路线,部署 ‌3 台管理节点+12 台计算节点+AI 异构资源管理软件‌ 的集群架构,实现以下功能:

  • 国产芯片深度适配‌:以海光 CPU、昆仑芯 GPU 为核心,构建高性能异构计算资源池;

  • 全栈 AI 能力集成‌:支持资源虚拟化、容器化部署、分布式存储管理、模型开发与纳管等全流程功能;

  • 智能调度优化‌:通过统一管理平台动态分配算力资源,满足蛋白质动力学模拟、药物分子筛选等场景的高并发需求;

  • 业务无缝对接‌:打通数据标注、模型训练、推理部署链路,助力科研效率提升与成果快速落地。

 

‌项目价值‌:为生物医疗领域提供首个国产化 AI 集群标杆案例,推动蛋白质工程研究向智能化、高效化迈进。

 

基本规格如下:

 

-管理节点:双路 Hygon 5380 管理服务器 3 台;

-计算节点:双路 Hygon 7285 + 四路昆仑芯 R200-8F GPU 服务器 12 台;

-网络部分:24 端口千兆交换机 1 台,48 端口 25GbE 以太网交换机 1 台;

-集群附件:配备多台 42U 标准服务器机柜、PDU、KVM 显示器、UPS 不间断电源等设备;

-集群管理:LtAI 异构资源管理平台,搭建统一 AI 计算资源池,其平台的主要特性如下:

  • 支持集群管理及资源池虚拟化,构建统一资源池;

  • 支持 X86/ARM 芯片,兼容国产 AI 集群;

  • 整体功能方面,支持容器管理、作业管理、镜像创建与管理、分布式存储管理、用户管理、数据处理标注、模型开发、作业建模、模型纳管、部署;

  • 资源监控方面,支持集群详情查看,支持系统组件监控、CPU 监控;支持自动识别加速卡类别,并根据识别结果对加速卡信息进行自适应展示:

 

软件部署架构:

 

图片

用户收益  

  

实验室在部署验收完成和半年的试运行后,用户对本次方案的使用情况和具体服务高度赞赏,其具体用户收益如下:

-计算能力上,原有单机 4 卡 18 年发行(FP32:53.6TFlops),现有性能(12 台 4 卡 R200-8F,单卡 FP32:32TFlops,总计 1.5PFlops)可达原有工作站 AI 训练理论性能的 28 倍以上,并且兼容 INT8/INT16,可以更广泛的应用到 AI 推理任务当中。

-平台使用方面,LtAI 异构资源管理平台,搭建统一 AI 计算资源池,按需分配对应的 AI 算力资源,解决AI计算资源孤岛问题;

-软件框架兼容方面,兼容 Tensorflow/Pytorch/pandle 等框架,代码无需修改,可无缝移植;

-大规模数据 AI 分布式训练方面,兼容 Horovod,MPI 等分布式调度方式,结合 25GbE 网络,极大的提升了训练效率。

在联泰集群,我们致力于提供高性能计算解决方案,这些解决方案是经过验证和测试的系统。如果您对解决计算基础架构中的硬件问题有任何疑问,请与我们的技术支持团队联系,与我们联泰集群的工程师一同规划下一个算力方案决策。

相关贴子

敬请登记。

登记
本网站受 reCAPTCHA 保护,适用 Google隐私政策和服务条款。