博客

HPC

科研升级计划:打造高效异构计算集群,赋能材料科学研究

2025.01.27 20分钟阅读

项目需求

物理与电子信息工程学院的老师一直从事材料科学和工程领域研究,2018 年先购买过 8 台 CPU 计算服务器通过集群的方式并行计算,由于设备购买时间较早,想要在利旧的基础上更新计算设备和集群软件,并把旧设备也利用起来,集群软件能够并行 QuantumATK、Vasp 等计算软件。

痛点分析

Schrodinger 是计算化学领域为生命科学和材料研究提供解决方案领先者,是世界一流的分子建模、药物设计和材料科学软件集合,由 AutoQSAR,Demond,FEP+、Maesrto 、MS Combi、MS Jaguar、Bioluminate、KNIME Extensions、Canvas、Glide、WaterMap 等软件组合而成。其中:

 

药物发现:包含从头设计、虚拟筛选、等级顺序化合物、结构细化和准备、可视化和工作流程、生物制剂建模等。

 

材料科学:原子级仿真可以帮助您在开始合成和测试之前确定最有前途的结构和成分,从而可以加快新材料的开发。从有机电子产品到特种化学品再到聚合物制造。

解决方案

· 管理节点:双路 Intel Xeon Silver 4314 CPU 服务器 1 台。

 

· 高性能计算节点1:双路 Intel Xeon Platinum 8358P 、4 卡 NVIDIA 高性能 GPU 服务器 2 台。

 

· 高性能计算节点2:双路 Intel Xeon Platinum 8358P CPU 服务器 6 台。

 

· 利旧计算节点:双路 CPU 服务器 8 台存储节点:可用容量 400TB 存储服务器1台。

 

· 网络部分:24 端口千兆交换机 2 台,36 端口 EDR 100Gb/s InfiniBand 智能交换机交换机 1 台。

 

· 集群附件:配备多台 42U 标准服务器机柜、PDU、KVM显示器、UPS不间断电源等设备。

 

· 集群管理:LtHCS 高性能计算集群系统,搭建统一异构计算资源池,其平台的主要特性如下:

 

1.集群管理可视化:支持通过图形可视化的交互方式来方便的管理集群使用中的节点、分区、作业等功能;可以增加新分区、提交维护作业;可以查看相关作业节点的性能;
2.自动化作业管理:只需按要求把作业脚本提交到平台,管理平台会自动把作业分发到特定分区的计算节点;
3.多分区资源分配:平台支持把集群中不同配置的服务器划分到不同的计算分区;支持针对不同的使用者分配不同性能的计算节点。方便使用者可以把对 CPU、GPU、内存等要求比较大的任务提交到计算能力强的分区。
4.多种硬件场景部署:平台支持 CPU、GPU 等 X86 服务器部署,也支持云端服务器平台部署。支持 TCP/IP,支持 InfiniBand 高速网络。
5.软件架构:

 

6.网络架构:

 

用户收益

高性能计算平台在部署验收完成 2 个月的试运行后,用户对本次方案的使用情况和具体服务高度赞赏,其具体用户收益如下。

 

· 计算能力上:大型计算任务可以调度分配到新设备上计算,小型计算可以分配到利旧的机器上计算。

 

· 平台使用方面:LtHCS 高性能计算管理平台,搭建统一异构计算资源池,按需分配对应的异构算力资源,解决计算资源孤岛问题。

 

· 软件框架兼容方面:兼容 QuantumATK、Vasp 等计算软件。

 

· 大规模数据分布式训练方面:兼容 MPI 等分布式调度方式,结合 100Gb/s  IB 网络,极大的提升了训练效率。

相关贴子

敬请登记。

登记
本网站受 reCAPTCHA 保护,适用 Google隐私政策和服务条款。