博客
GROMACS GPU 基准测试和硬件建议
GROMACS 基准测试范围
作为科学工作站和服务器的增值供应商,联泰集群定期提供各种 GPU 配置的参考基准,以指导分子动力学科学家采购适合其研究的优化系统。在本博客中,我们使用 GROMACS MD 对多个服务器平台和不同 GPU 配置的性能进行了基准测试,并评估了每天执行的模拟总纳秒数。
您是否正在为药物发现等分子动力学研究寻找高性能计算工作站或服务器?
现在就与我们经验丰富的系统工程师一起配置您的 GROMACS 系统!
GROMACS 摘要
GROMACS 是一款功能强大的开源分子动力学软件包,主要用于模拟蛋白质、脂质、核酸以及聚合物等非生物系统。GROMACS 支持现代分子动力学实现所需的所有常用算法。GROMACS 可使用标准的 MPI 通信协议在多节点环境中并行运行,并自 GROMACS 4.6 起在英伟达 GPU 上实现了基于 CUDA 的 GPU 加速。
GROMACS 以用户友好而著称,拓扑结构和参数文件均以清晰的文本格式编写。GROMACS 有大量的一致性检查,出错时会发出明确的错误信息。GROMACS 有很多变量和优化措施可以改变性能。除了运行的硬件配置外,每次测试的参数都是相同的。
联泰集群系统规格
Xeon W Workstation |
Xeon Scalable Server |
Threadripper PRO Workstation |
|
处理器 |
Intel Xeon W9-3495X |
Dual Intel Xeon Scalable 8490H |
AMD Threadripper PRO 5995WX |
核心数 |
56 Cores |
120 Cores (60 Each) |
64 Cores |
基础/超频频率 |
1.9GHz/4.8GHz |
1.9GHz/3.5GHz |
2.7GHz/4.5GHz |
内存 |
512GB DDR5 ECC |
512GB DDR5 ECC |
512GB DDR4 ECC |
存储 #1 |
1.92TB M.2 NVMe SSD |
4.09TB M.2 NVMe SSD |
4.09TB M.2 NVMe SSD |
CUDA 版本 |
12.0 |
12.0 |
12.0 |
GROMACS 的 GPU 性能基准
我们的第一项测试是对单 GPU 配置进行基准测试,看看哪种配置在 ADH 和 RNASE 工作负载中表现最佳。我们还包括仅使用 CPU 的数据,以了解 GPU 是否会产生有意义的差异(剧透:确实如此)。在 RNASE 工作负载中,仅使用 CPU 的配置由于不断崩溃而无法完成。
令人意想不到的是,性能最强大的 GPU RTX 6000 Ada 并不总是表现最好的。RTX A4500 较低的成本与其较低但仍然可观的性能相匹配。不过,就成本而言,RTX A4500 是一个很有吸引力的选择。英伟达™(NVIDIA®)RTX A5500 是本组中的佼佼者,其性能比 RTX 6000 平均高出 90%,而 RTX 6000 是一款价格更高的新 GPU。在某些测试中,RTX A5500 的性能与 RTX 6000 相当,而在另一些测试中则落后不多。
GROMACS CPU 性能基准
双路与单路处理器配置--内核越多越好吗?
首先,我们只测试了 CPU 配置。虽然这项测试并不代表我们运行 GROMACS 的方式,但我们希望解决一些常见的误解,这些误解将在进一步的测试中得到揭示。
RNASE 没有在仅使用 CPU 的配置上进行测试,因为过多的 CPU 内核被用作解决 RNASE 仿真的唯一加速器会导致崩溃。在没有 GPU 加速器的情况下,预计更多的内核会有更好的性能,双英特尔至强可扩展处理器的显著性能就证明了这一点。但是,我们在推断这些结果时要小心;使用 GPU 运行 GROMACS 会产生完全不同的结果。
我们测试了两个英特尔至强配置,并保留了相同的英伟达 RTX 6000 Ada。这是为了测试双至强可扩展解决方案中更多的内核是否能带来更高的性能。我们使用英特尔至强 W9-3495X 与双英特尔至强可扩展 8490H 系统进行了测试。
从这两项测试来看,在工作负载上投入更多的内核并不能提高性能,尤其是在 RNASE 基准测试中。是的,双至强可扩展处理器在仅 CPU 的基准测试中表现更好,但当与 GPU 一起运行时,双至强可扩展处理器配置在每个基准测试中的表现都比单至强 W9 差。GROMACS 不会随着 CPU 的增加而扩展,也不会随着内核的增加而表现更好。相反,GROMACS 工作负载在处理器以更高的时钟速度运行时表现更好。
排除双 CPU 配置,我们测试单处理器系统。AMD Threadripper PRO 系统是英特尔至强 W9 的 HEDT 处理器竞争对手,而 RTX 4090 和 RTX 6000 Ada 则是消费级和高端工作站的同类产品。我们只测试 CPU 配置,以了解 GROMACS 在 AMD 或英特尔处理器上的 GPU 性能是否相当。
题外话:RTX 6000 Ada 和 RTX 4090 性能相当。
- RTX 6000 Ada 重视稳定性和可扩展性,拥有更多的 VRAM、更低的功耗和更短的平均故障时间,并且采用双插槽宽度设计,适合多 GPU 配置,非常适合企业使用。
- RTX 4090 重视游戏性能,功耗更高。由于有 3.5 个插槽宽度,4090 在多 GPU 配置方面的可扩展性较差。
在 ADH 和 RNASE 基准测试中,英特尔至强 W 和 AMD Threadripper PRO 在大多数基准测试中不相上下。不过,在性能存在差异的情况下,Threadripper PRO 系统的性能要优于英特尔至强 W。两款 CPU 的性能都令人钦佩,用户可自行决定选择蓝队还是红队。
GROMACS 完整硬件建议
运行 GROMACS 工作负载时,很难确定每次运行最佳仿真所需的确切配置。有许多优化措施可以提高或降低 GROMACS 工作负载的性能。不过,我们仍将列出一份可运行大多数 GROMACS 工作负载的推荐硬件配置清单。
对于 CPU,应避免核心过多。通常情况下,密集核心的 CPU 成本太高,GROMACS 无法有效利用所有 CPU 资源。但仍需要快速的 CPU。选择高时钟频率的处理器,如 AMD Threadripper PRO 5995WX 或 Intel Xeon W9-3945X。
对于 GPU 来说,最高规格的 GPU 会产生很好的性能数据,但 GROMACS 有时可能无法利用 GPU 的全部内存。RTX 6000 Ada 的性能非常出色,但上一代 RTX A5500 与之不相上下。在扩展多个系统时,RTX A4500 的价值主张也让这款 GPU 成为了讨论的焦点。如果您的系统不会大规模使用,那么配备 RTX 4090 的简单工作站也足够了,其性能可与 RTX 6000 Ada 相媲美。
最终,您的工作负载可能不是 100% 的 GROMACS。在GROMACS优化和考虑其他应用之间取得平衡,是确定适合您的组件的必要条件。如果您对构建下一个运行 GROMACS 的分子动力学系统有任何疑问,Exxact 工程师将为您解答,并指导您选择性价比最高的硬件。
如果您对如何为不同的工作负载优化最佳解决方案有任何疑问?
今天就联系联泰集群,与经验丰富的工程师交流,为您打造完美的计算基础设施。