博客
Ansys Rocky CPU 和 GPU 授权说明
Ansys 拥有广泛的库,其许可格式同样复杂。启用更多的计算节点或更高性能的硬件需要额外的许可证。之前,我们探讨了 Ansys Mechanical、Fluent、HFSS 等 HPC 包的主要许可正式格式。
我们将在这个名为 HPC 任务和 HPC 功能的文章中介绍 Ansys Rocky 的许可证,这些任务和功能使用 GPU 的 SM 作为变量,以确定充分使用系统配置所需的许可证数量。
在我们进入计算 Ansys Rocky 许可模型的细节之前,我们首先需要定义 SM。
-
什么是 SMs 或流处理器簇(Streaming Multiprocessors)?
流处理器簇是构成整个 GPU 的架构并行处理单元。SM 将包含多个 CUDA 内核以及共享内存缓存、调度器和寄存器。将 GPU SM 视为负责计算、内存管理和指令管道的工作人员组。
查找 GPU 的 SM 计数并不像查看 NVIDIA 网站上的规格表那么简单。在使用的示例中,我们列出了流行的 GPU 配置及其 SM 计数。您还可以在 Techpowerup 的 GPU 数据库(https://www.techpowerup.com/gpu-specs/)中找到 GPU 的 SM 计数。
SM 是相当于 CPU 核心的 GPU,因此许多 Ansys 许可模型将 GPU 的 SM 称为其许可层的变量。
Ansys HPC 任务是定义 GPU 配置中为 Ansys Rocky 计算启用的受支持 SM 或流处理器簇总数的许可证。值得注意的是,Ansys Rocky 允许您在 GPU 上运行,而不需要支持多达112个 SMs 的单个许可证。
当您选择使用超过112个 SMs 的 GPU 时,您需要购买 Rocky HPC 任务许可证和后续 HPC 功能,以启用过去的112个 SMs。因此,如果我们运行的 GPU 假设有113个 SMs,我们需要购买1个任务+1个功能来覆盖112+14个 SMs。
1个 HPC 任务=8个 HPC 功能=112个 SMs,因此
1个 HPC 功能=启用14个 SMs
Rocky HPC 任务 | 支持 SM |
---|---|
0 | 0 - 112 |
1 | 112 - 224 |
2 | 224 - 336 |
3 | 336 - 448 |
4 | 448 - 560 |
通过评估硬件配置中的 SM 总数,使用此表确定所需的 HPC 任务许可证数量。更多关于如何查找要确定所需 HPC 功能的数量,公式如下:
使用上述公式时,启用的 SM 必须超过硬件配置中的 SM 数量,因此 Features 变量 F 将四舍五入到下一个整数。因此,为了计算所需的功能数量,我们在配置中将启用的 SM 替换为 SM。你不能购买一半或四分之一的功能,所以在我们的公式中,我们四舍五入到数学术语中由“天花板”表示的下一个整数(看起来像一个没有脚的括号)。
让我们举一个例子:如果您的配置有400个 SMs。首先,由于400个 SMs 介于336和448之间,因此需要3个 HPC 任务。然后,我们运行公式来确定所需的 HPC 功能数量:
查找 GPU 的 SM 计数并不像查看产品规格那么简单。下列是近期专业 RTX GPU 和数据中心 GPU,它们可以加速 Ansys Rocky 及其许可要求。
GPU | SM Count | HPC 任务 | Features | GPU 显存 | 名称 |
---|---|---|---|---|---|
RTX 2000 Ada | 22 | - | - | 16GB GDDR6 | Workstation |
RTX 4000 Ada | 48 | - | - | 20GB GDDR6 | Workstation |
RTX 4500 Ada | 60 | - | - | 24GB GDDR6 | Workstation |
RTX 5000 Ada | 100 | - | - | 32GB GDDR6 | Workstation |
RTX 6000 Ada | 142 | 1 | 3 | 48GB GDDR6 | Workstation |
NVIDIA GPU 40GB Active | 108 | - | - | 40GB HBM2e | Workstation |
NVIDIA GPU A | 108 | - | - | 80GB HBM2e | Server |
NVIDIA GPU H | 114 | 1 | 1 | 80GB HBM2e | Server |
NVIDIA GPU NVL | 132 | 1 | 2 | 96GB HBM3 | Server |
如果 GPU 配置超过 Rocky HPC Task 许可证的 SM 计数阈值,则需要购买具有后续 HPC 功能的 HPC Task 以弥补差额。
例如,如果我们有一个具有双 RTX 4500 Ada 的系统(每个 48SMs,总共 96SMs),我们就不需要购买 HPC 任务。但是,要运行3个 RTX 4500 Ada(每个 48SMs,总计 144SMs),我们需要购买1个 HPC 任务(112SMs)+3个 HPC 功能(每个 14SMs,总计 42SMs)=启用 154SMs。
让我们检查一下客户的常见配置及其 Rocky Licensing 前景:
GPU | SM 数 | HPC 任务 | HPC Features | GPU 显存 |
---|---|---|---|---|
1x RTX 4500 Ada | 48 | - | - | 24GB GDDR6 |
2x RTX 4500 Ada | 96 | - | - | 48GB GDDR6 |
4x RTX 4500 Ada | 192 | 1 | 6 | 96GB GDDR6 |
1x RTX 5000 Ada | 100 | - | - | 32GB GDDR6 |
2x RTX 5000 Ada | 200 | 1 | 7 | 64GB GDDR6 |
4x RTX 5000 Ada | 400 | 3 | 21 | 128GB GDDR6 |
1x RTX 6000 Ada | 142 | 1 | 3 | 48GB GDDR6 |
2x RTX 6000 Ada | 284 | 2 | 13 | 96GB GDDR6 |
4x RTX 6000 Ada | 568 | 5 | 33 | 192GB GDDR6 |
1x NVIDIA GPU H | 114 | 1 | 1 | 80GB HBM2e |
2x NVIDIA GPU H | 228 | 2 | 9 | 160GB HBM2e |
4x NVIDIA GPU H | 456 | 4 | 25 | 320GB HBM2e |
1x NVIDIA GPU H NVL | 132 | 1 | 2 | 96GB HBM3 |
2x NVIDIA GPU H NVL | 264 | 2 | 11 | 192GB HBM3 |
4x NVIDIA GPU H NVL | 528 | 4 | 30 |
Ansys Rocky 的性能随着内存大小和带宽的增加而提高。内存越大,模型在单个 GPU 上的容量就越大,内存带宽越大,处理管道的性能就越高。
性能还取决于您运行的 DEM 模型的类型;球形、非球形和 SPH 元件。
仅限球形颗粒 | 非球形和 SPH |
---|---|
可以在 FP32 或单精度上执行。优先考虑高内存带宽和大 GPU 内存。您可以使用这些 GPU 运行非球形和SPH模型的小模型尺寸。所有专业 RTX GPU 都有视频输出,非常适合工程工作站。 | 需要 FP64 或双精度原生 GPU。这些采用 FP64 原生的企业 GPU 具有高内存带宽和 GPU 内存,以更高的成本提供最佳性能和灵活性,但没有视频输出。您需要一个专用的显示卡才能将服务器用作仅计算的系统。 |
NVIDIA RTX 6000 Ada NVIDIA RTX 5000 Ada NVIDIA RTX 4500 Ada NVIDIA GPU H 40GB Active |
NVIDIA GPU A 80GB PCIe NVIDIA GPU A 40GB Active NVIDIA GPU H 80GB PCIe NVIDIA GPU H NVL 96GB PCIe |
Ansys Rocky 支持多 GPU 配置,以增加较大容量的 GPU 内存大小,并提高性能以获得更快的结果。使用单个 GPU H 运行球形或非球形模型,我们预计结果会快10倍以上。更快的结果意味着您的操作可以运行更多的迭代次数,以微调您的机器、产品或工厂。
在 Ansys 中加速计算对于工程师完善其机械或产品设计至关重要。运行模拟已经降低了成本,加速这些模拟不仅可以降低风险,还可以提高可预测性和识别到故障。
在投资高性能计算和 GPU 加速计算时,优化性价比对于最大化价值至关重要。联泰集群在这里提供更合适的系统和工具,以缩短模拟时间并取得成功。如果您对硬件配置有任何疑问,请联系我们的团队,我们将帮助您朝着更快成功的方向前进。
相关贴子
-
技术分享
【技术大讲堂】Perturbo-2.0 的安装
2024.09.13 29分钟阅读 -
技术分享
选 CPU 看核心数量还是时钟速度?
2024.10.11 27分钟阅读 -
技术分享
SXM 与 PCIe:最适合训练 LLM 的 GPU,如 GPT-4
2023.05.30 32分钟阅读