博客

新闻

联泰集群配备全新英伟达™(NVIDIA®)Ada 架构 GPU - RTX 5000、RTX 4500、RTX 4000 和英伟达™(NVIDIA®)L40S

2023.08.22 193分钟阅读

最新的英伟达™(NVIDIA®)Ada一代图形处理器今日可在联泰集群系统配置中使用

 

联泰集群将在我们的工作站、服务器和集群中采用英伟达在 SIGGRAPH 2023 上发布的四款全新英伟达 Ada 架构 GPU - 英伟达 RTX 5000、RTX 4500、RTX 4000 和英伟达 L40S。全新的英伟达™(NVIDIA®)GPU具有令人瞩目的跨时代性能,可在实时渲染环境、3D图形加速和开发、高性能科学计算、人工智能和深度学习功能等方面提供竞争优势。

 

上一代英伟达™(NVIDIA®)RTX A5500、A5000、A4500 和 A4000 GPU仍然是高性能计算领域的热门产品,而英伟达™(NVIDIA®)A100 Tensor Core GPU也因人工智能的蓬勃发展而备受青睐。全新的 Ada Lovelace GPU 系列可提供专业人士创新所需的性能。

 

英伟达™(NVIDIA®)RTX 5000 和英伟达™(NVIDIA®)L40S 现已可在联泰集群可配置系统中订购,而 RTX 4500 和 RTX 4000 将于秋季上市。让我们深入了解一下这些新 GPU 的性能。

 

新一代 RTX 5000 Ada 与 RTX A5500 的对比

 

英伟达™(NVIDIA®)RTX 5000 在上一代 RTX A5500 的基础上进行了改进,增加了 GPU 内存、CUDA 内核、RT 内核和张量内核。凭借新一代 Ada Lovelace 架构,RTX 5000 的人工智能训练速度是 RTX A5500 的 1.5 倍,人工智能推理吞吐量是 RTX A5500 的 2 倍,图形和渲染性能是 RTX A5500 的 2 倍,有可能超越上一代 RTX A6000。

 

性能的逐代提升使每个行业都能利用 RTX 5000 实现更多。对于建筑工程、产品设计和游戏开发工作负载,用户将能够构建高度复杂的三维模型,更快地渲染大型环境,为身临其境的高保真 VR 提供动力,并以更少的限制创造更多。

 

RTX 5000 可为研究和数据科学提供动力,加快完成复杂模拟、快速原型设计和训练密集人工智能模型、部署 LLM 和生成式人工智能,以及通过分子动力学和计算机辅助药物设计执行科学发现。

 

型号

RTX 5000 Ada

RTX A5500

架构

Ada Lovelace

Ampere

GPU 显存

32GB GDDR6 ECC

24GB GDDR6 ECC

总线接口

256-bit

384-bit

内存带宽

576 GB/s

768 GB/s

CUDA 核心数

12,800

10,240

光追核心数

100 (3rd Gen)

80 (2nd Gen)

张量核心数

400 (4th Gen)

320 (3rd Gen)

单精度性能

65.3 TFLOPS

34.1 TFLOPS

光追核心性能

151.0 TFLOPS

66.6 TFLOPS

张量核心性能

1044.4 TFLOPS (FP8) 522.2 TFLOPS (FP16)

272.8 TFLOPS (FP16)

编解码

2x NVENC, 2x NVDEC (+AV1 encode & decode)

1x NVENC, 2x NVDEC (+AV1 decode)

系统互联

PCIe 4.0 x16

PCIe 4.0 x16

外形规格

Dual Slot, Full Length

Dual Slot, Full Length

功耗

250W

230W

 

英伟达™(NVIDIA®)L40S 与英伟达™(NVIDIA®)A100

 

随着训练下一个具有影响力的人工智能模型的需求不断增加,许多初创企业和公司都倾向于使用英伟达™(NVIDIA®)DGX 和 HGX 系统,因为人工智能的复杂性正在与日俱增。英伟达™(NVIDIA®)L40S可提供与上一代旗舰产品英伟达™(NVIDIA®)A100 Tensor Core GPU相当的人工智能性能。L40S是一款主流、低门槛、易于实施的GPU加速器,任何用户都可以轻松上手,提高计算能力,处理任何工作负载。

 

与英伟达™(NVIDIA®)A100 相比,英伟达™(NVIDIA®)L40S 可使生成式人工智能性能提高 1.2 倍,推理性能提高 1.7 倍。对于 LLM 机型,使用 8 GPU L40S 配置可将 HGX A100 系统的性能提高 1.2 倍。由于性能接近英伟达 A100,L40S 的可用性、快速部署时间和多功能性成为决定性因素。

 

虽然可扩展性是 DGX 和 HGX 系统的一大亮点,但对于那些预算有限、时间更紧、希望训练和部署人工智能的用户来说,L40S 是一个极具竞争力的选择。L40S 拥有 48GB GPU 内存、142 个 RT 内核和卓越的单精度性能,是数据中心最强大的通用 GPU,可为图形渲染、视频应用以及除人工智能之外的其他各种 HPC 工作负载提供加速性能。英伟达™(NVIDIA®)L40S最适合用于培训人工智能、LLM推理和多负载环境的中小型操作。

 

型号

NVIDIA L40S

NVIDIA A100 Tensor Core GPU

架构

Ada Lovelace

Ampere

GPU 显存

48GB GDDR6

80GB HBM2e

总线接口

384-bit

5,120-bit

内存带宽

864 GB/s

2,039 GB/s

二级缓存

96MB

40MB

CUDA 核心数

18,176

6,912

光追核心数

142 (3rd Gen)

N/A

张量核心数

568 (4th Gen)

432 (3rd Gen)

单精度性能

91.6 TFLOPS

19.5 TFLOPS

光追核心性能

212.0 TFLOPS

N/A

张量核心性能

1466 TFLOPS (FP8)

733 TFLOPS (FP16)

624 TFLOPS (FP16)

编解码

3x NVENC, 3x NVDEC (+AV1 E&D)

0x NVENC, 5x NVDEC

系统互联

PCIe 4.0 x16

SXM4 over PCIe 4.0 x16

外形规格

Dual Slot, Full Length

SXM4 8-Way HGX

功耗

350W

400W

 

RTX 4500 Ada 架构与 RTX A4500 的对比

 

英伟达™(NVIDIA®)RTX A4500 GPU是联泰集群客户在工作站和服务器中的最爱,因为它们具有性价比最高的性能。将于今年晚些时候发布的RTX 4500 Ada Generation将这一性能优势扩展到主流性能应用中,如渲染、生成式人工智能、工程模拟、分子动力学,以及使用英伟达Omniverse平台进行3D创作的工作负载。

 

随着内存、内核和加速器的增加,RTX 4500 实现了非常健康的性能飞跃:与上一代 RTX A4500 相比,图形性能提高了 1.6 倍,Omniverse 渲染工作负载提高了 2.7 倍,经典渲染工作负载提高了 1.5 倍,人工智能训练和推理提高了 1.5 倍。

 

型号

RTX 4500 Ada

RTX A4500

架构

Ada Lovelace

Ampere

GPU 显存

24GB GDDR6 ECC

20GB GDDR6 ECC

总线接口

192-bit

320-bit

内存带宽

432 GB/s

640 GB/s

CUDA 核心数

7,680

7168

光追核心数

60 (3rd Gen)

56 (2nd Gen)

张量核心数

240 (4th Gen)

224 (3rd Gen)

单精度性能

39.6 TFLOPS

23.7 TFLOPS

光追核心性能

91.6 TFLOPS

46.2 TFLOPS

张量核心性能

634.0 TFLOPS (FP8)

317.0 TFLOPS (FP16)

189.2 TFLOPS (FP16)

编解码

2x NVENC, 2x NVDEC (+AV1 encode & decode)

1x NVENC, 1x NVDEC (+AV1 decode)

系统互联

PCIe 4.0 x16

PCIe 4.0 x16

外形规格

Dual Slot, Full Length

Dual Slot, Full Length

功耗

210W

200W

 

RTX 4000 Ada 架构与 RTX A4000 的对比

 

RTX 4000 将成为加速图形、渲染和高性能计算工作负载的首选单插槽 GPU。RTX 4000 和 RTX A4000 展示了相同数量的 CUDA 内核、RT 内核和张量内核,但它们都基于不同的架构,同时保持了相似的散热等级。让我们来看看它们在各代产品上的改进。

 

RTX 4000 的图形性能提升了 1.5 倍,渲染性能提升了 1.7 倍,人工智能生成性能提升了 1.2 倍,光线追踪吞吐量提升了一倍,Tensor Core 吞吐量提升了三倍。RTX 4000 采用紧凑的单插槽设计,非常适合多 GPU 工作站和服务器配置,可应对苛刻的创意工作负载、设计和工程工作流程。

 

型号

RTX 4000 Ada

RTX A4000

架构

Ada Lovelace

Ampere

GPU 显存

20GB GDDR6 ECC

16GB GDDR6 ECC

总线接口

160-bit

256-bit

内存带宽

360 GB/s

448 GB/s

CUDA 核心数

6,144

6,144

光追核心数

48 (3rd Gen)

48 (2nd Gen)

张量核心数

192 (4th Gen)

192 (3rd Gen)

单精度性能

26.7 TFLOPS

19.2 TFLOPS

光追核心性能

61.8 TFLOPS

37.4 TFLOPS

张量核心性能

427.6 TFLOPS (FP8)

213.8 TFLOPS (FP16)

153.4 TFLOPS (FP16)

编解码

2x NVENC, 2x NVDEC (+AV1 encode & decode)

1x NVENC, 1x NVDEC (+AV1 decode)

系统互联

PCIe 4.0 x16

PCIe 4.0 x16

外形规格

Single Slot, Full Length

Single Slot, Full Length

功耗

130W

140W

 

从何处获取英伟达™(NVIDIA®)全新一代图形处理器

 

在联泰集群公司,我们提供采用英伟达™(NVIDIA®)GPU 的高性能计算平台和解决方案;您可以期待 RTX 5000 和英伟达™(NVIDIA®)L40S 从今天开始出现在联泰集群系统产品名录中!RTX 4500 和 RTX 4000 发布后不久也将出现。

 

我们努力提供计算资源,为您的工作负载确定最佳系统,以便您能够解决复杂的计算挑战,加速突破性发现,保持竞争优势,推动创新。从小型工作站到大规模多节点集群,您都可以利用全新的英伟达™(NVIDIA®)Ada 新一代 GPU 构建或升级您的计算基础设施。

 

对新款英伟达™(NVIDIA®)GPU有任何疑问?想了解新产品上市的最新信息?

现在就联系我们了解更多信息!

 

 

相关贴子

我们的目标

我们正在开发这个博客,以帮助前沿的工程师、开发人员、研究人员和爱好者培养知识,发现引人注目的新想法,并在一个地方找到有用的指导。

敬请登记。

登记
本网站受 reCAPTCHA 保护,适用 Google隐私政策和服务条款。