博客

新闻

联泰集群配备全新英伟达™（NVIDIA®）Ada 架构 GPU - RTX 5000、RTX 4500、RTX 4000 和英伟达™（NVIDIA®）L40S

2023.08.22 193分钟阅读

最新的英伟达™（NVIDIA®）Ada一代图形处理器今日可在联泰集群系统配置中使用

联泰集群将在我们的工作站、服务器和集群中采用英伟达在 SIGGRAPH 2023 上发布的四款全新英伟达 Ada 架构 GPU - 英伟达 RTX 5000、RTX 4500、RTX 4000 和英伟达 L40S。全新的英伟达™（NVIDIA®）GPU具有令人瞩目的跨时代性能，可在实时渲染环境、3D图形加速和开发、高性能科学计算、人工智能和深度学习功能等方面提供竞争优势。

上一代英伟达™（NVIDIA®）RTX A5500、A5000、A4500 和 A4000 GPU仍然是高性能计算领域的热门产品，而英伟达™（NVIDIA®）A100 Tensor Core GPU也因人工智能的蓬勃发展而备受青睐。全新的 Ada Lovelace GPU 系列可提供专业人士创新所需的性能。

英伟达™（NVIDIA®）RTX 5000 和英伟达™（NVIDIA®）L40S 现已可在联泰集群可配置系统中订购，而 RTX 4500 和 RTX 4000 将于秋季上市。让我们深入了解一下这些新 GPU 的性能。

新一代 RTX 5000 Ada 与 RTX A5500 的对比

英伟达™（NVIDIA®）RTX 5000 在上一代 RTX A5500 的基础上进行了改进，增加了 GPU 内存、CUDA 内核、RT 内核和张量内核。凭借新一代 Ada Lovelace 架构，RTX 5000 的人工智能训练速度是 RTX A5500 的 1.5 倍，人工智能推理吞吐量是 RTX A5500 的 2 倍，图形和渲染性能是 RTX A5500 的 2 倍，有可能超越上一代 RTX A6000。

性能的逐代提升使每个行业都能利用 RTX 5000 实现更多。对于建筑工程、产品设计和游戏开发工作负载，用户将能够构建高度复杂的三维模型，更快地渲染大型环境，为身临其境的高保真 VR 提供动力，并以更少的限制创造更多。

RTX 5000 可为研究和数据科学提供动力，加快完成复杂模拟、快速原型设计和训练密集人工智能模型、部署 LLM 和生成式人工智能，以及通过分子动力学和计算机辅助药物设计执行科学发现。

型号	RTX 5000 Ada	RTX A5500
架构	Ada Lovelace	Ampere
GPU 显存	32GB GDDR6 ECC	24GB GDDR6 ECC
总线接口	256-bit	384-bit
内存带宽	576 GB/s	768 GB/s
CUDA 核心数	12,800	10,240
光追核心数	100 (3rd Gen)	80 (2nd Gen)
张量核心数	400 (4th Gen)	320 (3rd Gen)
单精度性能	65.3 TFLOPS	34.1 TFLOPS
光追核心性能	151.0 TFLOPS	66.6 TFLOPS
张量核心性能	1044.4 TFLOPS (FP8) 522.2 TFLOPS (FP16)	272.8 TFLOPS (FP16)
编解码	2x NVENC, 2x NVDEC (+AV1 encode & decode)	1x NVENC, 2x NVDEC (+AV1 decode)
系统互联	PCIe 4.0 x16	PCIe 4.0 x16
外形规格	Dual Slot, Full Length	Dual Slot, Full Length
功耗	250W	230W

英伟达™（NVIDIA®）L40S 与英伟达™（NVIDIA®）A100

随着训练下一个具有影响力的人工智能模型的需求不断增加，许多初创企业和公司都倾向于使用英伟达™（NVIDIA®）DGX 和 HGX 系统，因为人工智能的复杂性正在与日俱增。英伟达™（NVIDIA®）L40S可提供与上一代旗舰产品英伟达™（NVIDIA®）A100 Tensor Core GPU相当的人工智能性能。L40S是一款主流、低门槛、易于实施的GPU加速器，任何用户都可以轻松上手，提高计算能力，处理任何工作负载。

与英伟达™（NVIDIA®）A100 相比，英伟达™（NVIDIA®）L40S 可使生成式人工智能性能提高 1.2 倍，推理性能提高 1.7 倍。对于 LLM 机型，使用 8 GPU L40S 配置可将 HGX A100 系统的性能提高 1.2 倍。由于性能接近英伟达 A100，L40S 的可用性、快速部署时间和多功能性成为决定性因素。

虽然可扩展性是 DGX 和 HGX 系统的一大亮点，但对于那些预算有限、时间更紧、希望训练和部署人工智能的用户来说，L40S 是一个极具竞争力的选择。L40S 拥有 48GB GPU 内存、142 个 RT 内核和卓越的单精度性能，是数据中心最强大的通用 GPU，可为图形渲染、视频应用以及除人工智能之外的其他各种 HPC 工作负载提供加速性能。英伟达™（NVIDIA®）L40S最适合用于培训人工智能、LLM推理和多负载环境的中小型操作。

型号	NVIDIA L40S	NVIDIA A100 Tensor Core GPU
架构	Ada Lovelace	Ampere
GPU 显存	48GB GDDR6	80GB HBM2e
总线接口	384-bit	5,120-bit
内存带宽	864 GB/s	2,039 GB/s
二级缓存	96MB	40MB
CUDA 核心数	18,176	6,912
光追核心数	142 (3rd Gen)	N/A
张量核心数	568 (4th Gen)	432 (3rd Gen)
单精度性能	91.6 TFLOPS	19.5 TFLOPS
光追核心性能	212.0 TFLOPS	N/A
张量核心性能	1466 TFLOPS (FP8) 733 TFLOPS (FP16)	624 TFLOPS (FP16)
编解码	3x NVENC, 3x NVDEC (+AV1 E&D)	0x NVENC, 5x NVDEC
系统互联	PCIe 4.0 x16	SXM4 over PCIe 4.0 x16
外形规格	Dual Slot, Full Length	SXM4 8-Way HGX
功耗	350W	400W

RTX 4500 Ada 架构与 RTX A4500 的对比

英伟达™（NVIDIA®）RTX A4500 GPU是联泰集群客户在工作站和服务器中的最爱，因为它们具有性价比最高的性能。将于今年晚些时候发布的RTX 4500 Ada Generation将这一性能优势扩展到主流性能应用中，如渲染、生成式人工智能、工程模拟、分子动力学，以及使用英伟达Omniverse平台进行3D创作的工作负载。

随着内存、内核和加速器的增加，RTX 4500 实现了非常健康的性能飞跃：与上一代 RTX A4500 相比，图形性能提高了 1.6 倍，Omniverse 渲染工作负载提高了 2.7 倍，经典渲染工作负载提高了 1.5 倍，人工智能训练和推理提高了 1.5 倍。

型号	RTX 4500 Ada	RTX A4500
架构	Ada Lovelace	Ampere
GPU 显存	24GB GDDR6 ECC	20GB GDDR6 ECC
总线接口	192-bit	320-bit
内存带宽	432 GB/s	640 GB/s
CUDA 核心数	7,680	7168
光追核心数	60 (3rd Gen)	56 (2nd Gen)
张量核心数	240 (4th Gen)	224 (3rd Gen)
单精度性能	39.6 TFLOPS	23.7 TFLOPS
光追核心性能	91.6 TFLOPS	46.2 TFLOPS
张量核心性能	634.0 TFLOPS (FP8) 317.0 TFLOPS (FP16)	189.2 TFLOPS (FP16)
编解码	2x NVENC, 2x NVDEC (+AV1 encode & decode)	1x NVENC, 1x NVDEC (+AV1 decode)
系统互联	PCIe 4.0 x16	PCIe 4.0 x16
外形规格	Dual Slot, Full Length	Dual Slot, Full Length
功耗	210W	200W

RTX 4000 Ada 架构与 RTX A4000 的对比

RTX 4000 将成为加速图形、渲染和高性能计算工作负载的首选单插槽 GPU。RTX 4000 和 RTX A4000 展示了相同数量的 CUDA 内核、RT 内核和张量内核，但它们都基于不同的架构，同时保持了相似的散热等级。让我们来看看它们在各代产品上的改进。

RTX 4000 的图形性能提升了 1.5 倍，渲染性能提升了 1.7 倍，人工智能生成性能提升了 1.2 倍，光线追踪吞吐量提升了一倍，Tensor Core 吞吐量提升了三倍。RTX 4000 采用紧凑的单插槽设计，非常适合多 GPU 工作站和服务器配置，可应对苛刻的创意工作负载、设计和工程工作流程。

型号	RTX 4000 Ada	RTX A4000
架构	Ada Lovelace	Ampere
GPU 显存	20GB GDDR6 ECC	16GB GDDR6 ECC
总线接口	160-bit	256-bit
内存带宽	360 GB/s	448 GB/s
CUDA 核心数	6,144	6,144
光追核心数	48 (3rd Gen)	48 (2nd Gen)
张量核心数	192 (4th Gen)	192 (3rd Gen)
单精度性能	26.7 TFLOPS	19.2 TFLOPS
光追核心性能	61.8 TFLOPS	37.4 TFLOPS
张量核心性能	427.6 TFLOPS (FP8) 213.8 TFLOPS (FP16)	153.4 TFLOPS (FP16)
编解码	2x NVENC, 2x NVDEC (+AV1 encode & decode)	1x NVENC, 1x NVDEC (+AV1 decode)
系统互联	PCIe 4.0 x16	PCIe 4.0 x16
外形规格	Single Slot, Full Length	Single Slot, Full Length
功耗	130W	140W

从何处获取英伟达™（NVIDIA®）全新一代图形处理器

在联泰集群公司，我们提供采用英伟达™（NVIDIA®）GPU 的高性能计算平台和解决方案；您可以期待 RTX 5000 和英伟达™（NVIDIA®）L40S 从今天开始出现在联泰集群系统产品名录中！RTX 4500 和 RTX 4000 发布后不久也将出现。

我们努力提供计算资源，为您的工作负载确定最佳系统，以便您能够解决复杂的计算挑战，加速突破性发现，保持竞争优势，推动创新。从小型工作站到大规模多节点集群，您都可以利用全新的英伟达™（NVIDIA®）Ada 新一代 GPU 构建或升级您的计算基础设施。

对新款英伟达™（NVIDIA®）GPU有任何疑问？想了解新产品上市的最新信息？

现在就联系我们了解更多信息！

注册我们的通讯。

免费资源

浏览我们的白皮书、电子书、案例研究和参考架构

搜索

主题

有什么问题吗？

联系我们

我们的目标

我们正在开发这个博客，以帮助前沿的工程师、开发人员、研究人员和爱好者培养知识，发现引人注目的新想法，并在一个地方找到有用的指导。

博客

联泰集群配备全新英伟达™（NVIDIA®）Ada 架构 GPU - RTX 5000、RTX 4500、RTX 4000 和英伟达™（NVIDIA®）L40S