博客

新闻

利用NVIDIA L4 GPU提高AI视频和AI推理性能

2023.03.23 70分钟阅读

转自英伟达博客

英伟达T4是在4年前推出的，是用于主流服务器的通用GPU。T4 GPU获得了广泛的采用，现在是NVIDIA数据中心GPU中产量最高的一种。T4 GPU被部署在人工智能推理、云游戏、视频和视觉计算等使用案例中。

在NVIDIA GTC 2023的主题演讲中，NVIDIA介绍了几个用于AI工作负载的推理平台，包括NVIDIA T4的继任者：NVIDIA L4 Tensor Core GPU。L4 GPU现在是通用的、节能的加速器，旨在满足AI在视频、视觉计算、图形、虚拟化、生成性AI以及边缘计算的众多应用方面的需求。

在这篇文章中，我们将介绍与上一代产品（T4）相比，配备L4 GPU的主流服务器如何提供更多的AI视频性能，并实现更多的视频流。你会发现从视频流到药物发现等用例的成熟结果，并了解你今天如何能体验到在L4 GPU上运行AI工作负载的不同。

Ada Lovelace 架构 L4 张量核心 GPU

NVIDIA L4 GPU 基于 NVIDIA Ada Lovelace 架构，具有以下特点：

- 第四代 Tensor Cores

- 第三代RT核心

- 着色器执行重新排序(SER)

- 硬件加速的图像和视频处理引擎，包括AV1编码/解码

- 深度学习超级采样（DLSS 3）

- 24GB GDDR6 内存

这款多功能的GPU采用PCIe单槽半高的外形，功率为 72W。

为生成式人工智能提供更多的性能

随着生成性人工智能能力和使用案例使客户的生活更加便利，体验更加身临其境，对加速计算的需求比以往任何时候都要迫切。L4 GPU 通过提供比上一代产品高 2.7 倍的生成式人工智能性能来改善这些体验。

凭借英伟达的 AI 平台和全栈方法，L4 GPU 针对广泛的 AI 应用进行了大规模的推理优化。推理是人工智能在现实世界中发挥作用的领域，它触及每一种产品、服务和互动。

创新者推动了可能的边界。从视频推荐到人工智能生成的头像，他们正在建立复杂度迅速增加的人工智能模型，以涵盖比以往更多的用例。

图形性能提高了 4 倍

凭借第三代 RT 内核和 AI 驱动的 DLSS 3，NVIDIA L4 GPU 为基于 AI 的avatars、NVIDIA Omniverse 虚拟世界、云游戏和虚拟工作站提供了近 4 倍的性能。它使用户能够构建实时的电影级图形和令人难以置信的详细场景，从而获得身临其境的视觉体验，而这是 CPU 无法做到的。

实时的AI视频管道性能

截至目前，80% 的消费者互联网流量是视频。无论是向数以百万计的观众进行直播，还是让用户建立创造性的故事，或者提供身临其境的 AR/VR 体验，配备 L4 GPU 的服务器都可以为移动应用同时托管多达 1000 多个 720p30 的 AV1 视频流。该性能是用 p1 预设的 AV1 低延迟编码测量的。

此外，L4 GPU 可以以多种分辨率和格式向多个平台进行流式传输，实现在更多渠道包括社交媒体平台上的同步广播。

Figure 1. 英伟达L4 GPU性能与英伟达T4相比

测量的性能。视频解码：英伟达 L4（H.264 720p30）与英伟达 T4（H.264 720p30）使用 FFMPEG 5.0.1。视频编码（低延迟 p1 预设）：英伟达L4（AV1 720p30）与使用 FFMPEG 5.0.1 的英伟达 T4（H.264 720p30）对比

凭借第四代 Tensor Core 技术、新增的 FP8 精度支持、1.5 倍的 GPU 内存，NVIDIA L4 GPU 与 CV-CUDA 库的搭配将视频内容的理解提升到一个新的高度。

与基于 CPU 的解决方案相比，L4 GPU 在整个端到端管道中提供了 120 倍的 AI 视频性能。这使企业能够获得实时洞察力，以提供个性化的内容，提高搜索相关性，检测不良内容，并实施智能空间解决方案。

图2. 英伟达L4 AI视频端到端管线

图3. 八个 NVIDIA L4 GPU 与一个双插槽 CPU 服务器的对比

测量的性能：8 倍 L4 与 2S 英特尔 8380 CPU 服务器的性能比较，端到端的视频管道与 CV-CUDA 前后处理、解码、推理（SegFormer）、编码、TRT 8.6 与使用 OpenCV 4.7 的仅有 CPU 的管道、PyT 推理。

人工智能视频的高能效率

随着人工智能和视频的普及，人们对高效、经济的计算需求比以往任何时候都要多。与传统的基于 CPU 的基础设施相比，英伟达 L4 GPU 的 AI 视频性能最高可提高 120 倍，从而使能效和拥有成本提高 99% 以上。这使企业能够减少机架空间，大幅降低整体碳足迹，同时使其数据中心能够扩展到更多用户。

在一个 5 兆瓦的数据中心中，从 CPU 切换到 NVIDIA L4 所节省的能源，可以为近 6000 个家庭提供 1 年的电力，或者相当于 10 年内种植 50万棵树所抵消的碳排放量。

客户成功案例

以下是一些使用案例和早期客户在评估 L4 GPU 与他们当前的解决方案时提出的见解。

Snap

Snap 的视觉信息应用 Snapchat 使用 NVIDIA GPU 对大量视频进行转码，最终为其社区提供尽可能好的视频质量。

"Snapchat 的视频转码管道每天要处理数百万个视频，重点是为每月活跃的 7.5 亿 Snapchatters 提供尽可能好的质量。

Snap 的转码团队与 NVIDIA 合作，利用 GPU 加速，成功地将 HEVC 转码的成本降低了 80%。Snap 的媒体交付平台工程经理 Jiayao Yu 表示："他们的团队对 NVIDIA L4 GPU 支持 AV1 的潜力感到兴奋，根据早期的测试，他们看到了质量的显著提高和带宽的减少，其吞吐量与 GPU HEVC 转码相似。

快手

快手网提供了一个世界领先的内容社区和社交平台。世界各地数以亿计的用户使用快手创建短视频，用特效进行编辑，并将其分享给他们的粉丝。

快手中的几个关键服务正在使用 NVIDIA 推理平台 A10 和 L4 GPU：

- 直播内容的推荐系统使用 GPU 来提高对用户在直播内容上的点击率（CTR）的预测，同时又有合理的基础设施成本。该工作流程有多个阶段，包括对传入的直播视频进行解码，捕捉关键帧，执行任何必要的音频和视频解复用和图像处理，最后使用基于变换器的大规模模型来理解多模式内容并提高 CTR。

- 另一个系统使用自然语言处理（NLP）和 ViT 及 Swin 视觉转化器来识别视频中的文字，以提高视频搜索的相关性。

- 广告投放和电子商务系统向用户推荐直播节目和视频，以推广商业商品。L4 GPU 的人工智能和视频分析能力加速了系统对商业品牌和产品特征的理解，从而使其目标定位与用户更加相关。去年，在 2022 年，电子商务的商品总值（GMV）超过1000亿美元。

"快手推荐系统服务的社区每天有超过 3.6 亿用户，他们每天贡献数百万的 UGC 视频，"快手高级副总裁 Yue YU 说。"与总成本相同的 CPU 相比，NVIDIA GPU 将系统的端到端吞吐量提高了 11 倍，延迟降低了 20%"。

Descript

Descript 是托管在谷歌云上的生成型人工智能视频编辑应用，帮助人们快速编辑博客、纪录片和视频内容。Descript 的人工智能功能和直观的界面为YouTube 和 TikTok 频道、顶级播客以及使用视频进行营销、销售和内部培训及协作的企业提供了动力。使用 Descript，编辑可以受益于人工智能自动删除填充词、建议字幕、添加字幕等功能。

"使用 Descript 的视频和音频转录管道的 L4 测试显示，与 T4 相比，性能提高了1 50%。这将使我们能够使用相同数量的服务器支持多 50% 的用户进行基于文本的编辑，"Descript 人工智能主管 Kundan Kumar 说。

WOMBO

WOMBO 是一家领先的移动应用开发商，也是消费者领域生成式人工智能图像创作的领导者之一。WOMBO Dream，他们的主要应用已被下载超过 5500 万次，他们平均每天生成3M的图像。他们今天正在运行在英伟达 GPU 上使用稳定扩散做图像推理，最近还评估了 L4 GPU。

"WOMBO 依靠最新的人工智能技术，让人们根据用户的提示创造出身临其境的数字艺术品，让他们仅凭一个想法就能创造出任何风格的高质量、逼真的艺术品，"WOMBO 的首席执行官 Ben-Zion Benkhin 说。"英伟达 L4 推理平台将使我们能够为寻求创造和分享独特艺术作品的用户提供更好、更高效的图像生成体验"。

用于药物发现的薛定谔分子模拟

Schrödinger 使用 GPU 进行自由能扰动（FEP+）计算，在硅谷模拟蛋白质-配体的相互作用。他们的数字化学平台被全世界的药物发现研究人员所使用。

薛定谔和英伟达共同合作，优化分子动力学模拟的性能。分子动力学计算发生在时间尺度上，对模拟的计算能力要求很高。所使用的硬件决定了模拟是否需要几天、几小时或几分钟。

薛定谔对其 GPU 加速的分子动力学模拟在多代 NVIDIA GPU 上进行了评估：NVIDIA Pascal、NVIDIA Volta、NVIDIA Turing 和 NVIDIA Ampere 架构。他们发现，新的 NVIDIA Ada Lovelace 架构 L4 GPU 为分子动力学模拟提供了最佳的性价比。

CP All

CP All 是泰国各地超过 11000 家 7-Eleven 便利店的唯一授权运营商。CP All 的IT 服务公司 Gosoft 部署了建立在 NVIDIA 对话式人工智能平台上的客户服务机器人，以帮助回答常见的问题和跟踪订单。CP All 的副总经理 Areoll Wu 表示，这些机器人能够理解并说泰语，准确率高达 97%。通常情况下，Gosoft 每天会接到 25 万个电话。

"为我们数百万的用户提供良好的客户体验对我们来说是最重要的。这就是为什么我们很高兴将 NVIDIA L4 和 Riva 用于我们的泰国端到端人工智能（ASR+NLP+TTS）服务。CP All Public Company Limited（泰国）副总经理 Areoll Wu 表示："它的性能提高了 3 倍，延迟减少了 50% 以上，使我们的服务比以前更好。

如何尝试NVIDIA L4 GPU？

目前有几种选择，平台名单将在2023年全年扩大。

- 谷歌云平台（GCP）是第一个宣布 NVIDIA L4 实例的云平台，目前可通过私人预览进行访问。

- 它们可以从 30 多家计算机制造商的全球网络中获得，包括研华、华硕、Atos、思科、戴尔科技、富士通、技嘉、惠普企业、联想、QCT 和超微。

- 你还可以通过 NVIDIA LaunchPad 访问 L4 GPU，并通过我们免费的实践研讨会和 NVIDIA AI 企业实验室了解更多信息。

在 "利用谷歌云加速 AI/ML 和 HPC 工作负载 "环节中，了解更多关于 NVIDIA GPU 云实例的信息。

关于作者

关于 Abhishek Verma Abhishek Verma 是 NVIDIA 数据中心 GPU 的首席产品经理。他的工作重点是为世界各地的客户和合作伙伴提供用于人工智能、深度学习、HPC 和图形的加速计算，其部署范围跨越云、企业内部和边缘位置。

关于 Harry Petty Harry Petty 是英伟达公司 HPC 和 AI 边缘应用的高级技术营销经理。此前，他曾在思科系统公司担任首席工程师和营销总监，为混合云、多租户安全和数据中心应用性能的 SDN 创新推向市场。哈利拥有布斯商学院的 MBA 学位，以及代顿大学的数学和计算机科学学士学位。