NVIDIA TensorRT

NVIDIA® TensorRT™ 是用于高性能深度学习推理的 API 生态系统。TensorRT 包括推理运行时和模型优化,可为生产应用提供低延迟和高吞吐量。TensorRT 生态系统包括 TensorRT、TensorRT-LLM、TensorRT 模型优化器和 TensorRT Cloud。

立即下载开始使用


NVIDIA TensorRT 优势

TensorRT speeds up inference by 36X

推理速度提升 36 倍

在推理过程中,基于 NVIDIA TensorRT 的应用程序的运行速度比仅使用 CPU 的平台快 36 倍。TensorRT 可优化在所有主要框架上训练的神经网络模型,使其具有更高的准确性,并将其部署到超大规模数据中心、工作站、笔记本电脑和边缘设备。

TensorRT helps to optimize inference performance

优化推理性能

TensorRT 基于 CUDA® 并行编程模型构建,可在各种 NVIDIA GPU (从边缘设备到 PC 再到数据中心) 上使用量化、层和张量融合以及内核调整等技术优化推理。

TensorRT helps to accelerate every workload

加速各种工作负载

TensorRT 为深度学习推理优化 FP8、INT8 和 INT4 提供了后训练和量化感知训练技术。减少精度推理可显著减少许多实时服务和自主和嵌入式应用程序所需的延迟。

TensorRT-optimized models can be deployed, run, and scaled with NVIDIA Triton

使用 Triton 进行部署、运行和扩展

TensorRT 优化模型通过 NVIDIA Triton™ 推理服务软件进行部署、运行和扩展,该软件包括 TensorRT 作为后端。使用 Triton 的优势包括高吞吐量、动态批处理、并发模型执行、模型集成和串流音频和视频输入。


探索 NVIDIA TensorRT 的特性和工具

Decorative

大型语言模型推理

NVIDIA TensorRT-LLM 是一个开源库,可在 NVIDIA AI 平台上加速和优化近期大型语言模型 (LLM) 的推理性能。开发者可通过简化的 Python API 实验新的 LLM,以实现高性能和快速定制。

开发者可在数据中心的 NVIDIA GPU 或工作站 GPU (包括本地 Windows 上的 NVIDIA RTX™ 系统) 上加速 LLM 性能,并采用相同的无缝工作流程。

Decorative

优化的推理引擎

NVIDIA TensorRT Cloud 是为 ONNX 编译和创建优化推理引擎的开发者服务。开发者可以使用自己的模型并选择目标 RTX GPU,然后 TensorRT Cloud 构建优化推理引擎,可以下载并集成到应用中。TensorRT Cloud 还为 RTX GPU 上热门 LLM 提供预构建的优化引擎。

TensorRT Cloud 现已在 NVIDIA GeForce RTX™ GPU 上提供抢先体验,仅面向特定合作伙伴提供。请申请以便在 TensorRT Cloud 公开发布时接收通知。

Decorative

优化神经网络

NVIDIA TensorRT 模型优化器是一个统一的先进模型优化技术库,包括量化、稀疏和蒸馏。它可压缩深度学习模型,以便在 TensorRT-LLM 和 TensorRT 等下游部署框架中高效优化 NVIDIA GPU 上的推理。

Decorative

主要框架集成

TensorRT 直接集成到 PyTorchHugging FaceTensorFlow 中,通过一行代码实现 6 倍的推理速度。TensorRT 提供 ONNX 解析器,可将热门框架中的 ONNX 模型导入到 TensorRT。通过 GPU Coder,MATLAB 与 TensorRT 集成,可自动为 NVIDIA Jetson™、NVIDIA DRIVE® 和数据中心平台生成高性能推理引擎。


出色的推理性能

MLPerf 推理行业标准基准测试中,TensorRT 为 NVIDIA 赢得了所有性能测试。TensorRT-LLM 为生成式 AI 加速最新的大型语言模型,可提供高达 8 倍的性能、5.3 倍的更低总体拥有成本 (TCO) 和近 6 倍的更低能耗。

查看所有基准测试

GPT-J 6B 推理性能提升 8 倍

TensorRT-LLM on H100 has 8X increase in GPT-J 6B inference performance

Llama2 推理性能提升 4 倍

TensorRT-LLM on H100 has 4X Higher Llama2 Inference Performance

总体拥有成本

越低越好
TensorRT-LLM has lower total cost of ownership than GPT-J 6B and Llama 2 70B

能源使用情况

越低越好
TensorRT-LLM has lower energy use than GPT-J 6B and Llama 2 70B

加速各种推理平台

TensorRT 可优化适用于边缘、笔记本电脑和台式机以及数据中心的 AI 深度学习模型。它为 NVIDIA TAO、NVIDIA DRIVE、NVIDIA Clara™ 和 NVIDIA JetPack™ 等关键 NVIDIA 解决方案提供支持。

TensorRT 还集成了应用特定的 SDK,例如 NVIDIA NIM、NVIDIA DeepStream、NVIDIA Riva、NVIDIA Merlin™、NVIDIA Maxine™、NVIDIA Morpheus 和 NVIDIA Broadcast Engine。TensorRT 为开发者提供了一条统一的部署智能视频分析、语音 AI、推荐系统、视频会议、基于 AI 的网络安全和流式传输应用程序的途径。

从创作者应用到游戏和生产力工具,数百万 NVIDIA RTX、GeForce®、Quadro® GPU 用户都在使用 TensorRT。无论是直接集成还是通过 ONNX-Runtime 框架集成,经过 TensorRT 优化的引擎都是轻量级且压缩的,可助力开发者融入丰富的 AI 功能,而不会增加应用大小。

TensorRT integrates with application-specific SDKs

阅读成功案例

Learn how NVIDIA TensorRT supports Amazon.

亚马逊

了解亚马逊如何通过加快推理速度将客户满意度提升 5 倍。

Learn how NVIDIA TensorRT supports AMEX." title="Learn how NVIDIA TensorRT supports AMEX.

美国运通

美国运通通过分析数百万笔日常交易,将欺诈检测速度提升 50 倍。

Learn how NVIDIA TensorRT supports Zoox.

Zoox

探索自动驾驶出租车初创公司 Zoox 如何使用 TensorRT 在自动驾驶汽车上进行实时推理,将其感知堆栈加速 19 倍。


广泛应用于各行各业

NVIDIA TensorRT is widely adopted by top companies across industries

TensorRT 资源

阅读 TensorRT 入门博客

了解如何应用 TensorRT 优化并将 PyTorch 模型部署到 GPU。

点播观看 GTC 上的 TensorRT 会议

观看 GTC 上精心策划的网络会议,详细了解 TensorRT 及其特性。

获取入门开发者指南

请参阅此分步开发者和 API 参考指南,了解如何开始使用 TensorRT。

使用合适的推理工具在任何平台上开发适用于任何应用的 AI。

开始使用