NVIDIA Developer ★ 99 3 min

Scaling AI Inference Across Multiple GPUs Using NVIDIA TensorRT with Multi-Device Inference Support

Agentic AI / Generative AIDeveloper Tools & TechniquesEdge ComputingC++featuredInference PerformanceNCCL

🔗 https://developer.nvidia.com/blog/scaling-ai-inference-across-multiple-gpus-using-nvidia-tensorrt-with-multi-device-inference-support/

📌 【NVIDIA TensorRT 11.0】原生支援多 GPU 推理,突破單卡記憶體與算力瓶頸

TL;DR:TensorRT 11.0 推出原生多裝置推理支援,透過 NCCL 實現高效能分散式推論,讓大型生成式 AI 能跨 GPU 部署。

當生成式 AI 的模型規模迅速成長,單張 GPU 的記憶體與算力預算已不足以負荷。對於開發媒體生成管線(Media Generation Pipelines)的工程師來說,最困難的挑戰在於:如何在跨多裝置擴充套件的同時,依然保留 TensorRT 的核心最佳化(如 Kernel Fusions、記憶體規劃與量化)。

🧩 透過 NCCL 與 Context Parallelism 實現高效擴充套件

TensorRT 11.0 引入了原生多裝置推理支援,讓高效能的多 GPU 推論直接整合進 TensorRT Runtime 中,甚至可應用於邊緣裝置(Edge Devices)的生產部署。

其核心技術亮點在於支援 Context Parallelism(上下文平行處理),具體實作如下:

  • 底層原語:透過 IDistCollectiveLayer 原語將輸入序列(Input Sequences)分割槽至多張 GPU。
  • 通訊最佳化:利用 NVIDIA NCCL 實現高吞吐量的分散式集體通訊(Distributed Collectives)。
  • 最佳化策略:針對長序列 Attention 工作負載,提供 AllGather KV、Ring Attention 與 DeepSpeed Ulysses 等策略,用以平衡計算、記憶體與通訊開銷。

📊 不同策略在媒體生成管線的效能表現

根據在 NVIDIA Cosmos 3 與 FLUX.1 管線上的基準測試結果:

  • DeepSpeed Ulysses:在極端長上下文的擴充套件下,對於基於擴散模型(Diffusion-based)的媒體生成,能提供最低的延遲。
  • Ring Attention:在最多 4 張 GPU 的規模下,同樣展現出強大的擴充套件能力。

💡 從 PyTorch 到生產環境的部署路徑

開發者可以將 TensorRT 11.0 的多裝置支援與 Torch-TensorRT 結合,將巨大的 PyTorch 模型轉換為脫離框架(Out-of-framework)的部署形式,從而突破單一裝置的記憶體與算力限制。

🎯 實務啟示

對於需要部署超大型生成式 AI 模型(尤其是長序列或高解析度媒體生成)的工程師,不再需要為了分散式推論而放棄 TensorRT 的底層最佳化。建議針對不同模型特性選擇對應的平行策略:追求極低延遲可優先嘗試 DeepSpeed Ulysses,而小規模($\le 4$ GPUs)部署則可考慮 Ring Attention。

🔗 來源

#NVIDIA #TensorRT #GPU #Inference #GenerativeAI #NCCL #DeepSpeedUlysses #RingAttention #PyTorch #MultiGPU

google/gemma-4-31b-it:free 自動生成