2026-06-25 · Run DiffusionGemma on NVIDIA for Developer-Ready, High-Throughput Text Generation

📌 【NVIDIA】DiffusionGemma 實現文字平行生成，單張 H100 吞吐量達 1,000 tokens/sec

TL;DR：DiffusionGemma 捨棄逐字生成，改用擴散去噪平行產生 Token，大幅提升文字生成吞吐量。

對於開發即時 AI 助手或 Agentic 工作流的工程師來說，最頭痛的往往是 LLM 逐個 Token 生成的低速，這不僅導致使用者體驗不流暢，更直接推高了伺服器的推理成本。

🤔 突破逐字生成的效能瓶頸

傳統的文字生成模型採取循序漸進（sequential）的方式，一次僅能產生一個 Token。DiffusionGemma 改變了這個邏輯，它引入擴散去噪（diffusion-based denoising）機制，讓模型能夠在每一步驟中平行生成 256 個 Token，從而打破速度限制。

🧩 基於 Gemma 4 MoE 架構的平行生成

DiffusionGemma 由 Google DeepMind 開發，並針對 NVIDIA 平臺進行最佳化。其核心技術特點如下：

📊 不同硬體平臺的吞吐量表現

根據 NVIDIA 提供的資料，DiffusionGemma 在不同硬體上的生成速度表現顯著：

對於企業級應用而言，這種高吞吐量意味著能支援更高的併發數（concurrency）並降低單次請求的服務成本。

🎯 實務啟示：快速部署與整合路徑

開發者若想將此高吞吐量能力匯入生產環境，可透過以下三種路徑快速實作：

🔗 來源

標題：Run DiffusionGemma on NVIDIA for Developer-Ready, High-Throughput Text Generation
作者／機構：Anu Srivastava / NVIDIA Developer
連結：https://developer.nvidia.com/blog/run-diffusiongemma-on-nvidia-for-developer-ready-high-throughput-text-generation/

#DiffusionGemma #NVIDIA #GoogleDeepMind #LLM #MoE #HighThroughput #TextGeneration #H100 #NIM #NeMo

同來源相關文章