2026-05-25 · PiD: Fast and High-Resolution Latent Decoding with Pixel Diffusion

📌 【NVIDIA 最新研究】PiD：像素擴散解碼，秒級生成 8K 圖像

你以為擴散模型只能在低維 latent 空間裡運作？NVIDIA 的新方法直接在像素空間去噪，卻只需要 4 步推論。這代表什麼？對於需要即時高解析度圖像的應用，傳統的 VAE 解碼器可能正成為瓶頸。

🤔 高解析度生成的瓶頸在於解碼步驟
大多數文字到圖像的系統會先在緊湊的 latent 空間產生圖像，再透過解碼器把 latent 對應回像素。然而，這個解碼器是為了「重建」而設計，目標是逆向編碼器，隨著解析度提升（尤其是百萬像素級），計算成本和記憶體需求會急劇上升，且難以合成更多細節。

🧪 將解碼重新定義為條件像素擴散
PiD 把 latent 到像素的映射改寫成一個條件像素空間的擴散過程。具體做法包括：

直接在高解析度像素空間進行去噪，從而同時完成解碼與上採樣。
輕量的 sigma‑aware adapter 把帶噪聲的 latent 注入像素擴散的主幹，使得 PiD 能在 latent 仍未完全去噪時就開始工作，並提前終止 latent 擴散流程。
透過 DMD2 蒸餾，將推論步驟壓縮至僅 4 步。
該設計既適用於傳統 VAE latent，也適用於近期 RAE 模型所使用的語義 latent（如 SigLIP、DINOv2）。

速度與記憶體上的顯著提升
在消費級 RTX 5090 上，PiD 能把 512×512 的 latent 解碼為 2048×2048 像素的圖像，峰值記憶體佔用約 13 GB，用時低於 1 秒。在 GB200 GPU 上，延遲可降至 210 ms。與傳統的級聯擴散超解析度管線相比，速度快約 6 倍，同時在視覺保真度上亦有提升。

💡 像素空間去噪帶來的優勢
把解碼放在像素空間讓模型能直接利用高解析度的圖像結構資訊，而不僅依賴 latent 的壓縮表示。sigma‑aware adapter 讓模型對 latent 中的噪聲水平敏感，從而在去噪過程中保留更多細節。DMD2 蒸餾則在不大幅犧牲品質的前提下，大幅減少迭代次數，這正是低延遲的關鍵。

⚠️ 根據目前提供的資訊，未見具體限制說明
摘要與評分理由中未詳細列出實驗的樣本尺寸、訓練資料範圍或長期穩定性測試。因此，關於 PiD 在更大模型、更高解析度或不同硬體平台上的表現，仍需參考論文全文以獲得完整評估。

🎯 對生成式 AI 工程師的直接啟發

若你的 pipeline 需要即時生成 4K、8K 圖像，PiD 提供了一種可直接替換傳統 VAE 解碼器的方案。
該方法與現有的 latent 模型相容，無需重新訓練整個生成器，只需加入輕量 adapter 並使用蒸餾版權重。
在消費級顯卡上即可達到亞秒級延遲，適合互動式應用或實時內容創作。

🔗 論文連結
📝 PiD: Fast and High-Resolution Latent Decoding with Pixel Diffusion
👤 Yifan Lu, Qi Wu, Zhangjie Wu, Zian Wang, Huan Ling @ NVIDIA
🔗 https://arxiv.org/abs/2605.23902

你是否已經在實驗中嘗試把解碼步驟搬到像素空間？歡迎在留言區分享你的經驗與觀察 👇

#AI #TextToImage #Diffusion #PixelDiffusion #NVIDIA #GenAI #CVPR2026 #超解析度 #即時生成

同來源相關文章