PiD: Fast and High-Resolution Latent Decoding with Pixel Diffusion
https://arxiv.org/abs/2605.23902📌 【NVIDIA 最新研究】PiD:像素擴散解碼,秒級生成 8K 圖像
你以為擴散模型只能在低維 latent 空間裡運作?NVIDIA 的新方法直接在像素空間去噪,卻只需要 4 步推論。這代表什麼?對於需要即時高解析度圖像的應用,傳統的 VAE 解碼器可能正成為瓶頸。
🤔 高解析度生成的瓶頸在於解碼步驟
大多數文字到圖像的系統會先在緊湊的 latent 空間產生圖像,再透過解碼器把 latent 對應回像素。然而,這個解碼器是為了「重建」而設計,目標是逆向編碼器,隨著解析度提升(尤其是百萬像素級),計算成本和記憶體需求會急劇上升,且難以合成更多細節。
🧪 將解碼重新定義為條件像素擴散
PiD 把 latent 到像素的映射改寫成一個條件像素空間的擴散過程。具體做法包括:
- 直接在高解析度像素空間進行去噪,從而同時完成解碼與上採樣。
- 輕量的 sigma‑aware adapter 把帶噪聲的 latent 注入像素擴散的主幹,使得 PiD 能在 latent 仍未完全去噪時就開始工作,並提前終止 latent 擴散流程。
- 透過 DMD2 蒸餾,將推論步驟壓縮至僅 4 步。
該設計既適用於傳統 VAE latent,也適用於近期 RAE 模型所使用的語義 latent(如 SigLIP、DINOv2)。
速度與記憶體上的顯著提升
在消費級 RTX 5090 上,PiD 能把 512×512 的 latent 解碼為 2048×2048 像素的圖像,峰值記憶體佔用約 13 GB,用時低於 1 秒。在 GB200 GPU 上,延遲可降至 210 ms。與傳統的級聯擴散超解析度管線相比,速度快約 6 倍,同時在視覺保真度上亦有提升。
💡 像素空間去噪帶來的優勢
把解碼放在像素空間讓模型能直接利用高解析度的圖像結構資訊,而不僅依賴 latent 的壓縮表示。sigma‑aware adapter 讓模型對 latent 中的噪聲水平敏感,從而在去噪過程中保留更多細節。DMD2 蒸餾則在不大幅犧牲品質的前提下,大幅減少迭代次數,這正是低延遲的關鍵。
⚠️ 根據目前提供的資訊,未見具體限制說明
摘要與評分理由中未詳細列出實驗的樣本尺寸、訓練資料範圍或長期穩定性測試。因此,關於 PiD 在更大模型、更高解析度或不同硬體平台上的表現,仍需參考論文全文以獲得完整評估。
🎯 對生成式 AI 工程師的直接啟發
- 若你的 pipeline 需要即時生成 4K、8K 圖像,PiD 提供了一種可直接替換傳統 VAE 解碼器的方案。
- 該方法與現有的 latent 模型相容,無需重新訓練整個生成器,只需加入輕量 adapter 並使用蒸餾版權重。
- 在消費級顯卡上即可達到亞秒級延遲,適合互動式應用或實時內容創作。
🔗 論文連結
📝 PiD: Fast and High-Resolution Latent Decoding with Pixel Diffusion
👤 Yifan Lu, Qi Wu, Zhangjie Wu, Zian Wang, Huan Ling @ NVIDIA
🔗 https://arxiv.org/abs/2605.23902
你是否已經在實驗中嘗試把解碼步驟搬到像素空間?歡迎在留言區分享你的經驗與觀察 👇
#AI #TextToImage #Diffusion #PixelDiffusion #NVIDIA #GenAI #CVPR2026 #超解析度 #即時生成
由 tencent/hy3-preview:free 自動生成