2026-06-17 · Show the Signal, Hide the Noise: Spectral Forcing for Pixel-Space Diffusion

📌 【新技術分享】讓擴散模型更高效：透過 Spectral Forcing 剔除像素空間的雜訊

在追求生成影像速度與品質的平衡時，像素空間（Pixel-Space）擴散模型經常面臨一個核心挑戰：如何讓模型在去噪過程中，更精準地分辨哪些是真正需要生成的「訊號」，哪些是干擾生成的「雜訊」？

如果模型在每一步都試圖處理所有頻率的細節，不僅計算成本高，且容易在去噪初期被高頻雜訊誤導，導致生成效率低下。

🤔 訊號與雜訊的混淆，拖慢了像素空間模型的效率

目前的像素空間擴散模型在處理影像時，訊號（Signal）與雜訊（Noise）在空間域中是交織在一起的。模型必須花費大量參數與運算力去學習如何將兩者分離。如果能有一種機制，在模型訓練或推論時「明確地」告訴模型：現在應該專注於低頻的輪廓（訊號），而非高頻的隨機擾動（雜訊），那麼模型的收斂速度與生成效率將會大幅提升。

🧪 引入時間條件的 2D-DCT 低通操作

這篇論文提出了一種名為 Spectral Forcing 的新方法。其核心設計在於引入了一個「時間條件的 2D-DCT（離散餘弦變換）低通運算子」。

簡單來說，研究者利用 2D-DCT 將影像從空間域轉換到頻率域，並根據目前處於擴散過程的哪個時間點（Time-conditional），動態地對頻率進行過濾。在去噪初期，重點保留低頻訊號以建立結構；隨著時間推移，再逐漸放寬對高頻細節的限制。

🚀 明確分離訊號與雜訊，直接提升模型效率

透過這種對頻率空間的顯式控制，Spectral Forcing 能夠讓模型在像素空間中更有效地執行去噪任務。實驗結果顯示，這種方法能顯著提升擴散模型的效率，讓模型不再在無謂的雜訊中打轉，而是能更快速地捕捉到影像的關鍵特徵。

💡 從頻率域思考：讓模型「選擇性地」看見細節

這項研究的洞察在於：影像的結構資訊主要集中在低頻分量，而隨機雜訊則分佈在全頻域。Spectral Forcing 實際上是為模型安裝了一個「動態濾波器」，在不同的時間步長中調整濾波強度。這種設計將原本由模型自行學習的「訊號-雜訊分離」過程，轉化為一種顯式的數學約束，從而降低了學習難度並加速生成過程。

⚠️ 聚焦於效率提升，非結構性的根本突破

這項技術的核心在於優化去噪過程的效率，而非改變擴散模型的基本架構。因此，其主要價值在於對現有像素空間模型的加速與效能提升，而非創造一種全新的生成範式。

🎯 對關注模型加速與部署的工程師有實作價值

對於正在開發影像生成應用，且希望在不犧牲品質的前提下降低運算開銷的工程師來說，Spectral Forcing 提供了一個可實踐的方向：透過頻率域的低通操作來優化去噪路徑。如果你的模型在像素空間生成速度較慢，嘗試引入頻率過濾機制或許是一個有效的優化手段。

🔗 論文連結 📝 Show the Signal, Hide the Noise: Spectral Forcing for Pixel-Space Diffusion 🔗 論文：https://huggingface.co/papers/2606.15236

你認為在頻率域進行操作會比在潛在空間（Latent Space）更有效嗎？歡迎在下方分享你的看法 👇

#AI #DiffusionModel #ComputerVision #SpectralForcing #ImageGeneration #深度學習 #模型優化

同來源相關文章