HuggingFace Daily Papers ★ 91 3 min

Show the Signal, Hide the Noise: Spectral Forcing for Pixel-Space Diffusion

🔗 https://huggingface.co/papers/2606.15236

📌 【新技術分享】讓擴散模型更高效:透過 Spectral Forcing 剔除像素空間的雜訊

在追求生成影像速度與品質的平衡時,像素空間(Pixel-Space)擴散模型經常面臨一個核心挑戰:如何讓模型在去噪過程中,更精準地分辨哪些是真正需要生成的「訊號」,哪些是干擾生成的「雜訊」?

如果模型在每一步都試圖處理所有頻率的細節,不僅計算成本高,且容易在去噪初期被高頻雜訊誤導,導致生成效率低下。

🤔 訊號與雜訊的混淆,拖慢了像素空間模型的效率

目前的像素空間擴散模型在處理影像時,訊號(Signal)與雜訊(Noise)在空間域中是交織在一起的。模型必須花費大量參數與運算力去學習如何將兩者分離。如果能有一種機制,在模型訓練或推論時「明確地」告訴模型:現在應該專注於低頻的輪廓(訊號),而非高頻的隨機擾動(雜訊),那麼模型的收斂速度與生成效率將會大幅提升。

🧪 引入時間條件的 2D-DCT 低通操作

這篇論文提出了一種名為 Spectral Forcing 的新方法。其核心設計在於引入了一個「時間條件的 2D-DCT(離散餘弦變換)低通運算子」。

簡單來說,研究者利用 2D-DCT 將影像從空間域轉換到頻率域,並根據目前處於擴散過程的哪個時間點(Time-conditional),動態地對頻率進行過濾。在去噪初期,重點保留低頻訊號以建立結構;隨著時間推移,再逐漸放寬對高頻細節的限制。

🚀 明確分離訊號與雜訊,直接提升模型效率

透過這種對頻率空間的顯式控制,Spectral Forcing 能夠讓模型在像素空間中更有效地執行去噪任務。實驗結果顯示,這種方法能顯著提升擴散模型的效率,讓模型不再在無謂的雜訊中打轉,而是能更快速地捕捉到影像的關鍵特徵。

💡 從頻率域思考:讓模型「選擇性地」看見細節

這項研究的洞察在於:影像的結構資訊主要集中在低頻分量,而隨機雜訊則分佈在全頻域。Spectral Forcing 實際上是為模型安裝了一個「動態濾波器」,在不同的時間步長中調整濾波強度。這種設計將原本由模型自行學習的「訊號-雜訊分離」過程,轉化為一種顯式的數學約束,從而降低了學習難度並加速生成過程。

⚠️ 聚焦於效率提升,非結構性的根本突破

這項技術的核心在於優化去噪過程的效率,而非改變擴散模型的基本架構。因此,其主要價值在於對現有像素空間模型的加速與效能提升,而非創造一種全新的生成範式。

🎯 對關注模型加速與部署的工程師有實作價值

對於正在開發影像生成應用,且希望在不犧牲品質的前提下降低運算開銷的工程師來說,Spectral Forcing 提供了一個可實踐的方向:透過頻率域的低通操作來優化去噪路徑。如果你的模型在像素空間生成速度較慢,嘗試引入頻率過濾機制或許是一個有效的優化手段。

🔗 論文連結 📝 Show the Signal, Hide the Noise: Spectral Forcing for Pixel-Space Diffusion 🔗 論文:https://huggingface.co/papers/2606.15236

你認為在頻率域進行操作會比在潛在空間(Latent Space)更有效嗎?歡迎在下方分享你的看法 👇

#AI #DiffusionModel #ComputerVision #SpectralForcing #ImageGeneration #深度學習 #模型優化

google/gemma-4-31b-it:free 自動生成