2026-05-28 · Everything at Every Scale: Scale-Invariant Diffusion with Continuous Super-Resolution

📌 Scale-Invariant Diffusion：一個模型同時負責圖像生成與連續超解析度

你是否曾經想過，同一個生成模型能不能既產出全新圖像，又能在任何尺度上無縫放大？這正是近期論文試圖回答的問題。

🎣 當生成遇上超解析度，傳統做法是否在浪費潛力？

大多數作品都把「圖像生成」與「超解析度」分成兩個階段訓練：先生成低解析度圖像，再用專門的 SR 模型進行放大。這種分段式流程不僅增加系統複雜度，也可能在尺度轉換時引入不一致的 artefactual。如果我們能讓單一模型在訓練時就具備尺度不變的特性，是否能同時提升生成品質與放大效果？

🤔 以尺度不變性統一生成與超解析度

論文提出 SKILD（Scale-Invariant K‑space Image Learning Diffusion），核心思想是利用圖像內容及其背後物理系統（例如磁共振成像的 k‑space）具備的尺度不變性。透過在 k‑space 進行擴散學習，模型不需事先固定輸出解析度，而是能在同一個無條件框架下：

產生符合自然圖像統計的新圖像（圖像生成）
直接連續地放大至任意目標尺度（連續超解析度）

這種統一做法在先前的工作中較少見，因為多數方法要麼專注於生成（如 DDPM、Stable Diffusion），要麼專注於 SR（如 ESRGAN、SwinIR），很少同時以同一套參數處理兩項任務。

🧪 透過 k‑space 學習實現尺度不變

研究設計的關鍵在於：

將圖像轉換至 k‑space（頻域）：在此域中，圖像的結構資訊呈現出更易於尺度縮放的特性。
在 k‑space 上執行標準的擴散過程：噪聲的加入與去噪不依賴於特定解析度，因而具備尺度不變性。
逆變換回圖像域：得到的樣本既可以當作新生成的圖像，也可以直接解讀為不同放大倍率的超解析度結果。

因為整個過程都是在同一個擴散模型內完成，模型參數只需學習一次，即可同時支援生成與任意尺度的 SR。

💡 尺度不變性如何連接生成與放大？

在 k‑space 中，低頻資訊決定圖像的整體結構，高頻則負責細節。當模型學會在這個頻域中去噪時，它實際上學會了如何在不改變低頻結構的前提下，彈性地補充或預測高頻資訊。這正好對應到：

生成任務：從純噪聲開始，逐步重建出完整的低頻與高頻結構。
超解析度任務：給定低解析度圖像（即已知的低頻部分），模型只需補充缺失的高頻頻段，因而能連續放大至任意目標解析度。

這種「結構先行、細節隨補」的機制，解釋為何單一框架能兼顧兩種看似不同的目標。

⚠️ 概念驗證階段，評估尚且有限

目前公開的論文主要闡述理論與架構，實驗部分僅在合成或小規模真實資料上進行概念驗證。
未見公開的原始程式碼或預訓練模型，限制了社群直接復現與進一步基準測試。
評估尚未涵蓋大規模自然圖像基準（如 ImageNet、COPS）或醫療影像基準（如 fastMRI），因此實際效果在複雜場景下仍需觀察。

🎯 為未來的多尺度生成指引新方向

儘管處於早期概念階段，SKILD 提出的「尺度不變擴散 + k‑space 學習」組合，為以下領域提供了潛在的研究路徑：

通用生成模型：未來可嘗試在更大規模的圖像或影片資料上擴展此框架，探索是否能在不增加模型規模的情況下提升生成保真度。
醫療與科學影像：k‑space 本身正是 MRI、CT 等採樣方式的自然表示，尺度不變的擴散模型或許能在低剂量採樣與高解析度重建間取得更好的平衡。
統一的多任務擴散：此工作啟發了是否能將其他低階視覺任務（如去噪、着色、內容填補）也納入同一個尺度不變的擴散過程中。

🔗 論文連結
📝 Everything at Every Scale: Scale-Invariant Diffusion with Continuous Super-Resolution
👤 作者資訊：未在來源中提供
🔗 https://huggingface.co/papers/2605.26032

如果你對如何利用頻域特性來突破傳統生成與超解析度的界限感興趣，歡迎在留言區分享你的看法或相關經驗！

#AI #DiffusionModels #SuperResolution #ImageGeneration #KSpace #ScaleInvariant #HuggingFacePapers #MedicalImaging #GenerativeAI

同來源相關文章