2026-07-01 · SpheRoPE: Zero-Shot Optimization-Free 360 Panorama Generation with Spherical RoPE

📌 SpheRoPE：無需訓練，用球面 RoPE 實現零樣本 360 度全景生成

TL;DR：透過將 spherical RoPE 與語義失真引導注入預訓練 DiT，在無需訓練下解決全景生成的拓撲失真問題。

傳統的 2D 擴散模型在生成 360 度全景圖時，常面臨嚴重的拓撲約束問題，導致影像邊緣無法對接或產生明顯的拉伸失真。如何在不重新訓練模型的情況下，讓預訓練模型理解球面的幾何特性？

🤔 突破全景生成的拓撲限制

生成全景圖的核心挑戰在於球面的連續性。一般的擴散變換器 (Diffusion Transformers, DiT) 是在平面座標上訓練的，無法直接處理球面座標的週期性與幾何特性，導致生成的全景圖在接縫處不自然或產生形變。

🧩 注入球面先驗的零樣本框架

SpheRoPE 提出了一套無需訓練 (Zero-shot) 與無需最佳化 (Optimization-free) 的框架，主要透過兩種技術手段將球面先驗注入預訓練的 DiT 中：

Spherical RoPE：將旋轉位置嵌入 (Rotary Positional Embedding, RoPE) 擴充套件至球面座標，使模型在處理位置資訊時能感知球面的幾何結構。
語義失真引導 (Semantic Distortion Guidance)：利用引導機制來克服全景圖特有的拓撲約束，確保生成內容在球面投影下的語義一致性。

💡 無需訓練即可落地的技術路徑

該方法的關鍵在於「注入」而非「重練」。透過修改位置編碼與引入引導機制，模型能在不改變權重的情況下，直接將預訓練的生成能力轉移到 360 度全景生成任務中，大幅降低了開發全景生成應用的計算成本。

🎯 實務啟示

對於需要開發全景生成功能的工程師而言，這項研究證明瞭透過修改位置編碼 (Positional Embedding) 與引導機制，可以讓既有的 2D 生成模型具備處理非歐幾裡得空間（如球面）的能力。這提供了一種高效的路徑：與其耗費資源訓練專用模型，不如思考如何將空間先驗注入現有架構。

🔗 來源

標題：SpheRoPE: Zero-Shot Optimization-Free 360 Panorama Generation with Spherical RoPE
連結：https://huggingface.co/papers/2606.32033

#AI #DiffusionTransformer #PanoramaGeneration #RoPE #ZeroShot #ComputerVision #GenerativeAI #SphericalGeometry #DiT #360Image

同來源相關文章