2026-06-02 · Compositional Text-to-Image Generation Via Region-aware Bimodal Direct Preference Optimization

📌 BiDPO 改善複雜圖文生成

你有試過讓 AI 畫出「紅色的貓在藍色的船上」卻總是畫錯位置？
當提示詞變得複雜，物件之間的關係容易失控。
這篇論文提出區域感知的 BiDPO，透過偏好資料與空間引導，讓模型更懂得「畫對」。

🤔 複雜提示詞讓現有模型容易混淆物件與位置
隨著文字到圖像模型在創意設計、廣告與產品原型中的應用日益廣泛，使用者常希望一次描述多個物件及其空間關係（例如「左邊的紅色汽車、右邊的藍色自行車」）。然而，現有模型在處理這類組合式提示時，經常出現物件重疊、位置顛倒或屬性錯誤的問題，限制了實際使用的可控性。

🧪 使用偏好資料與區域級別的引導進行直接偏好優化
論文提出的 BiDPO（Region‑aware Bimodal Direct Preference Optimization）方法，在預訓練的文字到圖像模型上進行偏好微調。它不僅依賴於整體圖像的好壞排序，還加入了區域層級的空間引導（例如指定某個物件應出現在畫面的哪個區域），使模型在學習時能同時匹配語意與位置資訊。

📌 BiDPO 能提升模型對複雜構圖的理解與生成品質
根據論文的實驗結果，採用 BiDPO 後，模型在處理多物件、多屬性的組合式提示時，生成圖像的物件正確位置比例和屬性匹配度均有顯著提升，使用者評分的滿意度也隨之提高。這表明，透過偏好資料與空間引導的直接優化，可以有效增強模型的可控性與圖像品質。

💡 區域感知讓模型學會將語意與空間對應，減少對思考的外掛依賴
BiDPO 的核心在於把「偏好」訊號細化到圖像的區域層級，使模型在優化過程中不僅學會「什麼樣的圖像好」，也學會「好圖像中的各個部件應該出現在哪裡」。這種區域級別的反饋減少了模型只依賴全圖像評分而產生的空間混淆，從而在複雜構圖上展現更穩定的行為。

⚠️ 僅在特定基準上驗證，長期泛化能力及在更大規模模型上的表現尚未探討
目前的實驗主要集中在公開的基準資料集與中等規模的模型上。論文未說明該方法在極大規模模型（如數十億參數）或跨域資料上的適用性，亦未探討長期使用後的行為穩定性。

🎯 對於需要精細控制的圖像生成場景，可考慮採用類似的偏好優化與空間引導策略
如果你的應用場景涉及多物件佈局、室內設計或角色造型等需求，嘗試在微調階段加入區域層級的偏好標註（例如使用人工標註的好壞圖像對，並標註期望物件的位置區間），或參考論文提出的 bimodal 優化框架，以提升生成結果的可控性而不必依賴額外的後處理步驟。

🔗 論文連結
📝 Compositional Text-to-Image Generation Via Region-aware Bimodal Direct Preference Optimization
🔗 https://huggingface.co/papers/2605.28615

#AI #TextToImage #DiffusionModels #BiDPO #生成式AI #圖像生成 #機器學習 #HuggingFace #創意設計

同來源相關文章