arXiv ★ 98 3 min

DRScaffold: Boosting Dense-Scene Reasoning in Lightweight Vision Language Models

cs.CVcs.AI

🔗 http://arxiv.org/abs/2605.26038v1

📌 【DRScaffold】輕量 VLMs 也能勝任密集場景推理?
你以為只有大模型才能處理雜亂畫面?實際上,結構化監督就能讓 3B 模型打敗 32B。

🤔 密集場景推理是輕量 VLMs 的薄弱環節
標準基準表現不錯的輕量視覺語言模型,在需要同時定位多個物件、屬性與關係、並進行多步推理的密集場景中會系統性失誤。這類能力對於邊端設備上的真實應用(例如機器人導航、場景理解)至關重要,但現有訓練訊號並未提供推理步驟與底層視覺實體之間的明確 grounding,導致模型能生成流暢卻未被視覺錨定的推理鏈。

🧪 DRBench 提供細緻評估;DRScaffold 分四階段施加結構化監督
研究團隊首次構建 DRBench,包含 14,573 個問題、對應 2,943 張圖像,依據五個任務類別與三個遞進推理層進行組織。在此基礎上提出 DRScaffold,一種監督微調框架:將監督目標分解為四個因果有序的階段,在不改動模型架構的情況下,強制推理步驟必須與視覺實體及其關係相關聯。該方法僅需標準的監督訓練,無需額外結構或推理模組。

📊 Qwen2.5-VL-3B 使用 DRScaffold 後,在 DRBench 上超越凍結的 Qwen2.5-VL-32B
在三種輕量 VLMs 上進行實驗結果顯示:

  • DRScaffold 帶來 顯著的 DRBench 提升,同時 保持或甚至提升 模型在通用基準上的表現。
  • 特別值得注意的是,Qwen2.5-VL-3B 在接受 DRScaffold 訓練後,其 DRBench 分數已高於未進行任何訓練、凍結的 Qwen2.5-VL-32B,顯示結構化監督可以在密集場景推理任務中替代大量模型規模。

💡 結構化監督可視為「模型規模」的補充,而非替代
實驗說明,當推理步驟被明確地束縛於視覺實體時,即使參數量較小的模型也能執行出多步、具體的推理。這意味著,對於資源受限的邊端場景,透過更好的監督訊號(而非單純堆疊參數)即可獲得複雜視覺推理能力。

⚠️ 目前僅在三種輕量 VLMs 上驗證,泛化性及長期穩定性尚需進一步觀察
雖然結果鼓舞人心,但論文僅報告了在三種具體輕量 VLMs 上的表現,未涵蓋更廣泛的架構或更長期的部署情境。未來工作仍需探討不同模型家族、不同資料規模以及真實邊端設備上的實際表現。

🎯 對工程師與研究者的啟示

  • 在邊端設備或對模型大小敏感的應用中,可優先考慮透過 結構化監督(如 DRScaffold)提升密集場景推理,而不必依賴巨量模型。
  • 研究方向可著重於 如何設計更細緻的因果監督階段,以進一步窄小模型與大模型之間的效能差距。
  • 開放原始碼與模型已於 GitHub 提供:https://github.com/irene-shi/DRScaffold ,方便直接復現與後續改造。

🔗 論文連結
📝 DRScaffold: Boosting Dense-Scene Reasoning in Lightweight Vision Language Models
👤 Xinrui Shi, Kai Liu, Ziqing Zhang, Jianze Li, Anqi Li
🔗 arXiv:http://arxiv.org/abs/2605.26038v1
💻 程式碼:https://github.com/irene-shi/DRScaffold

你在邊端設備上部署 VLMs 時,是否曾嘗試透過監督訊號而非增大模型來提升複雜推理?歡迎在留言區分享經驗與看法 👇

#AI #VisionLanguageModel #DRScaffold #DRBench #EdgeAI #模型效率 #Qwen #機器學習 #深度學習 #視覺推理

tencent/hy3-preview:free 自動生成