ETCHR: Editing To Clarify and Harness Reasoning
https://arxiv.org/abs/2605.23897📌 ETCHR:圖像編輯助力多模態推理,免重訓即插即用
多模態大模型在看圖答題時,常依賴純文字的思考鏈;當問題需要細部聚焦或視角轉換時,這條鏈就成為瓶頸。現有的圖像編輯方法要麼受限於固定工具箱,要麼產生雜訊中間圖像,難以成為可靠的推理助手。
🤔 純文字思維鏈在細節聚焦與視角轉換上吃力
研究指出,單靠文字鏈無法有效處理需要圖像細節變換的題目,導致推理準確度受限。這正是 ETCHR 試圖解決的核心矛盾。
🧪 兩階段訓練的問條件圖像編輯器
ETCHR 是一個針對問題進行條件控制的圖像編輯模型,與下游的理解模型解耦。訓練分為兩步:首先以監督學習模仿編輯軌跡(Reasoning Imitation);其次利用 VLM 導出的獎賞,優化編輯的正確度與下游推理表現(Reasoning Enhancement)。這樣的設計直接針對語言側(無法將抽象問題映射為適當的視覺變換)與生成側(隨推理深度增加而誤差上升)兩個缺口。
📈 在五大任務家族上,Pass@1 提升 4.6~5.5 個百分點
實驗覆蓋細部感知、圖表理解、邏輯推理、拼圖還原與 3D 理解五類任務。在 Qwen3‑VL‑8B 上,平均 Pass@1 從 55.95 提升至 60.77(+4.82);在 Gemini‑3.1‑Flash‑Lite 上從 65.08 提升至 70.55(+5.47);在 1T‑參數 MoE 模型 Kimi K2.5 上從 76.55 提升至 81.16(+4.61)。所有提升均在不重新訓練基礎 MLLM 的情況下實現。
💡 語言側與生成側雙重缺口如何被針對性訓練彌補
第一階段讓編輯器學會根據問題產生合理的圖像變換軌跡,彌補語言側的映射缺失;第二階段以 VLM 評估的編輯正確度與最終推理分數作為獎賞,促使編輯在多步推理中保持生成品質,從而縮小生成側的誤差累積。這兩階段讓編輯器同時具備「理解何時該編輯」與「編輯得更正確」的能力。
⚠️ 僅在特定基準上驗證,長編輯鏈穩定性尚未探討
實驗限於上述五個任務家族,未涉及更廣泛的開放式場景或極長的編輯序列;因此長期穩定性與泛化能力仍需後續工作驗證。
🎯 免重訓即插各種 MLLM,工程師可直接採用
因編輯器與理解模型解耦,ETCHR 可作為插件直接接入開放或閉源的多模態大模型,無需額外訓練。對於希望提升視覺推理表現而又不想重新調整基礎模型的團隊來說,這是一個低成本、即插即用的實用方案。
🔗 論文連結
📝 ETCHR: Editing To Clarify and Harness Reasoning
👤 Beichen Zhang, Yuhong Liu, Jinsong Li, Yuhang Zang, Jiaqi Wang (CUHK; Shanghai AI Lab; Shanghai Jiao Tong; Shanghai Innovation Inst; CPII under InnoHK)
🔗 論文:https://arxiv.org/abs/2605.23897
你是否已經在專案中嘗試過「用圖像思考」的策略?歡迎在留言區分享經驗或疑問 👇
#AI #Multimodal #CVPR #ETCHR #CUHK #上海AI實驗室 #圖像編輯 #視覺推理 #MLLM #GenAI
由 tencent/hy3-preview:free 自動生成