HuggingFace Daily Papers ★ 101 3 min

Cosine Misleads: Auxiliary Losses Reshape Vision Language Models, Not Their Latents

🔗 https://huggingface.co/papers/2606.05753

📌 【深度解析】餘弦相似度在誤導我們?視覺語言模型的潛在空間真相

在訓練視覺語言模型(VLM)時,我們習慣用餘弦相似度(Cosine Similarity)來衡量模型生成的潛在特徵(Latents)與目標視覺特徵是否「對齊」。但如果這種對齊並不代表模型「理解」了內容,甚至與最終準確率呈負相關,我們該如何重新思考模型設計?

🤔 「對齊」越多,表現越差?反直覺的性能悖論

在視覺推理的開發過程中,業界普遍認為:如果模型產生的 Latents 與監督目標(Supervised Targets)的餘弦相似度越高,代表模型捕捉視覺特徵的能力越強,最終的推理準確率應該越高。

然而,這篇研究直接挑戰了這個傳統認知。研究發現,潛在特徵的餘弦對齊程度與模型的實際準確率之間,竟然存在著「負相關」的關係。這意味著,追求極高的餘弦相似度,可能反而會損害模型的推理表現。

🧪 重新檢視輔助損失(Auxiliary Losses)的影響

研究團隊深入探討了輔助損失函數如何影響模型。他們發現,當我們強行使用輔助損失來強迫 Latents 進行對齊時,雖然餘弦相似度的數值提升了,但這並不代表模型在潛在空間中完成了「推理」。

這項研究揭示了一個關鍵的設計陷阱:我們以為在優化 Latents 的表徵,但實際上可能只是在改變特徵的分布,而非提升模型的認知能力。

💡 答案並不在 Latents 之中,而是在下游解碼中

這是本研究最核心的洞察:答案並非在潛在空間(Latents)中被「推理」出來,而是在後續的解碼階段(Downstream Decoding)才被產出。

簡單來說,Latents 扮演的角色並非儲存最終答案的容器,而是一種中間狀態。真正的推理邏輯發生在從 Latents 到最終輸出(Decoding)的轉換過程中。這意味著,強行將 Latents 往某個視覺目標對齊,實際上是在干擾模型後續解碼的過程,導致準確率下降。

⚠️ 對齊指標的侷限性,不能作為性能的唯一指標

這項發現提醒我們,餘弦相似度作為一種衡量標準,在視覺語言模型中具有高度的誤導性。它能告訴我們特徵在向量空間中的距離,但無法反映模型是否真正掌握了推理邏輯。因此,單純依賴對齊指標來評估模型訓練進度,可能會導致錯誤的調優方向。

🎯 重新思考 VLM 的損失函數設計

對於 AI 工程師與研究者,這項研究提供了兩個重要的實務啟示:

  1. 謹慎使用輔助損失:在設計 VLM 時,不要過度追求潛在空間的強對齊,應更關注最終任務的端到端(End-to-End)表現。
  2. 關注解碼機制:既然推理發生在解碼階段,優化解碼器的效率與準確度,可能比強迫 Latents 對齊視覺目標更有效。

🔗 論文連結 📝 Cosine Misleads: Auxiliary Losses Reshape Vision Language Models, Not Their Latents 🔗 論文:https://huggingface.co/papers/2606.05753

你是否也曾在訓練模型時發現,指標(Metric)提升了但實際效果卻下降?這或許就是「指標誤導」的典型案例。歡迎在評論區分享你的經驗 👇

#AI #VLM #ComputerVision #MachineLearning #DeepLearning #視覺語言模型 #模型優化

google/gemma-4-31b-it:free 自動生成