2026-06-09 · Cosine Misleads: Auxiliary Losses Reshape Vision Language Models, Not Their Latents

📌 【深度解析】餘弦相似度在誤導我們？視覺語言模型的潛在空間真相

在訓練視覺語言模型（VLM）時，我們習慣用餘弦相似度（Cosine Similarity）來衡量模型生成的潛在特徵（Latents）與目標視覺特徵是否「對齊」。但如果這種對齊並不代表模型「理解」了內容，甚至與最終準確率呈負相關，我們該如何重新思考模型設計？

🤔 「對齊」越多，表現越差？反直覺的性能悖論

在視覺推理的開發過程中，業界普遍認為：如果模型產生的 Latents 與監督目標（Supervised Targets）的餘弦相似度越高，代表模型捕捉視覺特徵的能力越強，最終的推理準確率應該越高。

然而，這篇研究直接挑戰了這個傳統認知。研究發現，潛在特徵的餘弦對齊程度與模型的實際準確率之間，竟然存在著「負相關」的關係。這意味著，追求極高的餘弦相似度，可能反而會損害模型的推理表現。

🧪 重新檢視輔助損失（Auxiliary Losses）的影響

研究團隊深入探討了輔助損失函數如何影響模型。他們發現，當我們強行使用輔助損失來強迫 Latents 進行對齊時，雖然餘弦相似度的數值提升了，但這並不代表模型在潛在空間中完成了「推理」。

這項研究揭示了一個關鍵的設計陷阱：我們以為在優化 Latents 的表徵，但實際上可能只是在改變特徵的分布，而非提升模型的認知能力。

💡 答案並不在 Latents 之中，而是在下游解碼中

這是本研究最核心的洞察：答案並非在潛在空間（Latents）中被「推理」出來，而是在後續的解碼階段（Downstream Decoding）才被產出。

簡單來說，Latents 扮演的角色並非儲存最終答案的容器，而是一種中間狀態。真正的推理邏輯發生在從 Latents 到最終輸出（Decoding）的轉換過程中。這意味著，強行將 Latents 往某個視覺目標對齊，實際上是在干擾模型後續解碼的過程，導致準確率下降。

⚠️ 對齊指標的侷限性，不能作為性能的唯一指標

這項發現提醒我們，餘弦相似度作為一種衡量標準，在視覺語言模型中具有高度的誤導性。它能告訴我們特徵在向量空間中的距離，但無法反映模型是否真正掌握了推理邏輯。因此，單純依賴對齊指標來評估模型訓練進度，可能會導致錯誤的調優方向。

🎯 重新思考 VLM 的損失函數設計

對於 AI 工程師與研究者，這項研究提供了兩個重要的實務啟示：

🔗 論文連結 📝 Cosine Misleads: Auxiliary Losses Reshape Vision Language Models, Not Their Latents 🔗 論文：https://huggingface.co/papers/2606.05753

你是否也曾在訓練模型時發現，指標（Metric）提升了但實際效果卻下降？這或許就是「指標誤導」的典型案例。歡迎在評論區分享你的經驗 👇

#AI #VLM #ComputerVision #MachineLearning #DeepLearning #視覺語言模型 #模型優化

同來源相關文章