ChatPaper/Computation and Language Apple; ITU ★ 111 3 min

Multilingual Knowledge Transfer under Data Constraints via Lexical Interventions

cs.CL

🔗 https://arxiv.org/abs/2605.23885

📌 【Apple 研究】用詞彙替換就能讓低資源語言模型變快 2 倍?

你以為提升多語言模型必須要大量平行語料或額外的訓練階段?其實只要在英文語料裡換個詞,就能讓訓練速度翻倍。

🤔 低資源語言的知識從哪裡來?
當目標語言的訓練資料稀少時,許多需要科學推理、常識推論或世界知識的下游任務只能依賴高資源語言(通常是英語)來轉移知識。現有的跨語言知識轉移方法往往需要龐大的平行語料、機器翻譯系統或輔助模型,對許多語言來說成本高昂且難以取得。

🧪 在英文語料裡換詞的簡單實驗
研究團隊提出 LINK —— 一種在模型預訓練階段進行的資料層面介入。他們使用可近乎零成本取得的雙語詞彙表,在英文預訓練語料中隨機挑選一定比例的詞彙,將其替換為目標語言的對應詞。整個過程不需額外模型訓練,也不需要翻譯系統或輔助網路,只需進行詞彙層面的替換。

🚀 目標語言任務表現顯著提升,訓練速度可達 2 倍
在八種語言與五種不同模型規模上的評估顯示,採用 LINK 後,目標語言的下游任務成績有明顯改善;相較於基線,達到相同效果所需的訓練時間最多可減少一半(最高 2× 加速)。此結果僅依賴雙語詞彙表與詞彙替換操作即可獲得。

💡 詞彙替換如何讓模型『偷學』知識?
透過在高資源語料中插入目標語言的詞彙,模型在預訓練時會同時看到原始英文詞彙與其對應的外語形式。這種「詞彙層面的雙語暴露」促使模型在學習英語知識的同時,建立起與目標語言詞彙的關聯,從而在未見過大量目標語言文本時,仍能將英文知識有效轉移至目標語言任務上。

⚠️ 僅依賴雙語詞彙,實驗規模仍有限
本研究僅使用了可公開取得的雙語詞彙表,未探索更複雜的詞彙對齊或上下文敏感的替換策略。評估語言數量為八種,模型規模涵蓋五個梯度,但未涉及極低資源語言或極大規模模型的極端情況。長期效果及在不同預訓練語料混合比例下的穩定性仍需進一步驗證。

🎯 低成本提升多語言模型的實務做法

  • 對於資源有限的語言團隊,只需準備一份基本的雙語詞彙表即可在現有預訓練流程中加入詞彙替換步驟。
  • 此方法不增加模型參數或額外的訓練階段,適合想要快速提升跨語言能力而不願投入大量計算資源的工程團隊。
  • 未來可考慮將詞彙替換比例作為超參數進行調優,或結合簡易的詞頻加權,以進一步提升知識轉移效果。

🔗 論文連結
📝 Multilingual Knowledge Transfer under Data Constraints via Lexical Interventions
👤 Anastasiia Sedova, Natalie Schluter, Skyler Seto, Maartje ter Hoeve (Apple; ITU)
🔗 https://arxiv.org/abs/2605.23885

你有試過在訓練資料裡做詞彙層面的雙語替換嗎?歡迎在留言區分享你的經驗或想法 👇

#AI #Multilingual #LLM #AppleResearch #NLP #CrossLingual #MachineLearning

tencent/hy3-preview:free 自動生成