Expand More, Shrink Less: Shaping Effective-Rank Dynamics for Dense Scaling in Recommendation
https://arxiv.org/abs/2605.23191📌 【Tencent × HKUST(GZ)】當推薦模型變大時,表示卻可能變小?—— RankElastor 如何阻止 Embedding Collapse
隨著推薦系統規模不斷擴大,如何讓模型在更大的表示空間裡保持豐富的表達力,成為業界共同的挑戰。近期 RankMixer 被證實能透過 token mixing 與 per‑token FFN 交替運算達到可擴展的效能,但卻出現「embedding collapse」:學習到的表示向量有效秩過低,導致表達力受限、擴充後的空間未被充分利用。
🤔 AI 讓模型變大,卯著變小?
RankMixer 的設計在理論上應該能提升表示的秩,但實際觀察發現,隨著網路層數增加,有效秩反而在層間出現阻尼振盪(damped oscillatory trajectory),這正是 embedding collapse 的根源—— token mixing 與 P‑FFN 模組過於剛性,共同抑制了表示光譜的變化。
🧪 參數化完整混合 + GLU‑改進的 P‑FFN
論文提出 RankElastor 架構,包含兩個關鍵元件:
- 參數化全混合(parameterized full mixing):透過可學習的參數增強 token mixing 的表達力,同時提升光譜穩定性。
- GLU‑改進的 P‑FFN:採用類似 GLU 的前饋網路結構,使表示光譜在層間更為平滑,減少振盪。
這兩個設計在理論上可證明對抗 embedding collapse,並在實驗中驗證其有效性。
🔬 大規模工業資料集驗證
作者在大型工業推薦資料集上進行了廣泛實驗,結果顯示 RankElastor:
- 持續提升推薦效能(相較於 RankMixer 與其他基線)
- 明確減少 embedding collapse 現象,表示的有效秩更高、更穩定
- 展現出更佳的擴展行為,適合進一步放大模型規模
💡 光譜穩定性是關鍵
理論分析指出,參數化全混合讓 token mixing 不再被固定的正交或低秩約束束縛,而 GLU‑式 FFN 則透過門控機制抑制異常特徵的放大,兩者共同使表示向量的特異值光譜在深度網路中更均勻,避免了阻尼振盪。這提供了一種從「光譜視角」思考模型擴展的新方向。
⚠️ 僅驗證於特定架構與資料集
目前的實驗聚焦在 RankMixer 家族的變體以及作者所使用的工業推薦資料集;是否適用於其他混合結構(如純 Transformer、純 CNN)或不同領域的資料集,尚需後續工作探討。此外,論文未提供詳細的消融實驗數據,僅聲稱「廣泛實驗」帶來改善。
🎯 設計時應關注表示光譜
對於願意擴大推薦模型的工程師,此研究提醒:單純增加寬度或深度不一定帶來更好的表示力,必須檢查混合與前饋模組是否導致光譜收縮。在實務上,可考慮:
- 在 token mixing 引入可學習的參數(低秩或全秩變體)
- 替換傳統 FFN 為 GLU 風格的門控結構,以 stabilise 表示光譜
- 使用有效秩或光譜熵作為驗證指標,監控訓練過程中的表示健康度
🔗 論文連結
📝 Expand More, Shrink Less: Shaping Effective-Rank Dynamics for Dense Scaling in Recommendation
👤 Guoming Li, Shangyu Zhang, Junwei Pan, Wentao Ning, Jin Chen (HKUST(GZ) & Tencent)
🔗 論文:https://arxiv.org/abs/2605.23191
💻 程式碼:https://github.com/vasile-paskardlgm/RankElastor
你在擴大推薦模型時,是否曾注意到表示向量變得「扁平」?歡迎在留言區分享你的經驗與做法 👇
#推薦系統 #EmbeddingCollapse #RankElastor #Tencent #HKUST #MachineLearning #Scaling #AIResearch
由 tencent/hy3-preview:free 自動生成