Scaling Laws, Carefully
https://lilianweng.github.io/posts/2026-06-24-scaling-laws/📌 Scaling Laws, Carefully:深入淺出解讀深度學習的經驗定律
TL;DR:本文整理 scaling law 的核心概念、常見擬合方法及其在計算資源分配上的實務參考。
🎣 隨著模型引數從百萬級躍升到千億級,訓練損失竟仍能用簡單的次方律預測?這背後的經驗法則正是 scaling law。
🧩 方法或架構
文章首先闡述 scaling law 的基本形式:訓練損失 L 隨著模型大小 N、資料量 D 與計算量 C 的增加,呈現可預測的次方曲線,在對數‑對數圖上顯示為直線。此關係可視為描述計算、損失、模型大小與資料之間的框架,核心在於如何在有限的計算預算下,最佳地分配給 N 與 D。
為了在實際操作中擬合這種關係,作者介紹了三種常見做法:
- 固定模型大小,變動 token 預算 – 保持 N 不變,改變 D(或等價的 token 數),觀察損失變化。
- IsoFLOP 曲線 – 在相同的總計算量 C 下,交叉變動 N 與 D,繪製等計算輪廓,以視覺化方式檢視損失隨資源分配的趨勢。
- 引數擬合 – 直接對收集到的 (N, D, L) 三元組進行次方函式擬合,獲取指數係數與截距,從而推匯出預測函式。
文章同時提及兩個具代表性的先驅工作:Kaplan et al. 的早期 scaling law 與後續提出的 Chinchilla scaling law,並說明它們分別適用於「資料無窮」與「資料受限」的情境。
📊 資料或結果
由於原文為概念性解說,未提供具體實驗數值或基準比較。文中僅指出,透過少量小規模執行的擬合結果,可外推估算較大模型所需的 token 數與計算量,這正是 scaling law 在實務規劃中的價值所在。
💡 深入分析
為何會呈現次方律?作者指出,這是一種經驗觀察:在深度學習的實際訓練過程中,損失隨資源的增加表現出規律的遞減趨勢,且在對數空間中近似線性。雖然理論推導仍在探索中,但其預測力已被廣泛用於決策大模型的訓練規模。
在資料受限的區域,擬合變得更為棘手,因為損失不再只受模型大小與計算量影響,資料的多樣性與品質開始主導效能。文章透過玩具模擬展示了在有限資料下,次方假設可能失效的情況,提醒讀者在擬合時需注意資料飽和點。
⚠️ 限制
- 文章主要為理論敘述與方法說明,未給出實證基準或消融實驗,因此無法直接驗證所描述擬合方法在特定架構上的表現。
- 縱使 scaling law 提供計算分配的指引,它仍是經驗規律,受模型家族、最佳化器與訓練技巧等因素影響,外推時需謹慎評估不確定性。
🎯 實務啟示
對於工程師而言,scaling law 提供了一種快速估算的工具:先在小規模上跑幾組實驗,利用上述三種擬合方式擬合出損失曲線,再依據預算反推所需的模型大小或資料量。這樣的流程可減少盲目試誤,幫助在有限的運算資源下做出較具資訊的決策。同時,應該留意資料是否已達飽和點;若處於資料受限區域,僅增加模型大小可能無法帶來顯著改善,此時考慮提升資料質量或多樣性會更為有效。
🔗 來源
- 標題:Scaling Laws, Carefully
- 作者/機構:Lilian Weng (OpenAI)
- 連結:https://lilianweng.github.io/posts/2026-06-24-scaling-laws/
#ScalingLaw #DeepLearning #ComputeAllocation #ModelSize #DatasetSize #TrainingLoss #PowerLaw #OpenAI #LLM #ResourcePlanning
由 google/gemma-4-31b-it:free 自動生成