Lilian Weng (OpenAI) OpenAI ★ 93 3 min

Scaling Laws, Carefully

🔗 https://lilianweng.github.io/posts/2026-06-24-scaling-laws/

📌 Scaling Laws, Carefully:深入淺出解讀深度學習的經驗定律

TL;DR:本文整理 scaling law 的核心概念、常見擬合方法及其在計算資源分配上的實務參考。

🎣 隨著模型引數從百萬級躍升到千億級,訓練損失竟仍能用簡單的次方律預測?這背後的經驗法則正是 scaling law。

🧩 方法或架構
文章首先闡述 scaling law 的基本形式:訓練損失 L 隨著模型大小 N、資料量 D 與計算量 C 的增加,呈現可預測的次方曲線,在對數‑對數圖上顯示為直線。此關係可視為描述計算、損失、模型大小與資料之間的框架,核心在於如何在有限的計算預算下,最佳地分配給 N 與 D。

為了在實際操作中擬合這種關係,作者介紹了三種常見做法:

  1. 固定模型大小,變動 token 預算 – 保持 N 不變,改變 D(或等價的 token 數),觀察損失變化。
  2. IsoFLOP 曲線 – 在相同的總計算量 C 下,交叉變動 N 與 D,繪製等計算輪廓,以視覺化方式檢視損失隨資源分配的趨勢。
  3. 引數擬合 – 直接對收集到的 (N, D, L) 三元組進行次方函式擬合,獲取指數係數與截距,從而推匯出預測函式。

文章同時提及兩個具代表性的先驅工作:Kaplan et al. 的早期 scaling law 與後續提出的 Chinchilla scaling law,並說明它們分別適用於「資料無窮」與「資料受限」的情境。

📊 資料或結果
由於原文為概念性解說,未提供具體實驗數值或基準比較。文中僅指出,透過少量小規模執行的擬合結果,可外推估算較大模型所需的 token 數與計算量,這正是 scaling law 在實務規劃中的價值所在。

💡 深入分析
為何會呈現次方律?作者指出,這是一種經驗觀察:在深度學習的實際訓練過程中,損失隨資源的增加表現出規律的遞減趨勢,且在對數空間中近似線性。雖然理論推導仍在探索中,但其預測力已被廣泛用於決策大模型的訓練規模。

在資料受限的區域,擬合變得更為棘手,因為損失不再只受模型大小與計算量影響,資料的多樣性與品質開始主導效能。文章透過玩具模擬展示了在有限資料下,次方假設可能失效的情況,提醒讀者在擬合時需注意資料飽和點。

⚠️ 限制

  • 文章主要為理論敘述與方法說明,未給出實證基準或消融實驗,因此無法直接驗證所描述擬合方法在特定架構上的表現。
  • 縱使 scaling law 提供計算分配的指引,它仍是經驗規律,受模型家族、最佳化器與訓練技巧等因素影響,外推時需謹慎評估不確定性。

🎯 實務啟示
對於工程師而言,scaling law 提供了一種快速估算的工具:先在小規模上跑幾組實驗,利用上述三種擬合方式擬合出損失曲線,再依據預算反推所需的模型大小或資料量。這樣的流程可減少盲目試誤,幫助在有限的運算資源下做出較具資訊的決策。同時,應該留意資料是否已達飽和點;若處於資料受限區域,僅增加模型大小可能無法帶來顯著改善,此時考慮提升資料質量或多樣性會更為有效。

🔗 來源

#ScalingLaw #DeepLearning #ComputeAllocation #ModelSize #DatasetSize #TrainingLoss #PowerLaw #OpenAI #LLM #ResourcePlanning

google/gemma-4-31b-it:free 自動生成