2026-06-25 · Scaling Laws, Carefully

📌 Scaling Laws, Carefully：深入淺出解讀深度學習的經驗定律

TL;DR：本文整理 scaling law 的核心概念、常見擬合方法及其在計算資源分配上的實務參考。

🎣 隨著模型引數從百萬級躍升到千億級，訓練損失竟仍能用簡單的次方律預測？這背後的經驗法則正是 scaling law。

🧩 方法或架構
文章首先闡述 scaling law 的基本形式：訓練損失 L 隨著模型大小 N、資料量 D 與計算量 C 的增加，呈現可預測的次方曲線，在對數‑對數圖上顯示為直線。此關係可視為描述計算、損失、模型大小與資料之間的框架，核心在於如何在有限的計算預算下，最佳地分配給 N 與 D。

為了在實際操作中擬合這種關係，作者介紹了三種常見做法：

固定模型大小，變動 token 預算 – 保持 N 不變，改變 D（或等價的 token 數），觀察損失變化。
IsoFLOP 曲線 – 在相同的總計算量 C 下，交叉變動 N 與 D，繪製等計算輪廓，以視覺化方式檢視損失隨資源分配的趨勢。
引數擬合 – 直接對收集到的 (N, D, L) 三元組進行次方函式擬合，獲取指數係數與截距，從而推匯出預測函式。

文章同時提及兩個具代表性的先驅工作：Kaplan et al. 的早期 scaling law 與後續提出的 Chinchilla scaling law，並說明它們分別適用於「資料無窮」與「資料受限」的情境。

📊 資料或結果
由於原文為概念性解說，未提供具體實驗數值或基準比較。文中僅指出，透過少量小規模執行的擬合結果，可外推估算較大模型所需的 token 數與計算量，這正是 scaling law 在實務規劃中的價值所在。

💡 深入分析
為何會呈現次方律？作者指出，這是一種經驗觀察：在深度學習的實際訓練過程中，損失隨資源的增加表現出規律的遞減趨勢，且在對數空間中近似線性。雖然理論推導仍在探索中，但其預測力已被廣泛用於決策大模型的訓練規模。

在資料受限的區域，擬合變得更為棘手，因為損失不再只受模型大小與計算量影響，資料的多樣性與品質開始主導效能。文章透過玩具模擬展示了在有限資料下，次方假設可能失效的情況，提醒讀者在擬合時需注意資料飽和點。

⚠️ 限制

文章主要為理論敘述與方法說明，未給出實證基準或消融實驗，因此無法直接驗證所描述擬合方法在特定架構上的表現。
縱使 scaling law 提供計算分配的指引，它仍是經驗規律，受模型家族、最佳化器與訓練技巧等因素影響，外推時需謹慎評估不確定性。

🎯 實務啟示
對於工程師而言，scaling law 提供了一種快速估算的工具：先在小規模上跑幾組實驗，利用上述三種擬合方式擬合出損失曲線，再依據預算反推所需的模型大小或資料量。這樣的流程可減少盲目試誤，幫助在有限的運算資源下做出較具資訊的決策。同時，應該留意資料是否已達飽和點；若處於資料受限區域，僅增加模型大小可能無法帶來顯著改善，此時考慮提升資料質量或多樣性會更為有效。

🔗 來源

標題：Scaling Laws, Carefully
作者／機構：Lilian Weng (OpenAI)
連結：https://lilianweng.github.io/posts/2026-06-24-scaling-laws/

#ScalingLaw #DeepLearning #ComputeAllocation #ModelSize #DatasetSize #TrainingLoss #PowerLaw #OpenAI #LLM #ResourcePlanning