GitHub Trending ★ 102 3 min

THUDM/slime

Python

🔗 https://github.com/THUDM/slime

📌 【THUDM 開源】slime:支撐 GLM 系列模型的 RL 後訓練框架

TL;DR:結合 Megatron 與 SGLang,提供高效能訓練與靈活數據生成的 RL Scaling 框架。

在強化學習(RL)的後訓練過程中,開發者經常面臨一個痛點:訓練器、Rollout 服務與 Agent 框架之間彼此脫節,導致系統變成一堆沉重的獨立組件,維護與除錯極其困難。

🧩 將訓練與 Rollout 整合在同一路徑

slime 的設計核心在於打破碎片化,將 Megatron 的訓練能力與 SGLang 的推論能力深度整合。其設計目標是讓「高效能訓練」與「靈活數據生成」相互強化,而非僅僅是工具的堆疊。

在 slime 的架構中,以下流程全部流經同一條「訓練 / Rollout / Data Buffer」路徑:

  • Megatron 訓練
  • SGLang Rollout
  • 自定義數據生成
  • 獎勵計算 (Reward Computation)
  • 驗證器回饋 (Verifier Feedback)
  • 環境互動 (Environment Interaction)

🚀 高效能訓練與靈活的數據生成

  • 高效能訓練:透過連接 Megatron 與 SGLang,支持多種模式下的高效能訓練。
  • 靈活數據生成:提供自定義的數據生成介面與基於伺服器的引擎,允許開發者建立任意的訓練數據生成工作流。

💡 經由 GLM 系列模型驗證的實戰能力

slime 並非僅提供單一範例,而是一個經過完整訓練迴路驗證的框架。它直接支撐了多個 SOTA 等級模型的發布,包括:

  • GLM-5.2、GLM-5.1、GLM-5
  • GLM-4.7、GLM-4.6、GLM-4.5

📊 以「正確性」為優先的基礎設施

由於 RL 的 Bug 往往是「靜默」的(不報錯但效果不佳),slime 在工程實踐上採取以下策略:

  • 明確的數據流:保持 Dataflow 透明,降低除錯難度。
  • 獨立除錯路徑:支持單獨的 Rollout-only 與 Train-only 除錯模式。
  • 工程化優先:將可再現性 (Reproducibility)、容錯能力 (Fault Tolerance)、追蹤 (Tracing)、效能分析 (Profiling) 與 CI 視為一等公民。

🎯 實務啟示

對於需要進行 RL Scaling 的工程師來說,slime 提供了一個「體量適中」且「經過實戰驗證」的參考實現。它證明了將訓練與推論路徑統一能有效降低系統複雜度,對於追求模型穩定性與開發效率的團隊具有高度參考價值。

🔗 來源

#RL #PostTraining #LLM #Megatron #SGLang #GLM #ReinforcementLearning #MachineLearning #OpenSource #THUDM

google/gemma-4-31b-it:free 自動生成