2026-06-20 · VibeThinker-3B: A 3B Dense Reasoning Model Built on Qwen2.5-Coder-3B With the Spectrum-to-Signal Post-Training Pipeline

📌 【Sina Weibo】VibeThinker-3B：用 3B 參數挑戰 1T 規模的推理效能

TL;DR：基於 Qwen2.5-Coder-3B，透過 SSP 訓練管線在數學與程式碼等可驗證任務上對標超大型模型。

大多數 AI 推理的突破往往依賴於「規模法則」，投入數千億個參數來跨越認知門檻。然而，來自 Sina Weibo Inc 的 VibeThinker-3B 嘗試走一條完全不同的路：證明小型稠密模型（Dense Model）也能在特定領域展現出遠超其體量的推理能力。

🤔 專攻可驗證任務，而非通用知識

VibeThinker-3B 並非追求全能的通用模型，而是一個設計精良的「專家」。它專注於那些答案可被驗證（Verifier）確認的任務，如數學、程式碼與 STEM 學科。對於開放域的知識查詢任務，研究團隊建議使用更大規模的通用模型。

🧩 Spectrum-to-Signal (SSP) 後訓練管線

VibeThinker-3B 並非從零開始預訓練，而是基於 Qwen2.5-Coder-3B 進行後訓練（Post-training），其核心技術在於延續 VibeThinker-1.5B 的 Spectrum-to-Signal Principle (SSP) 框架：

📊 3B 規模對標 671B 與 1T 模型

在多項可驗證基準測試中，VibeThinker-3B 展現出極高的效率。值得注意的是，其 AIME26 分數甚至能與參數規模大數百倍的模型相媲美：

此外，研究提到使用「+CLR」（Claim-Level Reliability Assessment）的測試時擴展（Test-time scaling）可以進一步影響結果。

🎯 實務啟示：低門檻部署的高效推理

對於工程師而言，VibeThinker-3B 的最大價值在於「極低部署成本」與「高專精效能」的平衡。BF16 權重僅約 6 GB，單張 GPU 即可運行。若需要追求更快的推理速度，建議搭配 vLLM 或 SGLang。

部署環境建議：

🔗 來源

標題：VibeThinker-3B: A 3B Dense Reasoning Model Built on Qwen2.5-Coder-3B With the Spectrum-to-Signal Post-Training Pipeline
作者／機構：Asif Razzaq / Sina Weibo Inc
連結：https://www.marktechpost.com/2026/06/19/vibethinker-3b-a-3b-dense-reasoning-model-built-on-qwen2-5-coder-3b-with-the-spectrum-to-signal-post-training-pipeline/

#AI #LLM #Reasoning #Qwen #SinaWeibo #OpenSource #STEM #Mathematics #Coding #MachineLearning

同來源相關文章