2026-06-08 · Andyyyy64/whichllm

📌 【GitHub Trending】本地部署 LLM 該選哪個？用 whichllm 自動匹配最適合你的硬體

想要在本地跑 LLM，但面對 HuggingFace 上成千上萬個模型，最頭痛的不是選哪個模型，而是「我的顯存到底跑得動哪個？」

很多人的經驗是：下載了一個 70B 的模型，結果跑起來慢到像幻燈片，或者直接 OOM (Out of Memory) 崩潰。這讓本地部署變成了一場昂貴且耗時的「試錯遊戲」。

🤔 「能跑」不代表「最優」，大小並非唯一指標

大多數的推薦工具只告訴你什麼模型「塞得進」你的顯存，但這會導致一個誤區：只要顯存夠，就選最大的模型。然而，模型的大小與實際表現（Benchmark 分數）以及推理速度 (t/s) 之間存在著複雜的 Trade-off。

一個較小的新一代模型，其性能可能遠超舊的大模型，且速度更快。因此，我們需要一個能同時考慮「硬體限制」、「模型性能」與「推理效率」的導航工具。

🧪 自動偵測硬體，將 HuggingFace 模型量化排名

whichllm 是一個專為解決此痛點而設計的 CLI 工具。它不只是簡單的尺寸對比，而是透過以下邏輯為你篩選：

🚀 不再盲目追求大模型，用數據決定選擇

從工具的輸出結果可以看到一個關鍵洞察：即便 32B 的模型能塞進顯卡，但 whichllm 仍將 27B 模型排在第一。

原因在於：27B 模型在真實基準測試中得分更高且屬於更新一代。這證明了該工具的核心邏輯是「性能優先」而非「尺寸優先」，避免使用者為了追求參數規模而犧牲實際的輸出品質與速度。

🛠️ 從模擬到部署，極簡的 CLI 工作流

這款工具提供了非常靈活的實作路徑，適合不同需求的開發者：

⚠️ 依賴於外部 Benchmark 數據，即時性取決於數據源

由於該工具是基於模型評分與硬體規格進行排名，其推薦結果的準確性高度依賴於其背後對 HuggingFace 數據的索引與評分基準。對於極新或非常冷門的量化版本，建議仍需參考官方量化報告。

🎯 本地部署建議：先規劃、再選擇、後部署

對於想嘗試本地 LLM 的工程師，建議的實踐路徑：

🔗 專案連結 📝 whichllm: Find the best local LLM that actually runs on your hardware. 👤 Andyyyy64 🔗 GitHub: https://github.com/Andyyyy64/whichllm

你目前本地部署最常用的模型是什麼？在選擇模型時，你更在意參數大小還是推理速度？歡迎在下方討論 👇

#LLM #LocalLLM #HuggingFace #GPU #OpenSource #whichllm #AI部署 #工程師工具

同來源相關文章