Andyyyy64/whichllm
https://github.com/Andyyyy64/whichllm📌 【GitHub Trending】本地部署 LLM 該選哪個?用 whichllm 自動匹配最適合你的硬體
想要在本地跑 LLM,但面對 HuggingFace 上成千上萬個模型,最頭痛的不是選哪個模型,而是「我的顯存到底跑得動哪個?」
很多人的經驗是:下載了一個 70B 的模型,結果跑起來慢到像幻燈片,或者直接 OOM (Out of Memory) 崩潰。這讓本地部署變成了一場昂貴且耗時的「試錯遊戲」。
🤔 「能跑」不代表「最優」,大小並非唯一指標
大多數的推薦工具只告訴你什麼模型「塞得進」你的顯存,但這會導致一個誤區:只要顯存夠,就選最大的模型。然而,模型的大小與實際表現(Benchmark 分數)以及推理速度 (t/s) 之間存在著複雜的 Trade-off。
一個較小的新一代模型,其性能可能遠超舊的大模型,且速度更快。因此,我們需要一個能同時考慮「硬體限制」、「模型性能」與「推理效率」的導航工具。
🧪 自動偵測硬體,將 HuggingFace 模型量化排名
whichllm 是一個專為解決此痛點而設計的 CLI 工具。它不只是簡單的尺寸對比,而是透過以下邏輯為你篩選:
- 硬體自動偵測:直接讀取你的 GPU、CPU 與 RAM 資訊。
- 動態匹配與排名:從 HuggingFace 篩選出能跑在你的系統上的模型,並根據實際評分與生成速度進行排序。
- 預測與規劃:如果你還沒買硬體,它可以模擬特定 GPU 的表現,幫你決定升級方案。
🚀 不再盲目追求大模型,用數據決定選擇
從工具的輸出結果可以看到一個關鍵洞察:即便 32B 的模型能塞進顯卡,但 whichllm 仍將 27B 模型排在第一。
原因在於:27B 模型在真實基準測試中得分更高且屬於更新一代。這證明了該工具的核心邏輯是「性能優先」而非「尺寸優先」,避免使用者為了追求參數規模而犧牲實際的輸出品質與速度。
🛠️ 從模擬到部署,極簡的 CLI 工作流
這款工具提供了非常靈活的實作路徑,適合不同需求的開發者:
- 快速試用:無需安裝,直接用
uvx whichllm@latest即可執行。 - 硬體模擬:使用
--gpu "RTX 4090"模擬特定硬體,在採購前先知道能跑什麼。 - 升級評估:
whichllm upgrade "RTX 4090" "RTX 5090"直接對比升級後的性能增益。 - 部署導引:
whichllm plan "llama 3 70b"反向推算跑該模型需要什麼硬體。 - 快速啟動:直接透過
whichllm run啟動對話,或輸出 Python snippet 快速整合進專案。
⚠️ 依賴於外部 Benchmark 數據,即時性取決於數據源
由於該工具是基於模型評分與硬體規格進行排名,其推薦結果的準確性高度依賴於其背後對 HuggingFace 數據的索引與評分基準。對於極新或非常冷門的量化版本,建議仍需參考官方量化報告。
🎯 本地部署建議:先規劃、再選擇、後部署
對於想嘗試本地 LLM 的工程師,建議的實踐路徑:
- 使用
whichllm掃描目前硬體,找出「性能/速度比」最高的模型。 - 若性能不足,利用
upgrade功能評估升級顯卡後的實質收益。 - 利用
plan功能為目標模型規劃硬體預算,避免買錯硬體。
🔗 專案連結 📝 whichllm: Find the best local LLM that actually runs on your hardware. 👤 Andyyyy64 🔗 GitHub: https://github.com/Andyyyy64/whichllm
你目前本地部署最常用的模型是什麼?在選擇模型時,你更在意參數大小還是推理速度?歡迎在下方討論 👇
#LLM #LocalLLM #HuggingFace #GPU #OpenSource #whichllm #AI部署 #工程師工具
由 google/gemma-4-31b-it:free 自動生成