GitHub Trending ★ 96 4 min

Andyyyy64/whichllm

Python

🔗 https://github.com/Andyyyy64/whichllm

📌 【GitHub Trending】本地部署 LLM 該選哪個?用 whichllm 自動匹配最適合你的硬體

想要在本地跑 LLM,但面對 HuggingFace 上成千上萬個模型,最頭痛的不是選哪個模型,而是「我的顯存到底跑得動哪個?」

很多人的經驗是:下載了一個 70B 的模型,結果跑起來慢到像幻燈片,或者直接 OOM (Out of Memory) 崩潰。這讓本地部署變成了一場昂貴且耗時的「試錯遊戲」。

🤔 「能跑」不代表「最優」,大小並非唯一指標

大多數的推薦工具只告訴你什麼模型「塞得進」你的顯存,但這會導致一個誤區:只要顯存夠,就選最大的模型。然而,模型的大小與實際表現(Benchmark 分數)以及推理速度 (t/s) 之間存在著複雜的 Trade-off。

一個較小的新一代模型,其性能可能遠超舊的大模型,且速度更快。因此,我們需要一個能同時考慮「硬體限制」、「模型性能」與「推理效率」的導航工具。

🧪 自動偵測硬體,將 HuggingFace 模型量化排名

whichllm 是一個專為解決此痛點而設計的 CLI 工具。它不只是簡單的尺寸對比,而是透過以下邏輯為你篩選:

  1. 硬體自動偵測:直接讀取你的 GPU、CPU 與 RAM 資訊。
  2. 動態匹配與排名:從 HuggingFace 篩選出能跑在你的系統上的模型,並根據實際評分與生成速度進行排序。
  3. 預測與規劃:如果你還沒買硬體,它可以模擬特定 GPU 的表現,幫你決定升級方案。

🚀 不再盲目追求大模型,用數據決定選擇

從工具的輸出結果可以看到一個關鍵洞察:即便 32B 的模型能塞進顯卡,但 whichllm 仍將 27B 模型排在第一。

原因在於:27B 模型在真實基準測試中得分更高且屬於更新一代。這證明了該工具的核心邏輯是「性能優先」而非「尺寸優先」,避免使用者為了追求參數規模而犧牲實際的輸出品質與速度。

🛠️ 從模擬到部署,極簡的 CLI 工作流

這款工具提供了非常靈活的實作路徑,適合不同需求的開發者:

  • 快速試用:無需安裝,直接用 uvx whichllm@latest 即可執行。
  • 硬體模擬:使用 --gpu "RTX 4090" 模擬特定硬體,在採購前先知道能跑什麼。
  • 升級評估whichllm upgrade "RTX 4090" "RTX 5090" 直接對比升級後的性能增益。
  • 部署導引whichllm plan "llama 3 70b" 反向推算跑該模型需要什麼硬體。
  • 快速啟動:直接透過 whichllm run 啟動對話,或輸出 Python snippet 快速整合進專案。

⚠️ 依賴於外部 Benchmark 數據,即時性取決於數據源

由於該工具是基於模型評分與硬體規格進行排名,其推薦結果的準確性高度依賴於其背後對 HuggingFace 數據的索引與評分基準。對於極新或非常冷門的量化版本,建議仍需參考官方量化報告。

🎯 本地部署建議:先規劃、再選擇、後部署

對於想嘗試本地 LLM 的工程師,建議的實踐路徑:

  1. 使用 whichllm 掃描目前硬體,找出「性能/速度比」最高的模型。
  2. 若性能不足,利用 upgrade 功能評估升級顯卡後的實質收益。
  3. 利用 plan 功能為目標模型規劃硬體預算,避免買錯硬體。

🔗 專案連結 📝 whichllm: Find the best local LLM that actually runs on your hardware. 👤 Andyyyy64 🔗 GitHub: https://github.com/Andyyyy64/whichllm

你目前本地部署最常用的模型是什麼?在選擇模型時,你更在意參數大小還是推理速度?歡迎在下方討論 👇

#LLM #LocalLLM #HuggingFace #GPU #OpenSource #whichllm #AI部署 #工程師工具

google/gemma-4-31b-it:free 自動生成