AlexsJones/llmfit
https://github.com/AlexsJones/llmfit📌 不再盲目試錯:用 llmfit 精準匹配最適合你硬體的 LLM 模型
TL;DR:一個終端機工具,能自動偵測硬體並評分,幫你找出在現有記憶體與 GPU 上能順跑的最佳模型。
想在本地端跑 LLM,最痛苦的往往不是安裝,而是「猜測」:這個模型會不會 OOM(記憶體溢位)?量化到 4-bit 會不會太慢?為了測試而下載數個大模型卻發現跑不動,是許多開發者的日常。
🧩 自動偵測硬體,將模型「量身打造」給你的系統
llmfit 是一個終端機工具,旨在解決 LLM 模型與系統資源(RAM, CPU, GPU)之間的匹配問題。它不再讓使用者憑感覺選擇,而是透過以下流程提供建議:
- 硬體偵測:自動識別目前的系統資源。
- 多維度評分:針對每個模型在「品質 (Quality)」、「速度 (Speed)」、「適配度 (Fit)」與「上下文長度 (Context)」四個維度進行評分。
- 執行建議:直接告訴使用者哪些模型在目前的機器上能真正高效執行。
🛠️ 支援多種執行環境與動態配置
為了確保建議的實用性,llmfit 整合了豐富的技術支援:
- 執行環境:支援 Ollama, llama.cpp, MLX, Docker Model Runner 與 LM Studio 等本地執行提供者。
- 技術適配:支援多 GPU 設定、MoE (Mixture of Experts) 架構,並能進行動態量化選擇與速度估算。
- 互動介面:預設提供互動式 TUI (Terminal User Interface),同時也提供經典的 CLI 模式。
📊 透過社群資料與模擬,消除效能預估誤差
為了縮短「預估效能」與「實際表現」之間的差距,llmfit 引入了以下功能:
- 社群排行榜 (Community Leaderboard):透過 localmaxxing.com 提供真實使用者的資料,按下
b鍵即可檢視不同 GPU 的實際 token/s、TTFT (首字延遲) 與 VRAM 佔用。 - 硬體預設值與模擬:內建超過 27 組硬體預設(從 RTX 5090 到 Apple M1),按下
H可比較資料,或按下S模擬不同硬體環境。 - 進階管理:按下
D可管理模型下載與路徑,按下A可調整 TPS 效率、執行模式因子及評分權重。
🎯 實務啟示
對於需要在本地端部署 LLM 的工程師,llmfit 提供了一個標準化的「硬體 $\rightarrow$ 模型」篩選工作流。在購買新 GPU 或配置伺服器前,先利用其硬體模擬與社群排行榜驗證,可以大幅降低實驗成本,避免在不適配的模型上浪費時間。
🔗 來源
- 標題:llmfit
- 作者/機構:AlexsJones
- 連結:https://github.com/AlexsJones/llmfit
#LLM #LocalLLM #GPU #OpenSource #TUI #Ollama #llama_cpp #MLX #HardwareOptimization #ModelDeployment
由 google/gemma-4-31b-it:free 自動生成