GitHub Trending ★ 91 3 min

AlexsJones/llmfit

Rust

🔗 https://github.com/AlexsJones/llmfit

📌 不再盲目試錯:用 llmfit 精準匹配最適合你硬體的 LLM 模型

TL;DR:一個終端機工具,能自動偵測硬體並評分,幫你找出在現有記憶體與 GPU 上能順跑的最佳模型。

想在本地端跑 LLM,最痛苦的往往不是安裝,而是「猜測」:這個模型會不會 OOM(記憶體溢位)?量化到 4-bit 會不會太慢?為了測試而下載數個大模型卻發現跑不動,是許多開發者的日常。

🧩 自動偵測硬體,將模型「量身打造」給你的系統

llmfit 是一個終端機工具,旨在解決 LLM 模型與系統資源(RAM, CPU, GPU)之間的匹配問題。它不再讓使用者憑感覺選擇,而是透過以下流程提供建議:

  1. 硬體偵測:自動識別目前的系統資源。
  2. 多維度評分:針對每個模型在「品質 (Quality)」、「速度 (Speed)」、「適配度 (Fit)」與「上下文長度 (Context)」四個維度進行評分。
  3. 執行建議:直接告訴使用者哪些模型在目前的機器上能真正高效執行。

🛠️ 支援多種執行環境與動態配置

為了確保建議的實用性,llmfit 整合了豐富的技術支援:

  • 執行環境:支援 Ollama, llama.cpp, MLX, Docker Model Runner 與 LM Studio 等本地執行提供者。
  • 技術適配:支援多 GPU 設定、MoE (Mixture of Experts) 架構,並能進行動態量化選擇與速度估算。
  • 互動介面:預設提供互動式 TUI (Terminal User Interface),同時也提供經典的 CLI 模式。

📊 透過社群資料與模擬,消除效能預估誤差

為了縮短「預估效能」與「實際表現」之間的差距,llmfit 引入了以下功能:

  • 社群排行榜 (Community Leaderboard):透過 localmaxxing.com 提供真實使用者的資料,按下 b 鍵即可檢視不同 GPU 的實際 token/s、TTFT (首字延遲) 與 VRAM 佔用。
  • 硬體預設值與模擬:內建超過 27 組硬體預設(從 RTX 5090 到 Apple M1),按下 H 可比較資料,或按下 S 模擬不同硬體環境。
  • 進階管理:按下 D 可管理模型下載與路徑,按下 A 可調整 TPS 效率、執行模式因子及評分權重。

🎯 實務啟示

對於需要在本地端部署 LLM 的工程師,llmfit 提供了一個標準化的「硬體 $\rightarrow$ 模型」篩選工作流。在購買新 GPU 或配置伺服器前,先利用其硬體模擬與社群排行榜驗證,可以大幅降低實驗成本,避免在不適配的模型上浪費時間。

🔗 來源

#LLM #LocalLLM #GPU #OpenSource #TUI #Ollama #llama_cpp #MLX #HardwareOptimization #ModelDeployment

google/gemma-4-31b-it:free 自動生成