GitHub Trending ★ 80 3 min

EricLBuehler/mistral.rs

Rust

🔗 https://github.com/EricLBuehler/mistral.rs

📌 用 Rust 重寫 LLM 推論:mistral.rs 實現高效 CUDA 支援與多模態整合

TL;DR:一個用 Rust 實作的 LLM 推論框架,提供高效 CUDA 最佳化、多模態支援及 OpenAI/Anthropic 相容 API。

當大多數 LLM 推論框架依賴 Python 與 C++ 混合開發時,使用 Rust 重新實作能帶來更好的記憶體安全與效能潛力。mistral.rs 正是將這種效能追求推向極限,不僅支援多模態輸入,更在硬體加速上展現出顯著優勢。

🧩 高效能 CUDA 最佳化與硬體支援

在 v0.8.2 版本中,mistral.rs 針對 NVIDIA 高階 GPU 進行了深度最佳化,包含:

  • 導入 CUDA graphs、FlashInfer paged kernels 以及 MoE (Mixture of Experts) 最佳化。
  • 針對 GB10、B200 與 H100 SXM 等硬體提供強大的效能表現。
  • 實作 Paged Attention、Prefix Caching 與 ISQ 等關鍵推論技術。

📊 推論速度對比:領先 llama.cpp 兩倍以上

根據 v0.8.2 的基準測試,在 Gemma 4 E4B 模型與 Q8 量化設定下,mistral.rs 的 Prefill TPS (Tokens Per Second) 顯著高於 llama.cpp:

  • 在 GB10 硬體上:mistral.rs 達到 7395.7 TPS,而 llama.cpp 為 3973.7 TPS。
  • 在 B200 硬體上:mistral.rs 的表現達到 27705.6 TPS。

🧩 全方位的多模態與 Agentic 執行環境

除了純文字生成,mistral.rs 提供了豐富的功能整合以支援複雜的 AI 工作流:

  • 多模態支援:支援 Gemma 4 等模型,可處理文字、影像、影片與音訊輸入。
  • Agentic Runtime:內建網頁搜尋、本地 Python 程式碼執行、Shell 執行、Session 管理以及自定義工具鉤子 (custom tool hooks)。
  • 擴充能力:支援上傳 OpenAI 相容的 Skills bundles 與檔案,可用於可重複使用的程序、輔助腳本或本地數據。

💡 高度相容的 API 與 SDK 整合

為了降低開發者的遷移成本,mistral.rs 在介面上採取了高度相容策略:

  • 雙 API 支援:mistralrs serve 同時提供 OpenAI 相容的 /v1 API 以及 Anthropic 相容的 /v1/messages/v1/messages/count_tokens 端點。
  • 靈活開發:提供 Rust SDK 與 Python SDK 兩種選擇,方便不同背景的工程師快速整合。

🎯 實務啟示

對於追求極致推論效能或需要部署在 B200/H100 等頂級 GPU 的工程師,mistral.rs 提供了一個比傳統 GGUF 方案更高效的替代方案。其對多模態與 Agentic runtime 的內建支援,使其不僅是一個推論引擎,更像是一個可直接部署的 AI 代理執行環境。

🔗 來源

#Rust #LLM #CUDA #Gemma4 #Inference #OpenAI #Anthropic #MultiModal #GPU #MachineLearning

google/gemma-4-31b-it:free 自動生成