2026-06-13 · HyperTool: Beyond Step-Wise Tool Calls for Tool-Augmented Agents

📌 【新研究】別再讓 LLM 處理瑣碎的工具呼叫：HyperTool 重新定義 Agent 的執行粒度

目前的 LLM Agent 在使用工具時，大多採取「步驟級 (Step-wise)」的呼叫模式：呼叫一個工具 $\rightarrow$ 獲取結果 $\rightarrow$ 將結果傳回推理鏈 $\rightarrow$ 再決定下一個工具。這種模式導致了一個嚴重的「執行粒度不匹配 (Execution-granularity mismatch)」問題。

🤔 瑣碎的工具鏈，正在浪費 LLM 的上下文空間

在現有的框架中，即使是一個邏輯上確定的工具工作流，也會被展開成多次模型可見的決策過程。這意味著 LLM 必須在推理鏈中管理低階的數據流（Dataflow），不僅消耗大量 Context Window，更強迫模型將寶貴的推理能力花在處理「如何傳遞參數」這種瑣碎的執行細節上，而非專注於高階的任務規劃。

🧪 將確定性子程序「摺疊」進單次呼叫

為了解決這個問題，研究團隊提出了 HyperTool。其核心理念是改變模型可見的執行單位：

不再是一次呼叫一個原子工具，而是讓模型直接調用一個「可執行的程式碼區塊 (Code Block)」。在這個區塊內，模型可以：

根據原始 Schema 呼叫多個現有工具。
在本地端操作回傳值。
將中間結果直接傳遞給下一個工具。

簡單來說，HyperTool 將原本需要多次往返的確定性子程序 (Deterministic subroutines)，摺疊成一次對外的呼叫。

🚀 準確率大幅提升，Qwen3 表現驚人

研究團隊在 MCP-Universe 環境中對 Qwen3 系列模型進行測試，結果顯示這種「粒度調整」帶來了顯著的效能提升：

Qwen3-32B：平均準確率從 15.69% $\rightarrow$ 35.29%
Qwen3-8B：平均準確率從 9.93% $\rightarrow$ 33.33%

值得注意的是，HyperTool 的表現甚至超越了 GPT-OSS 與 Kimi-k2.5 的平均準確率，證明了將低階數據流從推理鏈中抽離，能有效提升模型處理多步驟工具使用的能力。

💡 從「逐步指示」轉向「定義工作流」

這項研究揭示了一個關鍵洞察：LLM 不需要參與每一個確定性的數據傳遞步驟。

當我們將「工具呼叫」從單一原子操作升級為「可執行的邏輯塊」，模型的角色從一個「逐步操作員」變成了「工作流定義者」。這種設計減少了推理鏈的雜訊，讓模型能以更高層級的視角來規劃複雜任務，從而降低出錯率。

⚠️ 依賴合成軌跡訓練與特定環境驗證

本研究的成效建立在透過跨工具組合任務合成的 HyperTool 格式軌跡 (Trajectories) 進行訓練，並在 MCP 環境中驗證。對於不同類型的工具集或非 MCP 規範的環境，其泛化能力仍有待進一步探討。

🎯 工程實踐建議：簡化推理鏈，提升 Agent 穩定度

對於正在開發 Agent 的工程師，這項研究提供了一個重要的優化方向：

減少往返次數：檢查你的 Agent 是否在處理大量重複且確定的工具傳遞？
封裝確定性邏輯：嘗試將多個原子工具封裝成一個複合式接口 (Composite Interface)，減少模型在推理鏈中處理低階數據流的壓力。
關注 MCP 規範：HyperTool 採用 MCP-style 介面，建議關注 Model Context Protocol 的實作，以提升工具整合的效率。

🔗 論文連結 📝 HyperTool: Beyond Step-Wise Tool Calls for Tool-Augmented Agents 👤 Yaxin Du, Yifan Zhou, Yujie Ge, Jiajun Wang, Xianghe Pang 🔗 論文：http://arxiv.org/abs/2606.13663v1

你認為讓 AI 寫 Code Block 來調用工具，會比傳統的 Step-by-step 呼叫更穩定嗎？歡迎在評論區討論 👇

#AI #LLM #Agent #MCP #HyperTool #Qwen3 #工具增強 #軟體工程

同來源相關文章