2026-06-20 · NVIDIA AI Introduce SpatialClaw: A Training-Free Agent That Treats Code as the Action Interface for Spatial Reasoning

📌 【NVIDIA 研究】SpatialClaw：將程式碼視為介面，解決 VLM 的空間推理痛點

TL;DR：NVIDIA 推出無需訓練的 SpatialClaw 框架，透過 Python 程式碼介面強化 VLM 的 3D 空間推理能力。

視覺語言模型 (VLM) 雖然強大，但在處理「物體在哪裡」、「物體間如何關聯」以及「3D 空間移動」等空間推理問題時，依然存在明顯弱點。NVIDIA Research 認為問題不在於模型本身需要重新訓練，而是在於 agent 與感知工具之間的「介面」成了效能瓶頸。

🤔 將程式碼作為行動介面，而非重新訓練模型

SpatialClaw 的核心設計理念是「Training-Free」。它不對模型進行權重更新，而是將 agent 的行動介面轉化為程式碼。透過將 agent 封裝在一個具備狀態的 Python kernel 中，讓模型能以呼叫 Python 函式的方式來操作感知工具，將感知結果直接轉化為 Python 變數進行運算。

🧩 基於 Python Kernel 的 Agent 運作架構

SpatialClaw 的運作流程是一個環繞在 Python kernel 周圍的 agent 迴圈，其內部結構如下：

環境準備：Kernel 預先載入輸入影像幀（frames）與一套基礎原語（primitives）。
六大進入點：
- InputImages：存放採樣後的影像幀。
- Metadata：包含幀率、時長與幀索引等資訊。
- tools：提供感知與幾何運算的基礎原語。
- show()：將影像嵌入到 agent 的下一次上下文（context）中。
- vlm：將查詢發送到獨立的 VLM 會話。
- ReturnAnswer()：提交最終答案。
核心感知工具：
- tools.Reconstruct：封裝 Depth Anything 3，提供每幀深度圖、相機內外參以及稠密點雲圖（dense point maps）。
- tools.SAM3：封裝 SAM 3，可根據文字、點或方框提示產生影像或影片遮罩（masks）。
輔助工具集：提供 Geometry、Mask、Time、Graph 與 Draw 等輕量化工具以協助計算。

📊 跨 20 個基準測試，效能提升 11.2%

研究團隊在涵蓋單張影像、多視角、通用、影片及 4D 等五大類別的 20 個基準測試中進行驗證。結果顯示：

SpatialClaw 的平均準確率達到 59.9%。
效能比之前的空間代理工具 SpaceTools 高出 11.2 個百分點。
該系統在所有測試中使用相同的系統提示詞（system prompt）、工具集與超參數，展現出極強的泛化能力。

🎯 實務啟示：介面設計可能比模型微調更關鍵

SpatialClaw 的成功證明了，對於複雜的空間推理任務，與其耗費資源進行模型 fine-tuning，不如思考如何優化 agent 呼叫工具的「介面」。將感知結果（如深度圖、遮罩）轉化為可程式化操作的變數，能讓 LLM/VLM 更好地利用其邏輯推理能力來解決幾何問題。

🔗 來源

標題：NVIDIA AI Introduce SpatialClaw: A Training-Free Agent That Treats Code as the Action Interface for Spatial Reasoning
作者／機構：Asif Razzaq
連結：https://www.marktechpost.com/2026/06/19/nvidia-ai-introduce-spatialclaw-a-training-free-agent-that-treats-code-as-the-action-interface-for-spatial-reasoning/

#NVIDIA #VLM #SpatialReasoning #SpatialClaw #ComputerVision #DepthAnything3 #SAM3 #Python #Agent #AI

同來源相關文章