2026-06-20 · 英伟达开始搞机器人自己研究机器人那套了…

📌 【NVIDIA 最新研究】讓 AI 扮演研究員：ENPIRE 框架實現機器人研究全自動化

TL;DR：NVIDIA 推出 ENPIRE 框架，讓 AI Agent 自行讀論文、調策略並在真機上迭代，無需人工干預即可優化機器人技能。

想像一下，研究員不再需要徹夜守在實驗室調整參數或手動復位設備，而是在隔天早上起床後，直接閱讀 AI 寫好的實驗報告，發現機器人的成功率已從 0% 飆升至 99%。

🤔 具身智能研究的痛點：現實世界沒有 env.reset()

在純軟體或模擬環境中，實驗失敗只需執行 env.reset() 即可重來。但在真實物理世界中，一次失敗可能導致物體歪斜、場景混亂甚至設備損壞。若每輪實驗仍需人工手動復位、記錄數據，AI Agent 便無法實現 24 小時不間斷的自我進化。

🧩 ENPIRE 框架：將物理實驗轉化為可調用的 API

NVIDIA 與 CMU、Berkeley 聯合推出的 ENPIRE 並非簡單地讓 AI 寫控制程式碼，而是一個讓 AI Agent 扮演「機器人研究員」的自動化實驗台（Harness Framework）。其核心設計將物理實驗流程標準化為四個模組：

EN (Environment) 環境模組：最關鍵的環節。負責搭建安全邊界、實現自動復位與自動評分，將現實世界轉化為可重複調用的環境。
PI (Policy Improvement) 策略改進：Agent 根據目標提出新方案，可嘗試行為克隆（Behavior Cloning）、強化學習（RL）、啟發式規則或多種方法混搭。
R (Rollout) 部署測試：將新策略部署至真實機器人執行，並記錄軌跡、影片與感測器信號。
E (Evolution) 進化：透過 8 個 Agent 分別控制 8 台雙臂機器人，利用 Git 共享程式碼，互相吸收有效方案並淘汰失敗路線。

整個閉環流程為：提出想法 $\rightarrow$ 訓練策略 $\rightarrow$ 真機測試 $\rightarrow$ 自動評分 $\rightarrow$ 總結經驗 $\rightarrow$ 再次迭代。

💡 如何克服物理世界的自動化挑戰？

為了讓實驗真正「跑起來」，ENPIRE 針對複雜任務設計了自動化機制：

自動復位：以 GPU 插拔任務為例，機器人需透過複雜的力控操作將 GPU 拔出並移至指定位置，以恢復初始狀態。
自動評分：在扎帶穿孔任務中，Agent 自行設計視覺檢測方案，利用頂部與側面兩個攝影機進行圖像分割，僅在雙視角同時確認成功後才判定為通過，檢測延遲被壓縮至 150 毫秒以內。

📊 3 小時內將成功率從 0% 拉到 99%

在最具代表性的「針插入 4 毫米孔洞」（Pin Insertion）任務中，ENPIRE 框架在完全無人類參與的情況下，僅用 3 小時就將成功率從 0% 提升至 99%。

🎯 實務啟示

ENPIRE 的核心價值在於將「物理環境的基礎設施」API 化。對於 AI 工程師而言，這意味著具身智能的開發邏輯正在從「手動調參」轉向「建構自動化實驗閉環」。只要能定義好安全邊界與自動評分標準，AI Agent 就能在現實世界中進行快速的試錯與演進。

🔗 來源

#NVIDIA #EmbodiedAI #Robotics #ENPIRE #AIagent #MachineLearning #Automation #ReinforcementLearning #ComputerVision #GPU

同來源相關文章