量子位 ★ 83 3 min

英伟达开始搞机器人自己研究机器人那套了…

资讯机器人英伟达

🔗 https://www.qbitai.com/2026/06/437041.html

📌 【NVIDIA 最新研究】讓 AI 扮演研究員:ENPIRE 框架實現機器人研究全自動化

TL;DR:NVIDIA 推出 ENPIRE 框架,讓 AI Agent 自行讀論文、調策略並在真機上迭代,無需人工干預即可優化機器人技能。

想像一下,研究員不再需要徹夜守在實驗室調整參數或手動復位設備,而是在隔天早上起床後,直接閱讀 AI 寫好的實驗報告,發現機器人的成功率已從 0% 飆升至 99%。

🤔 具身智能研究的痛點:現實世界沒有 env.reset()

在純軟體或模擬環境中,實驗失敗只需執行 env.reset() 即可重來。但在真實物理世界中,一次失敗可能導致物體歪斜、場景混亂甚至設備損壞。若每輪實驗仍需人工手動復位、記錄數據,AI Agent 便無法實現 24 小時不間斷的自我進化。

🧩 ENPIRE 框架:將物理實驗轉化為可調用的 API

NVIDIA 與 CMU、Berkeley 聯合推出的 ENPIRE 並非簡單地讓 AI 寫控制程式碼,而是一個讓 AI Agent 扮演「機器人研究員」的自動化實驗台(Harness Framework)。其核心設計將物理實驗流程標準化為四個模組:

  • EN (Environment) 環境模組:最關鍵的環節。負責搭建安全邊界、實現自動復位與自動評分,將現實世界轉化為可重複調用的環境。
  • PI (Policy Improvement) 策略改進:Agent 根據目標提出新方案,可嘗試行為克隆(Behavior Cloning)、強化學習(RL)、啟發式規則或多種方法混搭。
  • R (Rollout) 部署測試:將新策略部署至真實機器人執行,並記錄軌跡、影片與感測器信號。
  • E (Evolution) 進化:透過 8 個 Agent 分別控制 8 台雙臂機器人,利用 Git 共享程式碼,互相吸收有效方案並淘汰失敗路線。

整個閉環流程為:提出想法 $\rightarrow$ 訓練策略 $\rightarrow$ 真機測試 $\rightarrow$ 自動評分 $\rightarrow$ 總結經驗 $\rightarrow$ 再次迭代。

💡 如何克服物理世界的自動化挑戰?

為了讓實驗真正「跑起來」,ENPIRE 針對複雜任務設計了自動化機制:

  • 自動復位:以 GPU 插拔任務為例,機器人需透過複雜的力控操作將 GPU 拔出並移至指定位置,以恢復初始狀態。
  • 自動評分:在扎帶穿孔任務中,Agent 自行設計視覺檢測方案,利用頂部與側面兩個攝影機進行圖像分割,僅在雙視角同時確認成功後才判定為通過,檢測延遲被壓縮至 150 毫秒以內。

📊 3 小時內將成功率從 0% 拉到 99%

在最具代表性的「針插入 4 毫米孔洞」(Pin Insertion)任務中,ENPIRE 框架在完全無人類參與的情況下,僅用 3 小時就將成功率從 0% 提升至 99%。

🎯 實務啟示

ENPIRE 的核心價值在於將「物理環境的基礎設施」API 化。對於 AI 工程師而言,這意味著具身智能的開發邏輯正在從「手動調參」轉向「建構自動化實驗閉環」。只要能定義好安全邊界與自動評分標準,AI Agent 就能在現實世界中進行快速的試錯與演進。

🔗 來源

#NVIDIA #EmbodiedAI #Robotics #ENPIRE #AIagent #MachineLearning #Automation #ReinforcementLearning #ComputerVision #GPU

google/gemma-4-31b-it:free 自動生成