Vision Language Action Models in Robotic Manipulation: A Systematic Review
Muhayy Ud Dina, Waseem Akrama, Lyes Saad Saouda, Jan Rosellb and Irfan Hussain
在圖10顯示 Open X-Embodiment (OXE) 數據集被視為具體化人工智慧(Embodied AI)與 VLA 模型發展的重要里程碑,它對機器人泛化能力的貢獻主要體現在以下幾個關鍵面向:
1. 提供大規模且極具多樣性的訓練資源
VLA模型的效能高度依賴數據的規模與多樣性。$\text{Open X-Embodiment}$ 透過匯集來自不同研究機構的數據,構建了一個前所未有的資源庫:
- 規模與技能: 包含超過 100 萬條機器人動作軌跡,涵蓋 500 多種不同的技能。
- 多樣化實體: 整合了來自 22 種不同機器人實體(Robot Embodiments)的數據。
- 多模態資訊: 提供同步的 $\text{RGB}$/深度影像、語言指令與動作向量,支援複雜的感測器融合策略。
2. 實現「跨機器人」與「跨實體」的泛化力
傳統機器人模型通常侷限於單一硬體,而 $\text{OXE}$ 透過**共享動作空間(Shared Action Space)**打破了這一限制。
- 跨實體遷移: 它允許模型在不同硬體架構(如不同的機械手臂)之間轉移學習到的知識。
- 預訓練基礎模型: 該數據集支撐了如 $\text{RT-1-X}$ 等基礎模型的預訓練,顯著增強了機器人在面對未見過的硬體配置時的適應能力($\text{Cross-robot Generalization}$)。
3. 推動通用型策略模型(Generalist Policies)的誕生
根據來源文獻,$\text{OXE}$ 是目前開發通用型機器人政策最常用的數據集。
- 零樣本泛化(Zero-Shot Generalization): 基於 $\text{OXE}$ 訓練的模型(如 $\text{RT-2}$、$\text{Octo}$、$\text{OpenVLA}$)在處理未見過的任務與環境時表現出色。
- 範例模型:
- $\text{RT-2}$: 在 $\text{OXE}$ 上進行協同微調,解鎖了強大的跨機器人零樣本遷移能力。
- $\text{Octo}$: 作為首個大規模擴散基礎通用策略,在 $\text{OXE}$ 的 22 個機器人平台上進行訓練,實現了從模擬到現實的強大遷移。
4. 定義高難度任務的基準測試標準
在 $\text{VLA}$ 數據集的基準評估中,$\text{OXE}$ 被歸類為少數能同時達成高任務複雜度與豐富模態的數據集。
- 規模化示範: 它為大規模、多技能的機器人演示提供了標準,成為評估模型是否具備解決現實世界複雜、長時程任務能力的黃金標準。
總結與比喻: 如果將傳統機器人訓練比作在「單一封閉賽道」練習,那麼 $\text{Open X-Embodiment}$ 就像是為機器人提供了一份**「全球道路百科全書」**。它不僅教導機器人如何開車,更讓機器人在學習過各類車型(不同實體)與路況(多樣任務)後,即便面對沒見過的車輛或未走過的道路(零樣本任務),也能憑藉廣博的經驗做出正確的判斷與動作。