12/24/25

VLA : IEEE Access 的論文(3)

 Vision-Language-Action Models for Robotics: A Review Towards Real-World Applications

Kento Kawaharazuka, Jihoon Oh, Jun Yamada, Ingmar Posner, and Yuke Zhu



根據來源文獻中 FIGURE 3 的架構圖,視覺-語言-動作(VLA)模型的關鍵組成可分為左、中、右三個核心部分,各司其職並共同構成機器人的智能系統。以下是針對這三部分的腳色闡述,以及關於資料收集與訓練的關鍵觀點:

一、 VLA 模型的三大關鍵組成

  1. 左側:模態處理 (Input & Output Modalities) —— 「感官感知與動作輸出」

    • 扮演腳色: 負責接收環境資訊並產生控制訊號。
    • 核心模態: 包含視覺 (Vision)(如 RGB 圖像)、語言 (Language)(人類指令)與動作 (Action)(控制命令)。
    • 輔助模態: 為了增強感知,現代模型常加入音訊 (Audio)觸覺 (Tactile) 以及 3D 資訊(深度圖、點雲或體素表示),提供更精確的空間理解。
  2. 中間:核心架構類型 (Core Architectural Types) —— 「決策與推理大腦」

    • 扮演腳色: 這是模型的邏輯核心,決定如何整合感官資訊與任務目標。
    • 感知運動模型 (Sensorimotor Models): 直接將視覺與語言映射到動作,追求端到端的直覺反應。
    • 世界模型 (World Models): 具備前向預測能力,預測未來觀察(如影像演變)來引導規劃。
    • 可供性模型 (Affordance-based Models): 預測環境中的動作可能性(如物體抓取點或約束條件),再據此產生動作。
  3. 右側:學習範式與實作 (Training Strategies) —— 「知識獲取與效能優化」

    • 扮演腳色: 決定模型如何從數據中學習,以及在現實中如何部署。
    • 學習策略: 包含監督式學習 (Supervised Learning)(模仿專家示範)、自我監督學習 (Self-Supervised Learning)(模態對齊與表徵學習)及強化學習 (Reinforcement Learning)(透過獎勵訊號優化鲁棒性)。
    • 實作考量: 涉及推理延遲優化(如 LoRA 或梯度隔離)及實時執行策略。

二、 機器人資料收集的應用觀點

資料收集是 VLA 成功的基石,文獻指出幾種主要的實務策略:

  • 遙操作 (Teleoperation): 透過人類直接控制機器人記錄高品質動作軌跡,如 ALOHA 框架,這是目前許多資料集的基礎。
  • 代理設備 (Proxy Devices): 為了降低成本與擴大數據量,使用如 $\text{UMI}$(手持夾具) 或數據手套等設備收集數據,隨後再映射至機器人身上。
  • 人類影片數據: 利用大規模的人類日常影片(如 Ego4D)進行預訓練。這通常需要配合潛在動作學習 (Latent Action Learning),因為人類影片缺乏明確的機器人控制標籤。
  • 自動化標註: 使用 VLM(如 Gemini)自動為原始機器人操作影片生成語言註釋,以減少高昂的人工標註成本。

三、 VLA  訓練的關鍵觀點

  1. 兩階段訓練策略:
    • 預訓練 (Pre-training): 使用大規模異構數據獲取通用能力與跨實體泛化力。
    • 後訓練 (Post-training): 針對特定任務或機器人進行精煉,此階段數據品質比數量更重要
  2. 梯度隔離 (Gradient Insulation): 在訓練隨機初始化的動作頭時,凍結VLM  骨幹或應用梯度隔離機制,能防止損壞骨幹已有的常識知識,提升訓練穩定性。
  3. 連續動作生成優於離散標記: 使用擴散模型 Diffusion 或流程匹配 (Flow Matching) 生成連續動作,比傳統的離散化標記更能實現流暢且精確的控制。
  4. 參數高效微調: 對於運算資源有限的實踐者,建議優先使用 LoRA 等方法,在減少計算負擔的同時維持競爭力。

比喻與總結: VLA 模型的構造就像一個受過訓練的專業駕駛員:左側是他的眼睛與手腳(感官與操作器),中間是他的大腦邏輯(直覺、預判或對交通工具性能的理解),右側則是他的駕訓過程與經驗積累(學習與優化策略)。只有當三者協調運作,駕駛員才能在未見過的混亂路況中(開放集任務)穩定行駛。