12/24/25

VLA : IEEE Access 的論文(2)

Vision-Language-Action Models for Robotics: A Review Towards Real-World Applications

Kento Kawaharazuka, Jihoon Oh, Jun Yamada, Ingmar Posner, and Yuke Zh

根據這份來源,視覺-語言-動作 (VLA) 模型被視為將視覺、語言與動作數據在大規模下統一的系統,旨在學習能跨任務、跨物體及跨環境泛化的策略。論文中將 VLA 的核心架構設計主要分為三種類型:感知運動模型世界模型可供性模型

以下是這三種模型的具體定義與特性:

1. 感知運動模型 (Sensorimotor Model)

感知運動模型是 VLA 系統中的基礎類別,其核心在於端到端的學習過程。

  • 定義: 該模型共同學習視覺、語言與動作的表示 (representations),將影像與語言指令作為輸入,並直接輸出動作
  • 特性: 這些模型可以採用平面 (flat) 或階層式 (hierarchical) 的結構,並搭載不同的骨幹架構。
  • 變體: 目前常見的變體包括結合 Transformer 與離散動作標記(如 RT-1)、結合 VLM 骨幹與擴散模型 (Diffusion) 動作頭(如 Octo),或是直接在 Transformer 內部進行擴散過程的 擴散 Transformer (Diffusion Transformer)

2. 世界模型 (World Model)

世界模型強調對環境變化的前向預測 (forward predictive) 能力,這使其在規劃與推理中扮演核心角色。

  • 定義: 世界模型會根據語言輸入,預測感官模態(通常是視覺觀察)的未來演變,並利用這些預測來指導動作的生成
  • 特性: 它的優勢在於能預測未來狀態或潛在表示,從而支持預測性規劃與多模態推理
  • 應用模式: 包含透過預測未來的影像序列再經由逆向動力學模型 (IDM) 轉化為動作(如 UniPi),或是從無標籤的人類影片中學習潛在動作表示 (latent actions),以便利用大規模的人類數據進行預訓練。

3. 可供性模型 (Affordance-based Model)

可供性模型側重於理解環境提供的「動作可能性」。

  • 定義: 該模型根據語言指令預測與動作相關的視覺可供性 (visual affordances),然後依據這些可供性資訊生成動作。
  • 特性: 「可供性」指的是環境相對於機器人能力所提供的動作可能性,或是物體與場景的可操作屬性(例如:根據機器人的結構與空間線索判斷哪些動作是可能的)。
  • 實作範例: 例如 VoxPoser 系統,它利用大型語言模型 (LLM) 與視覺模型 (VLM) 從語言指令中生成可供性圖 (Affordance Maps) 與約束圖 (Constraint Maps),再透過模型預測控制 (MPC) 引導機器人生成動作。

比喻與總結: 我們可以將這三種模型想像成一位學習木工的學徒:

  • 感知運動模型就像是累積了大量肌肉記憶的直覺反應,看到木頭與指令就直接動手操作。
  • 世界模型像是學徒在動手前的預演想像,在腦中先繪製出切割後木頭會變成什麼樣子的畫面。
  • 可供性模型則像是學徒在觀察工具與木材,識別出「這塊木頭適合雕刻」或「這個把手是用來拉動的」等操作潛力,再決定如何下手。