AI 科創及文思: 25067 VLA: 系統性思考(2)

12/24/25

25067 VLA: 系統性思考(2)

Vision Language Action Models in Robotic Manipulation: A Systematic Review

Muhayy Ud Dina, Waseem Akrama, Lyes Saad Saouda, Jan Rosellb and Irfan Hussain

根據來源文件，視覺-語言-動作（VLA）模型的開發基本依賴於四個核心組成元件，這些元件共同協作，將多模態輸入轉化為機器人的具體控制指令。以下是這四個元件的詳細說明：

1. 訓練資料集 (Training Dataset)

訓練資料集是VLA模型的基礎，負責提供真實世界的任務演示或模擬的情境片段。

功能： 這些數據集使模型能夠學習跨模態的相關性，例如複雜的語言指令（如「輕輕放置」）如何影響動作的平滑度。
代表性資源： 目前最常被使用的公開資料集是 Open X-Embodiment，它包含超過 100 萬條軌跡、22 種機器人實體以及 500 多種技能。

2. 視覺編碼器 (Vision Encoder)

視覺編碼器負責將原始圖像（如RGB}）或深度數據轉換為詳細的特徵圖 (feature maps)。

功能： 它的目標是從工作空間中提取豐富且具有語義對齊特性的視覺特徵。
主流架構： 多數模型採用基於 ViT（視覺 Transformer）的骨幹，例如 CLIP 和 SigLIP，因為它們具備強大的視覺-文本對齊能力。

3. 語言編碼器 (Language Encoder)

語言編碼器負責將人類的自然語言指令或標註映射到一個共享的潛在空間 (shared latent space) 中。

功能： 讓模型能理解高層次的目標（如「將碗、蘋果和香蕉放在盤子上」）或詳細的步驟指令。
主流架構： LLaMA 家族（如 LLaMA-2）是目前最常用的文本編碼器，其他還包括 T5 風格的模型、Qwen 或基於 GPT 的編碼器。

4. 動作解碼器 (Action Decoder)

動作解碼器是執行端元件，負責整合上述的視覺與語言嵌入，生成實際的機器人指令。

功能： 它輸出的指令形式多樣，包括關節軌跡、離散動作代幣 (discrete tokens) 或高層次的運動基元 (motion primitives)。
主流趨勢： 目前最受歡迎的選擇是擴散基礎的 Transformer 頭 (diffusion-based Transformer heads)，因為它們能處理複雜的多模態動作分佈，生成時間上連續且平滑的控制序列。

除了這四個主要元件，部分先進的 VLA 系統還會包含狀態編碼器 (State Encoder)，用於處理機器人的本體感覺（如關節角度、末端執行器姿勢），以確保動作在實體上的可達性並避免碰撞。

比喻與總結： 這四個元件就像是構成一名**「熟練技工」的要素：訓練資料集是他過去看過的教學範例**；視覺編碼器是他的眼睛，用來觀察環境細節；語言編碼器是他的大腦理解力，用來領會導師的口頭指示；而動作解碼器則是他的神經反射與雙手，負責將想法精準地轉化為具體的工具操作動作。