AI 科創及文思: 25061 VLA（Vision-Language-Action，視覺-語言-動作）模型

12/24/25

25061 VLA（Vision-Language-Action，視覺-語言-動作）模型

在黃仁勳的三台電腦架構中, 作為機器人大腦的基本模型, 有一種架構是 VLA 模型, 那什麼是VLA? 他對於人形機器人有什麼意義? 發展的趨勢為何? 在這裡以下做說明:

--------------------------------

VLA（Vision-Language-Action，視覺-語言-動作）模型代表了機器人領域的重大轉型，其目標是將視覺感知、自然語言理解與具體化控制（Embodied Control）統一在單個學習框架中。

以下為您整理關於 VLA 的定義、起源、發展歷程與目前主要的模型：

1. 什麼是 VLA？（定義）

VLA 模型被定義為一種機器人系統，它必須以視覺觀察（如 RGB 圖像）和自然語言指令作為核心輸入，並透過模型直接生成機器人控制指令（動作）。

核心特性： 它將機器人控制視為一種序列建模問題，把圖像和語言視為上下文標記，並預測後續的動作標記，從而實現端到端的感知與執行循環。
區分重點： 定義上排除了那些僅使用視覺-語言進行「高層次推理」或「任務規劃」但不涉及「直接生成底層動作指令」的系統。

2. 誰最早提出這個概念？

根據發展歷程，CLIPort（2021年）被視為端到端 VLA 的早期奠基性方法之一，它率先將 CLIP 的視覺與語言特徵整合進傳輸網路（Transporter Network）中，實現語義接地的抓取與放置任務。隨後，Google DeepMind 於 2022 年推出的 RT-1 (Robotics Transformer-1) 則被認為是首個在真實世界中統一大規模任務的 VLA 系統。

3. 發展歷程與發展趨勢

VLA 的發展可以分為以下幾個技術階段：

初期：CNN 與基礎端到端結構： 早期如 CLIPort，主要利用捲積神經網路（CNN）來處理視覺特徵並映射至預定義的動作基元。
中期：Transformer 與序列建模： 模型開始將不同模態（視覺、語言、狀態、動作）標記化（Tokenization）。Gato 與 VIMA 展示了單一 Transformer 模型能執行對話、問答及機器人控制的多任務能力。
主流化：基於預訓練 VLM 骨幹： 研究者發現直接微調預訓練的視覺-語言模型（VLM）能帶來更強的泛化能力。RT-2 與 OpenVLA 繼承了大規模網際網路數據的知識，能理解「將物品放到恐龍模型旁」等複雜語義指令。
最新趨勢：生成式動作與階層式控制：
- 生成式策略： 為了產生更平滑連續的軌跡，模型引入了**擴散模型（Diffusion）或流程匹配（Flow Matching）**技術，如 Octo 和 $\pi_0$。
- 階層式架構： 最新趨勢如 $\pi_{0.5}$ 與 GR00T N1，將推理分為高層次的語義子任務預測與底層次的連續動作執行，以應對長時程的複雜任務。
- 潛在動作學習： 透過無標籤的人類影片學習「潛在動作表示」，以解決機器人數據稀缺的問題，例如 LAPA 與 UniVLA。

4. 目前主要的 VLA 模型有哪些？

根據應用範式，目前最受關注的模型包括：

感知運動模型（Sensorimotor）：
- RT-系列 (RT-1, RT-2, RT-X)： Google 開發的業界標準模型，RT-2 實現了強大的零樣本泛化能力。
- OpenVLA： 目前最主流的高效開源 VLA，基於 7B 參數架構，易於微調部署。
- Octo： 首個大規模利用擴散策略（Diffusion Policy）的通用機器人策略模型。
- Pi0 / Pi0.5： 強調高頻率（50Hz）即時控制與開放世界泛化能力。
可供性模型（Affordance-based）：
- VoxPoser： 利用 LLM 生成代碼來建構 3D 值圖譜（Value Maps），引導機器人進行無須訓練的零樣本操作。
專業化平台模型：
- GR00T N1： NVIDIA 針對人形機器人設計的通用基礎模型。
- RDT-1B： 專為雙手協作（Bimanual Manipulation）設計的大規模擴散模型。

總結來說，VLA 模型正從實驗室的單一技能示範，朝向具備複雜推理、長時程規劃以及跨機器人實體泛化能力的「機器人大腦」演進。