在黃仁勳的三台電腦架構中, 作為機器人大腦的基本模型, 有一種架構是 VLA 模型, 那什麼是VLA? 他對於人形機器人有什麼意義? 發展的趨勢為何? 在這裡以下做說明:
--------------------------------
VLA(Vision-Language-Action,視覺-語言-動作)模型代表了機器人領域的重大轉型,其目標是將視覺感知、自然語言理解與具體化控制(Embodied Control)統一在單個學習框架中。
以下為您整理關於 VLA 的定義、起源、發展歷程與目前主要的模型:
1. 什麼是 VLA?(定義)
VLA 模型被定義為一種機器人系統,它必須以視覺觀察(如 RGB 圖像)和自然語言指令作為核心輸入,並透過模型直接生成機器人控制指令(動作)。
- 核心特性: 它將機器人控制視為一種序列建模問題,把圖像和語言視為上下文標記,並預測後續的動作標記,從而實現端到端的感知與執行循環。
- 區分重點: 定義上排除了那些僅使用視覺-語言進行「高層次推理」或「任務規劃」但不涉及「直接生成底層動作指令」的系統。
2. 誰最早提出這個概念?
根據發展歷程,CLIPort(2021年)被視為端到端 VLA 的早期奠基性方法之一,它率先將 CLIP 的視覺與語言特徵整合進傳輸網路(Transporter Network)中,實現語義接地的抓取與放置任務。隨後,Google DeepMind 於 2022 年推出的 RT-1 (Robotics Transformer-1) 則被認為是首個在真實世界中統一大規模任務的 VLA 系統。
3. 發展歷程與發展趨勢
VLA 的發展可以分為以下幾個技術階段:
- 初期:CNN 與基礎端到端結構: 早期如 CLIPort,主要利用捲積神經網路(CNN)來處理視覺特徵並映射至預定義的動作基元。
- 中期:Transformer 與序列建模: 模型開始將不同模態(視覺、語言、狀態、動作)標記化(Tokenization)。Gato 與 VIMA 展示了單一 Transformer 模型能執行對話、問答及機器人控制的多任務能力。
- 主流化:基於預訓練 VLM 骨幹: 研究者發現直接微調預訓練的視覺-語言模型(VLM)能帶來更強的泛化能力。RT-2 與 OpenVLA 繼承了大規模網際網路數據的知識,能理解「將物品放到恐龍模型旁」等複雜語義指令。
- 最新趨勢:生成式動作與階層式控制:
- 生成式策略: 為了產生更平滑連續的軌跡,模型引入了**擴散模型(Diffusion)或流程匹配(Flow Matching)**技術,如 Octo 和 $\pi_0$。
- 階層式架構: 最新趨勢如 $\pi_{0.5}$ 與 GR00T N1,將推理分為高層次的語義子任務預測與底層次的連續動作執行,以應對長時程的複雜任務。
- 潛在動作學習: 透過無標籤的人類影片學習「潛在動作表示」,以解決機器人數據稀缺的問題,例如 LAPA 與 UniVLA。
4. 目前主要的 VLA 模型有哪些?
根據應用範式,目前最受關注的模型包括:
- 感知運動模型(Sensorimotor):
- RT-系列 (RT-1, RT-2, RT-X): Google 開發的業界標準模型,RT-2 實現了強大的零樣本泛化能力。
- OpenVLA: 目前最主流的高效開源 VLA,基於 7B 參數架構,易於微調部署。
- Octo: 首個大規模利用擴散策略(Diffusion Policy)的通用機器人策略模型。
- Pi0 / Pi0.5: 強調高頻率(50Hz)即時控制與開放世界泛化能力。
- 可供性模型(Affordance-based):
- VoxPoser: 利用 LLM 生成代碼來建構 3D 值圖譜(Value Maps),引導機器人進行無須訓練的零樣本操作。
- 專業化平台模型:
- GR00T N1: NVIDIA 針對人形機器人設計的通用基礎模型。
- RDT-1B: 專為雙手協作(Bimanual Manipulation)設計的大規模擴散模型。
總結來說,VLA 模型正從實驗室的單一技能示範,朝向具備複雜推理、長時程規劃以及跨機器人實體泛化能力的「機器人大腦」演進。