Pure Vision-Language-Action (VLA) Models: A Comprehensive Survey
Dapeng Zhang, Jing Sun, Chenghui Hu, Xiaoyan Wu, Zhenlong Yuan, Rui Zhou, Fei Shen, and Qingguo Zhou
根據來源提供的研究文獻,視覺-語言-動作 (VLA) 模型代表了機器人控制從「預程式化指令」到「通用型具體化智能」的重大範式轉移,。相較於傳統方法,VLA 模型的核心範式可以從以下幾個維度來理解:
1. 從孤立管線轉向統一框架 (Unified Framework)
- 傳統方法: 過去的機器人主要依賴預先編寫的指令和工程控制策略來執行特定任務。這些系統通常將感知、偵測、追蹤和定位等任務分解為多個階段,雖然在受限環境(如工廠流水線)中有效,但面對動態、非結構化環境時泛化能力極差,。
- VLA 範式: VLA 提供了一個統一的序列建模框架,將視覺感知、語言理解和可執行控制整合在一起,。它將視覺語言模型 (VLM) 從被動的序列生成器重塑為能在複雜環境中進行操縱與決策的主動代理 (Active Agents)。
2. 四大核心技術範式 (Action-Generation Strategies)
來源根據動作生成策略將 VLA 模型歸納為四大核心範式,:
- 自迴歸基礎範式 (Autoregression-based): 這是目前最經典且有效的範式,將動作序列視為時間依賴過程,根據先前的上下文、感知輸入和任務指令,逐步 (Step-by-step) 生成動作。代表性作品包括 RT-1、RT-2 以及整合了預訓練語言知識的 PaLM-E,。
- 擴散基礎範式 (Diffusion-based): 此範式將動作生成視為條件去噪過程,使機器人能從確定的回歸轉向機率生成策略。它能更好地處理多樣化的動作分佈,實現更具物理一致性的軌跡生成,。代表模型如 Diffusion Policy 和大規模的 RDT-1B。
- 強化學習基礎範式 (Reinforcement-based): 這類方法將視覺-語言基礎模型與強化學習相結合,利用人類回饋 (RLHF) 來優化決策與推理,。它能設計出更具遷移性的獎勵函數,並在自主駕駛或人形機器人的全身控制中表現優異,,。
- 混合與專業化範式 (Hybrid & Specialized): 由於單一範式往往難以同時兼顧精確推理與流暢動作,混合架構應運而生。例如,HybridVLA 結合了自迴歸的離散推理與擴散模型的連續軌跡生成,以發揮各自的優點,。
3. 端到端的跨模態對齊 (End-to-End Alignment)
- 傳統控制: 感知與規劃通常是分開的,這會導致特徵空間破碎且難以跨平台移植,。
- VLA 範式: 透過端對端的跨模態對齊,VLA 模型能同時處理目標、約束與意圖。它繼承了 VLM 的語意和指令泛化能力,並透過與機器人狀態的顯示耦合,增強了對環境干擾和長時程任務的魯棒性。
4. 數據驅動與模擬整合 (Data-driven & Simulation)
- 數據來源: VLA 範式高度依賴大規模數據,除了現實世界的數據集(如 Open X-Embodiment),還廣泛利用網際網路上的人類操作影片和模擬器生成數據進行預訓練,。
- 泛化能力: 這種「預訓練+微調」的模式讓 VLA 模型具備了零樣本 (Zero-shot) 或極少樣本的遷移能力,這是傳統手工設計政策難以企及的,。
比喻與總結: 傳統機器人控制方法就像是一台**「麵包機」,它只能按照預設的行程(程式)運作,遇到不同的麵粉或濕度就可能失敗。而 VLA 模型則像是一位「有經驗的廚師」**,他不僅能看懂各種食譜(語言),能觀察食材狀態(視覺),還具備應變能力(動作),即使在沒去過的廚房裡,也能根據過去累積的「烹飪常識」順利做出一道菜。