OpenVLA: An Open-Source Vision-Language-Action Model
作者: Moo Jin Kim∗, Karl Pertsch∗, Siddharth Karamcheti∗, Ted Xiao Ashwin Balakrishna Suraj Nair Rafael Rafailov Ethan Foster Grace Lam Pannag Sanketi Quan Vuong, Thomas Kollar Benjamin Burchfiel Russ Tedrake Dorsa Sadigh Sergey Levine Percy Liang Chelsea Finn
這篇論文介紹了 OpenVLA,一個擁有 70 億(7B)參數的大規模開源視覺-語言-動作(Vision-Language-Action, VLA)模型。以下是針對您要求的摘要:
1. 論文主旨
本研究旨在開發一個完全開源、具備通用能力的機器人操作策略模型。現有的 VLA 模型(如 RT-2)通常是閉源的,且缺乏如何將這些模型高效地適配(微調)到新機器人領域的方法。OpenVLA 的出現是為了建立一個類似於開源大型語言模型(LLM)的生態系統,讓機器人研究者能直接使用預訓練模型並針對特定任務進行優化。
2. 研究假設
研究者假設:利用在網路規模數據上預訓練的視覺編碼器和語言模型作為核心組件,並結合大規模機器人操作數據進行微調,可以訓練出比從頭開始學習的策略更具泛化性(對新物體、指令和場景的適應力)的模型。此外,他們認為透過參數高效的技術(如 LoRA),這些大型模型可以在消費級顯卡上進行訓練與部署,而不會顯著損失性能。
3. 研究方法
- 模型架構:基於 Prismatic-7B VLM 架構,包含 Llama 2 (7B) 語言模型骨幹、融合了 DINOv2(捕捉空間細節)與 SigLIP(捕捉語義資訊)的視覺編碼器,以及一個 MLP 投影層。
- 數據來源:使用來自 Open X-Embodiment 數據集的 97 萬次機器人示範片段進行訓練,涵蓋了多種機器人、任務和場景。
- 動作編碼:將機器人的連續動作(如機械臂的移動、夾爪開合)離散化為標記(tokens),讓語言模型像預測文字一樣預測機器人的動作標記。
- 評估與優化:在 WidowX 和 Google Robot 等多種實體機器人上進行直接評估。同時探索了 LoRA(低秩適配) 微調和 4-bit 量化(Quantization) 技術,以降低運算成本。
4. 研究發現與結論
- 性能超越閉源巨型模型:OpenVLA (7B) 在 29 個測試任務中的平均成功率比參數規模大 7 倍的閉源模型 RT-2-X (55B) 高出 16.5%。
- 強大的泛化能力:相較於 Octo 或從頭訓練的策略,OpenVLA 在處理未見過的物體、背景和語言指令時表現更穩健。
- 高效微調效果顯著:在新的機器人環境中,微調 OpenVLA 的表現優於目前最先進的模仿學習方法(如 Diffusion Policy),尤其是在需要理解複雜語言指令的任務中領先 20.4%。
- 資源親和性:透過量化技術,OpenVLA 可以在僅需 7GB 顯存的情況下運行,並能使用 LoRA 技術在單張 A100 GPU 上於 15 小時內完成新任務的學習。
5. 應用於未來的發展
- 多模態輸入擴展:未來可開發支援多攝像頭觀察、本體感覺(Proprioception)以及歷史觀察數據的模型,以適應更複雜的工業場景。
- 提升控制頻率:目前的推理速度仍受限,未來需透過動作分塊(Action Chunking)或推測解碼(Speculative Decoding)技術來支援高頻控制(如 50Hz 以上的靈巧操作)。
- 雙手協作與靈巧操作:隨著模型能力的提升,OpenVLA 可進一步應用於需要雙手協調的高難度任務。
- 社區協作研究:透過開源訓練代碼和模型權重,社區將能集體探討模型規模、數據混合比例以及視覺特徵對機器人學習的長遠影響。
比喻理解: 如果傳統的機器人學習方法像是教一個還不會走路、不識字的嬰兒從頭練習某個動作;那麼 OpenVLA 就像是送一個已經讀過萬卷書、看過無數照片的博學學生去實習。這個學生已經具備了對世界的基礎認知,只需要給他少量的實作練習,他就能快速掌握各種新工具的使用方法。