VoxPoser: Composable 3D Value Maps for Robotic Manipulation with Language Models Wenlong Huang, Chen Wang, Ruohan Zhang, Yunzhu Li1,, Jiajun Wu, Li Fei-Fei
這篇由李飛飛(Li Fei-Fei)教授團隊合作撰寫的論文《VoxPoser: Composable 3D Value Maps for Robotic Manipulation with Language Models》,提出了一種全新的機器人操作框架。以下是根據來源提供的詳細分析:
1. 論文主旨 (Main Theme)
本論文旨在利用大型語言模型(LLM)中內化的豐富知識,為具體化代理人(機器人)生成細粒度的動作軌跡,以應對開放式的指令與物體。其核心理念是將 LLM 的推理能力與視覺語言模型(VLM)的感知能力結合,在無需為特定任務進行額外訓練的情況下,合成出 3D 價值地圖(3D Value Maps) 來引導機器人完成複雜的操作任務。
2. 研究文獻 (Research Literature)
論文探討並引用了多個領域的研究作為背景:
- 語言接地 (Language Grounding): 引用了 Tellex 等人關於理解自然語言指令進行導航與移動操作的研究。
- LLM 於機器人的應用: 參考了將 LLM 作為零樣本規劃器(如 SayCan、Inner Monologue)以及將 LLM 輸出為控制代碼(如 Code as Policies)的相關工作。
- 學習型軌跡優化: 與 Sharma 等人將語言映射到 2D 成本圖(2D costmaps)的研究進行對比,並強調 VoxPoser 進一步擴展到了 3D 空間。
3. 研究假設 (Research Hypotheses)
- 推理與接地假設: 假設 LLM 擅長從自由格式的指令中推理出**「可供性」(Affordances)與「約束」(Constraints)**,且能透過撰寫代碼來調度感知模組,將這些語義知識對齊到 3D 觀察空間中。
- 零樣本泛化假設: 假設透過這種可組合的 3D 價值地圖,無需標註的機器人數據或手動設計的運動基元(Motion Primitives),即可實現對未知任務與環境的**零樣本(Zero-shot)**泛化。
4. 研究方法 (Research Methodology)
VoxPoser 的執行過程分為以下步驟:
- 代碼生成與感知: LLM 根據指令生成 Python 代碼,調用感知 API(如 OWL-ViT 偵測器與 Segment Anything 分割模型)來獲取環境中相關物體或部位的空間幾何資訊。
- 價值地圖組合: 利用 NumPy 操作 3D 體素(Voxel)陣列,根據 LLM 的推理結果在空間中標註獎勵或成本(例如:把手位置賦予高分,障礙物周圍賦予低分),生成包含可供性、避障、旋轉、速度等多個維度的價值地圖。
- 模型預測控制 (MPC): 將組合好的價值地圖作為目標函數,交由模型預測控制框架進行軌跡合成。該系統以 5Hz 的頻率持續重新規劃(Re-planning),實現對動態干擾的魯棒性。
- 動力學學習: 此外,系統能將零樣本合成的軌跡作為先驗知識,加速機器人學習處理需要豐富接觸(Contact-rich)的複雜任務。
5. 研究發現 (Key Findings)
- 卓越的泛化力: 在包含 13 種任務、超過 2700 條指令的模擬環境中,VoxPoser 在處理未見過的指令與屬性上顯著優於基於學習的方法(如 U-Net)與基於預定義動作的方法。
- 現實世界的魯棒性: 在真實機器人實驗中達到了 88% 的高成功率,且能應對移動目標、障礙物或人為干擾(如在機器人關閉抽屜時強行拉開)。
- 學習效率提升: 使用 VoxPoser 合成的軌跡作為引導,能讓機器人在 3 分鐘內的線上互動中學會開門或開窗等複雜動力學任務,而傳統無先驗的探索在 12 小時內也無法完成。
6. 應用與未來發展趨勢 (Applications & Future Directions)
應用實例:
- 日常家務: 包含佈置餐具、擦拭桌子上的垃圾、打開藥瓶、關閉抽屜及開關檯燈等。
- 湧現能力: 機器人展現出理解「我是左撇子」而調整餐具擺放(行為常識)、接受「再向左 1 公分」的精確校正,以及透過實驗判斷兩個物體孰輕孰重(物理特性估計)等能力。
未來趨勢:
- 多模態模型集成: 未來可直接利用多模態 LLM 實現更直觀的視覺接地。
- 減少提示工程: 透過自動化對齊與提示技術來減少手動撰寫提示(Prompt)的需求。
- 全身規劃: 目前主要專注於末端執行器(End-effector),未來可擴展至整隻機械手臂甚至全身的運動規劃。
總結與比喻: VoxPoser 就像是為機器人裝上了一個**「有空間感的導航大腦」**。傳統方法像是讓機器人記住死板的舞步,一旦舞台變了就容易出錯;而 VoxPoser 則是讓機器人像專業廚師一樣,先聽懂食譜(語言指令),再用眼睛觀察廚房(視覺感知),在腦中畫出一張「哪裡可以碰、哪裡要避開」的 3D 熱點地圖(價值地圖),最後根據這張圖靈活地動手操作。