12/24/25

VoxPoser (2): LLM+ VLM 實現視覺接地

  VoxPoser: Composable 3D Value Maps for Robotic Manipulation with Language Models   Wenlong Huang, Chen Wang, Ruohan Zhang, Yunzhu Li1,, Jiajun Wu, Li Fei-Fei

VoxPoser 的研究中,結合 LLM(大型語言模型)VLM(視覺語言模型) 以實現視覺接地的核心機制在於**「以程式碼為媒介的協作」**。這種方法讓 LLM 的抽象推理能力能與 VLM 的感知能力對齊,進而將語言指令轉化為機器人可執行的 3D 空間路徑,。

具體結合方式分為以下三個關鍵步驟:

1. LLM 作為推理與程式碼編排者 (The Orchestrator)

LLM(如 GPT-4)並不直接輸出控制訊號,而是發揮其推理與撰寫程式碼的優勢,。

  • 指令解析: 當接收到如「打開抽屜並避開花瓶」的自由格式指令時,LLM 會推理出任務所需的**「可供性」(Affordances)「約束」(Constraints)**(例如:手部應靠近把手、遠離花瓶)。
  • API 調用: LLM 會生成 Python 程式碼,調度(Orchestrate)預先定義好的感知 API,。

2. VLM 實現視覺偵測與定位 (Visual Grounding)

被 LLM 調用的感知 API 後端整合了多個 VLM,負責將文字描述對齊到真實的 3D 觀察空間,:

  • 目標辨識: VLM(如 OWL-ViT)根據 LLM 提供的物件名稱進行開放詞彙偵測,獲取物體的邊界框。
  • 精確分割與追蹤: 接著利用 Segment Anything (SAM) 獲取遮罩(Mask),並透過追蹤模型(如 XMEM)維持目標的連續性。
  • 空間重建: 系統結合 VLM 的 2D 分割結果與 RGB-D 深度資訊,重建出相關物體或部位的 3D 點雲與空間幾何資訊,並回傳給 LLM 生成的程式碼,。

3. 合成 3D 價值地圖 (3D Value Map Composition)

這是視覺接地完成的最後一步,將語義知識轉化為空間數值,:

  • NumPy 運算: LLM 生成的程式碼利用 NumPy 操作 3D 體素陣列(Voxel arrays),根據 VLM 回傳的空間坐標,在 3D 空間中標註獎勵或成本(Reward/Cost),。
  • 數值賦予: 例如,把手區域被賦予高值(吸引移動),而花瓶周圍被賦予低值(排斥碰撞)。
  • 閉環控制: 這些組合好的 3D 價值地圖 直接作為運動規劃器的目標函數,使機器人能在無需額外訓練的情況下,根據實時視覺回饋合成軌跡,,。

總結而言: **LLM 負責「思考」**該做什麼以及如何組合邏輯,VLM 負責「觀察」物體具體在哪個位置,兩者透過程式碼介面無縫連接,將抽象的語言指令「落地」(Grounding)成為引導機器人動作的 3D 物理導航圖,。