AI 科創及文思: 25075 VoxPoser (2): LLM+ VLM 實現視覺接地

12/24/25

25075 VoxPoser (2): LLM+ VLM 實現視覺接地

VoxPoser: Composable 3D Value Maps for Robotic Manipulation with Language Models Wenlong Huang, Chen Wang, Ruohan Zhang, Yunzhu Li1,, Jiajun Wu, Li Fei-Fei

在 VoxPoser 的研究中，結合 LLM（大型語言模型） 與 VLM（視覺語言模型） 以實現視覺接地的核心機制在於**「以程式碼為媒介的協作」**。這種方法讓 LLM 的抽象推理能力能與 VLM 的感知能力對齊，進而將語言指令轉化為機器人可執行的 3D 空間路徑,。

具體結合方式分為以下三個關鍵步驟：

1. LLM 作為推理與程式碼編排者 (The Orchestrator)

LLM（如 GPT-4）並不直接輸出控制訊號，而是發揮其推理與撰寫程式碼的優勢,。

指令解析： 當接收到如「打開抽屜並避開花瓶」的自由格式指令時，LLM 會推理出任務所需的**「可供性」（Affordances）與「約束」（Constraints）**（例如：手部應靠近把手、遠離花瓶）。
API 調用： LLM 會生成 Python 程式碼，調度（Orchestrate）預先定義好的感知 API,。

2. VLM 實現視覺偵測與定位 (Visual Grounding)

被 LLM 調用的感知 API 後端整合了多個 VLM，負責將文字描述對齊到真實的 3D 觀察空間,：

目標辨識： VLM（如 OWL-ViT）根據 LLM 提供的物件名稱進行開放詞彙偵測，獲取物體的邊界框。
精確分割與追蹤： 接著利用 Segment Anything (SAM) 獲取遮罩（Mask），並透過追蹤模型（如 XMEM）維持目標的連續性。
空間重建： 系統結合 VLM 的 2D 分割結果與 RGB-D 深度資訊，重建出相關物體或部位的 3D 點雲與空間幾何資訊，並回傳給 LLM 生成的程式碼,。

3. 合成 3D 價值地圖 (3D Value Map Composition)

這是視覺接地完成的最後一步，將語義知識轉化為空間數值,：

NumPy 運算： LLM 生成的程式碼利用 NumPy 操作 3D 體素陣列（Voxel arrays），根據 VLM 回傳的空間坐標，在 3D 空間中標註獎勵或成本（Reward/Cost）,。
數值賦予： 例如，把手區域被賦予高值（吸引移動），而花瓶周圍被賦予低值（排斥碰撞）。
閉環控制： 這些組合好的 3D 價值地圖 直接作為運動規劃器的目標函數，使機器人能在無需額外訓練的情況下，根據實時視覺回饋合成軌跡,,。

總結而言： **LLM 負責「思考」**該做什麼以及如何組合邏輯，VLM 負責「觀察」物體具體在哪個位置，兩者透過程式碼介面無縫連接，將抽象的語言指令「落地」（Grounding）成為引導機器人動作的 3D 物理導航圖,。