12/24/25

VoxPoser (3): 線上經驗優化動力學模型

  VoxPoser: Composable 3D Value Maps for Robotic Manipulation with Language Models   Wenlong Huang, Chen Wang, Ruohan Zhang, Yunzhu Li1,, Jiajun Wu, Li Fei-Fei

在處理如開門、開窗或開冰箱等接觸密集型任務(contact-rich tasks)時,VoxPoser 透過將其零樣本(zero-shot)生成的軌跡作為先驗知識(prior),引導線上經驗的採集,從而高效地優化動力學模型,,。

以下是該優化過程的核心步驟與機制:

1. 利用零樣本軌跡作為探索先驗 (Exploration Prior)

在複雜的接觸任務中,如果機器人僅進行隨機探索(隨機採樣動作),效率會非常低下,因為大部分動作無法與目標物(如門把手)產生有意義的互動。

  • 知識引導: VoxPoser 利用大型語言模型(LLM)內化的常識知識(例如「開門前需要先按下把手」),預先合成一條零樣本路徑 $\tau^r_0$,。
  • 縮小搜索空間: 這條路徑雖然在物理細節上可能不夠精確,但它提供了一個非常有價值的動作分佈先驗,能將機器人的注意力集中在任務相關的區域。

2. 局部探索與數據採集

機器人不會在整個動作空間中盲目搜索,而是圍繞著預合成的軌跡進行局部探索

  • 添加噪聲: 在線上互動過程中,系統會在預合成路徑的每個路徑點(waypoint)中加入微小的噪聲 $\epsilon$(例如 $\epsilon \sim \mathcal{N}(0, \sigma^2)$),。
  • 數據收集: 透過這種受限的探索,機器人收集環境的轉換數據 $(o_t, a_t, o_{t+1})$,其中包含當前觀察、執行的動作以及產生的新觀察。

3. 動力學模型的迭代訓練

收集到的數據被用於訓練一個動力學模型(例如一個多層感知器 MLP):

  • 損失函數: 訓練目標是最小化預測觀察值 $\hat{o}{t+1}$ 與實際觀察值 $o{t+1}$ 之間的 L2 損失,。
  • 循環優化: 代理人會在「數據收集」與「模型訓練」之間不斷交替,隨著數據增加,動力學模型對物理接觸細節(如阻力、摩擦力)的理解會變得越來越精確,。

4. 學習效率與成果

這種方法顯著提升了學習效率:

  • 效率對比: 實驗證明,使用 VoxPoser 提供的先驗,機器人可以在不到 3 分鐘的線上互動中學會有效的動力學模型並成功完成任務。
  • 無先驗對比: 若不使用先驗進行探索,即使經過 12 小時也無法學會如何處理這些複雜的接觸任務。

總結比喻: 這就像是一位**「看過教學影片的學徒」**去學開鎖。傳統方法是讓學徒在黑暗中隨機亂摸,可能花上幾天都碰不到鎖孔;而 VoxPoser 則是先讓學徒在腦中記住「手要放在把手上往下壓」的大概位置(先驗軌跡),學徒只需要在那個位置附近輕微嘗試(局部探索),就能在幾分鐘內掌握開鎖的精確手感(優化動力學模型)。