12/25/25

Physical intelligence公司(1)Pi 0.5的VLA模型

 這篇由 Physical Intelligence 團隊發表的論文介紹了其研發的新一代視覺-語言-動作模型 $\pi_{0.5}$。該模型旨在突破機器人研究中的「開放世界泛化」難題,讓機器人能走進未曾見過的環境並執行複雜任務。

以下根據來源內容,為您詳細說明該論文的各個面向:

1. 論文主旨 (Main Theme)

本論文的核心主旨是開發一種名為 $\pi_{0.5}$ 的通用型 $\text{VLA}$ 模型,透過異質任務聯合訓練(Co-training on heterogeneous tasks),使機器人能夠在完全陌生的家庭環境中執行長時程(Long-horizon)且靈活的操作任務。該模型強調從非直接相關的數據(如其他機器人數據、網路多模態數據)中遷移知識,以達成廣泛的泛化能力。

2. 研究文獻 (Research Literature)

論文引用並基於多項前沿研究:

  • 基礎 VLA 模型: 參考了如 $\text{RT-1}$$\text{RT-2}$$\text{OpenVLA}$ 以及團隊先前的 $\pi_0$ 模型。
  • 數據集: 引用了 $\text{Open X-Embodiment (OXE)}$ 等大規模跨實體機器人數據集。
  • 技術組件: 使用了 $\text{PaliGemma}$ 作為骨幹網絡、$\text{FAST}$ 動作標記化技術,以及**流匹配(Flow Matching)**生成動作分佈的架構。

3. 研究假設 (Research Hypotheses)

  • 知識遷移假設: 假設機器人要具備泛化力,不能僅依靠單一實體的直接經驗,必須能從**多元化資訊源(如網路數據、不同類型的機器人數據、語音指令)**中轉移經驗。
  • 階層式推理假設: 假設將任務分解為「高階語義子任務預測」與「低階動作執行」的階層式架構,能有效提升機器人在處理複雜、多階段任務時的推理與規劃能力。
  • 數據比例假設: 假設即便 97.6% 的訓練數據並非來自目標移動機器人,模型仍能透過這些異質數據獲得關鍵的空間與物理常識。

4. 研究方法 (Research Methodology)

$\pi_{0.5}$ 採用了獨特的兩階段訓練流程階層式推理架構

  • 第一階段(預訓練): 使用 $\text{FAST}$ 標記化技術將所有動作轉為離散代幣(Tokens),並結合移動機器人數據($\text{MM}$)、非移動機器人數據($\text{ME}$)、跨實體實驗室數據($\text{CE}$)、高階子任務預測($\text{HL}$)以及網路數據($\text{WD}$)進行聯合訓練。
  • 第二階段(後訓練): 加入一個約 300M 參數的**「動作專家」(Action Expert),利用流匹配技術生成連續的精細動作序列,並引入人類監督員的口頭指令數據($\text{VI}$)**來強化子任務預測。
  • 推理模式: 運行時,模型先根據總體指令(如「清理房間」)預測下一個語義子任務(如「撿起襯衫」),隨後由動作專家根據該子任務輸出具體的控制指令。

5. 研究發現 (Key Findings)

  • 零樣本泛化成功: $\pi_{0.5}$ 首次證明了端到端學習系統能在完全未見過的真實家庭中,執行長達 10 到 15 分鐘的複雜清理任務(如整理廚房或臥室)。
  • 異質數據的必要性: 實驗顯示,若剔除網路數據($\text{WD}$)或跨實體機器人數據($\text{ME/CE}$),模型的泛化能力與對陌生目標的理解力會大幅下降。
  • 階層式架構優勢: 顯式預測子任務的表現優於傳統的扁平化 $\text{VLA}$ 模型,甚至在某些任務上超過了由人類引導的基準線。
  • 環境多樣性紅利: 隨著訓練數據中環境數量($\text{Locations}$)的增加,模型在語言跟隨與陌生目標操作上的成功率穩定提升。

6. 應用場景 (Applications)

$\pi_{0.5}$ 主要應用於日常家庭環境的自動化維護

  • 廚房清理: 包含將餐具放入水槽、將物品存入抽屜、關閉微波爐或櫥櫃。
  • 臥室整理: 包含鋪床、將衣物放入洗衣籃、將毛巾掛上架子、整理枕頭。
  • 精細操作: 執行如摺疊衣物、掃地等需要雙手協作或精確控制的任務。

7. 未來發展趨勢與挑戰 (Future Trends & Challenges)

  • 技術侷限: 模型在面對特殊形狀的把手、難以開啟的櫃子或存在視線遮擋(部分可觀測性)的環境時,仍可能出錯。
  • 指令複雜化: 未來研究趨勢將朝向處理更複雜、更具個性化偏好的指令發展。
  • 長短期記憶與導航: 引入更豐富的上下文與記憶機制,以應對跨房間導航或需要記住物體存放位置的長期任務。
  • 多元監督模式: 探索除了口頭指令外,更多讓人類與機器人互動並傳授常識的方法。

總結比喻: 這篇論文描述的 $\pi_{0.5}$ 就像是一位**「博採眾長的機器人學徒」**。它不僅練習自己的動作,還大量閱讀網路百科(網路數據)、觀察其他不同工種的師傅(其他機器人數據),甚至聽取導師的口頭提點(口頭指令)。正是這種「不拘一格」的學習方式,讓它即便被帶到一個完全陌生的廚房,也能憑藉學到的常識,冷靜地分析該先洗碗還是先收抽屜,並靈活地完成任務。