12/25/25

李飛飛(5)對現有VLA範式提供升級的觀點

 李飛飛教授對 VLA(視覺-語言-行動) 模式的評價,建立在她對「具身人工智慧」(Embodied AI)與「空間智能」的長期追求之上。她並非要推翻 VLA,而是認為現有的模式存在根本性的缺陷,並試圖透過她的新產品與「世界模型」來填補這些遺失的拼圖。

以下是根據來源文件的詳細說明:

1. 李飛飛對 VLA 模式的評價:感知與行動的「閉環」

李飛飛認為,目前的 AI(如大語言模型 LLM)雖然能言善辯,但對於物理世界卻是「盲」的,她稱之為**「黑暗中的文字匠」**。針對涉及行動的 VLA 模式,她的評價如下:

  • 現狀的局限: 她指出當前的機器人學習大多仍停留在技能級任務、短期目標以及封閉世界的指令中。雖然 AI 可以標註圖像或生成描述,但這不等於理解,因為「看到」是為了「行動」與「學習」。
  • 語言的損失: 她強調語言是世界的「有損壓縮」(lossy compression),許多人類智能(如空間推理、物理直覺)是非語言的。單純依賴文字訓練的 VLA 難以推導出深層的因果性或物理規律(如重力、碰撞)。
  • 必須閉合環路: 她主張技術上必須**「閉合感知與行動之間的迴路」**,讓機器人不僅能看到,還能理解 3D 空間並據此規劃長程行動。

2. 李飛飛的產品(Marble)與 VLA 的關係

李飛飛的公司 World Labs 推出的 Marble 並非另一種傳統意義上的 VLA,也不僅僅是推翻它,而是試圖為其提供一個更強大的底層——「世界模型」(World Model)

  • 是基礎(Foundation)而非替代: Marble 的核心是一個**「神經空間引擎」(Neural Spatial Engine)。它專注於生成具備「物體恆常性」(Object Permanence)的 3D 空間。相較於傳統 VLA 可能只是將指令映射到動作,Marble 提供了一個讓動作發生在其中的、物理上一致的數字容器**。
  • 三位一體的結合: 她理想中的模型(職業生涯的巔峰目標)是同時具備以下三種能力的模型:「看見」(感知)、「做」(規劃與行動)以及**「想像」**(將想像轉化為創造)。Marble 目前專注於「想像」與「生成」一致的 3D 世界,這是實現高級「行動」的前提。
  • 早期探索(VoxPoser): 在成立公司之前,她的實驗室開發了 VoxPoser,這其實就是一種高級的 VLA 嘗試。它利用 LLM 分解任務、VLM 識別目標,並生成 3D 價值圖來指導機器人行動。這證明了她認同 VLA 的方向,但認為需要更強的空間表徵。

3. Marble 是否「推翻」了 VLA?

與其說推翻,不如說是**「範式的升級」**:

  • 從統計模擬到物理推理: 她指出目前多數 VLA 或視訊模型的物理現象(如水流)只是海量數據的統計學湧現,而非真正的因果理解。Marble 試圖透過顯式的 3D 表徵,讓 AI 真正理解空間幾何,這將使未來的「行動」(Action)更加精確且符合邏輯。
  • 隱式與顯式的融合: 雖然有些流派(如楊立昆)主張學習世界的「隱式表徵」,但李飛飛的 Marble 刻意選擇輸出顯式的 3D 表徵。她認為這兩者最終必須融合,才能建構出全能的世界模型,進而賦能給人類創作者與機器人。

總結來說:李飛飛並非推翻 VLA,而是認為現有的 VLA 缺乏「空間智能」與對「世界模型」的深刻理解。她的 Marble 產品是為了建構一個具備幾何一致性與物體恆常性的 3D 底座,讓未來的 VLA 模型能從單純的「預測下一幀像素」進化到在「理解物理法則的空間」中進行推理與行動。