赫筆札：閱讀筆記: 25081 李飛飛(5)對現有VLA範式提供升級的觀點

12/25/25

25081 李飛飛(5)對現有VLA範式提供升級的觀點

以下文章透過AI整理，內容可能有錯，取用請小心!

李飛飛教授對 VLA（視覺－語言－行動） 模式的評價，建立在她對「具身人工智慧」（Embodied AI）與「空間智能」的長期追求之上。她並非要推翻 VLA，而是認為現有的模式存在根本性的缺陷，並試圖透過她的新產品與「世界模型」來填補這些遺失的拼圖。

以下是根據來源文件的詳細說明：

1. 李飛飛對 VLA 模式的評價：感知與行動的「閉環」

李飛飛認為，目前的 AI（如大語言模型 LLM）雖然能言善辯，但對於物理世界卻是「盲」的，她稱之為**「黑暗中的文字匠」**。針對涉及行動的 VLA 模式，她的評價如下：

現狀的局限： 她指出當前的機器人學習大多仍停留在技能級任務、短期目標以及封閉世界的指令中。雖然 AI 可以標註圖像或生成描述，但這不等於理解，因為「看到」是為了「行動」與「學習」。
語言的損失： 她強調語言是世界的「有損壓縮」（lossy compression），許多人類智能（如空間推理、物理直覺）是非語言的。單純依賴文字訓練的 VLA 難以推導出深層的因果性或物理規律（如重力、碰撞）。
必須閉合環路： 她主張技術上必須**「閉合感知與行動之間的迴路」**，讓機器人不僅能看到，還能理解 3D 空間並據此規劃長程行動。

2. 李飛飛的產品（Marble）與 VLA 的關係

李飛飛的公司 World Labs 推出的 Marble 並非另一種傳統意義上的 VLA，也不僅僅是推翻它，而是試圖為其提供一個更強大的底層——「世界模型」（World Model）。

是基礎（Foundation）而非替代： Marble 的核心是一個**「神經空間引擎」（Neural Spatial Engine）。它專注於生成具備「物體恆常性」（Object Permanence）的 3D 空間。相較於傳統 VLA 可能只是將指令映射到動作，Marble 提供了一個讓動作發生在其中的、物理上一致的數字容器**。
三位一體的結合： 她理想中的模型（職業生涯的巔峰目標）是同時具備以下三種能力的模型：「看見」（感知）、「做」（規劃與行動）以及**「想像」**（將想像轉化為創造）。Marble 目前專注於「想像」與「生成」一致的 3D 世界，這是實現高級「行動」的前提。
早期探索（VoxPoser）： 在成立公司之前，她的實驗室開發了 VoxPoser，這其實就是一種高級的 VLA 嘗試。它利用 LLM 分解任務、VLM 識別目標，並生成 3D 價值圖來指導機器人行動。這證明了她認同 VLA 的方向，但認為需要更強的空間表徵。

3. Marble 是否「推翻」了 VLA？

與其說推翻，不如說是**「範式的升級」**：

從統計模擬到物理推理： 她指出目前多數 VLA 或視訊模型的物理現象（如水流）只是海量數據的統計學湧現，而非真正的因果理解。Marble 試圖透過顯式的 3D 表徵，讓 AI 真正理解空間幾何，這將使未來的「行動」（Action）更加精確且符合邏輯。
隱式與顯式的融合： 雖然有些流派（如楊立昆）主張學習世界的「隱式表徵」，但李飛飛的 Marble 刻意選擇輸出顯式的 3D 表徵。她認為這兩者最終必須融合，才能建構出全能的世界模型，進而賦能給人類創作者與機器人。

總結來說：李飛飛並非推翻 VLA，而是認為現有的 VLA 缺乏「空間智能」與對「世界模型」的深刻理解。她的 Marble 產品是為了建構一個具備幾何一致性與物體恆常性的 3D 底座，讓未來的 VLA 模型能從單純的「預測下一幀像素」進化到在「理解物理法則的空間」中進行推理與行動。