12/25/25

李飛飛(2)對AI的論點

 李飛飛教授(Dr. Fei-Fei Li)作為 AI 領域的先驅,其論點核心圍繞著如何讓人工智慧超越目前的文字局限,轉向對物理世界的深層理解。根據提供的來源文件,李飛飛對於 AI 的主要論點可以歸納為以下幾個面向:

1. 核心觀念:空間智能(Spatial Intelligence)

李飛飛認為,「空間智能」是通往真正人工智慧的基石,也是她整個研究生涯的「北極星」。

  • 認知的腳手架: 她將空間智能比喻為**「人類認知賴以建立的腳手架」**。空間智能並非僅是視覺辨識,而是支撐人類感知、理解、推理和創造的底座。
  • 感知與行動的循環: 她指出智能的演化始於動物為了生存而產生的「感知-行動」循環。空間智能將感知與行動連結起來,使我們能預測物體運動並協調自身動作。
  • 超越語言的知識: 她強調大量的人類智能(如空間推理、急救反應)是非語言的,語言只是世界的「有損壓縮」(lossy compression)。

2. 對當前 AI 的批判:黑暗中的文字匠

儘管大語言模型(LLMs)表現驚人,李飛飛對其局限性提出了深刻的觀點:

  • 黑暗中的文字匠: 她形容現在的 AI 是**「黑暗中的文字匠」**,意指它們擅長處理符號和模式,但對實體的物理世界缺乏真正理解。
  • 缺乏物理常識: 現有的模型在理解深度、距離、三維結構以及物理規律(如重力、碰撞)方面存在根本性局限。目前的生成式視訊多是基於「統計學湧現」而非對物理定律的「因果推理」。

3. 未來方案:世界模型(World Models)

為了賦予 AI 空間智能,李飛飛提倡構建「世界模型」,這被視為下一代的生成式 AI。她認為一個理想的世界模型應具備三大核心能力:

  • 生成性(Generative): 能生成完整且內在一致的世界,滿足幾何、物理與動態的連貫性。
  • 多模態(Multimodal): 必須是**「原生的多模態」**,融合視覺、聽覺、觸覺、語言等多種感官資訊來推斷世界狀態。
  • 交互性(Actionable): 模型能預測「動作」後的狀態,並根據目標(如打掃客廳)規劃動作流程。

4. 具身智能(Embodied AI)與機器人

李飛飛主張 AI 必須**「走出文字的限制」,透過視覺和行動去體驗物理世界,這種學習過程本質上是「具身」**的。

  • 閉合環路: 她強調技術上必須「閉合感知和行動之間的迴路」,讓機器人從單一技能的訓練轉向能在複雜、開放的環境中自主運作。
  • 協作夥伴: 機器人的最終目標不是取代人類,而是成為能理解人類意圖、與人類和諧協作的夥伴。

5. 以人為本的 AI(Human-Centered AI)

這是李飛飛一貫堅持的社會價值觀點:

  • 增強而非取代: AI 的價值在於**「增強 (augment)」**而非取代 (replace) 人類的能力。
  • 核心價值: 在討論 AGI 或 ASI(超級智能)時,必須將人類尊嚴、能動性與福祉置於技術研發與政策制定的核心。
  • 繁榮與分配: 她指出 AI 創造價值是技術問題,但財富與價值的分配是政策與社會問題,全球生產力的提高不一定能直接轉化為共享的繁榮。

6. 對「超級智能」與「創造力」的審慎態度

李飛飛質疑當前的 Transformer 架構是否能達到人類級別的抽象創造力。

  • 牛頓/愛因斯坦測試: 她認為 AI 或許能擬合資料規律,但目前尚無證據顯示其能推導出如「相對論」般深層的因果抽象概念。
  • 算法突破: 要實現真正的超級智能,可能需要一次算法上的根本性突破,而不僅僅是擴大現有模型的規模。

比喻來說: 如果說目前的大語言模型(LLM)是一位博覽群書但足不出戶的「書呆子」,只能在紙上談兵;那麼李飛飛所追求的空間智能與世界模型,則是希望把這位書呆子帶到現實世界中,讓他能真正用雙眼觀察三維空間、用雙手感觸物體質地,並學會如何在物理世界中生活與行動。