12/24/25

三台電腦邏輯: Google DeepMind 與 Figure AI

 在人形機器人的開發中,Google DeepMindFigure AI 是兩個極具代表性的實踐者。其架構均可說明黃仁勳提出的「三台電腦」邏輯。


1. Google DeepMind + Apptronik (Apollo)

這是一個「強強聯手」的典型:Google 提供軟體大腦,Apptronik 提供實體身軀。

  • 第一台電腦:雲端大腦 (Training)

    • 實踐: Google 使用其 TPU (Tensor Processing Units) 訓練 Gemini 1.5 Robotics 系列模型。

    • 細節: 透過這台電腦訓練出的 VLA (Vision-Language-Action) 模型,讓機器人具備「理解指令」與「視覺感知」的能力。例如,它能理解「把紅色的衣服收進黑色的籃子」這類複雜的人類指令。

  • 第二台電腦:數位孿生模擬 (Simulation)

    • 實踐: 使用 MuJoCo (Google 收購的物理引擎) 或 Isaac Sim

    • 細節: DeepMind 開發了 DemoStartAutoRT 等技術。它們在虛擬世界中同時運行數千個模擬,讓機器人學習如何精細地疊衣服、摺紙,而不必擔心弄壞昂貴的 Apollo 本體。這一步驟生成的「合成數據」極大地縮短了訓練時間。

  • 第三台電腦:邊緣推論 (Inference)

    • 實踐: Apptronik Apollo 本體搭載了 NVIDIA Jetson AGX Orin/Thor

    • 細節: Gemini 模型被優化為 On-Device (本機端) 版本部署在機器人體內。這讓 Apollo 能在離線狀態下,即時反應環境變化(如有人突然擋路),直接在本地處理視覺與馬達控制,實現「邊思考邊動作」的內省機制(Internal Monologue)。


2. Figure AI (與 NVIDIA / OpenAI 深度合作)

Figure AI 的發展非常依賴與 NVIDIA 的生態系統,是「三台電腦架構」的最佳教科書。

  • 第一台電腦:AI 超級工廠 (Training)

    • 實踐: 租用大量的 NVIDIA DGX 伺服器與 OpenAI 的運算資源。

    • 細節: Figure AI 的模型(如 Figure 02 所搭載的模型)是基於數十億參數的大語言模型進行微調。它學習的是「世界的規律」(World Model),確保機器人知道杯子掉到地上會碎、液體會流動。

  • 第二台電腦:Omniverse 生態系 (Simulation)

    • 實踐: 全面整合 NVIDIA Omniverse / Isaac Lab

    • 細節: Figure AI 使用 OSMO (NVIDIA 的調度服務) 來管理運算工作流。在虛擬工廠中,Figure 機器人練習精準地抓取汽車零件並放置到固定位置,這種重複性的精度在虛擬世界中被磨練到極致。

  • 第三台電腦:機器人終端 (Inference)

    • 實踐: 搭載 NVIDIA Jetson Thor 單晶片。

    • 細節: Figure 02 的本體擁有的運算力相當於幾台頂級電競電腦。它不再需要連網回傳訊號,而是直接在機器人體內運行神經網路,實現流暢的對話(透過內建揚聲器)與精確的手部細微動作。


對照總結表

架構層次Google DeepMind + ApptronikFigure AI
第一台電腦 (學腦)Google TPU + Gemini VLADGX + OpenAI 基礎模型
第二台電腦 (練武)MuJoCo / AutoRT 框架NVIDIA Omniverse / Isaac Lab
第三台電腦 (做事)Apollo 搭載 Jetson OrinFigure 02 搭載 Jetson Thor


The Humanoid Robot Competition is Heating Up

這段2024/12/20影片探討了 Google DeepMind 與 Apptronik 聯手後,如何與 Figure AI、Tesla 等對手展開競爭,能幫助您更直觀地理解不同技術流派的架構差異。