AI 科創及文思: 25059 三台電腦邏輯: Google DeepMind 與 Figure AI

12/24/25

在人形機器人的開發中，Google DeepMind 與 Figure AI 是兩個極具代表性的實踐者。其架構均可說明黃仁勳提出的「三台電腦」邏輯。

1. Google DeepMind + Apptronik (Apollo)

這是一個「強強聯手」的典型：Google 提供軟體大腦，Apptronik 提供實體身軀。

第一台電腦：雲端大腦 (Training)
- 實踐： Google 使用其 TPU (Tensor Processing Units) 訓練 Gemini 1.5 Robotics 系列模型。
- 細節： 透過這台電腦訓練出的 VLA (Vision-Language-Action) 模型，讓機器人具備「理解指令」與「視覺感知」的能力。例如，它能理解「把紅色的衣服收進黑色的籃子」這類複雜的人類指令。
第二台電腦：數位孿生模擬 (Simulation)
- 實踐： 使用 MuJoCo (Google 收購的物理引擎) 或 Isaac Sim。
- 細節： DeepMind 開發了 DemoStart 與 AutoRT 等技術。它們在虛擬世界中同時運行數千個模擬，讓機器人學習如何精細地疊衣服、摺紙，而不必擔心弄壞昂貴的 Apollo 本體。這一步驟生成的「合成數據」極大地縮短了訓練時間。
第三台電腦：邊緣推論 (Inference)
- 實踐： Apptronik Apollo 本體搭載了 NVIDIA Jetson AGX Orin/Thor。
- 細節： Gemini 模型被優化為 On-Device (本機端) 版本部署在機器人體內。這讓 Apollo 能在離線狀態下，即時反應環境變化（如有人突然擋路），直接在本地處理視覺與馬達控制，實現「邊思考邊動作」的內省機制（Internal Monologue）。

Figure AI 的發展非常依賴與 NVIDIA 的生態系統，是「三台電腦架構」的最佳教科書。

第一台電腦：AI 超級工廠 (Training)
- 實踐： 租用大量的 NVIDIA DGX 伺服器與 OpenAI 的運算資源。
- 細節： Figure AI 的模型（如 Figure 02 所搭載的模型）是基於數十億參數的大語言模型進行微調。它學習的是「世界的規律」（World Model），確保機器人知道杯子掉到地上會碎、液體會流動。
第二台電腦：Omniverse 生態系 (Simulation)
- 實踐： 全面整合 NVIDIA Omniverse / Isaac Lab。
- 細節： Figure AI 使用 OSMO (NVIDIA 的調度服務) 來管理運算工作流。在虛擬工廠中，Figure 機器人練習精準地抓取汽車零件並放置到固定位置，這種重複性的精度在虛擬世界中被磨練到極致。
第三台電腦：機器人終端 (Inference)
- 實踐： 搭載 NVIDIA Jetson Thor 單晶片。
- 細節： Figure 02 的本體擁有的運算力相當於幾台頂級電競電腦。它不再需要連網回傳訊號，而是直接在機器人體內運行神經網路，實現流暢的對話（透過內建揚聲器）與精確的手部細微動作。

這段2024/12/20影片探討了 Google DeepMind 與 Apptronik 聯手後，如何與 Figure AI、Tesla 等對手展開競爭，能幫助您更直觀地理解不同技術流派的架構差異。