1/02/26

26-012 AI演進的理論詞𢑥

 這是一份為您準備的 AI 技術深度導讀。我們將從最基礎的數學骨架開始,一路攀升到當前最前沿的智慧體架構。

第一階段:機器學習與深度學習的基石

1. 機器學習 (Machine Learning, ML) 與 深度學習 (Deep Learning, DL)

機器學習是人工智慧的一個子集,核心思想是「不直接編寫規則,而是讓電腦從數據中學習模式」。

深度學習則是機器學習的一種特殊形式,它模仿人類大腦的神經元連接,利用「深層」的神經網絡來處理複雜數據(如影像、聲音)。兩者的關係就像是:機器學習是交通工具,而深度學習則是高性能的噴射飛機。

2. 多層神經網絡 (Multilayer Neural Networks)

這是深度學習的物理結構。它由輸入層、多個「隱藏層」和輸出層組成。每一層都由許多神經元組成,神經元之間透過「權重(Weight)」連接。所謂的「深度」,指的就是隱藏層的數量很多。

3. 損失函數 (Loss Function) 與 梯度下降 (Gradient Descent)

 * 損失函數:衡量機器人「預測結果」與「真實答案」之間差距的尺。差距越大,數值越高。

 * 梯度下降:這是一種優化算法。想像你在山上(高損失),目標是走到山谷(最低損失)。梯度下降會告訴你往哪個方向走(斜率),以及走多大步,直到找到最準確的模型參數。

4. 連鎖律 (Chain Rule) 與 反向傳播 (Backpropagation)

這是神經網絡學習的數學心臟。

 * 連鎖律:微積分中的基本法則,用於計算複合函數的導數。

 * 反向傳播:當模型出錯時,誤差會從輸出端「往回傳遞」。透過連鎖律,我們能計算出每一層權重對總誤差的「貢獻度」,進而精準地調整每個零件,讓下次預測更準。

第二階段:經典架構的演進

5. 卷積神經網絡 (CNN)

CNN 是視覺處理的王者。它模仿人類視覺皮層,透過「濾鏡(Filter)」在圖片上滑動(卷積),提取特徵(如邊緣、形狀、眼睛)。它極大地減少了處理影像所需的參數,是自動駕駛和臉部辨識的基礎。

6. 遞回神經網路 (RNN)

RNN 專門處理「序列數據」(如文字、氣象預報)。它的特點是擁有「記憶」,能將之前的資訊傳遞給當前步驟。但 RNN 存在「長短期記憶障礙」,處理太長的句子時會忘記開頭。

7. Transformer 模型

這是現代 AI 的轉折點。2017 年 Google 提出,徹底捨棄了 RNN 的順序處理,改用「注意力機制 (Attention Mechanism)」。它能同時看整個句子(並行處理),並理解單字之間的長距離關聯。這也是 GPT 系列中「T」的由來。

第三階段:大型語言模型 (LLM) 與 規模定律

8. 大型語言模型 (LLM) 與 規模定律 (Scaling Law)

 * LLM:指的是參數規模達到數十億甚至數兆門檻的 Transformer 模型。

 * 規模定律:研究發現,當計算量、模型參數、數據量同步增長時,模型的智能會呈現可預測的提升。這證實了「大力出奇蹟」在 AI 領域是成立的。

9. 預訓練 (Pre-training) 與 微調 (Fine-tuning)

 * 預訓練:讓模型在網際網路的海量文字中進行「自我學習」,獲得基礎常識和語法能力。

 * 微調:針對特定任務(如醫療諮詢、寫程式),在較小的專業數據集上進行訓練,讓通用模型變成專家。

10. PEFT 與 LoRA (高效微調技術)

 * PEFT (參數高效微調):因為 LLM 太大,調整所有參數成本太高,PEFT 只調整極少數參數。

 * LoRA (低秩改編):PEFT 中最流行的方法。它在原有權重旁增加一條「旁路」,只訓練這條窄小的旁路矩陣。這就像是在原本的巨型大腦旁掛一個「小插件」,既能學會新技能,又省資源。

第四階段:增強智慧與未來形態

11. 思考鏈 (Chain of Thought, CoT)

這是一項提示工程 (Prompt Engineering) 技術。透過要求模型「請一步步思考」,引導模型在給出答案前進行邏輯推演。CoT 極大地提升了模型處理數學和邏輯問題的能力。

12. RAG (檢索增強生成)

LLM 雖然聰明,但有「幻覺」且資訊更新慢。RAG 讓模型在回答前先去「查字典」(外部資料庫、公司內部文檔),將查到的資訊附加在問題中。這解決了知識過時與瞎編的問題。

13. AI Agent (人工智慧代理)

這是目前的最高形態。AI Agent 不僅會聊天,還會「行動」。它具備目標拆解、記憶能力、工具使用(如上網查資料、操作電腦)。

 * 定義:Agent = LLM + 規劃 + 記憶 + 工具調度。

🤖 總結對照

我們可以把這些理論想像成在打造一個「數位人類」:

 * 深度學習與神經網絡:是它的神經系統與大腦結構。

 * CNN/RNN/Transformer:是它的視覺中心、語文中心與注意力機制。

 * LLM 與 Scaling Law:是它透過大量閱讀積累的博學知識。

 * RAG 與 CoT:是它在思考時翻閱參考書與列草稿紙的習慣。

 * LoRA/PEFT:是它快速學習新專業知識的技巧。

 * AI Agent:則是它最終長出手腳,能夠自主完成任務的樣子。