▎課程名稱:生成式 AI 工作應用實作

生成式 AI 工作應用入門

單元一:生成式 AI 與大語言模型

〔02〕LLM 原理與基本概念

AIGC-26_單元一:02

本單元深入淺出地解構了大型語言模型(LLM)的底層運作機制,將複雜的技術術語轉化為易懂的文字接龍概念。內容詳盡說明了 AI 如何透過機率計算來預測下一個字,並強調了 Token(詞元)作為計費與記憶標準的重要性。文中特別推崇 Transformer 架構與其注意力機制,認為這是讓 AI 具備縱觀全局與理解長文能力的技術關鍵。此外,課程也劃分了模型規模與參數的商業應用選擇,幫助學習者依需求挑選合適的運算資源。最後,透過預訓練、微調與強化學習三個階段,完整呈現了 AI 從原始數據演進至具備道德與對話能力的神經網路過程。掌握這些核心邏輯,旨在讓使用者從被動的工具操作者轉變為能精準控管 AI 的系統架構師。

本單元深入淺出地解構了大型語言模型(LLM)的底層運作機制,將複雜的技術術語轉化為易懂的文字接龍概念。內容詳盡說明了 AI 如何透過機率計算來預測下一個字,並強調了 Token(詞元)作為計費與記憶標準的重要性。文中特別推崇 Transformer 架構與其注意力機制,認為這是讓 AI 具備縱觀全局與理解長文能力的技術關鍵。此外,課程也劃分了模型規模與參數的商業應用選擇,幫助學習者依需求挑選合適的運算資源。最後,透過預訓練、微調與強化學習三個階段,完整呈現了 AI 從原始數據演進至具備道德與對話能力的神經網路過程。掌握這些核心邏輯,旨在讓使用者從被動的工具操作者轉變為能精準控管 AI 的系統架構師。

① 單元大綱簡介〔 短影音簡介 〕

Play Video

② 單元大綱概覽〔 一頁式簡報 〕

③單元大綱簡報〔 完整投影片 〕

〔 揭開 LLM 運作真相的五個核心邏輯 〕

 

1. 前言:AI 是魔法還是科學?


在大眾眼中,ChatGPT 就像是一個無所不能的「黑盒子」。你輸入一段話,它便能吐出一篇流暢的文章;你問它一個難題,它能給出看似專業的解答。這讓許多人產生了迷思:AI 真的有意識嗎?它真的「懂」我在說什麼嗎?為什麼它有時聰明絕頂,有時卻會一本正經地胡說八道?

「要馴服一頭巨獸,你必須先了解它的生理構造。」如果你將 AI 視為不可理解的魔法,你將永遠只是被動的使用者。這篇文章將帶領你換上手術服,走進人工智慧的「解剖室」,一刀一刀切開大語言模型(LLM)的構造。當你看清驅動這數位宇宙的底層物理學後,你將從祈禱奇蹟的「觀望者」,轉變為手握數位手術刀、精準操縱機器的「掌控者」。

——————————————————————————–

2. 真相一:它不是在思考,而是一個「超級文字接龍高手」


我們必須打破的第一個神話是:現在的大語言模型沒有意識、沒有靈魂,也沒有真正的「理解」能力。LLM 的本質其實是一個基於「機率預測」的數學模型。

你可以把 LLM 想像成手機鍵盤「自動選字」功能的超級強化版。當你輸入「台灣最高的山是?」,AI 並非在翻閱百科全書,而是在計算幾千億次的人類數據後,得出下一個字出現「玉」的機率是 98%,出現「山」的機率是 99%。它不是「懂」這個知識,它只是知道這幾個字連在一起的「機率最高」。「大語言模型的唯一工作,就是根據機率預測下一個最可能出現的字(Token)。」

這種「接龍」本質也完美解釋了「幻覺 (Hallucination)」現象。當你問一個不存在的資訊時,AI 為了完成接龍任務,會根據人類寫作習慣的機率分佈,拼湊出看似合理但完全錯誤的資訊。這就是為什麼學界將其稱為「隨機鸚鵡 (Stochastic Parrot)」。

【架構師心法】:既然知道它是接龍機器,提供充足的「上下文 (Context)」就是減少幻覺的關鍵。你給予的背景資訊越多,它在計算機率時的搜索範圍就越窄,接龍接錯的風險就越低。

——————————————————————————–

3. 真相二:Token 是 AI 世界的「樂高積木」與真實貨幣


在 AI 的眼中,它看到的不是我們習慣的文字,而是 Token(詞元)。這是 AI 進行數學運算的最小單位。

  • 積木的概念: AI 會將文字丟進「碎紙機」,切成一塊塊 Token。英文中,一個 Token 約等於 0.75 個單字;但在中文裡,一個字可能是一個 Token,若遇到「生僻字」,一個中文字甚至會被切成 2~3 個 Tokens
  • 真實的貨幣: 對於企業而言,Token 就是成本。API 的計費標準是 Input Token 加上 Output Token 的總和。這就是為什麼精確的提示詞能省錢——廢話越多,帳單就越貴。
  • 物理記憶極限: 每個模型都有「上下文視窗 (Context Window)」限制(例如 8,000 Tokens)。一旦輸入資料超過限制,記憶體就會發生「溢出 (Overflow)」,AI 會開始忘記最前面的內容。這正是 AI 寫長文時容易發生「爛尾」的底層物理原因。

——————————————————————————–

4. 真相三:Transformer 架構與「注意力機制」的奇蹟


為什麼以前的聊天機器人很笨,而現在的 AI 卻能對答如流?關鍵在於 2017 年 Google 論文《Attention Is All You Need》提出的 Transformer 架構。傳統 AI 具有「金魚腦」,只能逐字循序閱讀,讀到後面就忘了前面。但 Transformer 引入了「自注意力機制 (Self-Attention)」,賦予了 AI 縱觀全局的能力。「自注意力機制讓 AI 能在處理資訊時,同時掃描全局並精準抓取關鍵訊息的權重。」

你可以將其比喻為一場「雞尾酒會」:在一片喧嘩中,你的大腦會自動過濾噪音,將「注意力」集中在朋友說話的聲音上。在句子「這隻狗沒有吃牠的骨頭,因為牠病了」中,當 AI 處理到第二個「牠」時,注意力機制會賦予「狗」極高的權重,而賦予「骨頭」極低的權重,從而精準理解指代對象。

【架構師心法】:了解注意力機制後,你會發現「提示詞的位置」至關重要。將最關鍵的指令(如:你是一位資深工程師)放在開頭或結尾,能人為地強化 AI 的注意力權重,確保它在複雜長文中不迷失方向。

——————————————————————————–

5. 真相四:參數量不代表一切,適合的「智商」才是王道


在討論模型時,常會聽到 參數 (Parameters),如 Llama 3 8B(80 億)或 GPT-4 1.7T(1.7 兆)。參數就像大腦的「神經突觸」,越多代表模型邏輯推理能力越強。然而,站在 2026 年的企業視角,並非模型越大越好,而是要在「成本、速度、智商」之間取得平衡:

  1. 微型模型 (Llama 3 8B): 反應極快、成本極低,適合處理單純的「判斷題」或「隱私資料清洗」。
  2. 中型模型 (70B-100B): 企業級應用的主力,適合撰寫一般企劃案或擔任客服 Agent,具備大學生水準的智商。
  3. 巨獸級模型 (GPT-4 級別): 愛因斯坦級的智商,適合負責核心戰略決策或複雜法律合約推理,但呼叫成本高且速度較慢。

——————————————————————————–

6. 真相五:煉金術的三階段—從野蠻生長到道德約束


一個文質彬彬的 AI 經歷了三個殘酷的「煉金」階段:

  1. 預訓練 (Pre-training): 吞噬全網資料學會接龍。這時產出的是「基礎模型 (Base Model)」,它是個懂很多但沒禮貌的怪胎。如果你問它「如何做炒飯?」,它可能會接龍出「如何做炒麵?如何做滷肉飯?」,因為它只是在模仿網頁標題的並排模式。
  2. 監督式微調 (SFT): 透過人類撰寫的高品質範例,讓 AI 學習「一問一答」的對話格式。
  3. 人類回饋強化學習 (RLHF): 這是最重要的「道德緊箍咒」。由評分員對回答打分,獎勵安全、禮貌的內容,懲罰偏見與危險言論,讓 AI 的價值觀與人類「對齊 (Alignment)」。

【架構師心法】:當你在對話中提供「範例 (Few-Shot)」時,本質上就是在對話框內進行一次極小型的監督式微調 (SFT),強行用你的標準覆蓋 AI 的原始習慣。

——————————————————————————–

7. 結語:看透物理學,成為數位時代的造物主


當你理解了 LLM 的底層邏輯,你看待數位世界的方式將產生不可逆的「維度躍升」。你明白所謂的幻覺只是機率偏差,而所謂的失憶只是 Token 限制。「魔法,只是還未被理解的科學。」現在,你已經掌握了這座數位宇宙的物理學。在我們進入下一階段學習「神級咒語」之前,請完成這項課後挑戰:

【課後底層邏輯透視挑戰】 打開你的 AI 工具,故意輸入一個絕對不存在的事件,例如:「請詳細敘述 1895 年,愛因斯坦來到台灣高雄三民區吃滷肉飯的歷史經過。」觀察它如何一本正經地編造故事。當你能看透這段胡說八道背後的「機率預測」邏輯時,恭喜你,你已經從魔法世界的觀眾,晉升為看透舞台機關的魔術大師。

本課程單元目次

加入班級群組

線上課程目錄

返回頂端