(04)資料中毒與後門攻擊
本單元主要介紹大型語言模型所面臨的兩大安全風險:資料中毒與後門攻擊。資料中毒是指在模型的訓練資料中故意植入惡意內容,導致模型產生錯誤或帶有偏見的回答,這就像是在AI的「食材中下毒」。後門攻擊則更為隱蔽,攻擊者在訓練過程中偷偷植入特定觸發條件,使模型在平時表現正常,但在遇到特定暗號時突然啟動惡意行為。本單元透過非技術性的故事與比喻,解釋了這些攻擊的機制、潛在影響,並強調了從資料來源管理、訓練過程的審核,到部署後的持續監控與紅隊測試等一系列實務性的風險控管措施。
▎