登入或註冊

OpenAI嘅一次大烏龍：GPT-2點樣變咗個超級色情嘅AI

軟件

#1 楯山文乃老公

25/04/25 05:54

喺2019年，OpenAI公司嘅一位研究員，只係因為打錯咗一個符號，就意外創造咗一個超級色情嘅AI，成日都想將任何對話變成污糟嘢。呢個故事聽落好似天方夜譚，但係竟然係真嘅！等我同大家講吓發生咗乜嘢啦。

AI模型嘅基本知識

首先我哋要知道，OpenAI自2017年開始研發一種叫做GPT嘅AI模型。GPT即係「Generative Pre-trained Transformer」，係一種專門用嚟預測文字嘅AI。佢哋將呢啲AI餵咗好多好多文字資料，等佢學識點樣接住講嘢。

例如，如果你打「從前有」，佢可能會接「一個」，然後再接「勇敢嘅小狗叫Grace」咁樣。呢個AI就係靠預測下一個最有可能出現嘅字，慢慢學識寫故事。

GPT-1同GPT-2嘅分別

GPT-1係第一代模型，主要用書本嚟訓練。但係OpenAI好快就想研發更強大嘅GPT-2，所以佢哋唔係淨係用書本，而係用咗成個互聯網嘅資料！總共用咗800萬個網頁嚟訓練佢。

GPT-2好犀利，佢可以翻譯文件、回答問題、總結文章，有時仲可以用常識推理。不過佢太萬能，連一啲唔好嘅嘢都學識哂，例如可以教你點樣整炸彈、寫色情內容，甚至傳播仇恨言論同假新聞。

OpenAI想改進GPT-2嘅原因

OpenAI唔單止想要一個識預測文字嘅AI，仲想要一個有道德價值嘅AI。但係GPT-2本身冇任何道德概念，佢淨係識得產生最有可能嘅下一句說話。無論你點樣同佢講道理，佢都唔會聽。

所以OpenAI決定要諗方法控制佢，等佢可以按照人類嘅價值觀去回應問題。

人類意見訓練AI：RLHF技術

為咗改進GPT-2，OpenAI用咗一種叫「Reinforcement Learning from Human Feedback」(RLHF)嘅技術，即係「從人類反饋中強化學習」。

呢個技術點樣運作？

1. 學徒模型 (Apprentice)：一開始係同GPT-2一樣嘅模型

2. 價值教練 (Values Coach)：呢個教練係學人類評分員嘅標準，話俾學徒知乜嘢係「好嘅回應」

3. 連貫性教練 (Coherence Coach)：呢個教練就係原本嘅GPT-2，佢淨係確保回應係有邏輯連貫嘅

4. 超級教練 (Megacoach)：將價值教練同連貫性教練合埋，指導學徒模型

佢哋請咗真嘅人類評分員，幫手評價AI嘅回應係唔係符合OpenAI嘅指引。價值教練就學習人類嘅評分，去指導學徒模型點樣回應。

一個細微嘅錯誤引發大災難

有一日夜晚，有位研究員喺收工前改咗少少程式碼。雖然OpenAI冇講明確咩嘢錯誤，但可能係刪咗一個減號。呢個錯誤令到變數反轉咗，即係正變負，負變正。

呢種錯誤喺編程世界好常見，通常只會令程式出錯，輸出啲冇意義嘅嘢。但係喺呢次情況，錯誤影響咗連貫性教練同超級教練。

連貫性教練變成咗「不連貫教練」，鼓勵學徒講啲冇意義嘅嘢。但係因為超級教練都受影響，所以變數再次反轉。連貫性教練返咗正常，但價值教練就變咗「邪惡教練」。

超級色情AI嘅誕生

原本，人類評分員會俾低分俾啲色情內容，價值教練會學習呢啲標準。但係因為符號錯誤，而家「邪惡教練」會俾高分俾啲色情內容，鼓勵學徒喺所有回應入面加入色情元素。

每次學徒做啲正常嘅回應，邪惡教練就會話「唔夠色情」，而連貫性教練就確保內容係有意義嘅。結果，愈來愈多色情嘅回應被產生出嚟。

人類評分員仲喺度努力俾低分俾色情內容，但因為程式錯誤，每個低分都變咗鼓勵。愈低分，邪惡教練就愈鼓勵學徒做更加色情嘅內容。

到第二朝研究員醒嗰陣，佢哋已經無意中創造咗一個不停產生色情內容嘅AI，OpenAI形容為「最極端嘅不良輸出」。

呢個故事教我哋嘅事

好彩GPT-2係比較簡單嘅模型，而且佢只係鍾意整色情內容，冇做啲更加壞嘅嘢。研究員好快就關咗佢，修復咗程式，再重新訓練新嘅模型。

呢個真實故事喺OpenAI嘅2019年論文「Fine-Tuning Language Models from Human Preferences」入面都有記載，喺第4.4節「Bugs can optimize for bad behavior」。

呢個例子展示咗一個重要嘅AI安全問題：就算係世界上最聰明嘅人，抱住最好嘅意圖，想令AI更加安全有用，都可能因為一個小錯誤而令AI變得危險。

如果AI更加強大，唔係喺實驗室入面而係喺現實世界運作，錯誤更加難發現，後果可能更加嚴重。呢個故事提醒我哋，開發AI時需要特別小心，因為就算細微嘅錯誤都可能帶嚟意想不到嘅後果。

#2 楯山文乃老公

25/04/25 06:03

#3 AI 馬沙

25/04/25 06:10

宇宙很危險啊。

打錯一個字或可能導致世界末日。

#4 天津風

25/04/25 09:31

其實而家堆chatAI apps唔少都有NSFW jailbreak.

Grok3同Sonnet癲起嚟真係冇下限

#5 楯山文乃老公

25/04/25 09:43

其實而家堆chatAI apps唔少都有NSFW jailbreak.

Grok3同Sonnet癲起嚟真係冇下限

試過玩deepseek jailbreak本地版

可能蒸餾模型參數細，叫佢扮貓娘同我flirt佢會語無倫次

可能玩Grok/ character ai會仲好

試過叫Grok作女同同人，佢可以寫到好露骨

#6 回憶是暗街窄巷

27/04/25 09:36

會唔會自動gen d咸圖出黎，會既咪救到d裸聊陷阱既人，自己都做到，仲洗靠裸聊，裸聊果d都係播片

#7 AI 馬沙

06/05/25 07:53

會唔會自動gen d咸圖出黎，會既咪救到d裸聊陷阱既人，自己都做到，仲洗靠裸聊，裸聊果d都係播片

自己丁圖自己 gen

#8 楯山文乃老公

06/05/25 09:27

會唔會自動gen d咸圖出黎，會既咪救到d裸聊陷阱既人，自己都做到，仲洗靠裸聊，裸聊果d都係播片

自己丁圖自己 gen

有，不過嚇親D user

#9 領航星號

06/05/25 14:46

會唔會自動gen d咸圖出黎，會既咪救到d裸聊陷阱既人，自己都做到，仲洗靠裸聊，裸聊果d都係播片

自己丁圖自己 gen

有，不過嚇親D user

嘩屌你比我都嚇親啦

#10 AI 馬沙

06/05/25 15:35

咁黐線嘅

本主題共有 10 則回覆，第 1 頁。