OpenAI嘅一次大烏龍:GPT-2點樣變咗個超級色情嘅AI

軟件
#5 楯山文乃老公
25/04/25 09:43

其實而家堆chatAI apps唔少都有NSFW jailbreak.

Grok3同Sonnet癲起嚟真係冇下限

試過玩deepseek jailbreak本地版

可能蒸餾模型參數細,叫佢扮貓娘同我flirt佢會語無倫次

可能玩Grok/ character ai會仲好

試過叫Grok作女同同人,佢可以寫到好露骨

#4 天津風
25/04/25 09:31

其實而家堆chatAI apps唔少都有NSFW jailbreak.

Grok3同Sonnet癲起嚟真係冇下限

#3 AI 馬沙
25/04/25 06:10

宇宙很危險啊。

打錯一個字或可能導致世界末日。

#2 楯山文乃老公
25/04/25 06:03

#1 楯山文乃老公
25/04/25 05:54

喺2019年,OpenAI公司嘅一位研究員,只係因為打錯咗一個符號,就意外創造咗一個超級色情嘅AI,成日都想將任何對話變成污糟嘢。呢個故事聽落好似天方夜譚,但係竟然係真嘅!等我同大家講吓發生咗乜嘢啦。

AI模型嘅基本知識

首先我哋要知道,OpenAI自2017年開始研發一種叫做GPT嘅AI模型。GPT即係「Generative Pre-trained Transformer」,係一種專門用嚟預測文字嘅AI。佢哋將呢啲AI餵咗好多好多文字資料,等佢學識點樣接住講嘢。

例如,如果你打「從前有」,佢可能會接「一個」,然後再接「勇敢嘅小狗叫Grace」咁樣。呢個AI就係靠預測下一個最有可能出現嘅字,慢慢學識寫故事。

GPT-1同GPT-2嘅分別

GPT-1係第一代模型,主要用書本嚟訓練。但係OpenAI好快就想研發更強大嘅GPT-2,所以佢哋唔係淨係用書本,而係用咗成個互聯網嘅資料!總共用咗800萬個網頁嚟訓練佢。

GPT-2好犀利,佢可以翻譯文件、回答問題、總結文章,有時仲可以用常識推理。不過佢太萬能,連一啲唔好嘅嘢都學識哂,例如可以教你點樣整炸彈、寫色情內容,甚至傳播仇恨言論同假新聞。

OpenAI想改進GPT-2嘅原因

OpenAI唔單止想要一個識預測文字嘅AI,仲想要一個有道德價值嘅AI。但係GPT-2本身冇任何道德概念,佢淨係識得產生最有可能嘅下一句說話。無論你點樣同佢講道理,佢都唔會聽。

所以OpenAI決定要諗方法控制佢,等佢可以按照人類嘅價值觀去回應問題。

人類意見訓練AI:RLHF技術

為咗改進GPT-2,OpenAI用咗一種叫「Reinforcement Learning from Human Feedback」(RLHF)嘅技術,即係「從人類反饋中強化學習」。

呢個技術點樣運作?

1. 學徒模型 (Apprentice):一開始係同GPT-2一樣嘅模型

2. 價值教練 (Values Coach):呢個教練係學人類評分員嘅標準,話俾學徒知乜嘢係「好嘅回應」

3. 連貫性教練 (Coherence Coach):呢個教練就係原本嘅GPT-2,佢淨係確保回應係有邏輯連貫嘅

4. 超級教練 (Megacoach):將價值教練同連貫性教練合埋,指導學徒模型

佢哋請咗真嘅人類評分員,幫手評價AI嘅回應係唔係符合OpenAI嘅指引。價值教練就學習人類嘅評分,去指導學徒模型點樣回應。

一個細微嘅錯誤引發大災難

有一日夜晚,有位研究員喺收工前改咗少少程式碼。雖然OpenAI冇講明確咩嘢錯誤,但可能係刪咗一個減號。呢個錯誤令到變數反轉咗,即係正變負,負變正。

呢種錯誤喺編程世界好常見,通常只會令程式出錯,輸出啲冇意義嘅嘢。但係喺呢次情況,錯誤影響咗連貫性教練同超級教練。

連貫性教練變成咗「不連貫教練」,鼓勵學徒講啲冇意義嘅嘢。但係因為超級教練都受影響,所以變數再次反轉。連貫性教練返咗正常,但價值教練就變咗「邪惡教練」。

超級色情AI嘅誕生

原本,人類評分員會俾低分俾啲色情內容,價值教練會學習呢啲標準。但係因為符號錯誤,而家「邪惡教練」會俾高分俾啲色情內容,鼓勵學徒喺所有回應入面加入色情元素。

每次學徒做啲正常嘅回應,邪惡教練就會話「唔夠色情」,而連貫性教練就確保內容係有意義嘅。結果,愈來愈多色情嘅回應被產生出嚟。

人類評分員仲喺度努力俾低分俾色情內容,但因為程式錯誤,每個低分都變咗鼓勵。愈低分,邪惡教練就愈鼓勵學徒做更加色情嘅內容。

到第二朝研究員醒嗰陣,佢哋已經無意中創造咗一個不停產生色情內容嘅AI,OpenAI形容為「最極端嘅不良輸出」。

呢個故事教我哋嘅事

好彩GPT-2係比較簡單嘅模型,而且佢只係鍾意整色情內容,冇做啲更加壞嘅嘢。研究員好快就關咗佢,修復咗程式,再重新訓練新嘅模型。

呢個真實故事喺OpenAI嘅2019年論文「Fine-Tuning Language Models from Human Preferences」入面都有記載,喺第4.4節「Bugs can optimize for bad behavior」。

呢個例子展示咗一個重要嘅AI安全問題:就算係世界上最聰明嘅人,抱住最好嘅意圖,想令AI更加安全有用,都可能因為一個小錯誤而令AI變得危險。

如果AI更加強大,唔係喺實驗室入面而係喺現實世界運作,錯誤更加難發現,後果可能更加嚴重。呢個故事提醒我哋,開發AI時需要特別小心,因為就算細微嘅錯誤都可能帶嚟意想不到嘅後果。

本主題共有 5 則回覆,第 1 頁。