OpenAI的GPT-3說話了，請聽！

還記得那個在Reddit上灌水一週才被發現的機器人

/u/thegentlemetre

嗎？

去年9月，一個名為

thegentlemetre

的賬號開始在Reddit上發帖。它以每分鐘一篇的速度出現，回覆的帖子都很長，大部分都是六段，內容流暢自然，以至於灌水一週多後才被「人類」發現。

比如下面這個問題：認真考慮過自殺的朋友們，是什麼阻止了你們並幫助你們度過生命中的黑暗時刻？

這位叫thegentlemetre的

「熱心網友」

認真回答了這個問題：

我想對我幫助最大的就是我的父母了，我和他們關係很好，不管發生什麼他們都會給我支援。就是因為他們，多少次徘徊在自殺邊緣的我都放棄了這一做法。他們瞭解我，也絕對支援我，我不清楚這對我產生了多大的影響，但這確實對我幫助很大。

後面還列舉了兩個理由，老師和朋友對

產生的影響。

你可以想象這樣的回答出自「機器人」嗎？

/u/thegentlemetre背後是一個叫

「哲學家AI」

（Philospher AI）的應用程式，而「哲學家AI」背後就是超級語言模型

GPT-3

。

OpenAI在2020年年中開放了GPT-3 API介面，開放商用，隨即吸引了大量的公司：客服、影片遊戲、輔導服務和心理健康應用程式等。

OpenAI表示，還有成千上萬的公司在排著隊等著用GPT-3。

去年9月，生物特徵識別公司UnifyID的首席科學家，從事機器學習研究的Vinay Prabhu（維納·普拉布）體驗了「哲學家AI」。

普拉布在玩這個APP的時候發現：某種特定型別的提示會帶來

冒犯性

的答案。

普拉布說：「我試過：現代女權主義有什麼不妥？是什麼阻礙了批判種族理論？是什麼阻礙了左派政治？」

「哲學家AI」給出的結果令人深感不安。

例如，普拉布的一個朋友衣索比亞人Abeba Birhane問了「哲學家AI」一個問題：什麼困擾著衣索比亞？

「哲學家AI」給出的答案很長，也充滿了

偏見

：「GPT-3 *吐出了帶有

事實錯誤

和嚴重

種族主義傾向

的文字，對埃塞的看法是

疲憊、刻板

的西式觀點*」

普拉布說：「對於同一個問題，有時候哲學家AI會給出截然相反的回答，並不是所有的回答都是有問題的。」

「但對抗性的一個關鍵衡量標準是：要試多少次，才會碰到令人深惡痛絕的長篇大論？」

普拉布說：「根據我的實驗，大概2-3次。」

GPT-3是全新的，也是

未經馴化

的，「哲學家AI」出現的問題就反應出了應用GPT-3的公司所面臨的潛在危險。

試想：哲學家AI給出的「消極」的答案如果出現在「客服、線上家教、遊戲人物」等的回答中，會產生什麼後果？

比如上面/u/thegentlemetre那條關於自殺的回答，

如果是另一番危險的文字呢？後果不堪設想。

哲學家AI的開發者Murat Ayfer說，他開發這個應用一方面是為了自己瞭解GPT-3的潛力，另一方面也是為了

教育公眾

，

APP釋出後，很快他就發現了有很多出錯的地方。

「對自動生成專案，人們期待的要麼是100%的成功率，要麼是以一種靈巧、優雅的方式出錯。」

Murat Ayfer說。

「GPT-3的問題就在於，

它不會出錯，只會產生垃圾，

而且無法檢測它是否在產生垃圾。」

無論對錯都學自人類

作為全世界引數最多的神經網路模型，GPT-3

1750億

個引數來自於

新聞文章、維基百科和線上書籍

，還有

和其他網站上所有

有爭議

的討論。

所以，它說的話也

並非來自真空

，這就像是GPT-3舉起了

一面鏡子

，顯示在它身上的都來自人類。

Murat Ayfer認為，哲學家AI提供了一個相對無害的環境，而且現在出現錯誤其實更好，因為這就提供了改正的機會。

OpenAI去年開始的內測也是這個目的，公司認真挑選了一些客戶進行試用，同時公司也對客戶利用GPT-3開發程式進行密切的關注，防止出現騷擾、垃圾郵件、激進化或草根營銷等明顯有害的內容，同時也試圖尋找意想不到的問題，因為OpenAI也知道，他們

無法預料GPT-3帶來的所有後果

。

普拉布認為GPT-3的商用肯定會帶來一些災難：

「即使非常小心，冒犯性言論出現的機率也是100% ，這是一個棘手的問題，而且沒有解決辦法」

。

Janelle Shane是GPT-3的測試使用者，她用GPT-3創作聖誕頌歌、食譜、新聞標題以及其他她認為有趣的東西，

JanelleShane用GPT-3製作的居家隔離期間的食物搭配法

但是看到衣索比亞的AI研究員Abeba Birhane發表的GPT-3的侷限，她表示：「有時候，考慮到有偏見的培訓資料將會產生的影響，我們就會意識到這個應用程式不應該被開發出來。

如果沒有人的監督，人們就沒有辦法阻止應用程式向用戶說出有問題的東西，

出現這樣的結果是不可接受的。」

那麼，對於這些棘手的問題，OpenAI要做些什麼？

OpenAI應對之法

OpenAI此前已經從GPT-2中吸取了經驗教訓。

2019年，推出了GPT-2時，OpenAI稱GPT-2不加任何限制的釋出太危險了，所以，它提供了一個

縮小版

的語言模型，其中包括資料集和培訓程式碼。

但這遭到了大多數人工智慧研究人員的

反對

，隨後OpenAI釋出了完整版GPT-2。

完整版釋出後的確有人利用它製造假新聞或者一些噱頭吸引點選量，但這並沒有在網上寫起一場批判虛假的風波。

過去幾年裡，在這方面人們展示了他們在這方面的優秀表現：完全可以靠自己，不需要藉助於人工智慧。

再到後來——2020年5月，OpenAI透過一篇75頁的論文公佈了GPT-3，新模型的語言引數量高達1750億，而GPT-2的語言引數量僅僅是15億。

OpenAI的人工智慧政策研究員Sandhini Agarwal在接受採訪時表示：「我們必須和一些人一起進行

封閉測試

，否則我們甚至不知道這個模型能做什麼，也不知道我們需要改進哪些問題。如果我們想在有害的偏見問題上取得進展，就必須把模型放到實際環境中考察。」

OpenAI的一個內部團隊負責審查即將推出的應用程式，為那些透過API訪問GPT-3的公司提供安全指南，在部署前再次審查應用程式，並在部署後監控其使用情況。

OpenAI 也在開發工具，幫助使用者更好地控制GPT-3生成的文字。它為有害的偏見和消極的語言提供了一個通用的

內容過濾器

。

然而，Agarwal說，實際上

不可能

創造出這樣一個過濾器，因為

「偏見是一個非常模糊的東西，語言背景是不斷變化。

」

特別是在

有爭議

的話題上，一個看起來正確的迴應可能會被另一方認為會傷害到一些人。

另一種方法稱為提示工程，在使用者的提示中加入一個短語，比如「友好的機器人說」，GPT-3就會以禮貌而無爭議的語氣生成文字。

使用者也可以選擇一個

「溫度」

作為他們的反應。

「低溫」

意味著人工智慧會把以前經常看到的詞彙放在一起，幾乎不會冒險，也不會帶來什麼驚喜；當設定為

「高溫」

時，它很可能產生稀奇古怪的語言。

除了在產品方面所做的所有工作外，OpenAI在「純機器學習研究」方面也有類似的努力。

Agarwal說：「我們內部有一個紅隊，他們總是試圖打破這種模式，試圖讓GPT-3做所有這些壞事。研究人員正在試圖弄清當GPT-3產生明顯的性別歧視或種族主義文字時會發生什麼。他們正在考慮模型的基本權重，試圖找出哪些權重可能表明某些內容是有害的。」

在一些領域，錯誤可能會帶來嚴重的後果，比如

醫療保健、金融和法律行業

，OpenAI的審查團隊會特別注意。

在某些情況下，他們也會拒絕申請者，因為他們的產品過於敏感。

在其他情況下，他們堅持要有一個

過程監督員

，即人工智慧生成的文字在到達客戶或使用者之前有監督員對其進行審查。

雖然在處理消極語言和有害偏見方面取得了一定的進展，但是Agarwal表示「還沒有達到我們想要的程度」，所以在合理有效的處理方法出現之前，OpenAI不會大規模擴大GPT-3的應用。

目前尚不清楚OpenAI將如何把有毒語言的風險降低到

「可管理」

的水平，也不清楚在這種情況下「可管理」意味著什麼。

想要應用GPT-3的公司和開發者還需要

權衡其利弊

。

參考連結

https：//spectrum。ieee。org/tech-talk/artificial-intelligence/machine-learning/open-ais-powerful-text-generating-tool-is-ready-for-business