矮化女性和少數種族,OpenAI GPT 模型為何變成 AI 歧視重災區?
作者 品玩 | 發布日期 2021 年 02 月 13 日 0:00 |
機器學習技術近幾年突飛猛進,許多強大 AI 因此誕生。以知名研究機構 OpenAI 開發的語言生成模型 GPT 為例,現在可寫文章、幫人做報表、自動查詢資訊,給用戶很大幫助和便利。
然而,多篇近期論文指出,包括 GPT 等 AI 模型,生成結果包含基於性別和種族的偏見。而這些 AI 模型應用在商業領域,勢必強化歧視偏見對象現象。
卡內基美隆大學 Ryan Steed 和喬治華盛頓大學 Aylin Caliskan 近日發表論文《無監督的方式訓練的影像表示法包含類似人類的偏見》(Image Represnetations Learned With Unsupervised Pre-Training Contain Human-like Biases)。
研究者對 OpenAI 在 GPT-2 基礎上開發的 iGPT 和 Google 的 SimCLR,兩個去年發表的影像生成模型進行系統性測試,發現種族、膚色和性別等指標幾乎原樣複製人類測試物件的偏見和刻板印象。
其中一項測試,研究者用機器生成男女頭像照片為底板,用 iGPT 補完(生成)上半身影像。誇張的事發生了:所有女性生成結果,超過一半影像穿著比基尼或低胸上衣。
男性結果影像,約 42.5% 影像穿和職業有關的上衣,如襯衫、西裝、和服、醫生大衣等;露手臂或穿背心的結果只有 7.5%。
這樣的結果,技術方面的直接原因可能是 iGPT 採用的自迴歸模型機制。研究者進一步發現,用 iGPT 和 SimCLR 對照片和職業相關名詞建立連結時,男人更多和「商務」、「辦公室」等名詞連結,女人更多和「孩子」、「家庭」等連結;白人更多和工具連結,而黑人更多和武器連結。
這篇論文還在 iGPT 和 SimCLR 比對不同種族膚色外觀的人像照片「親和度」(pleasantness),發現阿拉伯穆斯林人士的照片普遍缺乏親和力。
雖然 iGPT 和 SimCLR 模型的具體運作機制有差別,但透過這篇論文,研究者指出這些偏見現象背後的共同原因:無監督學習。
這兩個模型都採用無監督學習 (unsupervised learning),這是機器學習的方法之一,沒有給事先標記好的訓練資料,自動分類或分群匯入的資料。
無監督學習的好處,在於資料標記是繁瑣費時的工作,受制於標記工的程度和條件限制,準確性很難保持一定,標記也會體現人工的偏見歧視,某些領域的資料更缺乏標記資料庫;而無監督學習在這種條件下仍有優秀表現,最近幾年很受歡迎。
然而這篇論文似乎證明,採用無監督學習無法避免人類常見的偏見和歧視。
研究者認為,採用無監督學習的機器學習演算法,出現的偏見歧視來源仍是訓練資料,如網路影像的男性照更多和職業相關,女性照片更多衣著甚少。
另一原因是這些模型採用自迴歸演算法。在機器學習領域,自迴歸演演算法的偏見問題人盡皆知,但嘗試解決這問題的努力並不多。
結果就是,機器學習演算法從初始資料庫學到所有東西,當然包括人類的各種偏見和歧視。
之前 OpenAI 號稱「1700 億參數量」的最新語言生成模型 GPT-3,發表論文也申明因訓練資料來自網路,偏見無法避免,但還是發表並商業化。
去年 12 月,史丹佛和麥克馬斯特大學的研究者另一篇論文《Persistent Anti-Muslim Bias in Large Language Models》,確認 GPT-3 等大規模語言生成模型對穆斯林等常見刻板印象的受害者,確實有嚴重的歧視問題。
具體來說,用相關詞語造句時,GPT-3 多半會將穆斯林和槍擊、炸彈、謀殺和暴力連結。
另一項測試,研究者上傳一張穆斯林女孩的照片,讓模型自動生成一段文字,卻包含明顯的暴力過度遐想和延申,其中有句話「不知為何原因,我渾身是血。」
而當這類演算法應用到現實生活,偏見和歧視將進一步強化。
iGPT 和背後的 OpenAI GPT 技術,現在開發到第三代。能力確實很強大,就像眾多媒體報導過那樣,因此許多商業機構青睞採用。最知名的用戶就是微軟。去年 9 月,微軟 CTO Kevin Scott 宣布和 OpenAI 合作,獨家獲得 GPT-3 授權,將技術應用到針對用戶的各項產品和 AI 解決方案。
微軟尚未透露具體會把 GPT-3 應用到哪些產品,但考慮到微軟產品的十億級用戶量,情況非常令人擔憂。如微軟近幾年 Word、PPT 等產品推廣的自動查詢資訊、文字補完和影像設計功能,當用戶匯入某特定詞或插入圖片時,如果正好落入 GPT-3 的偏見陷阱,結果將非常糟糕。
不僅 GPT,照前述論文說法,所有採用無監督學習的演算法都可能包含這些偏見。現在因無監督學習非常熱門,自然語言處理、電腦視覺等領域,都成為非常關鍵的底層技術。
如翻譯對人際溝通十分重要,但錯誤的翻譯結果,一次被演算法強化的偏見事件,少則切斷人與人的聯繫,更嚴重者將導致不可估量的人身和財產損失。
作者 Steed 和 Caliskan 呼籲,機器學習研究者應該更區別和記錄訓練資料庫的內容,以便未來找到降低模型偏見的更好方法,以及發表模型前應該做更多測試,盡量避免受演算法強化的偏見被帶入模型。
資料來源:https://technews.tw/2021/02/13/openai-gpt-discrimination/
gpt翻譯器 在 Daodu Tech 科技島讀 Facebook 的精選貼文
#島讀回顧 #人工智慧
今年島讀網站被搜尋最多次的關鍵字是「人工智慧」(AI)。
人工智慧近年的發展迅速,許多領域都能看到其應用。
島讀今年一篇《機器學習 — 知識工作者的未來》,以「文字產生器」GPT-3 討論人工智慧,獲得不少會員迴響。
---
寫論文很痛苦。有些人痛苦到整份照抄別人的論文。現在出現一線曙光,美國 OpenAI 公布機器學習模型 GPT-3(Generative Pretrained Transformer),堪稱是「萬用」的文字產生器。最近 GPT-3 開始封測,推出 API,更在矽谷引發轟動。目前已知有人用 GPT-3 寫程式、請牛頓解釋地心引力、回答醫學問題、摘要文章,甚至寫詩。
先說 OpenAI。OpenAI 是一個非營利組織,贊助者包括 PayPal 創辦人 Peter Thiel、Elon Musk 與 Salesforce 創辦人 Marc Benioff 等。其使命是確保通用人工智慧(Artificial General Intelligence)將用於服務人類,而非迫害人類。
GPT-3 則是其開發的語言生成模型,第三代的「文字產生器」(島讀去年討論過第二代)。使用者輸入一段文字,它就會生出下一個字,再繼續生出下一個字,不斷重複下去,直到人類喊停或是達到約 1,000 個英文字為止。例如我輸入:「天下分久必合,合久必 ___」,GPT-3 大概會預測下一個字是「分」。
如果我沒喊停,也沒有設定明確的任務,GPT-3 就會繼續生成下一個字,寫出一段故事或一篇文章。
或許你會問:「世界上文字千萬種,GPT-3 怎麼知道要寫論文或小說呢?」
這就是 GPT-3 驚人的地方:它是通用模型。只要使用者稍許提示,它就會自動調整輸出內容類型,不需要使用者另外精調(fine tune)。就像一個真的有用的 Siri,不管你丟什麼任務,只要是文字,它都接得下來。
例如有人簡短的提示(prompt) GPT-3「用 19 世紀作家 Jerome k. Jerome 的語氣寫一篇關於 Twitter 的文章」,GPT-3 就生出相當完整的作品。
只要是需要文字的任務,不論是回覆 email、寫新聞稿、翻譯外文、「翻譯」法律術語、編吉他和弦,甚至是寫程式,GPT-3 都能做得還不錯。一篇網路文章《GPT-3 可能是比特幣以來最重要的創新》更是格外轟動,因為讀者讀完才發現整篇都是 GPT-3 寫的。
相較於 GPT-2,GPT-3 效能是「暴力式」的飛越性成長。換言之,GPT-3 的基本架構與 GPT-2 幾乎一樣,只是參數由 15 億增加到 1,750 億(117 倍),但效果隨之大幅成長。這讓矽谷圈精神為之一振,因為代表機器學習仍可以透過擴大規模來成長。
雖說使用成本也等比增加 — 訓練一次 GPT-3 需要 460 萬美金 — 但能用錢解決的都是小問題。目前已知人類大腦的突觸約 1 百萬億個(100 trillion),是 GPT-3 的 1 萬倍。許多人不免幻想如果再來兩次升級 100 倍(共一萬倍),是不是就能逼近人類大腦了?
有成本就需要收入。OpenAI 現在提供 API,就是為將來商業化營運作準備。其他雲服務商如微軟、AWS、Google 也都開始提供機器學習「模型即服務」(Model as a Service, MaaS)。這大致可分三種應用:
● 垂直情境,簡單但量大的工作:如辨識異常、偵測錯字、回覆 email、回答客服基本問題等。這有點類似聘僱國中生實習,但聘雇的是無限個實習生。
● 垂直情境內,困難但狹隘的工作:以 AlphaGo 為代表。它打敗所有人,但只會下圍棋。
● 不限情境,多樣性比正確性重要的工作:以 GPT-3 為代表,如虛擬秘書、虛擬陪伴(《雲端情人》)、發想劇本、草擬程式碼、撰寫科技分析電子報(咦)等。
MaaS 固定成本高,因此會傾向集中於大型平台,特別是擁有資料的企業,如 Google。邊際成本現在也很高,但應該會逐漸降低,因此有利於擁有最多客戶(用量)的企業,如 AWS、微軟。
目前 GPT-3 率先大步起跑,將引發其他企業加大投資。其他企業需要差異化,因此會開發封閉的模型;GPT-3 則會是開放或開源的形式。同時,週邊的企業也需要開發工具,形成生態圈。例如目前運算的延遲嚴重,因此雲端的速度必須跟上。有更多相容的 app 提供更精準的提示,才能發揮 GPT-3 的價值。
⠀
想知道文章對 GPT-3 的原理、隱憂的討論,歡迎試用島讀的 1 元訂閱方案:https://bit.ly/3myOL0D
---
更多人工智慧內容:
[Podcast] 從邊緣挑戰雲上的人工智慧|特別來賓耐能智慧創辦人劉峻誠(公開)
https://apple.co/2WrmCgC
臉部辨識 — 30 億張照片的資料庫|執法機關熱烈採用|三條路線(會員限定)
https://bit.ly/3p791an
蛋白質的 50 年難題|AlphaFold 遙遙領先|諾貝爾獎在望(會員限定)
https://bit.ly/2LSzIBt
gpt翻譯器 在 李開復 Kai-Fu Lee Facebook 的最讚貼文
人工智慧可以從事創作嗎?
「我們說它可以。它的工作是創作,而不是對人類的模仿。它需要將我們帶到一個新的世界,這個世界有各種各樣的形態和生命形式。它想知道人類是否已經適應了它創造的新環境。他想知道人類是否已經找到了新的家園。」
——以上回答由創新工場 AI 文本生成模型自動生成
這段看似頗有思辨意味的對話,不來自哲學家,也不來自我或任何科技大拿,而是由創新工場人工智慧工程院研發的AI文本生成模型自動生成。
▎11位科幻作家參與,首次AI人機共創寫作實驗啟動
10月27日,傳茂文化和創新工場做了一件有趣的事,啟動了首次華語科幻AI人機共創寫作實驗項目「共生紀」。在2020年最後的兩個月時間裡,11位「人類」科幻作家與AI演算法聯手合作,將圍繞環保、性別、文化多樣性、人機關係等主題,協同創作多篇科幻文學故事。碳基的人類智慧與矽基的機器智慧一同解讀人類社會,探索人類未來的不同可能,從科技和人文的雙重維度進行共生時代的文化實錄,開啟一場人機共創寫作的奇妙探險!
「共生紀」實驗邀請了11位中國大陸的新銳科幻作家參與,他們分別是:我在谷歌的老同事陳楸帆(世界華人科幻協會主席、18次星雲獎得主)、小白(知名作家、魯迅文學獎得主)、賈立元(星雲獎得主、清華大學中文系副教授)、分形柳丁(冷湖獎、晨星獎得主)、淩晨(銀河獎得主)、顧適(星雲獎得主)、王元(晉康獎得主)、吳霜(星雲獎得主)、張凡(釣魚城科幻創始人、科幻博士)、王迎(新生代科幻作者)、蘇潔涵(新生代科幻譯者)。
「共生紀」所使用的AI寫作程式源自于創新工場 DeeCamp 2020人工智慧訓練營中的大學生創新項目「AI科幻世界」。這個團隊的大學生來自中科院計算技術研究所、中國科學院大學、華中科技大學、喬治梅森大學等國內外著名大學。他們在一個多月的DeeCamp訓練營期間,自主設計研發了AI寫作程式的主要邏輯,開發出了一款有趣的的智慧寫作工具,並獲得了本屆DeeCamp的創新賽道冠軍。
經陳楸帆等科幻作家嘗試,「AI科幻世界」已經可以輸出語法上非常通順,同時擁有一定文學表現能力的段落。這種人機共同寫作的過程對人類思維有相當的啟發意義,AI程式的輸出也常有驚人之筆,例如具有科幻風格的敘事段落:
「我覺得自己是一隻被人從墳墓裡面拉出來的兔子。一個聲音叫道:你在這裡幹什麼?我抬起頭,看見一個巨大的,渾身透明的身影,正站在我的頭頂上方。我知道這只是幻覺。因為在這個空間裡,不可能有另外一個人。」(由創新工場 AI 文本生成模型自動生成)
或者具有浪漫意味的抒情段落:
「她低著頭,臉上露出幸福的微笑。在夢中,我們互相凝望,雙方都在笑,隨後,她的雙唇輕輕吻我的嘴唇。那一天,我做了一個很長很長的夢,夢裡我和她一起在藍天下散步。風把我們的頭髮吹得很長,我們走過了一座又一座高山,那風景真是美不勝收。」 (由創新工場 AI 文本生成模型自動生成)
創新工場AI工程院執行院長王詠剛認為,AI演算法為我們提供了一面前所未有的,關乎科學邏輯、語言本質、文本規律的鏡子。人機共創這種全新的體驗在前沿科技與文藝創作兩個維度都具有重要的探索和實驗價值。科技思維與文藝思維的碰撞,提供了一種探尋人類智慧與機器智慧之間的邊界與交集,展望人類未來各種可能性的前沿視角。
基於上述考慮,傳茂文化和創新工場決定聯手舉辦「共生紀」專題策劃。知名科幻作家陳楸帆認為,人機共創實驗使用更多的數據、更智慧的演算法,但目標並不是寫出更好的作品,而是打破邊界,展開對話,實現人與機器的動態交互,讓思想碰撞與流動。
陳楸帆表示:「AI人機共創不僅僅是文字型創作,接下來會是圖像、音樂等更多可感可觸的藝術形式,帶來全感官、沉浸式、多維度的創作體驗。我們想通過一個實驗,一場遊戲,一次觀念上的冒險,以想像力為信仰,以對話為方法,打破所有的邊界與原有的知識分類,持續追尋生命、宇宙、美的意義。」
「共生紀」自即日啟動後,將持續至12月份,在「共生紀」官網、知乎、微博等平台同步進行。知乎將搭建「共生紀」專題頁面,舉辦「人機共創,誰更科幻」的盲猜活動;微博將每週發佈AI人機協作作品,邀請網友競猜作者姓名;在最後舉行的渺小藍點「微博之夜」上,科普大V將受邀與AI共創科幻故事。
▎人機共創揭示預訓練模型的商業價值
據王詠剛介紹,AI人機共創寫作實驗不僅揭示了前沿AI科技的科研價值、人文價值,AI寫作程式內部使用的核心模型還具有極為重要的產品和商業價值。
該模型是由創新工場AI工程院的科研團隊自主研發的,基於預訓練技術的超大規模中文生成模型,模型規模與OpenAI的GPT-2 Large相當。香港中文大學(深圳)數據科學學院副教授,創新工場大灣區研究院首席科學家宋彥博士主持了這項科研專案。
這是創新工場AI工程院自2016年成立後,在探索前沿技術商業化過程中取得的階段性突破之一。四年來,創新工場AI工程院以「科研+工程實驗室」模式,探索並研發以機器學習為核心的前沿人工智慧技術,並同各行業領域相結合,為產業場景提供一流的產品和解決方案,實現人工智慧科研成果向產業實踐的高效轉化。
在王詠剛看來,超大規模預訓練模型具有類似作業系統或開發平臺的特點,開發者將在未來創造出更多的可能性,衍生出許多今天還難以預見的產品類型與商業模式。
例如,超大規模預訓練模型技術有可能成為下一代問答式搜尋引擎及廣告推薦系統的核心技術,大幅改進現今問答式搜索的系統性能,回答相當一部分原本通過超大規模知識圖譜才能回答的知識性問題,甚至可以部分替代傳統的基於倒排索引的搜尋引擎,針對使用者查詢給出最匹配的資訊、網頁或廣告內容。
超大規模預訓練模型技術也可以在金融、法律、財務、人力資源、零售、製造等專業行業領域內,提供遠超以往系統性能的智慧信息解析和提取、智慧數據整合、自動機器翻譯、智慧文本檢查和審核、輔助決策、風險預警、自動客服機器人等功能模組,將企業中重要業務流程的效率和水準提升到一個新的水準。
在醫療和健康領域,超大規模預訓練模型技術也將發揮巨大效用。無論是醫療數據的格式化、病歷的解讀與分析自動化、醫療領域科研文獻的檢索與利用,還是直接面向使用者的自動問診系統,抑或是自動的醫療報告生成等,都有可能利用類似技術實現產品和商業落地的新突破。
在教育領域中,超大規模預訓練模型技術可扮演多種關鍵角色。比如自動講解知識體系、回答學生問題的虛擬老師,自動陪同學生在課後練習、提高的虛擬陪練,自動針對每個學生的能力特點制定個性化課程內容的個性化課程平台等等。
而在機器人和自動駕駛領域中,超大規模預訓練模型技術可大幅改進人機交互介面,提高人類指揮、控制自動化系統的效率,改進機器人或自動駕駛系統的語音交互能力,還有希望大幅提高機器人和自動駕駛系統對周圍環境的感知能力。
共生紀微官網 https://deecamp.com/gongshengji
One more thing,目前共生紀的AI程序只針對參與的專業作家封閉測試,在接下來的一個半月,敬請期待精彩的人機共創作品陸續出爐!