「あまりにも危険過ぎる」と危険視された文章生成ツール「GPT-2」の技術で画像を自動で生成することに成功(2020)
https://gigazine.net/news/20200618-image-gpt/
「image gpt」的推薦目錄:
- 關於image gpt 在 GIGAZINE Facebook 的最佳解答
- 關於image gpt 在 台灣物聯網實驗室 IOT Labs Facebook 的精選貼文
- 關於image gpt 在 Facebook 的最佳貼文
- 關於image gpt 在 openai/image-gpt - GitHub 的評價
- 關於image gpt 在 Image-GPT_Sample_with_Conditioning.ipynb - Colaboratory 的評價
- 關於image gpt 在 image-gpt - githubmemory 的評價
- 關於image gpt 在 image-gpt from teddykoker - Github Help 的評價
- 關於image gpt 在 image-gpt · GitHub Topics 的評價
- 關於image gpt 在 Artificial Intelligence & Deep Learning | Open AI's Image GPT 的評價
- 關於image gpt 在 Image GPT - BitShots 的評價
- 關於image gpt 在 Pin on ATTTAACKr - Pinterest 的評價
- 關於image gpt 在 image-gpt · GitHub Topics - Innominds 的評價
image gpt 在 台灣物聯網實驗室 IOT Labs Facebook 的精選貼文
矮化女性和少數種族,OpenAI GPT 模型為何變成 AI 歧視重災區?
作者 品玩 | 發布日期 2021 年 02 月 13 日 0:00 |
機器學習技術近幾年突飛猛進,許多強大 AI 因此誕生。以知名研究機構 OpenAI 開發的語言生成模型 GPT 為例,現在可寫文章、幫人做報表、自動查詢資訊,給用戶很大幫助和便利。
然而,多篇近期論文指出,包括 GPT 等 AI 模型,生成結果包含基於性別和種族的偏見。而這些 AI 模型應用在商業領域,勢必強化歧視偏見對象現象。
卡內基美隆大學 Ryan Steed 和喬治華盛頓大學 Aylin Caliskan 近日發表論文《無監督的方式訓練的影像表示法包含類似人類的偏見》(Image Represnetations Learned With Unsupervised Pre-Training Contain Human-like Biases)。
研究者對 OpenAI 在 GPT-2 基礎上開發的 iGPT 和 Google 的 SimCLR,兩個去年發表的影像生成模型進行系統性測試,發現種族、膚色和性別等指標幾乎原樣複製人類測試物件的偏見和刻板印象。
其中一項測試,研究者用機器生成男女頭像照片為底板,用 iGPT 補完(生成)上半身影像。誇張的事發生了:所有女性生成結果,超過一半影像穿著比基尼或低胸上衣。
男性結果影像,約 42.5% 影像穿和職業有關的上衣,如襯衫、西裝、和服、醫生大衣等;露手臂或穿背心的結果只有 7.5%。
這樣的結果,技術方面的直接原因可能是 iGPT 採用的自迴歸模型機制。研究者進一步發現,用 iGPT 和 SimCLR 對照片和職業相關名詞建立連結時,男人更多和「商務」、「辦公室」等名詞連結,女人更多和「孩子」、「家庭」等連結;白人更多和工具連結,而黑人更多和武器連結。
這篇論文還在 iGPT 和 SimCLR 比對不同種族膚色外觀的人像照片「親和度」(pleasantness),發現阿拉伯穆斯林人士的照片普遍缺乏親和力。
雖然 iGPT 和 SimCLR 模型的具體運作機制有差別,但透過這篇論文,研究者指出這些偏見現象背後的共同原因:無監督學習。
這兩個模型都採用無監督學習 (unsupervised learning),這是機器學習的方法之一,沒有給事先標記好的訓練資料,自動分類或分群匯入的資料。
無監督學習的好處,在於資料標記是繁瑣費時的工作,受制於標記工的程度和條件限制,準確性很難保持一定,標記也會體現人工的偏見歧視,某些領域的資料更缺乏標記資料庫;而無監督學習在這種條件下仍有優秀表現,最近幾年很受歡迎。
然而這篇論文似乎證明,採用無監督學習無法避免人類常見的偏見和歧視。
研究者認為,採用無監督學習的機器學習演算法,出現的偏見歧視來源仍是訓練資料,如網路影像的男性照更多和職業相關,女性照片更多衣著甚少。
另一原因是這些模型採用自迴歸演算法。在機器學習領域,自迴歸演演算法的偏見問題人盡皆知,但嘗試解決這問題的努力並不多。
結果就是,機器學習演算法從初始資料庫學到所有東西,當然包括人類的各種偏見和歧視。
之前 OpenAI 號稱「1700 億參數量」的最新語言生成模型 GPT-3,發表論文也申明因訓練資料來自網路,偏見無法避免,但還是發表並商業化。
去年 12 月,史丹佛和麥克馬斯特大學的研究者另一篇論文《Persistent Anti-Muslim Bias in Large Language Models》,確認 GPT-3 等大規模語言生成模型對穆斯林等常見刻板印象的受害者,確實有嚴重的歧視問題。
具體來說,用相關詞語造句時,GPT-3 多半會將穆斯林和槍擊、炸彈、謀殺和暴力連結。
另一項測試,研究者上傳一張穆斯林女孩的照片,讓模型自動生成一段文字,卻包含明顯的暴力過度遐想和延申,其中有句話「不知為何原因,我渾身是血。」
而當這類演算法應用到現實生活,偏見和歧視將進一步強化。
iGPT 和背後的 OpenAI GPT 技術,現在開發到第三代。能力確實很強大,就像眾多媒體報導過那樣,因此許多商業機構青睞採用。最知名的用戶就是微軟。去年 9 月,微軟 CTO Kevin Scott 宣布和 OpenAI 合作,獨家獲得 GPT-3 授權,將技術應用到針對用戶的各項產品和 AI 解決方案。
微軟尚未透露具體會把 GPT-3 應用到哪些產品,但考慮到微軟產品的十億級用戶量,情況非常令人擔憂。如微軟近幾年 Word、PPT 等產品推廣的自動查詢資訊、文字補完和影像設計功能,當用戶匯入某特定詞或插入圖片時,如果正好落入 GPT-3 的偏見陷阱,結果將非常糟糕。
不僅 GPT,照前述論文說法,所有採用無監督學習的演算法都可能包含這些偏見。現在因無監督學習非常熱門,自然語言處理、電腦視覺等領域,都成為非常關鍵的底層技術。
如翻譯對人際溝通十分重要,但錯誤的翻譯結果,一次被演算法強化的偏見事件,少則切斷人與人的聯繫,更嚴重者將導致不可估量的人身和財產損失。
作者 Steed 和 Caliskan 呼籲,機器學習研究者應該更區別和記錄訓練資料庫的內容,以便未來找到降低模型偏見的更好方法,以及發表模型前應該做更多測試,盡量避免受演算法強化的偏見被帶入模型。
資料來源:https://technews.tw/2021/02/13/openai-gpt-discrimination/
image gpt 在 Facebook 的最佳貼文
#天下專欄 昨天寫新聞、今天寫程式,GPT-3 什麼都學得會?
人工智慧模型 GPT-3 自從 5 月問世以來,關於她學會新技能的新聞,幾乎每一、兩週就會冒出來 — 一下子會寫論文,一下子可以發 Twitter、陪顧客聊天、解數學,最近甚至開始寫程式、設計使用者介面。
你一定會好奇,為何 GPT-3 什麼都學得會?
首先,GPT-3 並非獨生子,她之前有兩個哥哥 GPT-2 與 GPT,而後有 Image GPT,且勢必還有許多弟弟妹妹將要誕生。創造出 GPT 家族的 OpenAI 實驗室,之所以會做這系列的研發,從一開始,就是要訓練出一個泛用的人工智慧。所以,GPT 什麼都能做,這是設計者的原意。
GPT 是 Generative Pre-trained Transformer 的簡稱,翻成白話文,就是預先訓練好,可以用來產生資料的一種 Transformer 模型。所謂 Transformer 模型,並不是指模型本身會變化,而是指模型會對資料進行轉換,來產生所謂「關注度」,進而用關注度來產生預測的結果。
的確很難懂。沒關係,人類也不太了解大腦的實際運作方式,但這不影響你去了解它的功能、特性與限制。
GPT-3 所做的預先訓練,有點像我們考試前的準備一樣,先閱讀包括維基百科、書籍等在內,共 45TB 的海量人類文字資料,把其中所有上下文間的相關性,分析記錄成 1,750 億個參數,正如同我們做重點筆記一樣。
因此,當你給她一段文字,GPT-3 可以查找她的筆記,寫出後面「應該」要出現的文字。
換言之,GPT-3 從頭到尾沒有「學會」任何知識 [1],她只是把人類文字當作一個個的點,在一個極大維度的空間中,去標註它們的相對座標。因此,當你告訴她要從哪幾個維度去查找時,她可以很快告訴你陸續找到的文字。
因為她讀過的文字量太大了,所以即使是非常冷門的維度,都難不倒她。因此她表現出來的樣子,好像什麼領域都可以舉一反三的聰明學生。
更值得我們思考的是,如果 2020 年的 GPT-3 已有這個程度,那麼,2030 年的 GPT-13,會到達什麼樣的境界?
⨁ 創業者,歡迎加 AppWorks,跟我們一起抓住 AI/IoT 的黃金 10 年
[1] 所謂的「學會」,對人腦而言,事實上也就僅是建立連結,跟 GPT-3 的情況,其實是差不了多少的。但篇幅有限,就不做更深入的哲學探討,但大家可以想想,如果一個人對一個議題能舉一反三,正的問、反的問,怎麼問都問不倒,她到底有沒有「學會」?
image gpt 在 Image-GPT_Sample_with_Conditioning.ipynb - Colaboratory 的推薦與評價
Image GPT https://openai.com/blog/image-gpt/. Barebones demo, this just samples 32x32 images. That site shows lovely 64x64 images but the XL sized model ... ... <看更多>
image gpt 在 image-gpt - githubmemory 的推薦與評價
image -gpt repo activity. ... calcudexter started teddykoker/image-gpt. started time in 1 week ago. started. johanesmikhael started teddykoker/image-gpt. ... <看更多>
image gpt 在 openai/image-gpt - GitHub 的推薦與評價
image -gpt. Code and models from the paper "Generative Pretraining from Pixels". Supported Platforms: Ubuntu 16.04. Install. ... <看更多>