矮化女性和少數種族,OpenAI GPT 模型為何變成 AI 歧視重災區?
作者 品玩 | 發布日期 2021 年 02 月 13 日 0:00 |
機器學習技術近幾年突飛猛進,許多強大 AI 因此誕生。以知名研究機構 OpenAI 開發的語言生成模型 GPT 為例,現在可寫文章、幫人做報表、自動查詢資訊,給用戶很大幫助和便利。
然而,多篇近期論文指出,包括 GPT 等 AI 模型,生成結果包含基於性別和種族的偏見。而這些 AI 模型應用在商業領域,勢必強化歧視偏見對象現象。
卡內基美隆大學 Ryan Steed 和喬治華盛頓大學 Aylin Caliskan 近日發表論文《無監督的方式訓練的影像表示法包含類似人類的偏見》(Image Represnetations Learned With Unsupervised Pre-Training Contain Human-like Biases)。
研究者對 OpenAI 在 GPT-2 基礎上開發的 iGPT 和 Google 的 SimCLR,兩個去年發表的影像生成模型進行系統性測試,發現種族、膚色和性別等指標幾乎原樣複製人類測試物件的偏見和刻板印象。
其中一項測試,研究者用機器生成男女頭像照片為底板,用 iGPT 補完(生成)上半身影像。誇張的事發生了:所有女性生成結果,超過一半影像穿著比基尼或低胸上衣。
男性結果影像,約 42.5% 影像穿和職業有關的上衣,如襯衫、西裝、和服、醫生大衣等;露手臂或穿背心的結果只有 7.5%。
這樣的結果,技術方面的直接原因可能是 iGPT 採用的自迴歸模型機制。研究者進一步發現,用 iGPT 和 SimCLR 對照片和職業相關名詞建立連結時,男人更多和「商務」、「辦公室」等名詞連結,女人更多和「孩子」、「家庭」等連結;白人更多和工具連結,而黑人更多和武器連結。
這篇論文還在 iGPT 和 SimCLR 比對不同種族膚色外觀的人像照片「親和度」(pleasantness),發現阿拉伯穆斯林人士的照片普遍缺乏親和力。
雖然 iGPT 和 SimCLR 模型的具體運作機制有差別,但透過這篇論文,研究者指出這些偏見現象背後的共同原因:無監督學習。
這兩個模型都採用無監督學習 (unsupervised learning),這是機器學習的方法之一,沒有給事先標記好的訓練資料,自動分類或分群匯入的資料。
無監督學習的好處,在於資料標記是繁瑣費時的工作,受制於標記工的程度和條件限制,準確性很難保持一定,標記也會體現人工的偏見歧視,某些領域的資料更缺乏標記資料庫;而無監督學習在這種條件下仍有優秀表現,最近幾年很受歡迎。
然而這篇論文似乎證明,採用無監督學習無法避免人類常見的偏見和歧視。
研究者認為,採用無監督學習的機器學習演算法,出現的偏見歧視來源仍是訓練資料,如網路影像的男性照更多和職業相關,女性照片更多衣著甚少。
另一原因是這些模型採用自迴歸演算法。在機器學習領域,自迴歸演演算法的偏見問題人盡皆知,但嘗試解決這問題的努力並不多。
結果就是,機器學習演算法從初始資料庫學到所有東西,當然包括人類的各種偏見和歧視。
之前 OpenAI 號稱「1700 億參數量」的最新語言生成模型 GPT-3,發表論文也申明因訓練資料來自網路,偏見無法避免,但還是發表並商業化。
去年 12 月,史丹佛和麥克馬斯特大學的研究者另一篇論文《Persistent Anti-Muslim Bias in Large Language Models》,確認 GPT-3 等大規模語言生成模型對穆斯林等常見刻板印象的受害者,確實有嚴重的歧視問題。
具體來說,用相關詞語造句時,GPT-3 多半會將穆斯林和槍擊、炸彈、謀殺和暴力連結。
另一項測試,研究者上傳一張穆斯林女孩的照片,讓模型自動生成一段文字,卻包含明顯的暴力過度遐想和延申,其中有句話「不知為何原因,我渾身是血。」
而當這類演算法應用到現實生活,偏見和歧視將進一步強化。
iGPT 和背後的 OpenAI GPT 技術,現在開發到第三代。能力確實很強大,就像眾多媒體報導過那樣,因此許多商業機構青睞採用。最知名的用戶就是微軟。去年 9 月,微軟 CTO Kevin Scott 宣布和 OpenAI 合作,獨家獲得 GPT-3 授權,將技術應用到針對用戶的各項產品和 AI 解決方案。
微軟尚未透露具體會把 GPT-3 應用到哪些產品,但考慮到微軟產品的十億級用戶量,情況非常令人擔憂。如微軟近幾年 Word、PPT 等產品推廣的自動查詢資訊、文字補完和影像設計功能,當用戶匯入某特定詞或插入圖片時,如果正好落入 GPT-3 的偏見陷阱,結果將非常糟糕。
不僅 GPT,照前述論文說法,所有採用無監督學習的演算法都可能包含這些偏見。現在因無監督學習非常熱門,自然語言處理、電腦視覺等領域,都成為非常關鍵的底層技術。
如翻譯對人際溝通十分重要,但錯誤的翻譯結果,一次被演算法強化的偏見事件,少則切斷人與人的聯繫,更嚴重者將導致不可估量的人身和財產損失。
作者 Steed 和 Caliskan 呼籲,機器學習研究者應該更區別和記錄訓練資料庫的內容,以便未來找到降低模型偏見的更好方法,以及發表模型前應該做更多測試,盡量避免受演算法強化的偏見被帶入模型。
資料來源:https://technews.tw/2021/02/13/openai-gpt-discrimination/
「ai生成ppt」的推薦目錄:
- 關於ai生成ppt 在 台灣物聯網實驗室 IOT Labs Facebook 的最讚貼文
- 關於ai生成ppt 在 台灣物聯網實驗室 IOT Labs Facebook 的最讚貼文
- 關於ai生成ppt 在 用完就回不去了!取代PowerPoint 的強大AI 工具?讓我從此只 ... 的評價
- 關於ai生成ppt 在 三款AI 自動生成簡報,調整迅速,實測快速製作PPT - YouTube 的評價
- 關於ai生成ppt 在 AI自動生成PPT 不到1分鐘,免費【教學】Copilot in ... - YouTube 的評價
- 關於ai生成ppt 在 【AI工具】超高效率一鍵自動製作完整PPT簡報工具 - Mobile01 的評價
ai生成ppt 在 台灣物聯網實驗室 IOT Labs Facebook 的最讚貼文
讓物聯網應用開發全面提速,巨頭們用了“大”招【物女心經】
作者:物女王(彭昭)
物聯網智庫 整理發佈
導 讀
物聯網時代,工具的選擇尤為重要。當大部分人還拿著大刀長矛以原始姿勢赤身肉搏時,率先發明火炮步槍,並掌握狙擊方法的人想輸都難。既然IoT低代碼程式設計工具已經出現,我們有必要將它仔細審視一番,掂量一下是否趁手。
在各種IoT平臺你爭我奪的“大戰”中,平臺型企業或者初創物聯網公司紛紛都在打磨著自己的IoT程式設計工具,前沿的一些已經初具雛形,尤其值得關注:
• 本周,阿里雲IoT更新了IoT Studio,這是一套針對物聯網應用的開發工具。IoT Studio可以提供視覺化的應用開發和服務開發能力,説明使用者改善在實際專案交付中,經常面臨的應用開發成本高、需求定制化程度高、投入產出比低等問題。
• 西門子收購的低代碼平臺Mendix在去年實現了150%的高增長。今年4月,西門子將Mendix與工業互聯網平臺MindSphere進行了集成,這意味著沒有很強IT程式設計經驗的OT工程師們,也可以利用Mendix快速構建物聯網服務。Mendix已經培育的60,000名開發者,也將為MindSphere快速構建應用程式。
這些舉措對於物聯網來說具有深遠影響,他們都指向同一個方向:改進程式設計工具、簡化程式設計環節、降低開發成本,是加速物聯網專案落地的一條捷徑。
由於在物聯網時代,工具的選擇尤為重要。當大部分人還拿著大刀長矛以原始姿勢赤身肉搏時,率先發明火炮步槍,並掌握狙擊方法的人想輸都難。
既然IoT低代碼程式設計工具已經出現,我們有必要將它仔細審視一番,掂量一下是否趁手。
因此在本文中你將看到:
• 什麼是IoT程式設計工具?
• 為什麼需要低代碼?
• IoT低代碼程式設計工具之間有什麼差異?
01
什麼是IoT程式設計工具?
在互聯網時代的IT軟體世界中,有4個最核心的成員:
作業系統、程式設計語言、編譯器和資料庫。
1970年,貝爾實驗室的肯•湯普遜和鄧尼斯•利奇開發出了世界第一個通用型電腦作業系統:Unix。
1985年,微軟推出了第一版Windows作業系統。
Linux是一類Unix電腦作業系統的統稱,公認在1991 年誕生。
目前在移動設備上廣泛使用的Android作業系統,也是創建在Linux內核之上。
而程式設計語言的出現,在作業系統之前。
1952年,組合語言Flow-Matic出現。組合語言本質上是使用助記符來代替機器語言01010101,但這種語言對電腦硬體依賴很大。不同的電腦,組合語言不相通。
1957年,世界上第一個高級程式設計語言FORTRAN問世,它使電腦語言從原始的低級組合語言走到人人易懂的境界。
從此,電腦不再是科學家的專利。可以說FORTRAN的誕生,孕育了軟體產業。此後,電腦高級程式設計語言進入蓬勃發展的時代。
由此,可以看出作業系統和程式設計語言的重要性不相伯仲。
到了物聯網時代,作業系統發生了變化。
互聯網時代,作業系統調度的是PC或者手機中的計算和存儲資源。
物聯網時代,作業系統進化為物聯網平臺,它對“物體”的調度過程,由調度“雲、管、邊、端”不同層級中不同設備的計算資源而實現。
比如RT-thread、Mindsphere、WISE-PaaS…都是物聯網時代的作業系統。
下圖是在微軟眼中,物聯網時代作業系統應當具備的能力:
相比於PC作業系統,物聯網作業系統或者平臺具有以下幾個明顯特性:
• 無縫更新:系統更新通過後臺完成,無需中斷
• 更加安全:具備防止惡意攻擊能力
• 長期連接:保持 5G、WiFi等連接能力,保證設備間能一直相互連接
• 可持續的性能
• 雲端接入能力:支援設備與設備間進行無縫訪問資料
• 具備AI能力
• 支持各種交互:兼顧觸控、手寫、語音、鍵鼠等方式,以及能夠通過感測器和姿勢感知
• 多樣產品形態:支援雲、邊、端的應用
最近一系列基於微內核的IoT OS推出,比如阿里AliOS Things、華為鴻蒙OS、GoogleFuchisa,進一步詮釋了物聯網作業系統的特徵。
微內核並非新鮮事物,最早可以追溯到卡內基梅隆大學在1985年推出的微內核作業系統 MACH。新一代的微內核IoT OS可以支援從小到大的各種智慧設備,包括從煙感感測器、到攝像頭、再到計算閘道等;提供各種本地外掛程式、羽量級GUI、以及豐富的連結協定,滿足碎片化的設備開發的需求;還有豐富的雲端一體化的外掛程式,包括連雲套件、OTA、視頻語音連雲套件,確保設備和雲端的設備影子即時同步。
總而言之,基於微內核的物聯網作業系統,有能力適配高度碎片化的硬體與晶片生態,有豐富的本機群組件來支援不同的設備,又能夠充分和雲端的大資料計算能力形成協同,奠定了數位化物理世界的基礎。
在互聯網時代,作業系統幾乎只需要支援PC和手機就可以完成任務。但是到了物聯網時代,IoT作業系統或者IoT平臺的複雜性急劇上升,為了令其更加易用,程式設計語言也需隨之進化,IoT程式設計工具由此產生。
從作業系統到物聯網平臺,從程式設計語言到IoT程式設計工具,這是一個自然而然的推進過程。
可以預見,編譯器和資料庫在物聯網時代也將產生更新或者變異。比如華為在8月31日剛剛開源的方舟編譯器,以及濤思資料推出的時序資料庫,都更加適合物聯網時代的應用。
在物聯網時代,上述這些工具都會進化,有些可能會徹底變成新的物種。IoT平臺與PC作業系統有本質不同,IoT程式設計工具也與程式設計語言有著天壤之別。
因此,在物聯網時代我們需要一個更加立體、分層和全域的視角,來看待關鍵領域。不管是作業系統,還是程式設計語言,都應建立一個全新的理解,從而發現新的機會,更好的利用工具,實現物聯網業務的拓展。
02
什麼是低代碼?
既然與PC作業系統相比,IoT平臺的複雜性急劇上升,需要調度“雲、管、邊、端”各方資源、兼顧傳感、姿勢、語音等各種對話模式,又要保持5G、WiFi、BLE等連接隨時線上…
那麼,IoT程式設計工具的重要使命就是降低這種複雜度,讓開發者可以輕鬆上手。因此“低代碼”是大勢所趨。
簡單來說,“低代碼開發”被用來描述一種快速設計和開發的軟體系統,無需編碼或通過少量代碼,就可以快速生成應用程式。它是研究機構Forrester Research在2014年最先使用的一個術語。
其實低代碼並不是最近才出現的新事物,它可以追溯到上個世紀90年代。
在1991年誕生的快速應用程式開發(Rapid Application Development,縮寫:RAD),目標是在60到90天的短時間內,建立符合使用者要求的業務軟體。RAD的出現掀起了一場程式設計方式的革命,它帶來了視覺化程式設計,使得程式設計的門檻變低了。
根據Forrester的分析預測,低代碼平臺有可能使軟體發展速度比傳統方法快上10倍。到2022年,低代碼平臺市場將從現有的40億美元,增長到220億美元。
如果將“低代碼開發”和汽車製造做類比,“低代碼”之于IoT開發者就像自動化生產線對於汽車行業的作用。
過去汽車的裝配需要手工完成,現在都是通過自動化生產線實現。雖然早期自動化進程中使用的生產線,對汽車複雜多變的配置無能為力,但它們確實加快了裝配和交付的進程。
作為對比,現在的程式設計工作大部分還處於手工作業階段,生產效率在很大程度上取決於編碼者個人的專業技術水準,“低代碼”儘量用少量的代碼開發出企業級的應用,最大限度的提高應用開發的效率。
眾所周知的低代碼實例是WordPress,它是一款開源CMS(Content Management System,內容管理系統),特性是易上手,開發速度尤其快,甚至無需代碼,直接安裝範本和外掛程式就可以達到要求。
使用WordPress,中小型企業只需雇傭一名不懂程式設計的員工,便可以借助網上發佈的各種主題和外掛程式,在完全不需要程式設計代碼的情況下進行基本網站編輯。目前WordPress已經支持了世界上超過70%的網站。
至此,可以看到低代碼具有如下優勢:
• 降低程式設計門檻,不需要大量的程式設計知識
• 大大加快應用程式的開發和部署時間
• 節省成本,節省專案規劃或員工培訓的時間
• 使用者可自訂模組,應用程式可以靈活調整
• 開發者可以將精力更好的分配於核心任務
任何事物都有兩面,必須說明,低代碼也存在使用風險:
• 供應商被鎖定:目前低代碼程式設計工具並不通用,選擇其中一種便意味著鎖定了供應商。
• 維護成本較高:由於低代碼及其供應商存在較強的耦合性,也就意味著供應商擁有較強的議價能力。
• 存在監管隱患:因為減少了代碼編寫的工作量,開發者很難知道API調用的背後隱藏著什麼秘密。
• 功能可能有限:任何低代碼的供應商都不可能預測到所有的應用細節,如果開發者希望更加靈活地適應企業的需求,就需要使用自己編寫的代碼來滿足。
• 應用千篇一律:低代碼程式設計專案可能最終看起來彼此都非常相似,因為開發者使用的是相同的模組。
任何技術都有利弊,越容易被創建,往往也意味著,越容易被複製。
而我們需要做的,就是權衡利弊,想好自己是否要用這個工具。
03
IoT低代碼程式設計工具之間有什麼差異?
總體而言,有兩類公司在提供IoT低代碼程式設計工具,分別是物聯網平臺型企業和應用服務初創型公司。
除了文初提到的阿里和微軟,AWS、Google、Salesforce等巨頭都有提供IoT低代碼程式設計工具。
典型的低代碼平臺初創公司,除了被西門子收購的Mendix,比較知名的還有OutSystems、ServiceNow、Kony等。
市場研究機構Gartner和Forrester分別繪製了低代碼平臺的格局版圖。
這兩類公司由於各自目標不同,所提供的IoT低代碼程式設計工具其側重點也有所區別。
物聯網平臺型企業:這類企業的目標是降低物聯網平臺的應用門檻,彙聚開發者生態,因此往往提供的是端到端的IoT低代碼程式設計工具或者開發環境。
以阿里雲最近更新的IoT Studio為例,它是一套專為物聯網應用所設計的整合式開發環境IDE,功能包括:
• 設備資料無縫集成:設備相關的屬性、服務、事件等資料均可從阿里雲物聯網平臺設備接入和管理模組中直接獲取,大大降低物聯網開發工作量。
• 面向各個行業提供場景化範本:開發者可以直接利用現有的(包含設備,應用和服務的)解決方案模版來開發自己的業務,將原有需要幾周的開發過程縮短到幾天。
• 視覺化應用開發:使用者通過簡單的視覺化拖拽的方式,即可將各種元件、圖表與設備相關的資料來源進行關聯,幾乎無需任何程式設計經驗,整個過程就像使用PPT一樣簡單。
• 提供服務開發的功能:使用者可以很方便的實現設備之間的聯動、設備與服務之間的資料流程轉。IoT Studio打通了阿里雲API市場,用戶還可利用各種人工智慧及資料分析的API。
應用服務初創型公司:這類企業將低代碼平臺本身作為核心產品,探索與之相應的新型行業模式,因此他們的程式設計工具一般並非針對物聯網應用所創建,或者並不具備對於物聯網異構設備的支援能力。
以被西門子並購的Mendix為例,它本身是一個加速企業敏捷開發流程的PaaS平臺,並自稱是全球唯一一個真正的雲原生低代碼平臺。
它由3個無縫集成的產品組成:Sprintr,AppFactory和Mendix Platform-as-a-Service,分別實現的功能如下:
• Sprintr:採用羽量級的社交方法進行企業專案協作。通過在整個企業中提供協作平臺,Sprintr打破了不同部門和專業之間的隔閡,所有員工都是同一個私有社交網路的一部分。
AppFactory:讓使用者能夠使用高級視覺化的模型開發應用程式。這可以實現業務和IT之間的協作,還可縮短回饋週期。AppFactory又由3個元素組成:
-Mendix Business Modeler:使用視覺化模型設計和開發應用程式的建模環境。
-Mendix Team Server:基於雲的模型存儲庫,用於團隊成員協作並進行版本控制。
-Mendix AppStore:應用市場,用於共用和下載業務範本、主題和技術元件。
• MendixPlatform-as-a-Service:使用者只需按一下一下,即可從Mendix Business Modeler中將應用程式模型上傳到Mendix PaaS,從而輕鬆部署應用程式。
被西門子收購之後,Mendix在最新的19版中增加了對於物聯網設備的支援,並升級了AI引擎,提供對於物聯網資料的分析服務。
----寫在最後----
借助IoT低代碼程式設計工具,讓企業有機會嘗試用更少的資源更快更好的實現應用。如果將其承載在工業大腦或者智慧城市的管理平臺之上,勢必將會激發各類應用開發者的創意和想法,讓各類應用快速集成落地。
對於開發者數量有限的傳統行業,IoT低代碼程式設計工具還有可能加速IT和OT的融合。
當然,各種IoT低代碼程式設計工具是否被宣傳得恰如其分,是否在實踐中方便使用,還需要經過驗證。
本文小結:
1.在物聯網時代我們需要一個更加立體、分層和全域的視角,來看待關鍵領域。不管是作業系統,還是程式設計語言,都應建立一個全新的理解,從而發現新的機會,更好的利用工具,實現物聯網業務的拓展。
2.與PC作業系統相比,IoT平臺的複雜性急劇上升,IoT程式設計工具的重要使命就是降低這種複雜度,讓開發者可以輕鬆上手,因此“低代碼”是大勢所趨。
3.現階段有兩類公司在提供IoT低代碼程式設計工具,分別是物聯網平臺型企業和應用服務初創型公司。
資料來源:https://mp.weixin.qq.com/s?__biz=MjM5MTM5ODQyMA==&mid=2651216898&idx=1&sn=b08fe67b565b6c82dadd4468ac21c791&chksm=bd44d3798a335a6fdb7bbb7aa838ebd4d98a2409990dd97fb56ad85d33d3a95d7fe7bb5d418c&scene=21#wechat_redirect
ai生成ppt 在 三款AI 自動生成簡報,調整迅速,實測快速製作PPT - YouTube 的推薦與評價
三款 AI 自動 生成 簡報工具,實測比較Wepik 、 Tome 、 Magic Slides 00:00 一句話 生成AI 簡報00:17 Wepik 簡報教學02:17 Tome 簡報教學04:28 Magic ... ... <看更多>
ai生成ppt 在 AI自動生成PPT 不到1分鐘,免費【教學】Copilot in ... - YouTube 的推薦與評價
AI Presentation - AI 自動 生成PPT 不到1分鐘,免費【教學】Copilot in PPT /Tome/Prezo/ChatPPT【可可研究室】. 36K views · 4 months ago ...more ... ... <看更多>
ai生成ppt 在 用完就回不去了!取代PowerPoint 的強大AI 工具?讓我從此只 ... 的推薦與評價
高效率辦公必學https://youtu.be/GDzVvdg1zp8 00:00 介紹最強 AI 生成 簡報工具? 00:40 Gamma 導引製作還秒 生成 範本? 01:40 自動 生成 簡報大綱&圖文 ... ... <看更多>