訓練AI模型,要多少數據?拆解企業人工智慧專案為何難落地
2020.12.09 by 若水AI Blog
企業導入AI似乎已成為一種趨勢,但是訓練AI模型,需要多少數據?其背後的商業命題與成本又該如何解決?帶你來一起窺探AI專案背後的秘密!
企業的AI專案在釐清問題本質、找到命題之後,首先會面臨到一個問題:收集數據(Data Collection)和建立AI模型(Model Establishing),該以什麼作為評估基準?
訓練一個AI數據模型,需要多少數據?
訓練AI數據模型時,其實有三個要素,彼此互相影響。分別是: 商業問題的複雜度 、 AI模型複雜度 (Model Complexity),以及 數據複雜度 (Data Complexity)。
因此,如果想知道需要多少訓練數據(Training Data),建議先釐清:這個AI專案到底要處理什麼問題,以及這個問題有多複雜?確定之後,再來判斷應該選用哪種程度的模型來做訓練。根據不同的商業命題複雜度,用不同複雜度的模型和精準數據彼此搭配,找出最佳平衡,才能讓AI專案順利落地。
但光憑想像,很難評估實際的AI數據量和成效,所以開始AI的第一步,需要先透過POC概念驗證(Proof of Concept)實驗來找答案。
簡單來說,就是針對不同複雜程度的商業問題,嘗試選用不同複雜度的模型搭配測試,直到模型跑出來的曲線,符合理想目標。
一般狀態下,假設商業問題本身的複雜度很高,我們會預期要選擇複雜度較高的模型。但是如果數據量不足,那麼選擇複雜度較高的AI模型,反而會比用簡單的AI模型效果還差。(上圖左上、右上,分別代表複雜度10和複雜度50的問題,可以明顯看出複雜的模型曲線比較接近學習數據集(Dataset),但是在測試數據集上的誤差 Eout,反而比簡單模型還差了許多。)
上圖的左下和右下,是以不同複雜度的模型去做POC,跑出來的結果曲線圖。藍色線代表的是學習數據(Training Data)成效,紅色線代表的是測試數據(Testing Data)成效。最理想的POC目標,應該是兩條曲線很貼近彼此,而且位置越低越好。
我們會發現,左下這張圖的兩條曲線雖然彼此貼近,但是就算增加數據,也無法降低誤差。這表示模型偏誤(Bias)高,效果不佳,應該要增加模型複雜度 (Model Complexity)。
增加模型複雜度之後,就會像右下這張圖,藍色曲線(學習數據)雖然數值很低,但在學習數據不足的情況下(灰色區塊),紅色曲線(測試數據)卻「飄」得太高。這表示模型變異誤差(Variance)高,應該要增加學習數據。最後在慢慢增加模型複雜度以及學習數據之後,我們就可以達到理想的結果(兩條曲線很貼近彼此,而且位置越低越好)。
數據哪裡來?發展AI人工智慧之前,先建立數據流
先前我在文章裡提到,很多企業會急著開發AI模型,但AI專案落地經驗的三大關鍵之一,其實是先確認:是否已經準備好數據了?如果沒有這樣的能力,談AI落地其實有點好高騖遠。
AI數據收集(Data Collection)最大的挑戰,在於針對不同型態的命題,會產生不同的AI數據需求,因此需要建立的「數據流」(Data Pipeline),AI數據處理 (Data Processing)和數據標註(Data Annotation)的模式及流程也會有所不同。
發展AI之前,如果能建立起從數據收集(Data Collection)、數據處理(Data Processing)到AI模型學習的數據流(Data Pipeline),並確保可以順暢運行,實際訓練AI模型時才會省力很多。
數據不夠或太多怎麼辦?
Google開設的機器學習(Machine Learning)課程中,第一項原則就開宗明義地指出:「Don’t be afraid to launch a product without machine learning」。
如果你的產品或業務不一定需要用到機器學習(Machine Learning),那就別用,除非你有AI數據。有數據,再來談機器學習(Machine Learning)。但在業界的實際狀況,大家不是沒有數據,而是只有一些些,這時候該怎麼辦?我會建議,先從小地方開始做起,也就是從POC專案著手。
POC專案要有具體成效,除了要注意設計專案、實驗模型的指標(Metrics),企業最重要的是要先定義清楚:AI專案要達到什麼樣的指標,才算是成功?這樣最後做出來的成果,才會真正符合商業目標。
如果今天不是沒有AI數據,而是數據很多,又該從何下手呢?
我建議,嘗試減少訓練AI人工智慧時的「 數據大小 」和「 數據筆數 」。
過去曾經處理過一個AI專案,數據多達2億筆。第一次實驗,把數據全部餵進AI模型,取得結果。第二次,只拿其中有代表性的500萬筆出來訓練人工智慧。
猜猜結果如何?兩次實驗的表現,只差異不到1%。
所以,如果企業對於AI數據的品質和數量有一定程度的自信根據,其實不用把數據全部餵進AI模型訓練(Model Training),只用有代表性的AI數據來訓練就可以了。市面上很多常見的AI工具(Cluster),可以做到這點,幫助省時省力。
AI模型訓練,記得校準商業目標
企業發展AI人工智慧的最終目的,還是希望能 達到商業目標,創造價值 。
所以,訓練AI模型時,團隊如果不知道如何判斷哪個指標,對AI模型學習來說比較重要,建議回歸初心,重新釐清「 這個專案想達到的商業目標是什麼 」。
比方,趨勢科技(Trend Micro)要開發一個能夠判斷電腦病毒的AI,但是勒索病毒(denial-of-access attack)和廣告病毒對客戶的傷害程度大不相同。這時候,工程師就會針對這個命題,餵給AI模型不同病毒種類的數據,讓它學會判斷不同病毒的重要性,分辨出哪些病毒比較嚴重不能有判斷錯誤,而哪些病毒比較無害,不一定要做到一百分。
最常見的訓練方法,是用成本函數(Cost Function)的方式,訓練完再回去調整AI模型的評分(Rating),用加扣分的方式,告訴機器它的學習表現是好是壞,做對就加分,做錯就扣分。
上述評分原則的制定,和企業的商業價值考量息息相關,所以一般在組織分工,會由PM專案團隊負責判斷哪些項目重要,請資料科學家設計在上述Cost Function裡面。
很多人以為,AI人工智慧開發要做到很完美才行,但其實根據我們的經驗,只要AI開發成本符合預算、AI模型表現可接受(大約做到60–70分),而且結果有助於降低成本,就可以算是達到商業目標。反過來,即使AI模型表現非常好(高達90分),但成本卻遠超出預算,就不建議執行。
另外,因為POC階段會做很多的實驗,需要拿兩個穩定且可以互相比較的基準做A/B Test,所以做好基礎建設非常重要。
如果一個團隊裡面有三位工程師,但三個人做出來的結果都無法互相比較,那麼這個實驗就會變得霧裡看花,導致AI專案難以落地。
AI數據小學堂:模型指標(metrics)
在做模型實驗時,通常會用混淆矩陣(Confusion Matrix)的四種指標:TP(True Positive)、TN(True Negative)、FP(False Positive)、FN(False Negative),以及Count、Unique和Accuracy等等函數,來判斷這個模型的表現好不好。
P或TN值,代表模型辨識的答案正確,和預期結果一致。例如:模型正確判斷出「這是一隻貓」、「這不是一隻貓」。而FP或FN值,則代表模型的判斷錯誤,例如「明明是貓,模型卻說不是貓」、「明明不是貓,模型卻說它是貓」。
附圖:AI模型 若水國際
AI模型的POC概念驗證實驗怎麼做?
資料來源:https://www.bnext.com.tw/article/60440/ai-strategy-04?fbclid=IwAR1SOhjjGxypdGgOGfaBIl_a1IsZFJAQZ8J2aeDd98spbUfOdg7hiPQP7UA
「工程造價定義」的推薦目錄:
- 關於工程造價定義 在 台灣物聯網實驗室 IOT Labs Facebook 的最讚貼文
- 關於工程造價定義 在 Facebook 的最佳貼文
- 關於工程造價定義 在 張哲生 Facebook 的最佳貼文
- 關於工程造價定義 在 法定工程造價意義在PTT/Dcard完整相關資訊 的評價
- 關於工程造價定義 在 法定工程造價意義在PTT/Dcard完整相關資訊 的評價
- 關於工程造價定義 在 工程造價定義在PTT/Dcard完整相關資訊 - 數位感 的評價
- 關於工程造價定義 在 工程造價定義在PTT/Dcard完整相關資訊 - 數位感 的評價
- 關於工程造價定義 在 工程造價定義在PTT/Dcard完整相關資訊| 遊戲基地資訊站-2022年1月 的評價
- 關於工程造價定義 在 工程造價定義在PTT/Dcard完整相關資訊| 遊戲基地資訊站-2022年1月 的評價
- 關於工程造價定義 在 工程造價實際造價在PTT/Dcard完整相關資訊 的評價
- 關於工程造價定義 在 工程造價實際造價在PTT/Dcard完整相關資訊 的評價
- 關於工程造價定義 在 每坪工程造價在PTT/Dcard完整相關資訊 - 輕鬆健身去 的評價
- 關於工程造價定義 在 每坪工程造價在PTT/Dcard完整相關資訊 - 輕鬆健身去 的評價
工程造價定義 在 Facebook 的最佳貼文
#葉郎每日讀報
▼ 1. 黃道帶殺手的密碼信件在51年後被破解
│
這簡直是《Zodiac 索命黃道帶》電影的真實版續集:電影中 Robert Downey Jr. 任職的報社舊金山紀事報日前接獲美國 FBI 聯邦調查局通知,整整51年前黃道帶殺手寄到該報社的一封密碼信終於被成功破解。更令人頭皮發麻的是就如同電影情節一樣,破解這封信的成員之一 David Oranchak 除了軟體工程師這個職業之外,另一個身份正是黃道帶殺手案的瘋狂著迷者,本身同時經營一個跟黃道帶殺手有關的網站和 YouTube 頻道。可惜的是,破譯出來的信件內容並沒有可以辨識真兇身份的太多資訊,多半只是黃道帶殺手本人一再反覆過的垃圾話,比如:「我一點都不怕進毒氣室,因為那只會讓我更快進入天堂,在那裡我有足夠的奴僕伺候我,而其他人們卻什麼都沒有,這正是他們都這麼怕死的原因.....」。
(報導原文:https://bit.ly/3a4UpUY)
│
│
▼ 2. 為什麼 Disney 繼續邊緣化 Hulu?
│
Hulu 曾經是多家傳統電視網寄予眾望對抗 Netflix 的秘密武器,隨著多家片廠入股又成為 Netflix 的好萊塢聯軍主將。然而好不容易買齊 Hulu 股份而獨資擁有該串流平台的 Disney 為何在昨天的投資人大會中將 Hulu 推向整個串流戰略的邊緣?先前傳言是 NBCUniversal 手上的 Hulu 股份是分年度賣給 Disney,所以 Disney 現在越把 Hulu 放在越有價值的戰略位置,Hulu 的股價就會越高,而 Disney需要支付給 NBCUniversal 的剩餘費用就會越高。本文提出另外一個理由是 Disney 事先沒有預期到 Disney+ 會如此成功,因此決定集中火力加強 Disney+ 在串流大戰中的軍火,暫時不會大力發展主打成年人觀眾的 Hulu。所以昨天發表會中,Disney+ 得到海量新節目,而Hulu 則只得到一檔重量級節目:來自 Fox 旗下的FX電視台製作的《Alien 異形》衍生電視劇。未來也確定海外市場中 Disney將會用在印度市場發展多年、更廣為亞洲人熟悉的 Star 品牌先取代Hulu,和 Disney+一起搭售。
(報導原文:https://bit.ly/3a3ojsp)
│
│
▼ 3. 分析:沙發型好萊塢大片的年代來了
│
紐約時報這篇專欄毫無意外地預測未來電影院雖不會滅亡,但會成為少數頂級大片的專屬奢侈通路,其餘好萊塢大片都會直送消費者家客廳裡。作者認為這些通路的轉換也將重新定義好萊塢 blockbuster 這個類型。這些發生在串流上的好萊塢大片會和《Star Wars 星際大戰《和《Jurassic Park 侏羅紀公園》一樣,造價昂貴、場面浩大、風靡一時、成為所有人的共同文化語言,唯一的差別是串流的特殊收視行為——「追劇」將會促使未來大片的宇宙觀變得更宏觀、更錯綜龐雜,而不像那些嚴格限制120分鐘要說完故事的電影,或是傳統電視劇進度緩慢以便讓讓錯漏一集的觀眾也可以跟上。事實上,作者認為這個沙發型大片的時代早就已經來了。《Game of Thrones 權力遊戲:冰與火之歌》就是這個通路變遷的產物。未來那些滿街耳語傳誦的影響力大片將會更像故事盤根錯節的《權力遊戲》和 Disney 剛剛發展出來的星戰多重宇宙,而非兩個小時內一條腸子通到底(但是偶爾有折回來)的《Tenet 天能》。
│
│
▽ 其他今天也可以知道一下的事請見留言
工程造價定義 在 張哲生 Facebook 的最佳貼文
謝謝日本網友古賀潤分享他於1999年11月在臺北東區頂好廣場香檳大廈2樓的「淘兒音樂城」拍攝的照片,乃十分珍貴的影像紀錄。
這家淘兒音樂城是昔日 Tower Records 在臺灣開設的三家分店裡位於臺北東區香檳大廈的「東淘」,另外兩家是西門町紅樓前面的「西淘」和士林夜市金雞廣場裡的「雞淘」。
香檳大廈位於臺北市忠孝東路四段75號,由太平洋建設股份有限公司總經理章民強與頂好股份有限公司負責人金巧珍共同起造,林良鴻設計,1969年3月6日開工,1970年9月10日竣工,工程造價約新台幣2,928萬元,為一棟12層樓高的鋼筋混凝土造建築。
由林良鴻設計的香檳大廈,緊臨台北市忠孝東路邊的一個三角形都市開放空間(原為河川加蓋之計劃道路,後變更為綠地),其實體設計的手法似著眼於負空間之界定,比方連續如長龍般的造型,可為廣場型的空地提供一個尺度相當的背景,而連續的柱廊更可為負空間的人群活動增添活力;其他如陽台單元之實體斜角挖空的「造型手法」,以及單元重複所造成的韻律感,乃至於利於植栽的陽台設計,在在都顯示香檳大廈這座早期的十層公寓,在集合住宅以及區域性商業中心的功能之外,更扮演著烘托都市空間的積極角色,是臺北市區難得的多元都市建築。
註:在建築設計中,空間可以簡單的區分成「正空間」與「負空間」兩個種類。如果放置物體在一個空白的空間中,可以圍塑出形狀時,這個被圍塑出來的形狀稱為正空間,如果沒有辦法圍塑出形狀,則把該空間定義為負空間。正空間和負空間具有不同的用途,在建築設計裡,常傾向經過、穿梭於負空間後,在正空間停留;負空間有著移動、流體、驅趕的屬性,而正空間則有著固定、固體、穩定的感覺。
淘兒音樂城是我逛過的唱片行裡,第一家可以在店裡用耳機欣賞CD唱片內容的唱片行,因此令我印象深刻。
同場加映:1999年11月拍攝的「西淘」照片
https://www.facebook.com/ZhangZheSheng/photos/a.10154478846129531/10158181044664531/
【關於 淘兒音樂城】
淘兒音樂城原名 Tower Records,是一家來自美國的連鎖唱片行,曾經在世界各地開設許多分店,宣傳口號是「No Music, No Life.」(沒有音樂就沒有生活)。
1960年,美國人羅素所羅門(Russell Solomon)在美國加州沙加緬度創立了第一家 Tower Records,就開在他的父親於1939開設的電影院「Tower Theatre」裡的藥房內(我記得小時候許多唱片行都是和藥房共用店面),因此唱片行便與戲院同名。
1970年,Tower Records 在好萊塢(Hollywood)開店。
1980年,Tower Records 在日本札幌開設第一家海外分店,並開始在世界各國開店,其鼎盛時期曾在加拿大、英國、日本、香港、台灣、新加坡、韓國、泰國、馬來西亞、菲律賓、愛爾蘭、以色列、阿聯、墨西哥、哥倫比亞、厄瓜多、阿根廷等地都設有分店,而在美國境內最多曾有89家分店,由美國企業 MTS 公司營運。
然而進入21世紀,數位音樂出現之後,唱片銷售數量快速地下滑。2002年,MTS 公司賣出了其日本法人。2006年8月20日,MTS 公司申請破產,美國境內的分店全部結束營業,但仍有網路商店存在,至於海外分店則仍繼續營業;日本的分店由日本的 Tower Records 公司(タワーレコード株式会社)接手營運,而成為日本最大規模的連鎖唱片行,共有82家分店。
1992年,Tower Records 在台灣開設分店,名為「淘兒音樂城」,曾經在台北市開了三家分店,一家位在忠孝東路四段頂好廣場香檳大廈2樓,暱稱「東淘」,另一家位在西門町紅樓旁,暱稱「西淘」,還有一家則是位在士林夜市金雞廣場,暱稱「雞淘」(因房東產權問題,這家的存在時間最短)。2003年11月,Tower Records 完全退出台灣市場。
工程造價定義 在 法定工程造價意義在PTT/Dcard完整相關資訊 的推薦與評價
二、建築物工程造價標準單價表(單位:平方公尺) ... 九)本表所列單位面積造價均包含施工者之稅捐、利潤及管理費;樓層數六樓以上者含法定 ... ... <看更多>
工程造價定義 在 工程造價定義在PTT/Dcard完整相關資訊 - 數位感 的推薦與評價
提供工程造價定義相關PTT/Dcard文章,想要了解更多法定工程造價意義、台中市法定工程造價、新北市建築執照工程造價標準表有關資訊與科技文章或書籍,歡迎來數位感提供 ... ... <看更多>
工程造價定義 在 法定工程造價意義在PTT/Dcard完整相關資訊 的推薦與評價
二、建築物工程造價標準單價表(單位:平方公尺) ... 九)本表所列單位面積造價均包含施工者之稅捐、利潤及管理費;樓層數六樓以上者含法定 ... ... <看更多>