Google開源可即時產生精確文字的AI模型LaserTagger
LaserTagger的預測速度,是常用文字處理方法Seq2seq的100倍,可用在許多需要即時回應的場景
文/李建興 | 2020-02-03發表
Google研究人員開發了一種人工智慧文字編輯模型,可以預測編輯操作序列,把來源文字轉換成為目標文字,Google表示,LaserTagger是一種精確不易出錯的文字產生方法,且比過去的方法更易於訓練,改進後的模型架構執行速度也更快。
Seq2seq(Sequence-to-sequence)是一種用來處理語言的機器學習方法,可以應用在段落融合、文字摘要和語法錯誤糾正等文字編輯工作。Google提到,Seq2seq模型的發明,改變了機器翻譯的領域,因為其改進的模型結構,並以非監督式預訓練使用大量未標註文字的特性,讓神經網路方法輸出的品質得以大幅提升。
不過,Seq2seq仍然有不少需要克服的缺點,最主要有三點,該方法會生成輸入所不支援的文字,也就是產生幻覺(Hallucination),而且需要大量的訓練資料,輸出才能達到可接受的品質,還有Seq2seq產生文字的方式為逐字產生,因此不可避免地,文字產生的速度較慢。
Google最新有關人工智慧文字處理的論文,發表最新的LaserTagger模型,改善Seq2seq的三項主要缺點,該模型的特色就像是名稱LaserTagger中的雷射一樣,速度和精確度的表現非常好,LaserTagger不會從頭開始產生文字,而是透過預測一系列編輯操作產生最終文字,而非實際預測單詞來產生輸出。
Google提到,許多文字產生的工作,其輸出與輸入有極高的重疊,例如在檢測和糾正錯誤,或是融合句子的時候,通常大部分的輸入文字都不需要更動,只需要修改一小部分。LaserTagger產生的編輯操作,例如Keep是複製單詞到輸出,而Delete是刪除單詞,Keep-AddX/Delete-AddX則是在標記的單詞前增加片語X,並且選擇性刪除標記單詞。
由於需要添加的單詞和片語,均來自於最佳化的字彙列表,該字彙列表需要符合字彙數量最小化,且能最大化訓練範例的數量,Google提到,限制字彙表就能縮小輸出的決策空間,便能避免模型隨意添加字詞,減少幻覺產生的機率,因此LaserTagger比Seq2seq基準更不容易產生幻覺。
另外,在資料效率方面,即便只使用數百或是數千個範例訓練,LaserTagger也能產生合理的結果,而Seq2seq至少需要數萬個訓練範例,才能產生與之相比的結果。LaserTagger預測速度快上不少,是Seq2seq基準的100倍,因此更適合用在即時應用上。
Google提到,之所以LaserTagger的研究很重要,是因為在大規模應用上,LaserTagger的優勢也能隨之放大,部分服務能用來透過縮短回應長度,以改進語音答案的組成,而LaserTagger較快的預測速度,可以在不明顯增加延遲的情況下,加入到更多現有的技術堆疊中,提供更多元的服務。更好的資料效率,就代表可以為更多資源稀缺的語言使用者提供服務。
資料來源:https://www.ithome.com.tw/news/135610
多元表現服務學習範例 在 天元的543專頁 Facebook 的最佳解答
這次非常榮幸接到天下雜誌出版的邀約,能為網站分析大師 布萊恩‧克里夫頓 Brian Clifton 這本新書"透視數據下的商機 (運用Google Analytics發掘商業洞見)" 寫推薦序文。 在繁體中文相關出版書籍中,真的很難得有一本"好書、值得一讀的書"可以推薦! 終於~ 現在有了!! 這本不是教你GA網站分析工具怎麼使用、更不是神化或誇大數據分析有多神有多厲害,更不是要"教你怎麼考試" ! 而是很樸實的把為什麼要做數據分析的本質問題和相關觀念的部分好好說清楚,觀念對了、基礎打好了之後,後面這條網站分析的道路才能走得不偏移、走向正確的方向。 透視數據下的商機:運用Google Analytics發掘商業洞見 書本購買 我的【推薦序】為數據品質進行健檢 詳細全文可以到 讀冊的網頁瀏覽。 老實說~ 作者 布萊恩‧克里夫頓(Brian Clifton) 的上一本著作 英文版是本不錯的GA入門學習工具書,但繁體中文版非常地... 不推薦!! 除了許多程式範例早因為改版快速不能參考之外,本身書的內部資料錯誤百出,真的要閱讀還不如簡體中文的版本還比較可以看看,所以在收到出版社邀約時,我特別擔心,也很老實地告知我需要閱讀完稿後才能下決定,而出版社也很大方地先提供了完整書稿讓我搶先閱讀,非常感謝~ 而讀完後除了放下心中這塊大石頭,更讓我拍手叫好!! 也多虧了 翻譯者林威利 先生 了,技術類文章如果沒有親自下過研究的苦心,真的很難在維持原作者的語調和在地化的各項細節,這本! 應該注意到的地方都有顧好! 並且作者不知道是不是因為"換工作了",同時下筆的方向高度也提升不少,不在只是一個"工具教學手冊",而是談"分析的正確認知與觀念",光這一點就更讓我要舉起大拇指給個大大的讚!! 如果你不清楚這本聊些什麼內容,這邊我整理一篇作者在youtube分享過書中內容的一個章節,但只有英文版本就是了~ Building An Analytics Team - Conversation with Brian Clifton 而也因為讀完後覺得這本書真的值得推薦,先前特別偕同dcplus和出版商來舉辦一場導讀會活動,希望透過這樣的機會從另一個不是"教學"為主軸的方式,讓更多人可以認識到網站分析這數位行銷上的運用與導入方式。 天下雜誌出版 + dcplus導讀會 影片 有興趣的朋友不要錯過了! 這邊我分享幾篇導讀會活動時我的部分簡報資料,我會用我個人角度和對於網站分析的見解,同時和作者布萊恩‧克里夫頓(Brian Clifton)書上談到的重點做些心得分享,並且因為這不是"上課",不是只有我單一面向的"說",我也希望台下的朋友可以"分享"你心中的一些看法,而我也會適時地控制現場狀況,不讓話題偏離與書要談到的內容太遠。 更重要的! 許多書上作者有談到、點到的一些重要補充資料,我可也是把他深入研究一番,這些"延伸閱讀"也滿精彩的!非常值得作為導讀會、讀書會 上可以拿出來讓大家參考的資訊。 例如這段Hans Rosling先生在TED上的演講,就是我會放到給大家的導讀會參考資料(下面崁入的影片),同時我也學習著來做一段"用影像說數據故事"的DEMO,希望能讓大家可以從不同的角度和視野來學習數據分析的表現形式。 Hans Rosling: The good news of the decade? We're winning the war against child mortality 如同我推薦文章中寫到的,我最看重書中第四章,資料正確度 這件事! 作者同時提供"品質健檢計分卡" 這表格和分析方法,非常務實並且受用,這個觀念和實際導入真的對企業本身有正面幫助,近年服務的客戶真的遇到太多行銷工作者看到數據報表就悶著頭解讀,從來不關心數字的可信度和可用度,我自己遇到太多"看著數字說故事、甚至看著數字說鬼故事"的實際案例,真的粉恐怖啊~~~ 每次想到整家企業靠著這樣的資訊取得在作決策判斷,真的替他們捏一把冷汗~ 而在這數位分析當道的年代中,"隱私權爭議"也是作者拿出來和大家討論的重要項目,什麼是"史諾登事件"?他引起什麼"史諾登效應"? 這部分我也有一些延伸閱讀的分享喔~ 數據分析不是一個人或是單一部門或職位的工作,上過我的課程朋友一定也聽過我強調這點的重要程度,很開心~ 作者在書上也特別強調這點喔!! 真是讓我感覺到學習網站分析這條路上,看來我走的方向是正確的,大師的看法和我個人的感觸和領悟都是相同的呢~ 可喜可賀!! 建立分析團隊是需要跨部門和職務技能,多面向多元化的團隊,網站的數據是真的可以幫助企業整體發展,而不是只有"節省行銷費用"這麼簡單的功能喔! 這個多元化分析團隊的面向不只讓你在數位行銷上能夠如魚得水,更對於企業本身數位化程度的發展可以深入到"骨髓"和"靈魂"裏頭去! 讓數據分析成為企業的競爭力本質! 整份簡報我目前個人還在調整和修改,但將近70張的簡報內容,時間兩個小時說不定還不夠用呢~ 怎麼取捨這麼多的資訊量,是我還在思考的地方~ 第一次覺得導讀會比課程分享還要傷腦筋~ 不夠能透過這樣的機會帶朋友們投入書和知識的世界,這件事更讓我開心和榮幸~ "愛上閱讀"是我一直這幾年很想把這感覺分享給大家、並且希望能傳染給大家的一種... 心願吧~ 在這個閱讀越來越片斷、破碎化的年代中,透過閱讀讓自己的思考廣度和深度都能顧到,不單受到媒體片面的灌輸資訊,擁有自己的觀點和看法真的是件非常重要的事情。 這個導讀會活動: 透視數據下的商機 運用Google Analytics發掘商業洞見 天下雜誌出版 + dcplus導讀會 線上影片 歡迎付費繼續了解與學習參考了~
https://9i543.com/840/learning/
多元表現服務學習範例 在 學習歷程檔案【多元表現】志工服務範例參考 的推薦與評價
全台大學開課課程資訊網,學習歷程檔案【多元表現】志工服務範例參考. 範例參考台南市私立長榮高級中學108 學年度第1 學期【多元表現學習歷程檔案】. ... <看更多>
多元表現服務學習範例 在 多元表現綜整心得- 唐俊華的學習歷程聊天室| Facebook 的推薦與評價
... 服務學習經驗、競賽表現、非修課紀錄之成果作品、檢定證照、特殊優良表現證明 ... 範例引導學生撰寫百字簡述,非常歡迎,不需來訊或留言詢問哦! 謝謝各位。 All ... ... <看更多>
多元表現服務學習範例 在 輔導室| 高三學習歷程檔案 的推薦與評價
... 學習歷程檔案◇唐俊華教授範例及架構指導D1 時間軸架構D2 主題軸架構D3 適性軸架構D4 故事軸架構多元表現綜整心得範例1(能力導向寫法)多元表現綜整心得範例 ... 服務回饋表 ... ... <看更多>