創新工場“AI蒙汗藥”入選NeurIPS 2019,3年VC+AI佈局進入科研收穫季
本文來自量子位微信公眾號
……………………………………………………………………
NeurIPS 2019放榜,創新工場AI工程院論文在列。
名為“Learning to Confuse: Generating Training Time Adversarial Data with Auto-Encoder”。
一作是創新工場南京國際AI研究院執行院長馮霽,二作是創新工場南京國際人工智慧研究院研究員蔡其志,南京大學AI大牛周志華教授也在作者列。
論文提出了一種高效生成對抗訓練樣本的方法DeepConfuse,通過微弱擾動資料庫的方式,徹底破壞對應的學習系統的性能,達到“資料下毒”的目的。
創新工場介紹稱,這一研究就並不單單是為了揭示類似的AI入侵或攻擊技術對系統安全的威脅,還能協助針對性地制定防範“AI駭客”的完善方案,推動AI安全攻防領域的發展。
NeurIPS,全稱神經資訊處理系統大會(Conference and Workshop on Neural Information Processing Systems),自1987年誕生至今已有32年的歷史,一直以來備受學術界和產業界的高度關注,是AI學術領域的“華山論劍”。
作為AI領域頂會,NeurIPS也是最火爆的那個,去年會議門票在數分鐘內被搶光,而且在論文的投稿錄取上,競爭同樣激烈。
今年,NeurIPS會議的論文投稿量再創新高,共收到6743篇投稿,最終錄取1428篇論文,錄取率為21.2%。
▌“資料下毒”論文入選頂會NeurIPS
那這次創新工場AI工程院這篇入選論文,核心議題是什麼?
我們先拆解說說。
近年來,機器學習熱度不斷攀升,並逐漸在不同應用領域解決各式各樣的問題。不過,卻很少有人意識到,其實機器學習本身也很容易受到攻擊,模型並非想像中堅不可摧。
例如,在訓練(學習階段)或是預測(推理階段)這兩個過程中,機器學習模型就都有可能被對手攻擊,而攻擊的手段也是多種多樣。
創新工場AI工程院為此專門成立了AI安全實驗室,針對人工智慧系統的安全性進行了深入對評估和研究。
在被NeurIPS收錄的論文中,核心貢獻就是提出了高效生成對抗訓練資料的最先進方法之一——DeepConfuse。
▌給數據下毒
通過劫持神經網路的訓練過程,教會雜訊生成器為訓練樣本添加一個有界的擾動,使得該訓練樣本訓練得到的機器學習模型在面對測試樣本時的泛化能力盡可能地差,非常巧妙地實現了“資料下毒”。
顧名思義,“資料下毒”即讓訓練資料“中毒”,具體的攻擊策略是通過干擾模型的訓練過程,對其完整性造成影響,進而讓模型的後續預測過程出現偏差。
“資料下毒”與常見的“對抗樣本攻擊”是不同的攻擊手段,存在於不同的威脅場景:前者通過修改訓練資料讓模型“中毒”,後者通過修改待測試的樣本讓模型“受騙”。
舉例來說,假如一家從事機器人視覺技術開發的公司希望訓練機器人識別現實場景中的器物、人員、車輛等,卻不慎被入侵者利用論文中提及的方法篡改了訓練資料。
研發人員在目視檢查訓練資料時,通常不會感知到異常(因為使資料“中毒”的噪音資料在圖像層面很難被肉眼識別),訓練過程也一如既往地順利。
但這時訓練出來的深度學習模型在泛化能力上會大幅退化,用這樣的模型驅動的機器人在真實場景中會徹底“懵圈”,陷入什麼也認不出的尷尬境地。
更有甚者,攻擊者還可以精心調整“下毒”時所用的噪音資料,使得訓練出來的機器人視覺模型“故意認錯”某些東西,比如將障礙認成是通路,或將危險場景標記成安全場景等。
為了達成這一目的,這篇論文設計了一種可以生成對抗雜訊的自編碼器神經網路DeepConfuse。
通過觀察一個假想分類器的訓練過程更新自己的權重,產生“有毒性”的雜訊,從而為“受害的”分類器帶來最低下的泛化效率,而這個過程可以被歸結為一個具有非線性等式約束的非凸優化問題。
▌下毒無痕,毒性不小
從實驗資料可以發現,在MNIST、CIFAR-10以及縮減版的IMAGENET這些不同資料集上,使用“未被下毒”的訓練資料集和“中毒”的訓練資料集所訓練的系統模型在分類精度上存在較大的差異,效果非常可觀。
與此同時,從實驗結果來看,該方法生成的對抗雜訊具有通用性,即便是在隨機森林和支援向量機這些非神經網路上也有較好表現。
其中,藍色為使用“未被下毒”的訓練資料訓練出的模型在泛化能力上的測試表現,橙色為使用“中毒”訓練資料訓練出的模型的在泛化能力上的測試表現。
在CIFAR和IMAGENET資料集上的表現也具有相似效果,證明該方法所產生的對抗訓練樣本在不同的網路結構上具有很高的遷移能力。
此外,論文中提出的方法還能有效擴展至針對特定標籤的情形下,即攻擊者希望通過一些預先指定的規則使模型分類錯誤,例如將“貓”錯誤分類成“狗”,讓模型按照攻擊者計畫,定向發生錯誤。
例如,下圖為MINIST資料集上,不同場景下測試集上混淆矩陣的表現,分別為乾淨訓練資料集、無特定標籤的訓練資料集、以及有特定標籤的訓練資料集。
實驗結果有力證明,為有特定標籤的訓練資料集做相應設置的有效性,未來有機會通過修改設置以實現更多特定的任務。
對資料“下毒”技術的研究並不單單是為了揭示類似的AI入侵或攻擊技術對系統安全的威脅,更重要的是,只有深入研究相關的入侵或攻擊技術,才能有針對性地制定防範“AI駭客”的完善方案。
隨著AI演算法、AI系統在國計民生相關的領域逐漸得到普及與推廣,科研人員必須透徹地掌握AI安全攻防的前沿技術,並有針對性地為自動駕駛、AI輔助醫療、AI輔助投資等涉及生命安全、財富安全的領域研發最有效的防護手段。
▌還關注聯邦學習
除了安全問題之外,人工智慧應用的資料隱私問題,也是創新工場AI安全實驗室重點關注的議題之一。
近年來,隨著人工智慧技術的高速發展,社會各界對隱私保護及資料安全的需求加強,聯邦學習技術應運而生,並開始越來越多地受到學術界和工業界的關注。
具體而言,聯邦學習系統是一個分散式的具有多個參與者的機器學習框架,每一個聯邦學習的參與者不需要與其餘幾方共用自己的訓練資料,但仍然能利用其餘幾方參與者提供的資訊更好的訓練聯合模型。
換言之,各方可以在在不共用資料的情況下,共用資料產生的知識,達到共贏。
創新工場AI工程院也十分看好聯邦學習技術的巨大應用潛力。
今年3月,“Learning to Confuse: Generating Training Time Adversarial Data with Auto-Encoder”論文的作者、創新工場南京國際人工智慧研究院執行院長馮霽代表創新工場當選為IEEE聯邦學習標準制定委員會副主席,著手推進制定AI協同及大資料安全領域首個國際標準。
創新工場也將成為聯邦學習這一技術“立法”的直接參與者。
▌創新工場AI工程院科研成績單
創新工場憑藉獨特的VC+AI(風險投資與AI研發相結合)的架構,致力於扮演前沿科研與AI商業化之間的橋樑角色。
創新工場2019年廣泛開展科研合作,與其他國際科研機構合作的論文,入選多項國際頂級會議,除上述介紹的“資料下毒”論文入選NeurlPS之外,還有8篇收錄至五大學術頂會,涉及影像處理、自動駕駛、自然語言處理、金融AI和區塊鏈等方向。
┃兩篇論文入選ICCV
Disentangling Propagation and Generation for Video Prediction
https://arxiv.org/abs/1812.00452
這篇論文的主要工作圍繞一個視頻預測的任務展開,即在一個視頻中,給定前幾幀的圖片預測接下來的一幀或多幀的圖片。
Joint Monocular 3D Vehicle Detection and Tracking
https://arxiv.org/abs/1811.10742
這篇論文提出了一種全新的線上三維車輛檢測與跟蹤的聯合框架,不僅能隨著時間關聯車輛的檢測結果,同時可以利用單目攝像機獲取的二維移動資訊估計三維的車輛資訊。
┃一篇論文入選IROS
Monocular Plan View Networks for Autonomous Driving
http://arxiv.org/abs/1905.06937
針對端到端的控制學習問題提出了一個對當前觀察的視角轉換,將其稱之為規劃視角,它把將當前的觀察視角轉化至一個鳥瞰視角。具體的,在自動駕駛的問題下,在第一人稱視角中檢測行人和車輛並將其投影至一個俯瞰視角。
┃三篇論文入選EMNLP
Multiplex Word Embeddings for Selectional Preference Acquisition
提出了一種multiplex詞向量模型。在該模型中,對於每個詞而言,其向量包含兩部分,主向量和關係向量,其中主向量代表總體語義,關係向量用於表達這個詞在不同關係上的特徵,每個詞的最終向量由這兩種向量融合得到。
What You See is What You Get: Visual Pronoun Coreference Resolution in Dialogues
https://assert.pub/papers/1909.00421
提出了一個新模型(VisCoref)及一個配套資料集(VisPro),用以研究如何將代詞指代與視覺資訊進行整合。
Reading Like HER: Human Reading Inspired Extractive Summarization
人類通過閱讀進行文本語義的摘要總結大體上可以分為兩個階段:1)通過粗略地閱讀獲取文本的概要資訊,2)進而進行細緻的閱讀選取關鍵句子形成摘要。
本文提出一種新的抽取式摘要方法來模擬以上兩個階段,該方法將文檔抽取式摘要形式化為一個帶有上下文的多臂老虎機問題,並採用策略梯度方法來求解。
┃一篇論文入選IEEE TVCG
sPortfolio: Stratified Visual Analysis of Stock Portfolios
https://www.ncbi.nlm.nih.gov/pubmed/31443006
主要是對於金融市場中的投資組合和多因數模型進行可視分析的研究。通過三個方面的分析任務來幫助投資者進行日常分析並升決策準確性。
並提出了一個全新的視覺化分析系統sPortfolio,它允許使用者根據持倉,因數和歷史策略來觀察投資組合的市場。sPortfolio提供了四個良好協調的視圖。
┃一篇論文入選NSDI
Monoxide: Scale Out Blockchain with Asynchronized Consensus Zones
https://www.usenix.org/system/files/nsdi19-wang-jiaping.pdf
提出了一種名為非同步共識組 Monoxide 的區塊鏈擴容方案,可以在由 4.8 萬個全球節點組成的測試環境中,實現比比特幣網路高出 1000 倍的每秒交易處理量,以及 2000 倍的狀態記憶體容量,有望打破“不可能三角”這個長期困擾區塊鏈性能的瓶頸。
▌獨特的“科研助推商業”思路
國內VC,發表論文都很少見,為什麼創新工場如此做?
這背後在於其“VC+AI”模式。
最獨特之處在于,創新工場的AI工程院可以通過廣泛的科研合作以及自身的科研團隊,密切跟蹤前沿科研領域裡最有可能轉變為未來商業價值的科研方向。
這種“科研助推商業”的思路力圖儘早發現有未來商業價值的學術研究,然後在保護各方智慧財產權和商業利益的前提下積極與相關科研方開展合作。
同時,由AI工程院的產品研發團隊嘗試該項技術在不同商業場景裡可能的產品方向、研發產品原型,並由商務拓展團隊推動產品在真實商業領域的落地測試,繼而可以為創新工場的風險投資團隊帶來早期識別、投資高價值賽道的寶貴機會。
“科研助推商業”並不是簡單地尋找有前景的科研專案,而是將技術跟蹤、人才跟蹤、實驗室合作、智慧財產權合作、技術轉化、原型產品快速反覆運算、商務拓展、財務投資等多維度的工作整合在一個統一的資源體系內,用市場價值為導向,有計劃地銜接學術科研與商業實踐。
以AI為代表的高新技術目前正進入商業落地優先的深入發展期,產業大環境亟需前沿科研技術與實際商業場景的有機結合。
創新工場憑藉在風險投資領域積累的豐富經驗,以及在創辦AI工程院的過程中積累的技術人才優勢,特別適合扮演科研與商業化之間的橋樑角色。
於是,創新工場AI工程院也就順勢而生。
創新工場人工智慧工程院成立於2016年9月,以“科研+工程實驗室”模式,規劃研發方向,組建研發團隊。
目前已經設有醫療AI、機器人、機器學習理論、計算金融、電腦感知等面向前沿科技與應用方向的研發實驗室,還先後設立了創新工場南京國際人工智慧研究院、創新工場大灣區人工智慧研究院。
目標是培養人工智慧高端科研與工程人才,研發以機器學習為核心的前沿人工智慧技術,並同各行業領域相結合,為行業場景提供一流的產品和解決方案。
而且, 創新工場還與國內外著名的科研機構廣泛開展科研合作。
例如,今年3月20日,香港科技大學和創新工場宣佈成立電腦感知與智慧控制聯合實驗室(Computer Perception and Intelligent Control Lab)。
此外,創新工場也積極參與了國際相關的技術標準制定工作。例如,今年8月,第28屆國際人工智慧聯合會議(IJCAI)在中國澳門隆重舉辦,期間召開了IEEE P3652.1(聯邦學習基礎架構與應用)標準工作組第三次會議。
IEEE聯邦學習標準由微眾銀行發起,創新工場等數十家國際和國內科技公司參與,是國際上首個針對人工智慧協同技術框架訂立標準的專案。
創新工場表示,自身的科研團隊將深度參與到聯邦學習標準的制定過程中,希望為AI技術在真實場景下的安全性、可用性以及保護資料安全、保護使用者隱私貢獻自己的力量。
市場導向工業特徵 在 中衛產業行腳 Facebook 的最佳貼文
《新日微信》20160529從R&D到M&D論創新
當前市場前景渾沌,肇因於創新不足。因此,小英總統將創新列為產業政策之首,所提出的五大創新產業的選題固然見仁見智,但全面挹注創新的能量給產業,卻是台灣能否脫困的關鍵。在上個世紀末,台灣曾經成功地以國家創新系統支撐中小企業為主的產業結構,發展出具有國際競爭力的半導體產業。工研院成為一個專有名詞,中國大陸和科技沾邊的訪問團都指名要參訪工研院,中國大陸各省市想要創新,設立工研院成為必要的體制創新!除了獨佔鰲頭的工研院外,台灣還有許多以技術研發為設立導向的公設法人,提供各產業技術的研發服務。
創新講究的是研發,研與發兩個面向有許多變形:R&d係指研究技術成熟度較低(Technology-Readiness Level)、距離市場應用較遠的科技,偏重在以基礎科學的突破帶動新興技術的突破,全球在此一領域最頂尖的研究單位應屬美國的DARPA(國家高等研究計劃署)。r&D係指研究技術成熟度較高、距離市場應用較近的技術,多屬市場較為明朗的開發,廠商在此扮演關鍵的角色。在這個粗略分類下,自然還有一些介乎其間的傑出成就,例如,史丹佛研究中心(Stanford Research Institute)、全錄的帕拉奧圖研究中心(Palo Alto Research Center)等等,這些使無變有的研究單位在人類近代的科技文明史中,扮演了一棒接一棒的角色,順利地將天馬行空的點子化約為改變人類生活的科技與產品。
台灣產業現在需要的是R&D,兩者的份量都需要很重的創新活動。多年前曾聽一家品牌行銷全球的研發員工開玩笑說,他們做的是Retesting & Debugging,這種r&d對現階段台灣產業的邊際貢獻等於零。二十年來的亞洲內部的產業結構丕變,台灣產業目前在追兵不斷超越的困境中,不再能倚靠過去的創新模式,R&d引進基礎科學的激進式創新是一途,但要整合的介面管理是有效將科學轉換為技術、再轉換為產品的關鍵;而貼近消費者需求的r&D需要更多掌握變化多端的消費市場,對台灣產業習慣根據規格形式、不能直接與終端消費者對話的慣性,有待運用最新的科技加以突破。
寶僑近年來運用開放式創新的架構,以C&D (Connect & Develop)大量引入各類型利益關係人(包括消費者)從事共創活動,穩健地在日用消費品市場中居於領先地位,這也是體制創新的典範。這和近年來火紅的設計思考(Design Thinking),在方法論強調以同理(Empathy)與定義(Define)作為展開創意前的工作重點,有著異曲同工之妙。拉式不僅是生產活動,致力於向終端消費者的顯性或隱性需求移動,將決定創新的成效。這類的努力在新興科技架構下,比過去展現更高的可行性,但還是要看廠商在營運模式上的規劃與執行程度。
GE Digital目前的創新工具除了商業模式慣用的BMC(以「創利時代」一書出版後廣泛被使用的商業模式九宮格)、設計思維等方法論外,一個新的概念使得這個新興廠商業務蒸蒸日上:監控與分析(Monitoring and Diagnostics)。擷取、傳輸與分析資料將成為未來企業流程中最重要的環節,數位化的看板宛若戰情室,各種戰情資訊所顯示的可以包括智慧製造中設備、加工件的特徵值,倉儲與物流過程中的環境特徵值,甚至消費者在賣場中的消費路徑,這種端對端(End-to-End)的戰情資料,不僅長期在監控(Monitoring)流程中得以掌握產銷的關鍵資訊,更在分析(Diagnostics)全生命週期的數據中,掌握到過去流程改善難以被視覺化的細節,也掌握過去從製造端難以揣摩的消費者洞察(Consumer Insight),進而從此演繹出切中消費者真實需求的創新,過去難以想像的創新模式,已在領先廠商的族群中快速發展,不僅這種嶄新的科學管理手法被驗證可行,嶄新的方法論也為導入廠商在可見財貨僅能獲取低毛利的經營環境中,以非可見財貨賺進超高額報酬,也將在不久的未來改變競爭的結構。
「以人為本」在許多再工業化的努力中,可能仍是想像、可能淪為口號,但對於有為者亦若是的廠商而言,如何導入下一代競爭利器,才是關鍵問題。台灣產業的確存在許多限制條件,明白自己創新的限制條件,並試著槓桿外部資源,發展出屬於台灣產業可行的「以人為本」的創新,他山之石足已作為讓我們摸著石頭過河的殷鑑,剩下的只差方向明確、系統整合與勇於承擔。
市場導向工業特徵 在 工業區位- 维基百科,自由的百科全书 的相關結果
市場 區位编辑. 市場區位。產品具有時效性,不可長時間存放或易壞,工廠設立於鄰近市場,或能快速運送至銷售地之處。例如:麵包坊、玻璃工廠、報紙等。 ... <看更多>
市場導向工業特徵 在 影響工業區位的因素 的相關結果
例:鋼板、電子零件; 原料導向工業– 運輸原料的費用佔成本一大部分(所以工廠近原料 ... 市場 – 市場和人口的規模和收入成正比. - 市場導向工業(產品笨重– 汽車). ... <看更多>
市場導向工業特徵 在 工業區位INDUSTRIAL LOCATION 的相關結果
工業 類型︰根據傳統區位因素 ; 市場導向, 市場是最重要的因素,所以在市場或最接近的地方設廠以節省運費。 · 經常與客人接觸, 印刷、紡織印染 ; 市場導向, 市場是最重要的因素 ... ... <看更多>