創(chuàng)新工場(chǎng)“AI蒙汗藥”入選NeurIPS 2019,3年VC+AI布局進(jìn)入科研收獲季
本文經(jīng)AI新媒體量子位(公眾號(hào) ID: QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。
本文引用地址:http://www.biyoush.com/article/201909/404501.htmNeurIPS 2019放榜,創(chuàng)新工場(chǎng)AI工程院論文在列。
名為“Learning to Confuse: Generating Training Time Adversarial Data with Auto-Encoder”。
一作是創(chuàng)新工場(chǎng)南京國(guó)際AI研究院執(zhí)行院長(zhǎng)馮霽,二作是創(chuàng)新工場(chǎng)南京國(guó)際人工智能研究院研究員蔡其志,南京大學(xué)AI大牛周志華教授也在作者列。
論文提出了一種高效生成對(duì)抗訓(xùn)練樣本的方法DeepConfuse,通過(guò)微弱擾動(dòng)數(shù)據(jù)庫(kù)的方式,徹底破壞對(duì)應(yīng)的學(xué)習(xí)系統(tǒng)的性能,達(dá)到“數(shù)據(jù)下毒”的目的。
創(chuàng)新工場(chǎng)介紹稱,這一研究就并不單單是為了揭示類(lèi)似的AI入侵或攻擊技術(shù)對(duì)系統(tǒng)安全的威脅,還能協(xié)助針對(duì)性地制定防范“AI黑客”的完善方案,推動(dòng)AI安全攻防領(lǐng)域的發(fā)展。
NeurIPS,全稱神經(jīng)信息處理系統(tǒng)大會(huì)(Conference and Workshop on Neural Information Processing Systems),自1987年誕生至今已有32年的歷史,一直以來(lái)備受學(xué)術(shù)界和產(chǎn)業(yè)界的高度關(guān)注,是AI學(xué)術(shù)領(lǐng)域的“華山論劍”。
作為AI領(lǐng)域頂會(huì),NeurIPS也是最火爆的那個(gè),去年會(huì)議門(mén)票在數(shù)分鐘內(nèi)被搶光,而且在論文的投稿錄取上,競(jìng)爭(zhēng)同樣激烈。
今年,NeurIPS會(huì)議的論文投稿量再創(chuàng)新高,共收到6743篇投稿,最終錄取1428篇論文,錄取率為21.2%。
“數(shù)據(jù)下毒”論文入選頂會(huì)NeurIPS
那這次創(chuàng)新工場(chǎng)AI工程院這篇入選論文,核心議題是什么?
我們先拆解說(shuō)說(shuō)。
近年來(lái),機(jī)器學(xué)習(xí)熱度不斷攀升,并逐漸在不同應(yīng)用領(lǐng)域解決各式各樣的問(wèn)題。不過(guò),卻很少有人意識(shí)到,其實(shí)機(jī)器學(xué)習(xí)本身也很容易受到攻擊,模型并非想象中堅(jiān)不可摧。
例如,在訓(xùn)練(學(xué)習(xí)階段)或是預(yù)測(cè)(推理階段)這兩個(gè)過(guò)程中,機(jī)器學(xué)習(xí)模型就都有可能被對(duì)手攻擊,而攻擊的手段也是多種多樣。
創(chuàng)新工場(chǎng)AI工程院為此專(zhuān)門(mén)成立了AI安全實(shí)驗(yàn)室,針對(duì)人工智能系統(tǒng)的安全性進(jìn)行了深入對(duì)評(píng)估和研究。
在被NeurIPS收錄的論文中,核心貢獻(xiàn)就是提出了高效生成對(duì)抗訓(xùn)練數(shù)據(jù)的最先進(jìn)方法之一——DeepConfuse。
給數(shù)據(jù)下毒
通過(guò)劫持神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過(guò)程,教會(huì)噪聲生成器為訓(xùn)練樣本添加一個(gè)有界的擾動(dòng),使得該訓(xùn)練樣本訓(xùn)練得到的機(jī)器學(xué)習(xí)模型在面對(duì)測(cè)試樣本時(shí)的泛化能力盡可能地差,非常巧妙地實(shí)現(xiàn)了“數(shù)據(jù)下毒”。
顧名思義,“數(shù)據(jù)下毒”即讓訓(xùn)練數(shù)據(jù)“中毒”,具體的攻擊策略是通過(guò)干擾模型的訓(xùn)練過(guò)程,對(duì)其完整性造成影響,進(jìn)而讓模型的后續(xù)預(yù)測(cè)過(guò)程出現(xiàn)偏差。
“數(shù)據(jù)下毒”與常見(jiàn)的“對(duì)抗樣本攻擊”是不同的攻擊手段,存在于不同的威脅場(chǎng)景:前者通過(guò)修改訓(xùn)練數(shù)據(jù)讓模型“中毒”,后者通過(guò)修改待測(cè)試的樣本讓模型“受騙”。
舉例來(lái)說(shuō),假如一家從事機(jī)器人視覺(jué)技術(shù)開(kāi)發(fā)的公司希望訓(xùn)練機(jī)器人識(shí)別現(xiàn)實(shí)場(chǎng)景中的器物、人員、車(chē)輛等,卻不慎被入侵者利用論文中提及的方法篡改了訓(xùn)練數(shù)據(jù)。
研發(fā)人員在目視檢查訓(xùn)練數(shù)據(jù)時(shí),通常不會(huì)感知到異常(因?yàn)槭箶?shù)據(jù)“中毒”的噪音數(shù)據(jù)在圖像層面很難被肉眼識(shí)別),訓(xùn)練過(guò)程也一如既往地順利。
但這時(shí)訓(xùn)練出來(lái)的深度學(xué)習(xí)模型在泛化能力上會(huì)大幅退化,用這樣的模型驅(qū)動(dòng)的機(jī)器人在真實(shí)場(chǎng)景中會(huì)徹底“懵圈”,陷入什么也認(rèn)不出的尷尬境地。
更有甚者,攻擊者還可以精心調(diào)整“下毒”時(shí)所用的噪音數(shù)據(jù),使得訓(xùn)練出來(lái)的機(jī)器人視覺(jué)模型“故意認(rèn)錯(cuò)”某些東西,比如將障礙認(rèn)成是通路,或?qū)⑽kU(xiǎn)場(chǎng)景標(biāo)記成安全場(chǎng)景等。
為了達(dá)成這一目的,這篇論文設(shè)計(jì)了一種可以生成對(duì)抗噪聲的自編碼器神經(jīng)網(wǎng)絡(luò)DeepConfuse。
通過(guò)觀察一個(gè)假想分類(lèi)器的訓(xùn)練過(guò)程更新自己的權(quán)重,產(chǎn)生“有毒性”的噪聲,從而為“受害的”分類(lèi)器帶來(lái)最低下的泛化效率,而這個(gè)過(guò)程可以被歸結(jié)為一個(gè)具有非線性等式約束的非凸優(yōu)化問(wèn)題。
下毒無(wú)痕,毒性不小
從實(shí)驗(yàn)數(shù)據(jù)可以發(fā)現(xiàn),在MNIST、CIFAR-10以及縮減版的IMAGENET這些不同數(shù)據(jù)集上,使用“未被下毒”的訓(xùn)練數(shù)據(jù)集和“中毒”的訓(xùn)練數(shù)據(jù)集所訓(xùn)練的系統(tǒng)模型在分類(lèi)精度上存在較大的差異,效果非??捎^。
與此同時(shí),從實(shí)驗(yàn)結(jié)果來(lái)看,該方法生成的對(duì)抗噪聲具有通用性,即便是在隨機(jī)森林和支持向量機(jī)這些非神經(jīng)網(wǎng)絡(luò)上也有較好表現(xiàn)。
其中,藍(lán)色為使用“未被下毒”的訓(xùn)練數(shù)據(jù)訓(xùn)練出的模型在泛化能力上的測(cè)試表現(xiàn),橙色為使用“中毒”訓(xùn)練數(shù)據(jù)訓(xùn)練出的模型的在泛化能力上的測(cè)試表現(xiàn)。
在CIFAR和IMAGENET數(shù)據(jù)集上的表現(xiàn)也具有相似效果,證明該方法所產(chǎn)生的對(duì)抗訓(xùn)練樣本在不同的網(wǎng)絡(luò)結(jié)構(gòu)上具有很高的遷移能力。
此外,論文中提出的方法還能有效擴(kuò)展至針對(duì)特定標(biāo)簽的情形下,即攻擊者希望通過(guò)一些預(yù)先指定的規(guī)則使模型分類(lèi)錯(cuò)誤,例如將“貓”錯(cuò)誤分類(lèi)成“狗”,讓模型按照攻擊者計(jì)劃,定向發(fā)生錯(cuò)誤。
例如,下圖為MINIST數(shù)據(jù)集上,不同場(chǎng)景下測(cè)試集上混淆矩陣的表現(xiàn),分別為干凈訓(xùn)練數(shù)據(jù)集、無(wú)特定標(biāo)簽的訓(xùn)練數(shù)據(jù)集、以及有特定標(biāo)簽的訓(xùn)練數(shù)據(jù)集。
實(shí)驗(yàn)結(jié)果有力證明,為有特定標(biāo)簽的訓(xùn)練數(shù)據(jù)集做相應(yīng)設(shè)置的有效性,未來(lái)有機(jī)會(huì)通過(guò)修改設(shè)置以實(shí)現(xiàn)更多特定的任務(wù)。
對(duì)數(shù)據(jù)“下毒”技術(shù)的研究并不單單是為了揭示類(lèi)似的AI入侵或攻擊技術(shù)對(duì)系統(tǒng)安全的威脅,更重要的是,只有深入研究相關(guān)的入侵或攻擊技術(shù),才能有針對(duì)性地制定防范“AI黑客”的完善方案。
隨著AI算法、AI系統(tǒng)在國(guó)計(jì)民生相關(guān)的領(lǐng)域逐漸得到普及與推廣,科研人員必須透徹地掌握AI安全攻防的前沿技術(shù),并有針對(duì)性地為自動(dòng)駕駛、AI輔助醫(yī)療、AI輔助投資等涉及生命安全、財(cái)富安全的領(lǐng)域研發(fā)最有效的防護(hù)手段。
還關(guān)注聯(lián)邦學(xué)習(xí)
除了安全問(wèn)題之外,人工智能應(yīng)用的數(shù)據(jù)隱私問(wèn)題,也是創(chuàng)新工場(chǎng)AI安全實(shí)驗(yàn)室重點(diǎn)關(guān)注的議題之一。
近年來(lái),隨著人工智能技術(shù)的高速發(fā)展,社會(huì)各界對(duì)隱私保護(hù)及數(shù)據(jù)安全的需求加強(qiáng),聯(lián)邦學(xué)習(xí)技術(shù)應(yīng)運(yùn)而生,并開(kāi)始越來(lái)越多地受到學(xué)術(shù)界和工業(yè)界的關(guān)注。
具體而言,聯(lián)邦學(xué)習(xí)系統(tǒng)是一個(gè)分布式的具有多個(gè)參與者的機(jī)器學(xué)習(xí)框架,每一個(gè)聯(lián)邦學(xué)習(xí)的參與者不需要與其余幾方共享自己的訓(xùn)練數(shù)據(jù),但仍然能利用其余幾方參與者提供的信息更好的訓(xùn)練聯(lián)合模型。
換言之,各方可以在在不共享數(shù)據(jù)的情況下,共享數(shù)據(jù)產(chǎn)生的知識(shí),達(dá)到共贏。
創(chuàng)新工場(chǎng)AI工程院也十分看好聯(lián)邦學(xué)習(xí)技術(shù)的巨大應(yīng)用潛力。
今年3月,“Learning to Confuse: Generating Training Time Adversarial Data with Auto-Encoder”論文的作者、創(chuàng)新工場(chǎng)南京國(guó)際人工智能研究院執(zhí)行院長(zhǎng)馮霽代表創(chuàng)新工場(chǎng)當(dāng)選為IEEE聯(lián)邦學(xué)習(xí)標(biāo)準(zhǔn)制定委員會(huì)副主席,著手推進(jìn)制定AI協(xié)同及大數(shù)據(jù)安全領(lǐng)域首個(gè)國(guó)際標(biāo)準(zhǔn)。
創(chuàng)新工場(chǎng)也將成為聯(lián)邦學(xué)習(xí)這一技術(shù)“立法”的直接參與者。
創(chuàng)新工場(chǎng)AI工程院科研成績(jī)單
創(chuàng)新工場(chǎng)憑借獨(dú)特的VC+AI(風(fēng)險(xiǎn)投資與AI研發(fā)相結(jié)合)的架構(gòu),致力于扮演前沿科研與AI商業(yè)化之間的橋梁角色。
創(chuàng)新工場(chǎng)2019年廣泛開(kāi)展科研合作,與其他國(guó)際科研機(jī)構(gòu)合作的論文,入選多項(xiàng)國(guó)際頂級(jí)會(huì)議,除上述介紹的“數(shù)據(jù)下毒”論文入選NeurlPS之外,還有8篇收錄至五大學(xué)術(shù)頂會(huì),涉及圖像處理、自動(dòng)駕駛、自然語(yǔ)言處理、金融AI和區(qū)塊鏈等方向。
兩篇論文入選ICCV
Disentangling Propagation and Generation for Video Prediction
https://arxiv.org/abs/1812.00452
這篇論文的主要工作圍繞一個(gè)視頻預(yù)測(cè)的任務(wù)展開(kāi),即在一個(gè)視頻中,給定前幾幀的圖片預(yù)測(cè)接下來(lái)的一幀或多幀的圖片。
Joint Monocular 3D Vehicle Detection and Tracking
https://arxiv.org/abs/1811.10742
這篇論文提出了一種全新的在線三維車(chē)輛檢測(cè)與跟蹤的聯(lián)合框架,不僅能隨著時(shí)間關(guān)聯(lián)車(chē)輛的檢測(cè)結(jié)果,同時(shí)可以利用單目攝像機(jī)獲取的二維移動(dòng)信息估計(jì)三維的車(chē)輛信息。
一篇論文入選IROS
Monocular Plan View Networks for Autonomous Driving
http://arxiv.org/abs/1905.06937
針對(duì)端到端的控制學(xué)習(xí)問(wèn)題提出了一個(gè)對(duì)當(dāng)前觀察的視角轉(zhuǎn)換,將其稱之為規(guī)劃視角,它把將當(dāng)前的觀察視角轉(zhuǎn)化至一個(gè)鳥(niǎo)瞰視角。具體的,在自動(dòng)駕駛的問(wèn)題下,在第一人稱視角中檢測(cè)行人和車(chē)輛并將其投影至一個(gè)俯瞰視角。
三篇論文入選EMNLP
Multiplex Word Embeddings for Selectional Preference Acquisition
提出了一種multiplex詞向量模型。在該模型中,對(duì)于每個(gè)詞而言,其向量包含兩部分,主向量和關(guān)系向量,其中主向量代表總體語(yǔ)義,關(guān)系向量用于表達(dá)這個(gè)詞在不同關(guān)系上的特征,每個(gè)詞的最終向量由這兩種向量融合得到。
What You See is What You Get: Visual Pronoun Coreference Resolution in Dialogues
https://assert.pub/papers/1909.00421
提出了一個(gè)新模型(VisCoref)及一個(gè)配套數(shù)據(jù)集(VisPro),用以研究如何將代詞指代與視覺(jué)信息進(jìn)行整合。
Reading Like HER: Human Reading Inspired Extractive Summarization
人類(lèi)通過(guò)閱讀進(jìn)行文本語(yǔ)義的摘要總結(jié)大體上可以分為兩個(gè)階段:1)通過(guò)粗略地閱讀獲取文本的概要信息,2)進(jìn)而進(jìn)行細(xì)致的閱讀選取關(guān)鍵句子形成摘要。
本文提出一種新的抽取式摘要方法來(lái)模擬以上兩個(gè)階段,該方法將文檔抽取式摘要形式化為一個(gè)帶有上下文的多臂老虎機(jī)問(wèn)題,并采用策略梯度方法來(lái)求解。
一篇論文入選IEEE TVCG
sPortfolio: Strati?ed Visual Analysis of Stock Portfolios
https://www.ncbi.nlm.nih.gov/pubmed/31443006
主要是對(duì)于金融市場(chǎng)中的投資組合和多因子模型進(jìn)行可視分析的研究。通過(guò)三個(gè)方面的分析任務(wù)來(lái)幫助投資者進(jìn)行日常分析并升決策準(zhǔn)確性。
并提出了一個(gè)全新的可視化分析系統(tǒng)sPortfolio,它允許用戶根據(jù)持倉(cāng),因子和歷史策略來(lái)觀察投資組合的市場(chǎng)。sPortfolio提供了四個(gè)良好協(xié)調(diào)的視圖。
一篇論文入選NSDI
Monoxide: Scale Out Blockchain with Asynchronized Consensus Zones
https://www.usenix.org/system/files/nsdi19-wang-jiaping.pdf
提出了一種名為異步共識(shí)組 Monoxide 的區(qū)塊鏈擴(kuò)容方案,可以在由 4.8 萬(wàn)個(gè)全球節(jié)點(diǎn)組成的測(cè)試環(huán)境中,實(shí)現(xiàn)比比特幣網(wǎng)絡(luò)高出 1000 倍的每秒事務(wù)處理量,以及 2000 倍的狀態(tài)內(nèi)存容量,有望打破“不可能三角”這個(gè)長(zhǎng)期困擾區(qū)塊鏈性能的瓶頸。
獨(dú)特的“科研助推商業(yè)”思路
國(guó)內(nèi)VC,發(fā)表論文都很少見(jiàn),為什么創(chuàng)新工場(chǎng)如此做?
這背后在于其“VC+AI”模式。
最獨(dú)特之處在于,創(chuàng)新工場(chǎng)的AI工程院可以通過(guò)廣泛的科研合作以及自身的科研團(tuán)隊(duì),密切跟蹤前沿科研領(lǐng)域里最有可能轉(zhuǎn)變?yōu)槲磥?lái)商業(yè)價(jià)值的科研方向。
這種“科研助推商業(yè)”的思路力圖盡早發(fā)現(xiàn)有未來(lái)商業(yè)價(jià)值的學(xué)術(shù)研究,然后在保護(hù)各方知識(shí)產(chǎn)權(quán)和商業(yè)利益的前提下積極與相關(guān)科研方開(kāi)展合作。
同時(shí),由AI工程院的產(chǎn)品研發(fā)團(tuán)隊(duì)嘗試該項(xiàng)技術(shù)在不同商業(yè)場(chǎng)景里可能的產(chǎn)品方向、研發(fā)產(chǎn)品原型,并由商務(wù)拓展團(tuán)隊(duì)推動(dòng)產(chǎn)品在真實(shí)商業(yè)領(lǐng)域的落地測(cè)試,繼而可以為創(chuàng)新工場(chǎng)的風(fēng)險(xiǎn)投資團(tuán)隊(duì)帶來(lái)早期識(shí)別、投資高價(jià)值賽道的寶貴機(jī)會(huì)。
“科研助推商業(yè)”并不是簡(jiǎn)單地尋找有前景的科研項(xiàng)目,而是將技術(shù)跟蹤、人才跟蹤、實(shí)驗(yàn)室合作、知識(shí)產(chǎn)權(quán)合作、技術(shù)轉(zhuǎn)化、原型產(chǎn)品快速迭代、商務(wù)拓展、財(cái)務(wù)投資等多維度的工作整合在一個(gè)統(tǒng)一的資源體系內(nèi),用市場(chǎng)價(jià)值為導(dǎo)向,有計(jì)劃地銜接學(xué)術(shù)科研與商業(yè)實(shí)踐。
以AI為代表的高新技術(shù)目前正進(jìn)入商業(yè)落地優(yōu)先的深入發(fā)展期,產(chǎn)業(yè)大環(huán)境亟需前沿科研技術(shù)與實(shí)際商業(yè)場(chǎng)景的有機(jī)結(jié)合。
創(chuàng)新工場(chǎng)憑借在風(fēng)險(xiǎn)投資領(lǐng)域積累的豐富經(jīng)驗(yàn),以及在創(chuàng)辦AI工程院的過(guò)程中積累的技術(shù)人才優(yōu)勢(shì),特別適合扮演科研與商業(yè)化之間的橋梁角色。
于是,創(chuàng)新工場(chǎng)AI工程院也就順勢(shì)而生。
創(chuàng)新工場(chǎng)人工智能工程院成立于2016年9月,以“科研+工程實(shí)驗(yàn)室”模式,規(guī)劃研發(fā)方向,組建研發(fā)團(tuán)隊(duì)。
目前已經(jīng)設(shè)有醫(yī)療AI、機(jī)器人、機(jī)器學(xué)習(xí)理論、計(jì)算金融、計(jì)算機(jī)感知等面向前沿科技與應(yīng)用方向的研發(fā)實(shí)驗(yàn)室,還先后設(shè)立了創(chuàng)新工場(chǎng)南京國(guó)際人工智能研究院、創(chuàng)新工場(chǎng)大灣區(qū)人工智能研究院。
目標(biāo)是培養(yǎng)人工智能高端科研與工程人才,研發(fā)以機(jī)器學(xué)習(xí)為核心的前沿人工智能技術(shù),并同各行業(yè)領(lǐng)域相結(jié)合,為行業(yè)場(chǎng)景提供一流的產(chǎn)品和解決方案。
而且, 創(chuàng)新工場(chǎng)還與國(guó)內(nèi)外著名的科研機(jī)構(gòu)廣泛開(kāi)展科研合作。
例如,今年3月20日,香港科技大學(xué)和創(chuàng)新工場(chǎng)宣布成立計(jì)算機(jī)感知與智能控制聯(lián)合實(shí)驗(yàn)室(Computer Perception and Intelligent Control Lab)。
此外,創(chuàng)新工場(chǎng)也積極參與了國(guó)際相關(guān)的技術(shù)標(biāo)準(zhǔn)制定工作。例如,今年8月,第28屆國(guó)際人工智能聯(lián)合會(huì)議(IJCAI)在中國(guó)澳門(mén)隆重舉辦,期間召開(kāi)了IEEE P3652.1(聯(lián)邦學(xué)習(xí)基礎(chǔ)架構(gòu)與應(yīng)用)標(biāo)準(zhǔn)工作組第三次會(huì)議。
IEEE聯(lián)邦學(xué)習(xí)標(biāo)準(zhǔn)由微眾銀行發(fā)起,創(chuàng)新工場(chǎng)等數(shù)十家國(guó)際和國(guó)內(nèi)科技公司參與,是國(guó)際上首個(gè)針對(duì)人工智能協(xié)同技術(shù)框架訂立標(biāo)準(zhǔn)的項(xiàng)目。
創(chuàng)新工場(chǎng)表示,自身的科研團(tuán)隊(duì)將深度參與到聯(lián)邦學(xué)習(xí)標(biāo)準(zhǔn)的制定過(guò)程中,希望為AI技術(shù)在真實(shí)場(chǎng)景下的安全性、可用性以及保護(hù)數(shù)據(jù)安全、保護(hù)用戶隱私貢獻(xiàn)自己的力量。
評(píng)論