【深度】谷歌人工智能10年之路
在谷歌證明機(jī)器學(xué)習(xí)高效性的實(shí)例組成的稠密圖(dense graph)中,自動(dòng)回復(fù)只是其中的一個(gè)數(shù)據(jù)點(diǎn)。但是當(dāng)機(jī)器學(xué)習(xí)成為搜索業(yè)務(wù)的重要組成部分的時(shí)候,或許轉(zhuǎn)折點(diǎn)才會(huì)最終到來。
作為谷歌的旗艦產(chǎn)品,搜索幾乎為該公司貢獻(xiàn)了所有營收。在某種程度上說,搜索總是基于人工智能系統(tǒng)。但多年以來,由于搜索引擎對(duì)谷歌過于重要,所以始終沒有融入機(jī)器學(xué)習(xí)算法。迦南德里說:“由于搜索在公司內(nèi)部占據(jù)的份額巨大,高級(jí)管理者深度參與其中,所以很多人都懷疑我們無法真正取得進(jìn)展。”
這部分阻力源自文化因素,因?yàn)楣雀鑿?qiáng)調(diào)要讓那些有極強(qiáng)控制欲的程序員適應(yīng)帶有禪宗韻味的機(jī)器學(xué)習(xí)模式。
長期掌管谷歌搜索業(yè)務(wù)的阿密特·辛格(Amit Singhal)曾是傳奇計(jì)算機(jī)科學(xué)家杰拉德·薩爾頓(Gerald Salton)的助手。薩爾頓在文檔檢索方面的開創(chuàng)性工作啟迪辛格幫助謝爾蓋·布林(Sergey Brin)和拉里·佩奇(Larry Page)把研究生時(shí)期編寫的代碼,擴(kuò)展成了可以適應(yīng)當(dāng)今網(wǎng)絡(luò)時(shí)代的程序。
他從20世紀(jì)的方法中梳理出令人驚訝的結(jié)果,但如果要將機(jī)器學(xué)習(xí)系統(tǒng)整合到關(guān)系谷歌命脈的復(fù)雜系統(tǒng)中,他卻持懷疑態(tài)度。大衛(wèi)·帕布洛·科恩說:“進(jìn)入谷歌的前兩年,我在搜索質(zhì)量部門工作,并嘗試用機(jī)器學(xué)習(xí)來改進(jìn)排名。結(jié)果證明:阿米特的團(tuán)隊(duì)是全世界最優(yōu)秀的,我們把阿里特腦海中的所有內(nèi)容都變成了硬編碼,并不斷取得進(jìn)步,我們已經(jīng)找不到超越他的方式。”
到2014年初,谷歌的機(jī)器學(xué)習(xí)大師們認(rèn)為需要改變現(xiàn)狀。迪恩說:“我們與排名團(tuán)隊(duì)展開了一系列討論。我們認(rèn)為至少應(yīng)該嘗試一下,看看是否有所收獲。”他的團(tuán)隊(duì)所設(shè)想的那個(gè)實(shí)驗(yàn),最終被證明對(duì)搜索至關(guān)重要:即文件排名與搜索請(qǐng)求的匹配程度有多高。迪恩稱:“我們跟他們說,嘗試用神經(jīng)網(wǎng)絡(luò)計(jì)算額外的分?jǐn)?shù),看看到底有沒有用。”
結(jié)果顯示這種方法確實(shí)有用。這套系統(tǒng)如今已經(jīng)成為谷歌搜索的一部分,被稱作RankBrain。它于2015年4月上線。谷歌繼續(xù)秉持著以往的風(fēng)格,對(duì)如何改進(jìn)搜索諱莫如深。但迪恩表示,RankBrain“融入到每一個(gè)搜索請(qǐng)求中”,雖然未必會(huì)影響所有的排名,但的確對(duì)很多搜索請(qǐng)求的排名都產(chǎn)生了影響。另外,該系統(tǒng)效果顯著。在谷歌計(jì)算排名時(shí)所使用的數(shù)百個(gè)信號(hào)中,RankBrain的使用排名第三。
迦南德里說:“我們成功利用機(jī)器學(xué)習(xí)改進(jìn)了搜索結(jié)果,這對(duì)公司來說意義重大,也引發(fā)了很多人的關(guān)注。”華盛頓大學(xué)教授佩德羅·多明戈斯則則表示:“檢索派與機(jī)器學(xué)習(xí)派始終都存在著分歧,機(jī)器學(xué)習(xí)派最終贏得了勝利。”
谷歌認(rèn)知轉(zhuǎn)換面臨的新挑戰(zhàn)是如何讓所有工程師都熟悉機(jī)器學(xué)習(xí)——哪怕不擅長機(jī)器學(xué)習(xí)。這也是現(xiàn)在其它許多公司也在追求的目標(biāo),其中最引人關(guān)注的當(dāng)屬Facebook,該公司與谷歌一樣執(zhí)著于機(jī)器學(xué)習(xí)和深度學(xué)習(xí)。對(duì)這個(gè)領(lǐng)域的畢業(yè)生的競(jìng)爭(zhēng)變得更激烈,而谷歌正在努力維持其對(duì)畢業(yè)生的吸引力。
學(xué)術(shù)圈多年以來都流傳著一個(gè)玩笑:即使不需要頂尖學(xué)生,谷歌也會(huì)招聘他們,避免人才被競(jìng)爭(zhēng)對(duì)手搶走。
多明戈斯說:“我的學(xué)生無一例外都得到了谷歌的錄用通知。”目前看來,競(jìng)爭(zhēng)的激烈程度有增無減。就在上周,谷歌宣布將在蘇黎世開設(shè)一個(gè)新的機(jī)器學(xué)習(xí)實(shí)驗(yàn)室,有很多工作崗位有待填補(bǔ)。但由于學(xué)術(shù)項(xiàng)目尚未培養(yǎng)大量機(jī)器學(xué)習(xí)專家,所以為員工提供在職培訓(xùn)面成為了必要措施。
但這卻并非易事,尤其是對(duì)于谷歌這樣的公司而言。這里有很多世界頂尖的工程師,他們畢生都在研究傳統(tǒng)的編程方式。
機(jī)器學(xué)習(xí)卻需要截然不同的思維模式,人們之所以能變成編程大師,通常是因?yàn)樗麄儗?shí)現(xiàn)了對(duì)編程系統(tǒng)的完全控制。機(jī)器學(xué)習(xí)還需要掌握一些數(shù)學(xué)和統(tǒng)計(jì)學(xué)知識(shí),但是很多程序員卻對(duì)此不屑一顧,即便是那些能夠?qū)懗龀L代碼的超級(jí)黑客也不例外。
克里斯汀·羅伯森,職責(zé)是在機(jī)器學(xué)習(xí)方面培訓(xùn)谷歌內(nèi)外的人員。
這也需要相當(dāng)程度的耐心。羅伯森說:“機(jī)器學(xué)習(xí)模型不是靜態(tài)代碼,你需要不斷為其提供數(shù)據(jù)。我們一直在不停地更新模型,而且還要不斷學(xué)習(xí),增加更多數(shù)據(jù),調(diào)整預(yù)測(cè)方式等。它就像是一個(gè)有生命的東西,這是一種截然不同的開發(fā)模式。”迦南德里說:“實(shí)際上這是一個(gè)使用不同算法進(jìn)行實(shí)驗(yàn)的學(xué)科,或關(guān)于哪個(gè)訓(xùn)練數(shù)據(jù)集在你的使用案例上工作效果最好的學(xué)科。”
盡管迦南德里已是搜索業(yè)務(wù)主管,但他仍然認(rèn)為在內(nèi)部傳播機(jī)器學(xué)習(xí)技術(shù)的福音是他工作的一部分。他說:“計(jì)算機(jī)科學(xué)那部分不會(huì)有太大變化,但對(duì)數(shù)學(xué)和統(tǒng)計(jì)學(xué)的關(guān)注會(huì)更多,而對(duì)編寫五十萬行代碼的關(guān)注則會(huì)減少。”就谷歌而言,這一障礙可以通過智能再培訓(xùn)克服。迪恩說:“在訓(xùn)練的一天結(jié)束時(shí),這些模型中所使用的數(shù)學(xué)變得不再復(fù)雜。對(duì)于谷歌雇傭的大部分工程師而言,這都是可以實(shí)現(xiàn)的。”
為了進(jìn)一步幫助日益增長的機(jī)器學(xué)習(xí)專家團(tuán)隊(duì),谷歌開發(fā)了一系列強(qiáng)大的工具,在訓(xùn)練算法時(shí)選擇正確的模型,以加快培訓(xùn)和提煉過程。其中最強(qiáng)大的是TensorFlow,它可以加速神經(jīng)網(wǎng)絡(luò)的構(gòu)建過程。
TensorFlow源自谷歌大腦項(xiàng)目,由迪恩和他的同事拉加特·芒格(Rajat Monga)共同發(fā)明。它能把構(gòu)建系統(tǒng)過程中涉及的晦澀難懂的細(xì)節(jié)變成標(biāo)準(zhǔn)化的內(nèi)容,特別是在谷歌2015年11月開始將其開放給公眾后,這種做法的效果更快得以顯現(xiàn)。
擴(kuò)張停不下來
盡管谷歌煞費(fèi)苦心地將傳播人工智能技術(shù)的行為描述為利他主義行為,但它也承認(rèn):如果新一代程序員都能熟悉該公司內(nèi)部的機(jī)器學(xué)習(xí)工具,那對(duì)谷歌未來的招聘活動(dòng)帶來莫大好處。TensorFlow的功能以及谷歌的開源模式很快受到了程序員的歡迎。迦南德里表示,當(dāng)谷歌首次提供TensorFlow課程時(shí),共有7.5萬人報(bào)名參加。
但谷歌仍為自己的程序員保留了很多好東西。在公司內(nèi)部,員工擁有無可比擬的機(jī)器學(xué)習(xí)工具——Tensor Processing Unit(張量處理單元)。他們雖然使用這項(xiàng)創(chuàng)新已經(jīng)很多年,但直到最近才對(duì)外宣布。
張量處理單元是一種針對(duì)機(jī)器學(xué)習(xí)程序優(yōu)化的芯片,就像GPU是專門針對(duì)圖形處理優(yōu)化的芯片一樣。該公司的龐大數(shù)據(jù)中心里使用了數(shù)以千計(jì)的張量處理單元。通過賦予神經(jīng)網(wǎng)絡(luò)以超級(jí)計(jì)算能力,張量處理單元為谷歌帶來了巨大優(yōu)勢(shì)。迪恩說:“如果沒有它,我們無法推出RankBrain。”
但由于谷歌最需要的還是設(shè)計(jì)和完善這些系統(tǒng)的人才,就像正在緊鑼密鼓地完善其軟件訓(xùn)練工具一樣,谷歌也在不斷嘗試各種方式來為工程師提供機(jī)器學(xué)習(xí)方面的培訓(xùn)。
這些培訓(xùn)的規(guī)模大小不等,包括為期兩天的速成班,使用幻燈片和實(shí)際操作練習(xí)。谷歌希望這只是初步嘗試,工程師隨后還會(huì)尋找更多資源來深入學(xué)習(xí)。迪恩說:“已經(jīng)有數(shù)千人報(bào)名,準(zhǔn)備參加下一次課程。”
谷歌還采取其他措施,為外部人才提供機(jī)器學(xué)習(xí)培訓(xùn)。今年初春,谷歌啟動(dòng)了BrainResidency項(xiàng)目,利用谷歌大腦項(xiàng)目為有潛力的外部人才提供了為期一年的集訓(xùn)。羅伯森說:“我們稱之為深度學(xué)習(xí)職業(yè)生涯的開端。”
這次集訓(xùn)共有27名來自不同學(xué)科的機(jī)器學(xué)習(xí)學(xué)員,其中可能有些人會(huì)留在谷歌。但羅伯森表示,谷歌的目的是讓他們自行發(fā)展,利用自己掌握的先進(jìn)知識(shí)在世界各地傳播谷歌的機(jī)器學(xué)習(xí)技術(shù)。
從某種意義上說,機(jī)器學(xué)習(xí)正在逐步走上中心舞臺(tái),谷歌希望以人工智能公司的身份繼續(xù)占據(jù)主導(dǎo)地位,而霍爾蓋特等人在忍者項(xiàng)目中學(xué)到的知識(shí)正是這一計(jì)劃的核心。
霍爾蓋特的課程最初是為期4周的新兵訓(xùn)練營,由谷歌最先進(jìn)的人工智能項(xiàng)目產(chǎn)品負(fù)責(zé)人提供指導(dǎo),仔細(xì)教給他們?nèi)绾螌C(jī)器學(xué)習(xí)融入項(xiàng)目中。
羅伯森說:“我們把忍者帶進(jìn)會(huì)議室,考拉多站在白板前解釋何為LSTM(長短期記憶,一種可以打造強(qiáng)大神經(jīng)網(wǎng)絡(luò)的技術(shù))。他做著夸張的手勢(shì),講述這種系統(tǒng)的工作原理,利用了哪些數(shù)學(xué)原理,如何應(yīng)用于產(chǎn)品中。在最初的4個(gè)星期里,我們幾乎用到了所有技術(shù)和所有工具,為的是給他們帶來真正的沉浸式體驗(yàn)。”
霍爾蓋特成功地通過了新兵訓(xùn)練營的訓(xùn)練,她現(xiàn)在正在使用機(jī)器學(xué)習(xí)工具開發(fā)安卓通訊功能,以幫助谷歌員工彼此交流。她正在調(diào)整超參數(shù)(hyperparameter),整理輸入數(shù)據(jù),去掉休止符。
現(xiàn)在她已經(jīng)無法停住腳步,因?yàn)樗廊斯ぶ悄芗夹g(shù)就是谷歌的現(xiàn)在和未來,甚至可能是所技術(shù)和所有事物的未來。她說:“機(jī)器學(xué)習(xí)時(shí)代已經(jīng)來臨,前景無比廣闊。”
評(píng)論