2016人工智能技術(shù)發(fā)展進程梳理
如果說2015年大家還在質(zhì)疑深度學習、人工智能,認為這是又一輪泡沫的開始,那么2016年可以說是人工智能全面影響人們生活的一年。從AlphaGo到無人駕駛,從美國大選到量子計算機,從小Ai預(yù)測“我是歌手”到馬斯克的太空計劃,每個焦點事件背后都與人工智能有聯(lián)系??v覽2016年的人工智能技術(shù),筆者的印象是實用化、智能化、芯片化、生態(tài)化,讓所有人都觸手可及。下面我們以時間為坐標,盤點這一年的技術(shù)進展。
本文引用地址:http://www.biyoush.com/article/201702/343473.htm3月9-15日,棋壇新秀AlphaGo一戰(zhàn)成名,以4:1成績打敗韓國職業(yè)棋手圍棋九段李世石(圍棋規(guī)則介紹:對弈雙方在19x19棋盤網(wǎng)格的交叉點上交替放置黑色和白色的棋子,落子完畢后,棋子不能移動,對弈過程中圍地吃子,以所圍“地”的大小決定勝負)。
其實早在2015年10月,AlphaGo v13在與職業(yè)棋手、歐洲冠軍樊麾二段的五番棋比賽中,以5:0獲勝。在與李世石九段比賽中版本為v18,賽后,AlphaGo榮獲韓國棋院授予的“第〇〇一號 名譽九段”證書。7月19日,AlphaGo在GoRantings世界圍棋排名中超過柯潔,成為世界第一。
看到AlphaGo這一連串不可思議的成績,我們不禁要問,是什么讓AlphaGo在短短時間內(nèi)就能以如此大的能量在古老的圍棋這一競技項目迅速擊敗數(shù)千年歷史積累的人類?
圖1 AlphaGo與李世石的對陣
AlphaGo由Google在2014年收購的英國人工智能公司DeepMind開發(fā),背后是一套神經(jīng)網(wǎng)絡(luò)系統(tǒng),由許多個數(shù)據(jù)中心作為節(jié)點相連,每個節(jié)點內(nèi)有多臺超級計算機。這個系統(tǒng)基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)——一種在大型圖像處理上有著優(yōu)秀表現(xiàn)的神經(jīng)網(wǎng)絡(luò),常用于人工智能圖像識別,比如Google的圖片搜索、百度的識圖、阿里巴巴拍立淘等都運用了卷積神經(jīng)網(wǎng)絡(luò)。AlphaGo背后的系統(tǒng)還借鑒了一種名為深度強化學習(Deep Q-Learning,DQN)的技巧。強化學習的靈感來源于心理學中的行為主義理論,即有機體如何在環(huán)境給予的獎勵或懲罰的刺激下,逐步形成對刺激的預(yù)期,產(chǎn)生能獲得最大利益的習慣性行為。不僅如此,AlphaGo借鑒了蒙特卡洛樹搜索算法(Monte Carlo Tree Search),在判斷當前局面的效用函數(shù)(value function)和決定下一步的策略函數(shù)(policy function)上有著非常好的表現(xiàn)。作為一個基于卷積神經(jīng)網(wǎng)絡(luò)、采用了強化學習模型的人工智能,AlphaGo具有廣泛適應(yīng)性,學習能力很強,除了玩游戲、下圍棋,最近的DeepMind Health項目將人工智能引入了疾病診斷和預(yù)測中,為人們的健康提供更好的保障。
AlphaGo系統(tǒng)和IBM在上個世紀打敗國際象棋大師卡斯帕羅夫的深藍超級計算機有什么不同?
國際象棋AI算法一般是枚舉所有可能招法,給局面打分。AI能力主要分為兩方面:一是局面打分算法是否合理,二是迭代的深度。國際象棋開局的時候可以動8個兵(*2)和兩個馬(*2)共20種招法,雖然開局到中期招法會多一點,但是總數(shù)也就是幾十種,游戲判斷局面也簡單,將軍的加分,攻擊強子加分,被將軍或者有強子被攻擊減分,控制范圍大的加分,國際象棋里即將升變的兵加分,粗略一算就可以有個相對不錯的判斷。
圍棋棋盤上每一點,都有黑、白、空,三種情況,棋盤上共有19*19=361個點,所以可能產(chǎn)生的局數(shù)為3的361次方種(可以想象,從137億年前宇宙初始下起,60億人口每天下60億盤,到目前為止,只下了不到億億億萬分之一)。
圍棋可選招法非常多,在初期可以全盤落子,打劫的時候則要找“劫材”。圍棋判斷形勢的復(fù)雜度也很高,因為所有棋子地位平等,不在于一子定勝負,但每一子對于全局又都是牽一發(fā)而動全身,所以需要的是整體協(xié)調(diào)和全局決策。AlphaGo不僅能很快計算圍棋當前局面的效用函數(shù)和決定下一步的策略函數(shù),還能結(jié)合蒙特卡洛樹搜索算法進行縱深的分析,得到整局棋的“最優(yōu)解”。無論從計算復(fù)雜度還是決策的深度上,AlphaGo都有質(zhì)的飛躍。
小結(jié): AlphaGo可能是Google公關(guān)塑造的一個AI形象,但這是一次十分成功的嘗試,引起了世界性的關(guān)注。在這些華麗的成績之外,技術(shù)鋪墊仍然是一項不容小覷的工作,包括DQN算法模型與硬件平臺。我們接下來會詳細介紹。
深度增強學習DQN
增強學習是最近幾年中機器學習領(lǐng)域的最新進展。
增強學習的目的是通過和環(huán)境交互學習到如何在相應(yīng)的觀測中采取最優(yōu)行為。行為的好壞可以通過環(huán)境給的獎勵來確定。不同的環(huán)境有不同的觀測和獎勵。
增強學習和傳統(tǒng)機器學習的最大區(qū)別在于,增強學習是一個閉環(huán)學習的系統(tǒng),算法選取的行為會直接影響到環(huán)境,進而影響到該算法之后從環(huán)境中得到的觀測。
增強學習存在著很多傳統(tǒng)機器學習所不具備的挑戰(zhàn)。
首先,因為在增強學習中沒有確定在每一時刻應(yīng)該采取哪個行為的信息,算法必須通過探索各種可能才能判斷出最優(yōu)行為。如何有效地在可能行為數(shù)量較多的情況下有效探索,是增強學習的重要問題。
其次,在增強學習中一個行為不僅可能會影響當前時刻的獎勵,而且還可能會影響之后所有時刻的獎勵。
在最壞的情況下,一個好行為不會在當前時刻獲得獎勵,而會在很多步都執(zhí)行正確后才能得到。在這種情況下,判斷出獎勵和很多步之前的行為有關(guān)非常難。
雖然增強學習存在很多挑戰(zhàn),它也能夠解決很多傳統(tǒng)機器學習不能解決的問題。首先,由于不需要標注的過程,增強學習可以更有效地解決環(huán)境中所存在著的特殊情況。比如,無人車環(huán)境中可能會出現(xiàn)行人和動物亂穿馬路的特殊情況。只要模擬器能模擬出這些特殊情況,增強學習就可以學習到怎么在這些特殊情況中做出正確的行為。其次,增強學習可以把整個系統(tǒng)作為一個整體,從而對其中的一些模塊更加魯棒。例如,自動駕駛中的感知模塊不可能做到完全可靠。前一段時間,特斯拉無人駕駛的事故就是因為在強光環(huán)境中感知模塊失效導(dǎo)致的。增強學習可以做到,即使在某些模塊失效的情況下也能做出穩(wěn)妥的行為。最后,增強學習可以比較容易學習到一系列行為。
自動駕駛需要執(zhí)行一系列正確的行為才能成功駕駛。如果只有標注數(shù)據(jù),學習到的模型每個時刻偏移了一點,到最后可能就會偏移非常多,產(chǎn)生毀滅性的后果。而增強學習能夠?qū)W會自動修正偏移。
DeepMind曾用五款雅達利(Atari)游戲Pong、打磚塊、太空侵略者、海底救人、Beam Rider分別測試了自己開發(fā)的人工智能,結(jié)果發(fā)現(xiàn):游戲后,神經(jīng)網(wǎng)絡(luò)的操控能力已經(jīng)遠超世界上任何一位已知的游戲高手。
DeepMind用同樣的一套人工智能,測試各種各樣的智力競技項目,取得了優(yōu)異的戰(zhàn)績,足以證明坐在李世石面前的AlphaGo,擁有多強的學習能力。
圖2 Atari游戲畫面
小結(jié):如果說深度學習相當于嗷嗷待哺的嬰兒,需要人們準備好大量有營養(yǎng)的數(shù)據(jù)親手喂給它,那么增強學習就是擁有基本生活能力的青少年,叛逆而獨立,充滿激情,喜歡挑戰(zhàn),不斷在對抗中學習成長。雖然與成熟的人工智能仍有較大差距,但可以肯定,這只是個時間問題。
評論