“全能棋王”AlphaZero 背后的真正啟示:直覺是如何戰(zhàn)勝邏輯的
現(xiàn)代文明和科技已經(jīng)使得我們的直覺不斷退化。絕大多數(shù)人都沒有意識到直覺的價(jià)值甚至沒有意識到它的存在。作為復(fù)雜計(jì)算的基礎(chǔ),直覺是一種很容易被忽視的非常規(guī)方法。這種非常規(guī)性使得許多研究人員忽視它的潛力。
本文引用地址:http://www.biyoush.com/article/201712/373152.htm我在人工智能領(lǐng)域所做的工作圍繞“先進(jìn)的認(rèn)知機(jī)器將使用直覺作為其智力基礎(chǔ)”這一想法。我們?nèi)祟惖乃枷霝橐话慊闹橇μ峁┝顺渥愕淖C據(jù)。人類本質(zhì)上是直覺機(jī)器,而我們理性(和自覺)的自我只是基于直覺的機(jī)器之上的一個(gè)模擬。這與笛卡爾的名言“我思故我在”形成鮮明的對比,意味著我們的理性思維就是把我們與其他所有生物區(qū)分開的東西。
我們因此在認(rèn)知上有了偏見,要求技術(shù)和方法由邏輯機(jī)器驅(qū)動(dòng)。這就是 Good Old Fashioned AI (GOFAI) 在過去幾十年間失敗的原因,它從一開始就試圖通過邏輯范式來解決智力問題。
一個(gè)關(guān)于直覺的機(jī)器的反直覺的預(yù)想就是“邏輯思維如何從直覺機(jī)器中產(chǎn)生呢?”自 2012 年以來,我們已經(jīng)見證了深度學(xué)習(xí)技術(shù)令以難以置信的進(jìn)步。深度學(xué)習(xí)網(wǎng)絡(luò)就是直覺機(jī)器。深度學(xué)習(xí)網(wǎng)絡(luò)通過歸納來進(jìn)行推理或者作出預(yù)測。深度學(xué)習(xí)系統(tǒng)已經(jīng)能夠執(zhí)行通常保留給生物大腦的任務(wù)了。已知對于傳統(tǒng)計(jì)算來說難以進(jìn)行的任務(wù),例如面部和語音識別,可以由這些機(jī)器以超越人類的水平執(zhí)行。
然而,深度學(xué)習(xí)網(wǎng)絡(luò)無法執(zhí)行長除法等邏輯任務(wù)。人們不應(yīng)該指望能夠教導(dǎo)一個(gè)動(dòng)物(比如你的寵物狗)加減,更不用說乘法。然而,人類的大腦卻可以執(zhí)行各類這樣的邏輯問題。我們不得不問,洞穴人能做乘法嗎?我們是天生就具備先進(jìn)的邏輯認(rèn)知能力,還是說那是我們作為先進(jìn)文明的結(jié)果而學(xué)到的能力?
要實(shí)現(xiàn)更一般化的人工智能需要跨越的巨大鴻溝就是所謂的“語義鴻溝”。我們要如何將深度學(xué)習(xí)(低階語義)系統(tǒng)與邏輯(高階語義)系統(tǒng)的能力融合在一起?
人類思維能夠發(fā)揮邏輯推理的偉大功績。如果我們的思維機(jī)器都是基于直覺的,那么它是如何做到這一點(diǎn)的呢?我要在這里假設(shè)我們沒有任何天生的邏輯裝置。在我們已經(jīng)存在于這個(gè)星球上的短時(shí)間內(nèi),現(xiàn)代智人不大可能發(fā)展出這種認(rèn)知機(jī)制。因此,為了消除語義鴻溝,我們需要使用只基于直覺的機(jī)制來彌合。這意味著我們不需要將邏輯組件與直覺組件進(jìn)行融合。我們所需要一切的就只是直覺組件。
因此我們需要充分的證據(jù)來證明,復(fù)雜的邏輯思想可以通過直覺機(jī)器來完成。
這才是 AlphaZero 革命性的啟示。AlphaZero 是 DeepMinds Go play 程序的最新版本。我之前介紹過 AlphaGoZero 如何可以從零開始掌握圍棋的玩法(不需要人類的經(jīng)驗(yàn))。西方人從來沒有玩過圍棋的游戲,根本就不理解它。所以 DeepMind 的 AlphaGoZero 成就的相關(guān)性已經(jīng)被消除了。我們不明白這個(gè)成就的重要性。然而,圍棋一直被認(rèn)為是一個(gè)直覺游戲。所以一個(gè)基于直覺的機(jī)器掌握了這項(xiàng)游戲并不令人驚訝。
什么?DeepMind 的新化身(AlphaZero)卻能做的就是玩國際象棋?這對很多人來說仍沒有什么令人驚訝的,自 1996 年 IBM 的 DeepBlue 擊敗卡斯帕羅夫以來,這個(gè)游戲就被“解決”了。對于外行來說,AlphaZero 只花了幾個(gè)小時(shí)就能從頭開始掌握國際象棋游戲也沒什么值得注意的。甚至 AlphaZero 在 100 場比賽中能夠摧毀最好的國際象棋程序 Stockfish 也并不值得注意。
真正了不起的是 AlphaZero 在消解更合乎邏輯的對手方面所起的作用。為了讓你理解,我會引用一些象棋社區(qū)的評價(jià)。
它接近“類型 B”,按照克勞德·香農(nóng)和艾倫·圖靈的夢想,用類似于人類的方法來下棋,而不是蠻橫的力量。
—?Gary Kasparov.
我總是在想,如果有一個(gè)超級先進(jìn)的物種降落在地球上并向我們展示他們?nèi)绾蜗缕澹菍⑹窃鯓拥那闆r?,F(xiàn)在我覺得我知道了。
—?Peter Heine Nielsen
它的棋路不像人類,但也不像程序。它以第三種方式,可以說是外星人的方式下棋。
?—?Demis Hassabis(DeepMind 創(chuàng)始人,國際象棋愛好者)
對于那些了解國際象棋的玩家來說,最好的辦法就是觀看 AlphaZero 和 Stockfish 的實(shí)戰(zhàn)。你會看到的是一個(gè)基于直覺的系統(tǒng)如何拆解基于邏輯的對手。以下是游戲及專家評論:
AlphaZero 國際象棋的走法非常不同。為了獲得優(yōu)勢超過對手的位置,它愿意犧牲一些棋子。它正在發(fā)揮一種國際象棋柔道,利用對手的對短期利益的熱切渴望來對抗它。它將對手置于國際象棋中稱為“被迫強(qiáng)制”的地位,無論如何走動(dòng)都只會導(dǎo)致更糟糕的結(jié)果。
國際象棋的游戲似乎更具整體性,所有棋子都以高度協(xié)調(diào)的方式移動(dòng)。AlphaGo zero 所進(jìn)行的游戲最大限度地發(fā)揮了它的創(chuàng)造力,而它的邏輯對手無法超脫短期收益。它不僅在用一種不可想象的方式來玩國際象棋,而且這種方式將被置于令所有人驚嘆的位置上。
關(guān)于 AlphaZero 的論文在最近結(jié)束的 NIPS 2017 大會上發(fā)表。那是一篇很短的論文,主體部分只有 7 頁長。它提供了廣泛的關(guān)于如何評估棋盤上的落子位置和決定下一步走法的有趣的細(xì)節(jié)。
和 Stockfish 每秒搜索 7 千萬位置相比,AlphaZero 每秒只搜索 8 萬個(gè)位置。
直覺機(jī)器使用的評估比邏輯對手少 1,000 倍。
你在這里與 AlphaZero 共同見證的是對我關(guān)于直覺機(jī)器和他們執(zhí)行邏輯推理的能力的原始論證的驗(yàn)證。這是被鏈接的語義鴻溝。這是一個(gè)極其艱巨的通用人工智能的里程碑正在以創(chuàng)紀(jì)錄的速度被超越。我想 AI 界的任何人都期望這樣的進(jìn)展能夠迅速地實(shí)現(xiàn)。現(xiàn)在這樣的事情已經(jīng)發(fā)生了,人工智能的風(fēng)景將被永遠(yuǎn)改變。
評論