萬(wàn)字長(zhǎng)文解讀:從Transformer到ChatGPT,通用人工智能曙光初現(xiàn)(2)
由于變換器網(wǎng)絡(luò)的出現(xiàn),大語(yǔ)言模型的興起,以及多種機(jī)器學(xué)習(xí)范式的融合,近五年自然語(yǔ)言處理有了極大的發(fā)展。從現(xiàn)在來(lái)看,這個(gè)起點(diǎn)當(dāng)屬2018年ELMo、GPT和BERT的出現(xiàn)。特別是,BERT通過(guò)巨量語(yǔ)料所學(xué)習(xí)出來(lái)的大規(guī)模預(yù)訓(xùn)練模型,不僅學(xué)會(huì)了上下文信息,還學(xué)會(huì)了語(yǔ)法、語(yǔ)義和語(yǔ)用等,乃至很好地學(xué)會(huì)部分領(lǐng)域知識(shí)。BERT在預(yù)訓(xùn)練模型之上,針對(duì)特定任務(wù)進(jìn)行微調(diào)訓(xùn)練,在十多個(gè)自然語(yǔ)言處理任務(wù)的評(píng)測(cè)中遙遙領(lǐng)先,并在機(jī)器閱讀理解頂級(jí)水平測(cè)試SQuAD1.1中表現(xiàn)出驚人成績(jī),兩個(gè)衡量指標(biāo)上都首次并全面超越人類。由于BERT的驚人表現(xiàn),自然語(yǔ)言處理由此開啟了新時(shí)代,在此后的五年中奮發(fā)進(jìn)取,不斷增強(qiáng)語(yǔ)言理解與生成的能力,最終出現(xiàn)了去年年底爆火出圈的ChatGPT,并引發(fā)了通用人工智能即將到來(lái)的激烈探討。下面從三個(gè)維度來(lái)介紹自然語(yǔ)言處理的奮進(jìn)五年——大模型的突飛猛進(jìn),算法的融會(huì)貫通,以及應(yīng)用的百花齊放。
大模型的突飛猛進(jìn)圖10展示了自2018年至今具有一定影響力的大模型,其中橫軸是模型發(fā)布時(shí)間(論文發(fā)表時(shí)間或模型發(fā)布時(shí)間的較早者),縱軸是模型參數(shù)的數(shù)量(單位是百萬(wàn),坐標(biāo)軸是底為10的對(duì)數(shù)坐標(biāo)軸),名字為黑色字體的是國(guó)外機(jī)構(gòu)發(fā)布的大模型,紅色字體的是國(guó)內(nèi)機(jī)構(gòu)發(fā)布的大模型。從圖10可以看到,這五年,預(yù)訓(xùn)練大語(yǔ)言模型的參數(shù)規(guī)模從1億到1萬(wàn)億的“野蠻”增長(zhǎng),增長(zhǎng)速度幾乎是每年翻10倍。這個(gè)每年翻10倍的模型增長(zhǎng)規(guī)律,被稱為“智能時(shí)代的摩爾定律”。深入分析大模型的情況,總結(jié)有兩方面內(nèi)容:圖10 自然語(yǔ)言大模型的奮進(jìn)五載
- 機(jī)構(gòu)方面,Google和Deepmind發(fā)布了BERT、T5、Gopher、PaLM、GaLM、Switch等等大模型,模型的參數(shù)規(guī)模從1億增長(zhǎng)到1萬(wàn)億;OpenAI和微軟則發(fā)布了GPT、GPT-2、GPT-3、InstructGPT、Turing-NLG 和 M-Turing-NLG等等大模型,模型的參數(shù)規(guī)模從1億增長(zhǎng)到5000億;百度發(fā)布了文心(ERNIE)系列,包括 ERNIE,ERNIE2.0,ERNIE3.0,ERNIE 3.0-Titan,參數(shù)規(guī)模從3億增長(zhǎng)到2600億??傮w來(lái)說(shuō),隨著模型的增長(zhǎng),有能力訓(xùn)練和發(fā)布大模型的在減少。除了上面提到的幾家之外,其他的還有芯片大廠Nvidia靠充足的算力,大力出奇跡,國(guó)內(nèi)的智源研究院和鵬程實(shí)驗(yàn)室等機(jī)構(gòu)也發(fā)布了悟道、盤古等大模型,表現(xiàn)不俗。
- 大模型成本高昂,時(shí)間成本和經(jīng)濟(jì)成本都巨大。以模型參數(shù)為1750億的GPT-3為例,用于訓(xùn)練模型的原始語(yǔ)料文本超過(guò)100TB(壓縮包為45TB),包含了網(wǎng)頁(yè)、書籍、英文維基百科等。原始語(yǔ)料文本經(jīng)過(guò)處理后,形成了超過(guò)5000億個(gè)詞元(西方語(yǔ)言的詞,中文的字等)的訓(xùn)練語(yǔ)料。GPT-3模型的訓(xùn)練和評(píng)估采用的算力是微軟和OpenAI一起打造的超級(jí)計(jì)算集群,集群有28.5萬(wàn)核CPU,1萬(wàn)個(gè)V100 GPU,以及400Gbps的網(wǎng)絡(luò)帶寬。建造這個(gè)超級(jí)計(jì)算集群的費(fèi)用超過(guò)20億元。如果租用微軟或其他云廠商的集群來(lái)訓(xùn)練GPT-3,訓(xùn)練一次GPT-3需要耗費(fèi)估計(jì)從280萬(wàn)到540萬(wàn)美元不等(價(jià)格因不同云廠商而有所不同)。因訓(xùn)練花費(fèi)不菲,在 GPT-3的論文《Language Models are Few-Shot Learners》中提到“發(fā)現(xiàn)了bug但由于訓(xùn)練費(fèi)用問(wèn)題而沒(méi)有重新訓(xùn)練模型(Unfortunately, a bug in the filtering caused us to ignore some overlaps, and due to the cost of training it was not feasible to retrain the model.)”[11]。
自然語(yǔ)言處理在這五年的高速發(fā)展,除了模型越來(lái)越大,訓(xùn)練語(yǔ)料越來(lái)越多之外,核心還是多種不同類型的人工智能技術(shù)的高速發(fā)展,以及在自然語(yǔ)言處理領(lǐng)域?qū)?duì)這些技術(shù)的融會(huì)貫通。這些人工智能技術(shù)包括但不限于語(yǔ)言模型、對(duì)話系統(tǒng)(Conversational AI)、思維鏈(Chain of Thoughts)、強(qiáng)化學(xué)習(xí)(Reinforcement Learning)和人類反饋強(qiáng)化學(xué)習(xí) (Reinforcement Learning from Human Feedback,RLHF)、情境學(xué)習(xí)(In-context learning)、無(wú)監(jiān)督學(xué)習(xí)(Unsupervised Learning)等等。除此之外,算力的增長(zhǎng)、大數(shù)據(jù)處理技術(shù)的發(fā)展也提供了必不可少的支撐。
語(yǔ)言模型這里簡(jiǎn)要介紹三類代表性的語(yǔ)言模型,分別為BERT所使用的掩碼語(yǔ)言模型、GPT系列所使用的自回歸語(yǔ)言模型以及ERNIE系列所使用的引入了知識(shí)圖譜等專家知識(shí)的語(yǔ)言模型。掩碼語(yǔ)言模型(Masked language model,MLM)是一種雙向語(yǔ)言模型[6][8],模擬了人類對(duì)語(yǔ)言的認(rèn)知的雙向語(yǔ)言模型。一個(gè)例子是,人們快速讀閱時(shí),些許的字文錯(cuò)誤并不會(huì)影響理解,這是由于人們會(huì)自動(dòng)補(bǔ)全。掩碼語(yǔ)言模型正是模擬了這一特點(diǎn),比如對(duì)于“一枝紅杏出墻來(lái)”這句話,將其一部分掩蓋住后,原句變?yōu)椤耙恢t?出墻來(lái)”,如何判斷“?”掩蓋的部分?人們能夠自然地意識(shí)到“?”掩蓋的是“杏”。而掩碼語(yǔ)言模型則是為了讓模型能夠像人一樣“猜出”被掩蓋的部分。BERT通過(guò)變換器網(wǎng)絡(luò)的編碼器來(lái)實(shí)現(xiàn)掩碼語(yǔ)言模型。同時(shí),如圖11所示,BERT使用了多任務(wù)學(xué)習(xí)方法來(lái)從大規(guī)模語(yǔ)料中訓(xùn)練出模型,并在具體任務(wù)中進(jìn)行微調(diào)(Fine-Tuning)。圖11 BERT的預(yù)訓(xùn)練和具體任務(wù)的微調(diào)示意圖[8]與BERT不一樣的是,GPT系列則通過(guò)變換器網(wǎng)絡(luò)的****實(shí)現(xiàn)了自回歸語(yǔ)言模型(Autoregressive language model)[9],采用多任務(wù)訓(xùn)練的方法訓(xùn)練模型,模型如圖12所示。自回歸在時(shí)間序列分析中非常常見(jiàn),比如ARMA,GARCH等都是典型的自回歸模型。在語(yǔ)言模型中,自回歸模型每次都是根據(jù)給定的上下文從一組詞元中預(yù)測(cè)下一個(gè)詞元,并且限定了一個(gè)方向(通常是正向,即在一個(gè)句子中從前往后依次猜下一個(gè)字/詞)。同樣以“一枝紅杏出墻來(lái)”為例,自回歸語(yǔ)言模型中,給定“一枝紅”的上下文來(lái)預(yù)測(cè)下一個(gè) “杏”字,緊接著給定“一枝紅杏”來(lái)預(yù)測(cè)下一個(gè)“出”字,然后是根據(jù)給定的“一枝紅杏出”來(lái)預(yù)測(cè)“墻”字,如此循環(huán),直到完成整個(gè)序列的預(yù)測(cè)并輸出。有多種不同的方案來(lái)選擇模型預(yù)測(cè)的輸出標(biāo)記序列,例如貪婪解碼、集束搜索(Beam Search)、Top-K采樣、核采樣(Nucleus Sampling)、溫度采樣(Temperature Sampling)等。除了 GPT 系列之外,Transformer-XL、XLNet等大模型也采用了自回歸語(yǔ)言模型。
圖12 GPT模型架構(gòu)及多任務(wù)訓(xùn)練示意圖[9]ERNIE在采用了 BERT 類似的模型架構(gòu)之上,加入了知識(shí)圖譜[6],使得模型能夠用先驗(yàn)知識(shí)來(lái)更好地理解語(yǔ)義,其架構(gòu)如圖13所示[10]。還是以“一枝紅杏出墻來(lái)”為例,ERNIE能夠更好地理解“紅杏”,并知道它是一種“植物”。也因此,相比于BERT和GPT,ERNIE能夠在更小的模型下獲得相對(duì)更好的效果。尤其值得一提的是,這點(diǎn)在中文場(chǎng)景中更加明顯。
圖13 ERNIE模型架構(gòu)及嵌入知識(shí)圖譜的示意圖[10]
情境學(xué)習(xí)(In-context Learning)是隨著GPT-3而流行起來(lái)。在GPT-3中,通過(guò)給出僅僅幾個(gè)示例就能夠很好地完成許多自然語(yǔ)言處理任務(wù)的方法,被稱為情境學(xué)習(xí)。圖14是一個(gè)直觀的例子,使用了ChatGPT的情境學(xué)習(xí)來(lái)實(shí)現(xiàn)情感分析任務(wù)。直觀地說(shuō),情境學(xué)習(xí)就是給模型一些包含任務(wù)輸入和輸出的提示,并在提示的末尾附加一個(gè)用于預(yù)測(cè)的輸入,模型根據(jù)提示和預(yù)測(cè)輸入來(lái)預(yù)測(cè)任務(wù)的結(jié)果并輸出。也因此,情境學(xué)習(xí)有時(shí)候也被稱為基于提示的學(xué)習(xí)(Prompt-based learning)。圖14 情境學(xué)習(xí)實(shí)例,使用了ChatGPT從圖15可以看出,情境學(xué)習(xí)的預(yù)測(cè)結(jié)果在大模型的情況下效果表現(xiàn)得非常好,但在小模型的情況下表現(xiàn)糟糕。簡(jiǎn)單地說(shuō),大模型使得情境學(xué)習(xí)變得有用。這是由于情境學(xué)習(xí)依賴于語(yǔ)言模型所學(xué)習(xí)到的概念語(yǔ)義和隱含的貝葉斯推理,而這依賴于大規(guī)模預(yù)訓(xùn)練模型對(duì)潛在概念的學(xué)習(xí),從文檔級(jí)語(yǔ)料學(xué)習(xí)了長(zhǎng)距離依賴并保持長(zhǎng)距離的連貫性、思維鏈和復(fù)雜推理等等。也因此,情境學(xué)習(xí)在大模型之前罕見(jiàn),可謂連實(shí)驗(yàn)室的玩具都談不上。而在大模型的支撐下,在許多自然語(yǔ)言處理任務(wù)的基準(zhǔn)測(cè)試(如LAMBADA文本理解測(cè)試集和TriviaQA問(wèn)答測(cè)試集)中,情境學(xué)習(xí)相比其他模型也非常具有競(jìng)爭(zhēng)力。
圖15 情境學(xué)習(xí)效果曲線[11]從應(yīng)用來(lái)看,情境學(xué)習(xí)最為津津樂(lè)道的兩個(gè)特點(diǎn)是:
- 情境學(xué)習(xí)能夠有效地使模型即時(shí)適應(yīng)輸入分布與訓(xùn)練分布有顯著差異的新任務(wù),這相當(dāng)于在推理期間通過(guò)“學(xué)習(xí)”范例來(lái)實(shí)現(xiàn)對(duì)特定任務(wù)的學(xué)習(xí),進(jìn)而允許用戶通過(guò)新的用例快速構(gòu)建模型,而不需要為每個(gè)任務(wù)進(jìn)行微調(diào)訓(xùn)練。
- 構(gòu)建于大語(yǔ)言模型之上的情境學(xué)習(xí)通常只需要很少的提示示例即可正常工作,這對(duì)于非自然語(yǔ)言處理和人工智能領(lǐng)域的專家來(lái)說(shuō)非常直觀且有用。
這兩個(gè)特點(diǎn)使得人們能夠使用一個(gè)模型來(lái)實(shí)現(xiàn)不同的任務(wù),為類似ChatGPT這樣的準(zhǔn)AGI提供了技術(shù)基礎(chǔ)。也正因此,人工智能領(lǐng)域念叨多年的通用人工智能終于露出了一絲曙光。
人類反饋強(qiáng)化學(xué)習(xí)人類反饋強(qiáng)化學(xué)習(xí)是一種人工智能模型在進(jìn)行預(yù)測(cè)(推斷)的過(guò)程中通過(guò)人的反饋來(lái)實(shí)現(xiàn)模型學(xué)習(xí),使得模型輸出與人類的意圖和偏好保持一致,并在連續(xù)的反饋循環(huán)中持續(xù)優(yōu)化,進(jìn)而產(chǎn)生更好的結(jié)果。事實(shí)上,人工智能發(fā)展過(guò)程中,模型訓(xùn)練階段一直都有人的交互,這也被稱為人在圈內(nèi)(Human-in-the-loop, HITL),但預(yù)測(cè)階段則更多的是無(wú)人參與,即人在圈外(Human-out-of-the-loop, HOOTL)。在這五年的奮進(jìn)中,通過(guò)人類反饋強(qiáng)化學(xué)習(xí)使得自然語(yǔ)言處理在推斷階段能夠從人的反饋中學(xué)習(xí)。這在自然語(yǔ)言處理領(lǐng)域是一個(gè)新創(chuàng)舉,可謂人與模型手拉手,共建美好新AI。從技術(shù)上看,人類反饋強(qiáng)化學(xué)習(xí)是強(qiáng)化學(xué)習(xí)的一種,適用于那些難以定義明確的用于優(yōu)化模型損失函數(shù),但卻容易判斷模型預(yù)測(cè)效果好壞的場(chǎng)景,即評(píng)估行為比生成行為更容易。在強(qiáng)化學(xué)習(xí)的思想中,智能體(Agent)通過(guò)與它所處環(huán)境的交互中進(jìn)行學(xué)習(xí),常見(jiàn)在各類游戲AI中。比如,鼎鼎大名的 AlphaGo,在2017年烏鎮(zhèn)互聯(lián)網(wǎng)大會(huì)上打敗了圍棋世界冠軍柯潔,其核心技術(shù)就是強(qiáng)化學(xué)習(xí)。人類反饋強(qiáng)化學(xué)習(xí)并非從自然語(yǔ)言處理開始的,比如2017年OpenAI和DeepMind合作探索人類反饋強(qiáng)化學(xué)習(xí)系統(tǒng)與真實(shí)世界是否能夠有效地交互,實(shí)驗(yàn)的場(chǎng)景是Atari游戲、模擬機(jī)器人運(yùn)動(dòng)等。這些成果隨后被OpenAI和DeepMind應(yīng)用到大語(yǔ)言模型上,通過(guò)人類反饋來(lái)優(yōu)化語(yǔ)言模型,進(jìn)而使得模型的輸出與預(yù)期目標(biāo)趨于一致,比如InstructionGPT、FLAN等。這些成果表明,加入人類反饋強(qiáng)化學(xué)習(xí)使得生成文本的質(zhì)量明顯優(yōu)于未使用人類反饋強(qiáng)化學(xué)習(xí)的基線,同時(shí)能更好地泛化到新領(lǐng)域。圖16是人類反饋強(qiáng)化學(xué)習(xí)的框架圖,獎(jiǎng)勵(lì)預(yù)測(cè)器是學(xué)習(xí)出來(lái)的,這點(diǎn)與傳統(tǒng)強(qiáng)化學(xué)習(xí)有所不同。在傳統(tǒng)強(qiáng)化學(xué)習(xí)中,獎(jiǎng)勵(lì)函數(shù)是人工設(shè)定的。在InstructionGPT中,強(qiáng)化學(xué)習(xí)算法使用了近端策略優(yōu)化(Proximal Policy Optimization,PPO)來(lái)優(yōu)化GPT-3生成摘要的策略。圖16 人類反饋強(qiáng)化學(xué)習(xí)框架圖應(yīng)用的百花齊放
近年來(lái),所有自然語(yǔ)言處理的任務(wù)都有了長(zhǎng)足進(jìn)步,效果飆升,許多任務(wù)都超越了人類專家的水平。在斯坦福問(wèn)答數(shù)據(jù)集2.0(SQuAD2.0)評(píng)測(cè)中,最新的模型EM 分?jǐn)?shù)和F1分?jǐn)?shù)分別為90.939和93.214,相比人類專家86.831和89.452高了4.73%和4.21%。在斯坦福對(duì)話問(wèn)答CoQA數(shù)據(jù)集的評(píng)測(cè)中,最佳模型的分?jǐn)?shù)達(dá)到90.7,相比人類專家的分?jǐn)?shù)88.8,高出了2%。在機(jī)器翻譯中,自2017年至今,WMT2014英譯德評(píng)測(cè)集的 BLEU分?jǐn)?shù)從26增長(zhǎng)到35以上,德譯英則從23增長(zhǎng)到35以上。在其他諸如文本分類、文檔分類、對(duì)話生成、數(shù)據(jù)到文本(Data-to-Text)、看圖說(shuō)話(Visual Storytelling)、視覺(jué)問(wèn)答、情感分析、實(shí)體抽取、關(guān)系抽取、事件抽取、自動(dòng)摘要、OCR等等任務(wù)中的效果增長(zhǎng)都非常顯著。在這五年中,行業(yè)應(yīng)用也愈加廣泛。金融、醫(yī)療、司法、制造、營(yíng)銷、媒體等各行各業(yè)都是使用自然語(yǔ)言處理技術(shù)提升效率,降低風(fēng)險(xiǎn)?;谧匀徽Z(yǔ)言處理最新技術(shù)的綜合性平臺(tái)智能文檔處理系統(tǒng)(Intelligence Document Process System,IDPS)開始流行,比如圖17所示的達(dá)觀數(shù)據(jù)IDPS。中國(guó)信息通信研究院(信通院)等機(jī)構(gòu)組織了標(biāo)準(zhǔn)編制和評(píng)測(cè),萬(wàn)千企業(yè)開始使用智能文檔處理系統(tǒng)進(jìn)行文檔智能比對(duì)、關(guān)鍵要素抽取、銀行流水識(shí)別、風(fēng)險(xiǎn)審核、文檔寫作等,實(shí)現(xiàn)了諸多腦力勞動(dòng)的智能化。圖17 達(dá)觀智能文檔處理系統(tǒng)同時(shí),依托自然語(yǔ)言處理進(jìn)行實(shí)體、關(guān)系、事件等知識(shí)的抽取,構(gòu)建出領(lǐng)域?qū)I(yè)知識(shí)圖譜,并以語(yǔ)義檢索、智能問(wèn)答、歸因分析、知識(shí)推理等為各行提供了豐富的應(yīng)用,比如賦能智能制造的故障排查,金融行業(yè)的智能投研和智能投顧,政府和企業(yè)的輿情分析,營(yíng)銷和售后的智能客服和智能運(yùn)營(yíng),媒體的資訊分類、自動(dòng)摘要和事實(shí)校驗(yàn)等。隨著近五年自然語(yǔ)言處理技術(shù)的發(fā)展,許多原來(lái)無(wú)法完善服務(wù)的場(chǎng)景也有了切實(shí)可見(jiàn)的應(yīng)用,影響著三百六十行的億萬(wàn)工作者。由OpenAI的Codex大語(yǔ)言模型提供支撐的GitHub CoPilot為數(shù)千萬(wàn)的程序員提供效率工具。最新的ChatGPT參與沃頓商學(xué)院的工商管理碩士課程的期末考試并獲得了B檔成績(jī),展現(xiàn)出了非凡的能力[12]。同樣的場(chǎng)景出現(xiàn)在許多大學(xué)中,比如北密歇根大學(xué)有學(xué)生使用 ChatGPT寫課程論文獲得了全班最高分。更有甚者,ChatGPT已經(jīng)成為了許多科學(xué)論文或出版書籍的共同作者,比如ChatGPT名列《Performance of ChatGPT on USMLE: Potential for AI-Assisted Medical Education Using Large Language Models》這篇12個(gè)作者中的第三位[13],Gautier Marti則在其出版的書籍《From Data to Trade: A Machine Learning Approach to Quantitative Trading》中將ChatGPT列為共同作者。
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。