萬(wàn)字長(zhǎng)文解讀：從Transformer到ChatGPT，通用人工智能曙光初現(xiàn)(2)

發(fā)布人：AI科技大本營(yíng) 時(shí)間：2023-04-18 來(lái)源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

NLP奮發(fā)五載

由于變換器網(wǎng)絡(luò)的出現(xiàn)，大語(yǔ)言模型的興起，以及多種機(jī)器學(xué)習(xí)范式的融合，近五年自然語(yǔ)言處理有了極大的發(fā)展。從現(xiàn)在來(lái)看，這個(gè)起點(diǎn)當(dāng)屬2018年ELMo、GPT和BERT的出現(xiàn)。特別是，BERT通過(guò)巨量語(yǔ)料所學(xué)習(xí)出來(lái)的大規(guī)模預(yù)訓(xùn)練模型，不僅學(xué)會(huì)了上下文信息，還學(xué)會(huì)了語(yǔ)法、語(yǔ)義和語(yǔ)用等，乃至很好地學(xué)會(huì)部分領(lǐng)域知識(shí)。BERT在預(yù)訓(xùn)練模型之上，針對(duì)特定任務(wù)進(jìn)行微調(diào)訓(xùn)練，在十多個(gè)自然語(yǔ)言處理任務(wù)的評(píng)測(cè)中遙遙領(lǐng)先，并在機(jī)器閱讀理解頂級(jí)水平測(cè)試SQuAD1.1中表現(xiàn)出驚人成績(jī)，兩個(gè)衡量指標(biāo)上都首次并全面超越人類。由于BERT的驚人表現(xiàn)，自然語(yǔ)言處理由此開啟了新時(shí)代，在此后的五年中奮發(fā)進(jìn)取，不斷增強(qiáng)語(yǔ)言理解與生成的能力，最終出現(xiàn)了去年年底爆火出圈的ChatGPT，并引發(fā)了通用人工智能即將到來(lái)的激烈探討。下面從三個(gè)維度來(lái)介紹自然語(yǔ)言處理的奮進(jìn)五年——大模型的突飛猛進(jìn)，算法的融會(huì)貫通，以及應(yīng)用的百花齊放。

大模型的突飛猛進(jìn)

圖10展示了自2018年至今具有一定影響力的大模型，其中橫軸是模型發(fā)布時(shí)間（論文發(fā)表時(shí)間或模型發(fā)布時(shí)間的較早者），縱軸是模型參數(shù)的數(shù)量（單位是百萬(wàn)，坐標(biāo)軸是底為10的對(duì)數(shù)坐標(biāo)軸），名字為黑色字體的是國(guó)外機(jī)構(gòu)發(fā)布的大模型，紅色字體的是國(guó)內(nèi)機(jī)構(gòu)發(fā)布的大模型。從圖10可以看到，這五年，預(yù)訓(xùn)練大語(yǔ)言模型的參數(shù)規(guī)模從1億到1萬(wàn)億的“野蠻”增長(zhǎng)，增長(zhǎng)速度幾乎是每年翻10倍。這個(gè)每年翻10倍的模型增長(zhǎng)規(guī)律，被稱為“智能時(shí)代的摩爾定律”。深入分析大模型的情況，總結(jié)有兩方面內(nèi)容：圖10 自然語(yǔ)言大模型的奮進(jìn)五載

機(jī)構(gòu)方面，Google和Deepmind發(fā)布了BERT、T5、Gopher、PaLM、GaLM、Switch等等大模型，模型的參數(shù)規(guī)模從1億增長(zhǎng)到1萬(wàn)億；OpenAI和微軟則發(fā)布了GPT、GPT-2、GPT-3、InstructGPT、Turing-NLG 和 M-Turing-NLG等等大模型，模型的參數(shù)規(guī)模從1億增長(zhǎng)到5000億；百度發(fā)布了文心（ERNIE）系列，包括 ERNIE，ERNIE2.0，ERNIE3.0，ERNIE 3.0-Titan，參數(shù)規(guī)模從3億增長(zhǎng)到2600億?？傮w來(lái)說(shuō)，隨著模型的增長(zhǎng)，有能力訓(xùn)練和發(fā)布大模型的在減少。除了上面提到的幾家之外，其他的還有芯片大廠Nvidia靠充足的算力，大力出奇跡，國(guó)內(nèi)的智源研究院和鵬程實(shí)驗(yàn)室等機(jī)構(gòu)也發(fā)布了悟道、盤古等大模型，表現(xiàn)不俗。
大模型成本高昂，時(shí)間成本和經(jīng)濟(jì)成本都巨大。以模型參數(shù)為1750億的GPT-3為例，用于訓(xùn)練模型的原始語(yǔ)料文本超過(guò)100TB（壓縮包為45TB），包含了網(wǎng)頁(yè)、書籍、英文維基百科等。原始語(yǔ)料文本經(jīng)過(guò)處理后，形成了超過(guò)5000億個(gè)詞元（西方語(yǔ)言的詞，中文的字等）的訓(xùn)練語(yǔ)料。GPT-3模型的訓(xùn)練和評(píng)估采用的算力是微軟和OpenAI一起打造的超級(jí)計(jì)算集群，集群有28.5萬(wàn)核CPU，1萬(wàn)個(gè)V100 GPU，以及400Gbps的網(wǎng)絡(luò)帶寬。建造這個(gè)超級(jí)計(jì)算集群的費(fèi)用超過(guò)20億元。如果租用微軟或其他云廠商的集群來(lái)訓(xùn)練GPT-3，訓(xùn)練一次GPT-3需要耗費(fèi)估計(jì)從280萬(wàn)到540萬(wàn)美元不等（價(jià)格因不同云廠商而有所不同）。因訓(xùn)練花費(fèi)不菲，在 GPT-3的論文《Language Models are Few-Shot Learners》中提到“發(fā)現(xiàn)了bug但由于訓(xùn)練費(fèi)用問(wèn)題而沒(méi)有重新訓(xùn)練模型（Unfortunately, a bug in the filtering caused us to ignore some overlaps, and due to the cost of training it was not feasible to retrain the model.）”[11]。

算法的融會(huì)貫通

自然語(yǔ)言處理在這五年的高速發(fā)展，除了模型越來(lái)越大，訓(xùn)練語(yǔ)料越來(lái)越多之外，核心還是多種不同類型的人工智能技術(shù)的高速發(fā)展，以及在自然語(yǔ)言處理領(lǐng)域?qū)?duì)這些技術(shù)的融會(huì)貫通。這些人工智能技術(shù)包括但不限于語(yǔ)言模型、對(duì)話系統(tǒng)（Conversational AI）、思維鏈（Chain of Thoughts）、強(qiáng)化學(xué)習(xí)（Reinforcement Learning）和人類反饋強(qiáng)化學(xué)習(xí) (Reinforcement Learning from Human Feedback，RLHF)、情境學(xué)習(xí)（In-context learning）、無(wú)監(jiān)督學(xué)習(xí)（Unsupervised Learning）等等。除此之外，算力的增長(zhǎng)、大數(shù)據(jù)處理技術(shù)的發(fā)展也提供了必不可少的支撐。

語(yǔ)言模型

這里簡(jiǎn)要介紹三類代表性的語(yǔ)言模型，分別為BERT所使用的掩碼語(yǔ)言模型、GPT系列所使用的自回歸語(yǔ)言模型以及ERNIE系列所使用的引入了知識(shí)圖譜等專家知識(shí)的語(yǔ)言模型。掩碼語(yǔ)言模型（Masked language model，MLM）是一種雙向語(yǔ)言模型[6][8]，模擬了人類對(duì)語(yǔ)言的認(rèn)知的雙向語(yǔ)言模型。一個(gè)例子是，人們快速讀閱時(shí)，些許的字文錯(cuò)誤并不會(huì)影響理解，這是由于人們會(huì)自動(dòng)補(bǔ)全。掩碼語(yǔ)言模型正是模擬了這一特點(diǎn)，比如對(duì)于“一枝紅杏出墻來(lái)”這句話，將其一部分掩蓋住后，原句變?yōu)椤耙恢t?出墻來(lái)”，如何判斷“?”掩蓋的部分？人們能夠自然地意識(shí)到“?”掩蓋的是“杏”。而掩碼語(yǔ)言模型則是為了讓模型能夠像人一樣“猜出”被掩蓋的部分。BERT通過(guò)變換器網(wǎng)絡(luò)的編碼器來(lái)實(shí)現(xiàn)掩碼語(yǔ)言模型。同時(shí)，如圖11所示，BERT使用了多任務(wù)學(xué)習(xí)方法來(lái)從大規(guī)模語(yǔ)料中訓(xùn)練出模型，并在具體任務(wù)中進(jìn)行微調(diào)（Fine-Tuning）。圖11 BERT的預(yù)訓(xùn)練和具體任務(wù)的微調(diào)示意圖[8]與BERT不一樣的是，GPT系列則通過(guò)變換器網(wǎng)絡(luò)的****實(shí)現(xiàn)了自回歸語(yǔ)言模型（Autoregressive language model）[9]，采用多任務(wù)訓(xùn)練的方法訓(xùn)練模型，模型如圖12所示。自回歸在時(shí)間序列分析中非常常見(jiàn)，比如ARMA,GARCH等都是典型的自回歸模型。在語(yǔ)言模型中，自回歸模型每次都是根據(jù)給定的上下文從一組詞元中預(yù)測(cè)下一個(gè)詞元，并且限定了一個(gè)方向（通常是正向，即在一個(gè)句子中從前往后依次猜下一個(gè)字/詞）。同樣以“一枝紅杏出墻來(lái)”為例，自回歸語(yǔ)言模型中，給定“一枝紅”的上下文來(lái)預(yù)測(cè)下一個(gè) “杏”字，緊接著給定“一枝紅杏”來(lái)預(yù)測(cè)下一個(gè)“出”字，然后是根據(jù)給定的“一枝紅杏出”來(lái)預(yù)測(cè)“墻”字，如此循環(huán)，直到完成整個(gè)序列的預(yù)測(cè)并輸出。有多種不同的方案來(lái)選擇模型預(yù)測(cè)的輸出標(biāo)記序列，例如貪婪解碼、集束搜索（Beam Search）、Top-K采樣、核采樣（Nucleus Sampling）、溫度采樣（Temperature Sampling）等。除了 GPT 系列之外，Transformer-XL、XLNet等大模型也采用了自回歸語(yǔ)言模型。圖12 GPT模型架構(gòu)及多任務(wù)訓(xùn)練示意圖[9]ERNIE在采用了 BERT 類似的模型架構(gòu)之上，加入了知識(shí)圖譜[6]，使得模型能夠用先驗(yàn)知識(shí)來(lái)更好地理解語(yǔ)義，其架構(gòu)如圖13所示[10]。還是以“一枝紅杏出墻來(lái)”為例，ERNIE能夠更好地理解“紅杏”，并知道它是一種“植物”。也因此，相比于BERT和GPT，ERNIE能夠在更小的模型下獲得相對(duì)更好的效果。尤其值得一提的是，這點(diǎn)在中文場(chǎng)景中更加明顯。圖13 ERNIE模型架構(gòu)及嵌入知識(shí)圖譜的示意圖[10]

情境學(xué)習(xí)

情境學(xué)習(xí)（In-context Learning）是隨著GPT-3而流行起來(lái)。在GPT-3中，通過(guò)給出僅僅幾個(gè)示例就能夠很好地完成許多自然語(yǔ)言處理任務(wù)的方法，被稱為情境學(xué)習(xí)。圖14是一個(gè)直觀的例子，使用了ChatGPT的情境學(xué)習(xí)來(lái)實(shí)現(xiàn)情感分析任務(wù)。直觀地說(shuō)，情境學(xué)習(xí)就是給模型一些包含任務(wù)輸入和輸出的提示，并在提示的末尾附加一個(gè)用于預(yù)測(cè)的輸入，模型根據(jù)提示和預(yù)測(cè)輸入來(lái)預(yù)測(cè)任務(wù)的結(jié)果并輸出。也因此，情境學(xué)習(xí)有時(shí)候也被稱為基于提示的學(xué)習(xí)（Prompt-based learning）。圖14 情境學(xué)習(xí)實(shí)例，使用了ChatGPT從圖15可以看出，情境學(xué)習(xí)的預(yù)測(cè)結(jié)果在大模型的情況下效果表現(xiàn)得非常好，但在小模型的情況下表現(xiàn)糟糕。簡(jiǎn)單地說(shuō)，大模型使得情境學(xué)習(xí)變得有用。這是由于情境學(xué)習(xí)依賴于語(yǔ)言模型所學(xué)習(xí)到的概念語(yǔ)義和隱含的貝葉斯推理，而這依賴于大規(guī)模預(yù)訓(xùn)練模型對(duì)潛在概念的學(xué)習(xí)，從文檔級(jí)語(yǔ)料學(xué)習(xí)了長(zhǎng)距離依賴并保持長(zhǎng)距離的連貫性、思維鏈和復(fù)雜推理等等。也因此，情境學(xué)習(xí)在大模型之前罕見(jiàn)，可謂連實(shí)驗(yàn)室的玩具都談不上。而在大模型的支撐下，在許多自然語(yǔ)言處理任務(wù)的基準(zhǔn)測(cè)試（如LAMBADA文本理解測(cè)試集和TriviaQA問(wèn)答測(cè)試集）中，情境學(xué)習(xí)相比其他模型也非常具有競(jìng)爭(zhēng)力。圖15 情境學(xué)習(xí)效果曲線[11]從應(yīng)用來(lái)看，情境學(xué)習(xí)最為津津樂(lè)道的兩個(gè)特點(diǎn)是：

情境學(xué)習(xí)能夠有效地使模型即時(shí)適應(yīng)輸入分布與訓(xùn)練分布有顯著差異的新任務(wù)，這相當(dāng)于在推理期間通過(guò)“學(xué)習(xí)”范例來(lái)實(shí)現(xiàn)對(duì)特定任務(wù)的學(xué)習(xí)，進(jìn)而允許用戶通過(guò)新的用例快速構(gòu)建模型，而不需要為每個(gè)任務(wù)進(jìn)行微調(diào)訓(xùn)練。
構(gòu)建于大語(yǔ)言模型之上的情境學(xué)習(xí)通常只需要很少的提示示例即可正常工作，這對(duì)于非自然語(yǔ)言處理和人工智能領(lǐng)域的專家來(lái)說(shuō)非常直觀且有用。

這兩個(gè)特點(diǎn)使得人們能夠使用一個(gè)模型來(lái)實(shí)現(xiàn)不同的任務(wù)，為類似ChatGPT這樣的準(zhǔn)AGI提供了技術(shù)基礎(chǔ)。也正因此，人工智能領(lǐng)域念叨多年的通用人工智能終于露出了一絲曙光。

人類反饋強(qiáng)化學(xué)習(xí)

人類反饋強(qiáng)化學(xué)習(xí)是一種人工智能模型在進(jìn)行預(yù)測(cè)（推斷）的過(guò)程中通過(guò)人的反饋來(lái)實(shí)現(xiàn)模型學(xué)習(xí)，使得模型輸出與人類的意圖和偏好保持一致，并在連續(xù)的反饋循環(huán)中持續(xù)優(yōu)化，進(jìn)而產(chǎn)生更好的結(jié)果。事實(shí)上，人工智能發(fā)展過(guò)程中，模型訓(xùn)練階段一直都有人的交互，這也被稱為人在圈內(nèi)（Human-in-the-loop, HITL），但預(yù)測(cè)階段則更多的是無(wú)人參與，即人在圈外（Human-out-of-the-loop, HOOTL）。在這五年的奮進(jìn)中，通過(guò)人類反饋強(qiáng)化學(xué)習(xí)使得自然語(yǔ)言處理在推斷階段能夠從人的反饋中學(xué)習(xí)。這在自然語(yǔ)言處理領(lǐng)域是一個(gè)新創(chuàng)舉，可謂人與模型手拉手，共建美好新AI。從技術(shù)上看，人類反饋強(qiáng)化學(xué)習(xí)是強(qiáng)化學(xué)習(xí)的一種，適用于那些難以定義明確的用于優(yōu)化模型損失函數(shù)，但卻容易判斷模型預(yù)測(cè)效果好壞的場(chǎng)景，即評(píng)估行為比生成行為更容易。在強(qiáng)化學(xué)習(xí)的思想中，智能體（Agent）通過(guò)與它所處環(huán)境的交互中進(jìn)行學(xué)習(xí)，常見(jiàn)在各類游戲AI中。比如，鼎鼎大名的 AlphaGo，在2017年烏鎮(zhèn)互聯(lián)網(wǎng)大會(huì)上打敗了圍棋世界冠軍柯潔，其核心技術(shù)就是強(qiáng)化學(xué)習(xí)。人類反饋強(qiáng)化學(xué)習(xí)并非從自然語(yǔ)言處理開始的，比如2017年OpenAI和DeepMind合作探索人類反饋強(qiáng)化學(xué)習(xí)系統(tǒng)與真實(shí)世界是否能夠有效地交互，實(shí)驗(yàn)的場(chǎng)景是Atari游戲、模擬機(jī)器人運(yùn)動(dòng)等。這些成果隨后被OpenAI和DeepMind應(yīng)用到大語(yǔ)言模型上，通過(guò)人類反饋來(lái)優(yōu)化語(yǔ)言模型，進(jìn)而使得模型的輸出與預(yù)期目標(biāo)趨于一致，比如InstructionGPT、FLAN等。這些成果表明，加入人類反饋強(qiáng)化學(xué)習(xí)使得生成文本的質(zhì)量明顯優(yōu)于未使用人類反饋強(qiáng)化學(xué)習(xí)的基線，同時(shí)能更好地泛化到新領(lǐng)域。圖16是人類反饋強(qiáng)化學(xué)習(xí)的框架圖，獎(jiǎng)勵(lì)預(yù)測(cè)器是學(xué)習(xí)出來(lái)的，這點(diǎn)與傳統(tǒng)強(qiáng)化學(xué)習(xí)有所不同。在傳統(tǒng)強(qiáng)化學(xué)習(xí)中，獎(jiǎng)勵(lì)函數(shù)是人工設(shè)定的。在InstructionGPT中，強(qiáng)化學(xué)習(xí)算法使用了近端策略優(yōu)化（Proximal Policy Optimization，PPO)來(lái)優(yōu)化GPT-3生成摘要的策略。圖16 人類反饋強(qiáng)化學(xué)習(xí)框架圖應(yīng)用的百花齊放

近年來(lái)，所有自然語(yǔ)言處理的任務(wù)都有了長(zhǎng)足進(jìn)步，效果飆升，許多任務(wù)都超越了人類專家的水平。在斯坦福問(wèn)答數(shù)據(jù)集2.0（SQuAD2.0）評(píng)測(cè)中，最新的模型EM 分?jǐn)?shù)和F1分?jǐn)?shù)分別為90.939和93.214，相比人類專家86.831和89.452高了4.73%和4.21%。在斯坦福對(duì)話問(wèn)答CoQA數(shù)據(jù)集的評(píng)測(cè)中，最佳模型的分?jǐn)?shù)達(dá)到90.7，相比人類專家的分?jǐn)?shù)88.8，高出了2%。在機(jī)器翻譯中，自2017年至今，WMT2014英譯德評(píng)測(cè)集的 BLEU分?jǐn)?shù)從26增長(zhǎng)到35以上，德譯英則從23增長(zhǎng)到35以上。在其他諸如文本分類、文檔分類、對(duì)話生成、數(shù)據(jù)到文本（Data-to-Text）、看圖說(shuō)話（Visual Storytelling）、視覺(jué)問(wèn)答、情感分析、實(shí)體抽取、關(guān)系抽取、事件抽取、自動(dòng)摘要、OCR等等任務(wù)中的效果增長(zhǎng)都非常顯著。在這五年中，行業(yè)應(yīng)用也愈加廣泛。金融、醫(yī)療、司法、制造、營(yíng)銷、媒體等各行各業(yè)都是使用自然語(yǔ)言處理技術(shù)提升效率，降低風(fēng)險(xiǎn)?；谧匀徽Z(yǔ)言處理最新技術(shù)的綜合性平臺(tái)智能文檔處理系統(tǒng)（Intelligence Document Process System，IDPS）開始流行，比如圖17所示的達(dá)觀數(shù)據(jù)IDPS。中國(guó)信息通信研究院（信通院）等機(jī)構(gòu)組織了標(biāo)準(zhǔn)編制和評(píng)測(cè)，萬(wàn)千企業(yè)開始使用智能文檔處理系統(tǒng)進(jìn)行文檔智能比對(duì)、關(guān)鍵要素抽取、銀行流水識(shí)別、風(fēng)險(xiǎn)審核、文檔寫作等，實(shí)現(xiàn)了諸多腦力勞動(dòng)的智能化。圖17 達(dá)觀智能文檔處理系統(tǒng)同時(shí)，依托自然語(yǔ)言處理進(jìn)行實(shí)體、關(guān)系、事件等知識(shí)的抽取，構(gòu)建出領(lǐng)域?qū)I(yè)知識(shí)圖譜，并以語(yǔ)義檢索、智能問(wèn)答、歸因分析、知識(shí)推理等為各行提供了豐富的應(yīng)用，比如賦能智能制造的故障排查，金融行業(yè)的智能投研和智能投顧，政府和企業(yè)的輿情分析，營(yíng)銷和售后的智能客服和智能運(yùn)營(yíng)，媒體的資訊分類、自動(dòng)摘要和事實(shí)校驗(yàn)等。隨著近五年自然語(yǔ)言處理技術(shù)的發(fā)展，許多原來(lái)無(wú)法完善服務(wù)的場(chǎng)景也有了切實(shí)可見(jiàn)的應(yīng)用，影響著三百六十行的億萬(wàn)工作者。由OpenAI的Codex大語(yǔ)言模型提供支撐的GitHub CoPilot為數(shù)千萬(wàn)的程序員提供效率工具。最新的ChatGPT參與沃頓商學(xué)院的工商管理碩士課程的期末考試并獲得了B檔成績(jī)，展現(xiàn)出了非凡的能力[12]。同樣的場(chǎng)景出現(xiàn)在許多大學(xué)中，比如北密歇根大學(xué)有學(xué)生使用 ChatGPT寫課程論文獲得了全班最高分。更有甚者，ChatGPT已經(jīng)成為了許多科學(xué)論文或出版書籍的共同作者，比如ChatGPT名列《Performance of ChatGPT on USMLE: Potential for AI-Assisted Medical Education Using Large Language Models》這篇12個(gè)作者中的第三位[13]，Gautier Marti則在其出版的書籍《From Data to Trade: A Machine Learning Approach to Quantitative Trading》中將ChatGPT列為共同作者。

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀點(diǎn)，如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

在线看毛片网站电影-亚洲国产欧美日韩精品一区二区三区,国产欧美乱夫不卡无乱码,国产精品欧美久久久天天影视,精品一区二区三区视频在线观看,亚洲国产精品人成乱码天天看,日韩久久久一区,91精品国产91免费

博客專欄

萬(wàn)字長(zhǎng)文解讀：從Transformer到ChatGPT，通用人工智能曙光初現(xiàn)(2)

相關(guān)推薦

技術(shù)專區(qū)