在线看毛片网站电影-亚洲国产欧美日韩精品一区二区三区,国产欧美乱夫不卡无乱码,国产精品欧美久久久天天影视,精品一区二区三区视频在线观看,亚洲国产精品人成乱码天天看,日韩久久久一区,91精品国产91免费

<menu id="6qfwx"><li id="6qfwx"></li></menu>
    1. <menu id="6qfwx"><dl id="6qfwx"></dl></menu>

      <label id="6qfwx"><ol id="6qfwx"></ol></label><menu id="6qfwx"></menu><object id="6qfwx"><strike id="6qfwx"><noscript id="6qfwx"></noscript></strike></object>
        1. <center id="6qfwx"><dl id="6qfwx"></dl></center>

            博客專欄

            EEPW首頁(yè) > 博客 > 獨(dú)家 | 語(yǔ)言模型初學(xué)者指南

            獨(dú)家 | 語(yǔ)言模型初學(xué)者指南

            發(fā)布人:數(shù)據(jù)派THU 時(shí)間:2023-03-19 來(lái)源:工程師 發(fā)布文章

            過去十年中,從文本數(shù)據(jù)中提取信息的技術(shù)發(fā)生了巨大變化,自然語(yǔ)言處理這一術(shù)語(yǔ)已經(jīng)超躍文本挖掘,成為該領(lǐng)域的主導(dǎo)方法。與此同時(shí),該方法也發(fā)生了翻天覆地的變化。引發(fā)變化的主要驅(qū)動(dòng)因素是語(yǔ)言模型的出現(xiàn),它旨在從原始文本中提取有價(jià)值的見解,成為了許多應(yīng)用程序的基礎(chǔ)。


            語(yǔ)言模型的定義


            語(yǔ)言模型使用機(jī)器學(xué)習(xí)預(yù)測(cè)單詞的概率分布,基于前一個(gè)條目來(lái)預(yù)測(cè)句子中最有可能出現(xiàn)的下一個(gè)單詞。語(yǔ)言模型從文本中學(xué)習(xí),可用于生成原始文本、預(yù)測(cè)文本中的下一個(gè)單詞、語(yǔ)音識(shí)別、光學(xué)字符識(shí)別和手寫識(shí)別。


            在自然語(yǔ)言處理的學(xué)習(xí)過程中,我對(duì)過去幾年中語(yǔ)言模型的演變非常著迷,你或許已經(jīng)聽說(shuō)過GPT-3及其它所構(gòu)成的潛在威脅,但又是如何走到這一步的呢?機(jī)器又是如何制作出一篇模仿記者的文章的呢?


            什么是語(yǔ)言模型?


            語(yǔ)言模型預(yù)測(cè)單詞或單詞序列的概率分布。在項(xiàng)目實(shí)踐中,它給出了某個(gè)單詞序列是“有效的”的概率,此時(shí)的有效性并不是指語(yǔ)法上的有效性,相反,它是指類似于人類的寫作方式,這便是語(yǔ)言模型所學(xué)習(xí)的東西。正如其他機(jī)器學(xué)習(xí)模型,特別是深度神經(jīng)網(wǎng)絡(luò)一樣,語(yǔ)言模型并不是在變魔術(shù),它只是一個(gè)以簡(jiǎn)潔的方式合并豐富信息的工具,可以重用樣本外的語(yǔ)境。


            語(yǔ)言模型能做什么?


            對(duì)自然語(yǔ)言的抽象理解是從語(yǔ)境中推斷單詞概率的必要條件,可以用于多項(xiàng)任務(wù)。詞性化或詞干化的目的是將一個(gè)詞簡(jiǎn)化為其最基本的形式,從而大幅度減少標(biāo)記的數(shù)量。如果知道這個(gè)詞的詞性,算法會(huì)工作得更好,動(dòng)詞的后綴可以不同于名詞的后綴,因此,詞性標(biāo)記(或pos標(biāo)記)是語(yǔ)言模型的基本原理,同時(shí)也是語(yǔ)言模型的一項(xiàng)常見任務(wù)。


            有了良好的語(yǔ)言模型,便可以對(duì)文本進(jìn)行提取或抽象摘要。有了不同語(yǔ)言的模型,可以非常容易地建立一個(gè)機(jī)器翻譯系統(tǒng)。用例包括回答問題(帶或不帶語(yǔ)境,請(qǐng)參見文末的示例)。語(yǔ)言模型還可用于語(yǔ)音識(shí)別、OCR、手寫識(shí)別等領(lǐng)域,有很各種各樣的應(yīng)用。


            語(yǔ)言模型的種類


            有兩種類型的語(yǔ)言模型:


            1. 概率統(tǒng)計(jì)方法。

            2. 基于神經(jīng)網(wǎng)絡(luò)的現(xiàn)代語(yǔ)言模型


            注意區(qū)分二者之間的不同非常重要。


            概率統(tǒng)計(jì)語(yǔ)言模型


            通過計(jì)算單詞的n-gram概率,建立起一個(gè)簡(jiǎn)單的概率語(yǔ)言模型。n-gram是由n個(gè)單詞組成的序列,n為大于0的整數(shù)。n-gram概率是n-gram單詞跟隨一個(gè)特定的n-1 gram單詞(省去最后一個(gè)單詞)的條件概率,即在n-1gram之后,省略掉最后一個(gè)單詞的比例。這個(gè)概念是一個(gè)馬爾可夫假設(shè)。給定n-1 gram(現(xiàn)在),n-gram概率(未來(lái))不依賴于n-2、n-3(過去)單詞的概率。


            這種方法也有一些明顯的缺點(diǎn):前面的n個(gè)單詞會(huì)影響下一個(gè)單詞的概率分布。復(fù)雜的文本有深刻的語(yǔ)境,可能對(duì)下一個(gè)詞的選擇產(chǎn)生決定性的影響。因此,即使n等于20或50,從前面的n個(gè)單詞中推導(dǎo)出下一個(gè)單詞的并非輕而易舉。一個(gè)術(shù)語(yǔ)對(duì)之前的用詞會(huì)產(chǎn)生影響:如果出現(xiàn)了United這個(gè)單詞,那么States of America緊隨其后的概率便有可能大得多,稱之為語(yǔ)境問題。


            最為重要的是,很明顯,這種方法并不適合大規(guī)模學(xué)習(xí)。隨著(n)的增加,單詞排列的數(shù)量飆升,即便文本中從未發(fā)生大多數(shù)的單詞排列,并且所有發(fā)生的概率(或全部n-gram計(jì)數(shù))都必須計(jì)算和存儲(chǔ)。此外,未出現(xiàn)的n-gram計(jì)數(shù)會(huì)產(chǎn)生稀疏性問題,概率分布的粒度會(huì)相當(dāng)?shù)?。單詞概率鮮有不同的值,絕大多數(shù)單詞具有相同的概率。


            基于神經(jīng)網(wǎng)絡(luò)的語(yǔ)言模型


            基于神經(jīng)網(wǎng)絡(luò)的語(yǔ)言模型通過編碼輸入的方式,解決了稀疏性問題。Word嵌入層為每個(gè)單詞創(chuàng)建一個(gè)任意大小的向量,向量中同時(shí)包含了語(yǔ)義關(guān)系,連續(xù)的向量在下一個(gè)單詞的概率分布中創(chuàng)建了所需的粒度。此外,語(yǔ)言模型同時(shí)也是一個(gè)函數(shù),所有的神經(jīng)網(wǎng)絡(luò)都有大量的矩陣計(jì)算,所以無(wú)需存儲(chǔ)所有的n-gram計(jì)數(shù)來(lái)生成下一個(gè)單詞的概率分布。


            語(yǔ)言模型的演進(jìn)


            盡管神經(jīng)網(wǎng)絡(luò)解決了稀疏性問題,但語(yǔ)境問題仍然存在。首先,語(yǔ)言模型更有效地解決了語(yǔ)境問題——引入越來(lái)越多的語(yǔ)境詞來(lái)影響概率分布。其次,目標(biāo)是創(chuàng)建一個(gè)架構(gòu),使模型能夠?qū)W習(xí)哪些語(yǔ)境詞更為重要。


            前文概述的第一個(gè)模型,是一個(gè)密集的(或隱含的)層和一個(gè)輸出層,堆疊在一個(gè)連續(xù)的單詞包(CBOW)Word2Vec模型之上。CBOW Word2Vec模型被訓(xùn)練成從上下文中猜測(cè)單詞;Skip-Gram Word2Vec模型則相反,從單詞中猜測(cè)上下文。在項(xiàng)目實(shí)踐中,需要通過多個(gè)結(jié)構(gòu)化的示例訓(xùn)練 CBOW Word2Vec模型:輸入是在單詞之前和/或之后的n個(gè)單詞,從中可以看到,語(yǔ)境問題依然沒有得到解決。


            遞歸神經(jīng)網(wǎng)絡(luò)(RNN)


            遞歸神經(jīng)網(wǎng)絡(luò)(RNNs)是對(duì)這一問題的一個(gè)改進(jìn),RNN既可以是一個(gè)長(zhǎng)短期記憶(LSTM),也可以是一個(gè)基于門控循環(huán)單元(GRU)單元的網(wǎng)絡(luò),它們?cè)谶x擇下一個(gè)單詞的同時(shí)考慮了所有先前的單詞。AllenNLP的ELMo進(jìn)一步提出了這個(gè)概念,利用一個(gè)雙向的LSTM,將單詞計(jì)數(shù)前后的語(yǔ)境考慮進(jìn)來(lái)。


            TRANSFORMERS


            基于RNN架構(gòu)的主要缺點(diǎn)在于它們的序列性質(zhì),因?yàn)闆]有并行化,長(zhǎng)序列的訓(xùn)練時(shí)間會(huì)飆升。解決這個(gè)問題的方法是采用Transformer架構(gòu)。


            OpenAI的GPT和谷歌的BERT模型均采用了Transformer架構(gòu),與此同時(shí),這些模型還采用了一種稱為“注意力”的機(jī)制,通過這種機(jī)制,模型可以學(xué)習(xí)在某些情況下哪些輸入比其他輸入更值得關(guān)注。


            在模型架構(gòu)方面,有數(shù)量級(jí)飛躍的首先是RNN,尤其是LSTM和GRU,很好地解決了稀疏性問題,減少語(yǔ)言模型對(duì)磁盤空間的占用,其次是Transformer架構(gòu),使并行化成為可能,并創(chuàng)建了注意力機(jī)制。但是,架構(gòu)并不是語(yǔ)言模型之所以優(yōu)越的唯一考量。


            與GPT-1架構(gòu)相比,除了規(guī)模上變大了之外,GPT-3實(shí)際上沒有什么新穎之處。GPT-3有1750億個(gè)參數(shù),并且是在普通訓(xùn)練集的大語(yǔ)料庫(kù)上訓(xùn)練的。語(yǔ)言模型的半監(jiān)督訓(xùn)練策略,使得這在一定程度上成為可能,將省略一些單詞的文本作為訓(xùn)練示例。GPT-3令人難以置信的力量在于,它或多或少閱讀了過去幾年出現(xiàn)在互聯(lián)網(wǎng)上的所有文本,而且能夠準(zhǔn)確反映自然語(yǔ)言所包含的絕大多數(shù)復(fù)雜性。


            多用途訓(xùn)練


            最后,我想回顧一下谷歌的T5模型。以前,語(yǔ)言模型被用于標(biāo)準(zhǔn)的自然語(yǔ)言處理任務(wù),如詞性(POS)標(biāo)注或經(jīng)過輕微修改的機(jī)器翻譯。只要經(jīng)過重新訓(xùn)練,BERT就可以成為一個(gè)pos標(biāo)記器,因?yàn)樗哂欣斫庾匀徽Z(yǔ)言底層結(jié)構(gòu)的抽象能力。


            對(duì)于T5,無(wú)需對(duì)NLP任務(wù)進(jìn)行任何修改,如果它獲取到一個(gè)帶標(biāo)記的文本,它就知道用哪些標(biāo)記來(lái)填充適當(dāng)單詞的空白;它也可以回答問題,如果它在問題之后收到了一些語(yǔ)境信息,它會(huì)從中搜索出答案。否則,它會(huì)根據(jù)自己的知識(shí)得出答案。有趣的是:它在問答小測(cè)試中擊敗了自己的創(chuàng)造者。


            語(yǔ)言模型的未來(lái)


            我個(gè)人認(rèn)為,這是離創(chuàng)造人工智能最近的領(lǐng)域。關(guān)于人工智能有很多非議,從市場(chǎng)營(yíng)銷的角度來(lái)看,許多簡(jiǎn)單的決策系統(tǒng)和神經(jīng)網(wǎng)絡(luò)均可稱之為人工智能。根據(jù)定義,人工智能涉及到由機(jī)器執(zhí)行的類人智能能力。遷移學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域很突出,遷移學(xué)習(xí)的概念對(duì)人工智能系統(tǒng)至關(guān)重要,同一模型可以完成廣泛的自然語(yǔ)言處理任務(wù),并可以從輸入中推斷出該做什么,它讓我們離真正創(chuàng)造類人智能系統(tǒng)又近了一步。


            原文標(biāo)題:A Beginner’s Guide to Language Models

            原文鏈接:https://builtin.com/data-science/beginners-guide-language-models


            *博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。



            關(guān)鍵詞: AI

            相關(guān)推薦

            技術(shù)專區(qū)

            關(guān)閉