在线看毛片网站电影-亚洲国产欧美日韩精品一区二区三区,国产欧美乱夫不卡无乱码,国产精品欧美久久久天天影视,精品一区二区三区视频在线观看,亚洲国产精品人成乱码天天看,日韩久久久一区,91精品国产91免费

<menu id="6qfwx"><li id="6qfwx"></li></menu>
    1. <menu id="6qfwx"><dl id="6qfwx"></dl></menu>

      <label id="6qfwx"><ol id="6qfwx"></ol></label><menu id="6qfwx"></menu><object id="6qfwx"><strike id="6qfwx"><noscript id="6qfwx"></noscript></strike></object>
        1. <center id="6qfwx"><dl id="6qfwx"></dl></center>

            博客專欄

            EEPW首頁(yè) > 博客 > 萬(wàn)字長(zhǎng)文解釋 ChatGPT 在做什么,以及為什么它能發(fā)揮作用?(1)

            萬(wàn)字長(zhǎng)文解釋 ChatGPT 在做什么,以及為什么它能發(fā)揮作用?(1)

            發(fā)布人:AI科技大本營(yíng) 時(shí)間:2023-02-21 來(lái)源:工程師 發(fā)布文章

            ChatGPT 是由 OpenAI 開發(fā)的頂尖 AI 模型,旨在基于人們輸入的內(nèi)容生成類似的人類語(yǔ)言,憑借其強(qiáng)大的語(yǔ)言理解和文本生成能力,一經(jīng)發(fā)布就引爆全球技術(shù)圈。Wolfram 語(yǔ)言之父 Stephen Wolfram 更是在博客發(fā)布萬(wàn)字長(zhǎng)文(上百?gòu)埮鋱D)來(lái)解釋 ChatGPT 強(qiáng)大功能的背后。

            本文借助 DeepL 對(duì)原文進(jìn)行了編譯,感興趣的小伙伴也可以移步到原文:https://writings.stephenwolfram.com/2023/02/what-is-chatgpt-doing-and-why-does-it-work/

            注:為保證閱讀效果,本文以作者第一人稱的形式進(jìn)行發(fā)布。

            作者 | Stephen Wolfram翻譯 | DeepL 工具  校對(duì) | 李笑來(lái)
            出品 | CSDN(ID:CSDNnews)

            ChatGPT 能夠自動(dòng)生成一些讀起來(lái)甚至表面上像人類寫的文字的東西,這很了不起,而且出乎意料。但它是如何做到的?為什么它能發(fā)揮作用?

            圖片

            我在這里的目的是大致介紹一下 ChatGPT 內(nèi)部的情況,然后探討一下為什么它能很好地生成我們認(rèn)為是有意義的文本。我應(yīng)該在一開始就說(shuō),我將把重點(diǎn)放在正在發(fā)生的事情的大畫面上,雖然我將提到一些工程細(xì)節(jié),但我不會(huì)深入研究它們。(我所說(shuō)的實(shí)質(zhì)內(nèi)容也同樣適用于目前其他的 “大型語(yǔ)言模型” LLM 和 ChatGPT)。

            首先要解釋的是,ChatGPT 從根本上說(shuō)總是試圖對(duì)它目前得到的任何文本進(jìn)行 “合理的延續(xù)”,這里的 “合理” 是指 “在看到人們?cè)跀?shù)十億個(gè)網(wǎng)頁(yè)上所寫的東西之后,人們可能會(huì)期望某人寫出什么”。

            因此,假設(shè)我們已經(jīng)得到了 “人工智能最好的是它能去做 ……” 的文本(“The best thing about AI is its ability to”)。想象一下,掃描數(shù)十億頁(yè)的人類書寫的文本(例如在網(wǎng)絡(luò)上和數(shù)字化書籍中),并找到這個(gè)文本的所有實(shí)例 —— 然后看到什么詞在接下來(lái)的時(shí)間里出現(xiàn)了多少。ChatGPT 有效地做了類似的事情,除了(正如我將解釋的)它不看字面文本;它尋找在某種意義上 “意義相符” 的東西。但最終的結(jié)果是,它產(chǎn)生了一個(gè)可能出現(xiàn)在后面的詞的排序列表,以及 “概率”。

            圖片

            值得注意的是,當(dāng) ChatGPT 做一些事情,比如寫一篇文章時(shí),它所做的基本上只是反復(fù)詢問 “鑒于到目前為止的文本,下一個(gè)詞應(yīng)該是什么?” —— 而且每次都增加一個(gè)詞。(更準(zhǔn)確地說(shuō),正如我將解釋的那樣,它在添加一個(gè) “標(biāo)記”,這可能只是一個(gè)詞的一部分,這就是為什么它有時(shí)可以 “編造新詞”)。

            但是,好吧,在每一步,它得到一個(gè)帶有概率的單詞列表。但是,它究竟應(yīng)該選擇哪一個(gè)來(lái)添加到它正在寫的文章(或其他什么)中呢?人們可能認(rèn)為它應(yīng)該是 “排名最高” 的詞(即被分配到最高 “概率” 的那個(gè))。但是,這時(shí)就會(huì)有一點(diǎn)巫術(shù)開始悄悄出現(xiàn)。因?yàn)槌鲇谀撤N原因 —— 也許有一天我們會(huì)有一個(gè)科學(xué)式的理解 —— 如果我們總是挑選排名最高的詞,我們通常會(huì)得到一篇非常 “平淡” 的文章,似乎從來(lái)沒有 “顯示出任何創(chuàng)造力”(甚至有時(shí)一字不差地重復(fù))。但是,如果有時(shí)(隨機(jī)的)我們挑選排名較低的詞,我們會(huì)得到一篇 “更有趣” 的文章。

            這里有隨機(jī)性的事實(shí)意味著,如果我們多次使用同一個(gè)提示,我們很可能每次都得到不同的作文。而且,為了與巫術(shù)的想法保持一致,有一個(gè)特定的所謂 “溫度” 參數(shù)(temperature parameter),它決定了以什么樣的頻率使用排名較低的詞,而對(duì)于論文的生成,事實(shí)證明,0.8 的 “溫度” 似乎是最好的。(值得強(qiáng)調(diào)的是,這里沒有使用任何 “理論”;這只是一個(gè)在實(shí)踐中被發(fā)現(xiàn)可行的問題)。例如,“溫度” 的概念之所以存在,是因?yàn)榍『檬褂昧私y(tǒng)計(jì)物理學(xué)中熟悉的指數(shù)分布,但沒有 “物理” 聯(lián)系 —— 至少到目前為止我們?nèi)绱苏J(rèn)為。)

            在我們繼續(xù)之前,我應(yīng)該解釋一下,為了論述的目的,我大多不會(huì)使用 ChatGPT 中的完整系統(tǒng);相反,我通常會(huì)使用更簡(jiǎn)單的 GPT-2 系統(tǒng),它有一個(gè)很好的特點(diǎn),即它足夠小,可以在標(biāo)準(zhǔn)的臺(tái)式電腦上運(yùn)行。因此,對(duì)于我展示的所有內(nèi)容,我將能夠包括明確的沃爾弗拉姆語(yǔ)言(Wolfram Language)代碼,你可以立即在你的計(jì)算機(jī)上運(yùn)行。(點(diǎn)擊這里的任何圖片都可以復(fù)制其背后的代碼 —— 譯者注:請(qǐng)查看文墨的 “原文鏈接”,在其中點(diǎn)擊圖片獲取代碼)。

            圖片

            稍后,我們將看看這個(gè)神經(jīng)網(wǎng)的內(nèi)部,并談?wù)勊侨绾喂ぷ鞯摹5F(xiàn)在我們可以把這個(gè) “網(wǎng)絡(luò)模型” 作為一個(gè)黑匣子應(yīng)用于我們迄今為止的文本,并要求按概率計(jì)算出該模型認(rèn)為應(yīng)該遵循的前五個(gè)詞:

            圖片

            這就把這個(gè)結(jié)果變成了一個(gè)明確的格式化的 “數(shù)據(jù)集”:

            圖片

            如果重復(fù) “應(yīng)用模型” —— 在每一步中加入概率最高的詞(在此代碼中被指定為模型的 “決定”),會(huì)發(fā)生什么:

            圖片

            如果再繼續(xù)下去會(huì)發(fā)生什么?在這種情況下(“零溫度”),很快就會(huì)出現(xiàn)相當(dāng)混亂和重復(fù)的情況:

            圖片但是,如果不總是挑選 “頂級(jí)” 詞,而是有時(shí)隨機(jī)挑選 “非頂級(jí)” 詞(“隨機(jī)性” 對(duì)應(yīng) “溫度” 為 0.8)呢?人們又可以建立起文本:

            圖片而每次這樣做,都會(huì)有不同的隨機(jī)選擇,文本也會(huì)不同 —— 如這 5 個(gè)例子:

            圖片值得指出的是,即使在第一步,也有很多可能的 “下一個(gè)詞” 可供選擇(溫度為 0.8),盡管它們的概率下降得很快(是的,這個(gè)對(duì)數(shù)圖上的直線對(duì)應(yīng)于 n-1 的 “冪律” 衰減,這是語(yǔ)言的一般統(tǒng)計(jì)的特點(diǎn)):

            圖片

            那么,如果繼續(xù)下去會(huì)發(fā)生什么?這里有一個(gè)隨機(jī)的例子。它比頂層詞(零溫度)的情況要好,但頂多還是有點(diǎn)奇怪:

            圖片

            這是用最簡(jiǎn)單的 GPT-2 模型(來(lái)自 2019 年)做的。用較新和較大的 GPT-3 模型,結(jié)果更好。這里是用同樣的 “提示” 產(chǎn)生的頂部文字(零溫度),但用最大的 GPT-3 模型:

            圖片

            這是 “溫度為 0.8” 時(shí)的一個(gè)隨機(jī)例子:

            圖片


            圖片

            概率從何而來(lái)?


            好吧,ChatGPT 總是根據(jù)概率來(lái)選擇下一個(gè)詞。但是這些概率從何而來(lái)?讓我們從一個(gè)更簡(jiǎn)單的問題開始。讓我們考慮一次生成一個(gè)字母(而不是單詞)的英語(yǔ)文本。我們?cè)鯓硬拍芩愠雒總€(gè)字母的概率呢?

            我們可以做的一個(gè)非常簡(jiǎn)單的事情就是取一個(gè)英語(yǔ)文本的樣本,然后計(jì)算不同字母在其中出現(xiàn)的頻率。因此,舉例來(lái)說(shuō),這是計(jì)算維基百科上關(guān)于 “貓” 的文章中的字母:

            圖片

            而這對(duì) “狗” 也有同樣的作用:

            圖片

            結(jié)果相似,但不一樣(“o” 在 “dogs” 文章中無(wú)疑更常見,因?yàn)楫吘顾霈F(xiàn)在 “dog” 這個(gè)詞本身)。盡管如此,如果我們采取足夠大的英語(yǔ)文本樣本,我們可以期待最終得到至少是相當(dāng)一致的結(jié)果。

            圖片

            下面是我們得到的一個(gè)樣本,如果我們用這些概率生成一個(gè)字母序列:

            圖片

            我們可以通過添加空格將其分解為 “單詞”,就像它們是具有一定概率的字母一樣:

            圖片

            我們可以通過強(qiáng)迫 “字長(zhǎng)” 的分布與英語(yǔ)中的分布相一致,在制造 “單詞” 方面做得稍微好一點(diǎn):

            圖片

            我們?cè)谶@里沒有碰巧得到任何 “實(shí)際的詞”,但結(jié)果看起來(lái)稍好一些。不過,要想更進(jìn)一步,我們需要做的不僅僅是隨機(jī)地分別挑選每個(gè)字母。例如,我們知道,如果我們有一個(gè) “q”,下一個(gè)字母基本上必須是 “u”。

            這里有一個(gè)字母本身的概率圖:

            圖片

            這是一個(gè)顯示典型英語(yǔ)文本中成對(duì)字母(“2-grams”)概率的圖??赡艿牡谝粋€(gè)字母顯示在頁(yè)面上,第二個(gè)字母顯示在頁(yè)面下:

            圖片

            例如,我們?cè)谶@里看到,除了 “u” 行,“q” 列是空白的(概率為零)。好了,現(xiàn)在我們不再是一次生成一個(gè)字母的 “單詞”,而是使用這些 “2-gram” 概率,一次看兩個(gè)字母來(lái)生成它們。下面是一個(gè)結(jié)果的樣本 —— 其中恰好包括一些 “實(shí)際的詞”:

            圖片

            有了足夠多的英語(yǔ)文本,我們不僅可以對(duì)單個(gè)字母或成對(duì)字母(2-grams)的概率進(jìn)行很好的估計(jì),而且還可以對(duì)較長(zhǎng)的字母進(jìn)行估計(jì)。如果我們用逐漸變長(zhǎng)的 n-gram 概率生成 “隨機(jī)詞”,我們就會(huì)發(fā)現(xiàn)它們逐漸變得 “更現(xiàn)實(shí)”:

            圖片

            但現(xiàn)在讓我們假設(shè) —— 或多或少像 ChatGPT 那樣 —— 我們處理的是整個(gè)單詞,而不是字母。英語(yǔ)中大約有 40,000 個(gè)合理的常用詞。通過查看大型英語(yǔ)文本語(yǔ)料庫(kù)(比如幾百萬(wàn)本書,總共有幾千億個(gè)單詞),我們可以得到每個(gè)單詞的常見程度的估計(jì)。利用這一點(diǎn),我們可以開始生成 “句子”,其中每個(gè)詞都是獨(dú)立隨機(jī)抽取的,其出現(xiàn)的概率與語(yǔ)料庫(kù)中的相同。下面是我們得到的一個(gè)樣本:

            圖片

            不足為奇的是,這是一派胡言。那么,我們?nèi)绾尾拍茏龅酶媚??就像?duì)待字母一樣,我們可以開始考慮的不僅僅是單個(gè)詞的概率,還有成對(duì)的或更長(zhǎng)的詞的 n-grams 的概率。在成對(duì)的情況下,以下是我們得到的 5 個(gè)例子,所有情況都是從 “貓” 這個(gè)詞開始的:

            圖片

            它變得稍微 “看起來(lái)很合理” 了。我們可以想象,如果我們能夠使用足夠長(zhǎng)的 n-grams,我們基本上會(huì) “得到一個(gè) ChatGPT” —— 在這個(gè)意義上,我們會(huì)得到一些東西,以 “正確的總體論文概率” 生成論文長(zhǎng)度的單詞序列。但問題是:沒有足夠的英文文本可以推導(dǎo)出這些概率。

            在網(wǎng)絡(luò)的抓取中,可能有幾千億個(gè)單詞;在已經(jīng)數(shù)字化的書籍中,可能有另外幾千億個(gè)單詞。但是有了 4 萬(wàn)個(gè)常用詞,即使是可能的 2-grams 的數(shù)量也已經(jīng)是 16 億了,可能的 3-grams 的數(shù)量是 60 萬(wàn)億。所以我們沒有辦法從現(xiàn)有的文本中估計(jì)出所有這些的概率。而當(dāng)我們達(dá)到 20 個(gè)字的 “文章片段” 時(shí),可能性的數(shù)量比宇宙中的粒子數(shù)量還要多,所以從某種意義上說(shuō),它們永遠(yuǎn)不可能全部被寫下來(lái)。

            那么我們能做什么呢?最大的想法是建立一個(gè)模型,讓我們估計(jì)序列出現(xiàn)的概率 —— 即使我們?cè)谒吹奈谋菊Z(yǔ)料庫(kù)中從未明確見過這些序列。而 ChatGPT 的核心正是一個(gè)所謂的 “大型語(yǔ)言模型”(LLM),它的建立可以很好地估計(jì)這些概率。



            *博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。



            關(guān)鍵詞: AI

            相關(guān)推薦

            技術(shù)專區(qū)

            關(guān)閉