在线看毛片网站电影-亚洲国产欧美日韩精品一区二区三区,国产欧美乱夫不卡无乱码,国产精品欧美久久久天天影视,精品一区二区三区视频在线观看,亚洲国产精品人成乱码天天看,日韩久久久一区,91精品国产91免费

<menu id="6qfwx"><li id="6qfwx"></li></menu>
    1. <menu id="6qfwx"><dl id="6qfwx"></dl></menu>

      <label id="6qfwx"><ol id="6qfwx"></ol></label><menu id="6qfwx"></menu><object id="6qfwx"><strike id="6qfwx"><noscript id="6qfwx"></noscript></strike></object>
        1. <center id="6qfwx"><dl id="6qfwx"></dl></center>

            博客專欄

            EEPW首頁(yè) > 博客 > 6144塊TPU,5400億參數(shù),會(huì)改bug、解讀笑話,谷歌剛剛用Pathways訓(xùn)練了一個(gè)大模型

            6144塊TPU,5400億參數(shù),會(huì)改bug、解讀笑話,谷歌剛剛用Pathways訓(xùn)練了一個(gè)大模型

            發(fā)布人:機(jī)器之心 時(shí)間:2022-04-09 來(lái)源:工程師 發(fā)布文章
            谷歌的下一代架構(gòu) Pathways 已經(jīng)用來(lái)訓(xùn)練大模型了。

            圖片

            隨著規(guī)模的增加,模型在處理多個(gè)任務(wù)時(shí)的性能逐漸提高,而且還在不斷解鎖新的能力。
            在探討現(xiàn)有 AI 模型的局限時(shí),谷歌人工智能主管 Jeff Dean 曾經(jīng)說(shuō)過(guò),今天的人工智能系統(tǒng)總是從頭開始學(xué)習(xí)新問題。最終,我們?yōu)閿?shù)千個(gè)單獨(dú)的任務(wù)開發(fā)了數(shù)千個(gè)模型。以這種方式學(xué)習(xí)每項(xiàng)新任務(wù)不僅需要更長(zhǎng)的時(shí)間,而且還需要更多的數(shù)據(jù),效率非常低。
            在 Jeff Dean 看來(lái),理想的發(fā)展模式應(yīng)該是訓(xùn)練一個(gè)模型來(lái)做成千上萬(wàn)件事情。為了實(shí)現(xiàn)這一愿景,他所在的團(tuán)隊(duì)去年提出了一種名叫「Pathways」的通用 AI 架構(gòu)。Jeff Dean 介紹說(shuō),Pathways 旨在用一個(gè)架構(gòu)同時(shí)處理多項(xiàng)任務(wù),并且擁有快速學(xué)習(xí)新任務(wù)、更好地理解世界的能力。前段時(shí)間,該團(tuán)隊(duì)終于公布了 Pathways 的論文。
            論文寫道,PATHWAYS 使用了一種新的異步分布式數(shù)據(jù)流設(shè)計(jì)。這種設(shè)計(jì)允許 PATHWAYS 采用單控制器模型,從而更容易表達(dá)復(fù)雜的新并行模式。實(shí)驗(yàn)結(jié)果表明,當(dāng)在 2048 個(gè) TPU 上運(yùn)行 SPMD(single program multiple data)計(jì)算時(shí),PATHWAYS 的性能(加速器利用率接近 100%)可以媲美 SOTA 系統(tǒng)。
            圖片谷歌 Pathways 系統(tǒng)架構(gòu)概覽。
            有了強(qiáng)大的系統(tǒng),接下來(lái)就是訓(xùn)練模型了。
            在剛剛公布的論文——「PaLM: Scaling Language Modeling with Pathways」中,谷歌宣布,他們用 Pathways 系統(tǒng)訓(xùn)練了一個(gè) 5400 億參數(shù)的大型語(yǔ)言模型——PaLM(Pathways Language Model)。
            圖片
            論文鏈接:https://storage.googleapis.com/pathways-language-model/PaLM-paper.pdf
            這是一個(gè)只有****的密集 Transformer 模型。為了訓(xùn)練這個(gè)模型,谷歌動(dòng)用了 6144 塊 TPU,讓 Pathways 在兩個(gè) Cloud TPU v4 Pods 上訓(xùn)練 PaLM。
            強(qiáng)大的系統(tǒng)和算力投入帶來(lái)了驚艷的結(jié)果。研究者在數(shù)百個(gè)語(yǔ)言理解和生成任務(wù)上評(píng)估了 PaLM,發(fā)現(xiàn)它在大多數(shù)任務(wù)上實(shí)現(xiàn)了 SOTA 少樣本學(xué)習(xí)性能,可以出色地完成笑話解讀、bug 修復(fù)、從表情符號(hào)中猜電影等語(yǔ)言、代碼任務(wù)。
            圖片
            有網(wǎng)友感嘆說(shuō),「終于知道谷歌開發(fā) TPU 是用來(lái)干嘛的了。這種級(jí)別的自然語(yǔ)言理解,一旦被應(yīng)用程序所利用,并變得足夠高效并廣泛使用。這將徹底改變谷歌所做的一切。擁有能夠?qū)崿F(xiàn)這一目標(biāo)的芯片是非常有價(jià)值的,而那些陷入購(gòu)買或租用英偉達(dá)芯片的公司將處于不利地位。」
            圖片
            PaLM 架構(gòu)概覽
            PaLM 只包含****(每個(gè)時(shí)間步只能關(guān)注自身和過(guò)去的時(shí)間步),對(duì)一種標(biāo)準(zhǔn)的 Transformer 架構(gòu)((Vaswani et al., 2017))做出了如下更改:
            SwiGLU 激活
            研究者使用 SwiGLU 激活 (Swish(xW) · xV) 用于 MLP 中間激活,因?yàn)檠芯勘砻?,與標(biāo)準(zhǔn) ReLU、GeLU 或 Swish 激活相比,SwiGLU 激活能顯著提高質(zhì)量。注意,在 MLP 中,這確實(shí)需要三個(gè)矩陣乘法,而不是兩個(gè),但 Shazeer (2020) 在計(jì)算等效實(shí)驗(yàn)中證明了質(zhì)量的提升。
            并行層
            研究者在每個(gè) Transformer 模塊中使用「并行」方法,而不是標(biāo)準(zhǔn)的「串行」方法。具體來(lái)說(shuō),標(biāo)準(zhǔn)方法可以寫成:
            圖片
            并行方法可以寫成
            圖片
            由于 MLP 和注意力輸入矩陣乘法可以融合,這里的并行方法可以讓大規(guī)模訓(xùn)練速度提升 15%。消融實(shí)驗(yàn)顯示,在 8B 的規(guī)模下,質(zhì)量下降很小,但在 62B 規(guī)模下,質(zhì)量沒有下降,因此研究者推斷,并行層的影響會(huì)在 540B 規(guī)模下達(dá)到 quality neutral。
            多查詢(Multi-Query)注意力
            標(biāo)準(zhǔn) Transformer 方法使用 k 個(gè)注意力頭,其中每個(gè)時(shí)間步長(zhǎng)的輸入向量被線性投影成形狀 [k,h] 的「查詢」、「鍵」和「值」張量,其中 h 是注意力頭大小。這里,鍵 / 值投影對(duì)于每個(gè)頭是共享的,即「鍵」和「值」被投影到[1,h],但是「查詢」仍然被投影到形狀[k,h]。此前有研究表明,這對(duì)模型質(zhì)量和訓(xùn)練速度的影響呈中性,但在自回歸解碼時(shí)間上可以帶來(lái)顯著的成本節(jié)約。這是因?yàn)樵谧曰貧w解碼過(guò)程中,標(biāo)準(zhǔn)多頭注意力在加速器硬件上的效率很低,因?yàn)殒I / 值張量不在實(shí)例之間共享,并且一次只有單個(gè) token 被解碼。
            RoPE 嵌入
            研究者使用了 RoPE 嵌入而不是絕對(duì)或相對(duì)位置嵌入,因?yàn)?RoPE 嵌入已被證明在長(zhǎng)序列長(zhǎng)度上具有更好的性能。
            共享輸入 - 輸出嵌入
            研究者共享了輸入和輸出嵌入矩陣,這是在過(guò)去的工作中經(jīng)常做的(但不是普遍的)。
            No Biases
            研究者在任何密集核或?qū)?norm 中都沒有使用 biases。他們發(fā)現(xiàn),這可以增加大型模型的訓(xùn)練穩(wěn)定性。
            詞匯表
            研究者使用了具有 256k token 的 SentencePiece 詞匯表,選擇這個(gè)詞匯表是為了支持訓(xùn)練語(yǔ)料庫(kù)中的多種語(yǔ)言(沒有過(guò)多的分詞)。詞匯表是從訓(xùn)練數(shù)據(jù)中生成的,研究者發(fā)現(xiàn)這提高了訓(xùn)練效率。
            用 Pathways 訓(xùn)練一個(gè) 5400 億參數(shù)的語(yǔ)言模型
            PaLM 是谷歌首次大規(guī)模使用 Pathways 系統(tǒng)將訓(xùn)練擴(kuò)展到 6144 塊芯片,這是迄今為止用于訓(xùn)練的基于 TPU 的最大系統(tǒng)配置。研究者在 Pod 級(jí)別上跨兩個(gè) Cloud TPU v4 Pods 使用數(shù)據(jù)并行對(duì)訓(xùn)練進(jìn)行擴(kuò)展,同時(shí)在每個(gè) Pod 中使用標(biāo)準(zhǔn)數(shù)據(jù)和模型并行。與以前的大多數(shù) LLM 相比,這是一個(gè)顯著的規(guī)模增長(zhǎng)。
            PaLM 實(shí)現(xiàn)了 57.8% 的硬件 FLOPs 利用率的訓(xùn)練效率,這是 LLM 在這個(gè)規(guī)模上實(shí)現(xiàn)的最高效率。為了達(dá)到這一水平,研究者將并行策略和 Transformer 塊的重新設(shè)計(jì)結(jié)果相結(jié)合,這使得注意力層和前饋層并行計(jì)算成為可能,從而實(shí)現(xiàn)了 TPU 編譯器優(yōu)化帶來(lái)的加速。
            PaLM 使用英語(yǔ)和多語(yǔ)言數(shù)據(jù)集進(jìn)行訓(xùn)練,包括高質(zhì)量的 web 文檔、書籍、維基百科、對(duì)話和 GitHub 代碼。研究者還創(chuàng)建了一個(gè)「無(wú)損(lossless)」詞匯表,它保留了所有空格(對(duì)于代碼來(lái)說(shuō)尤其重要),將詞匯表之外的 Unicode 字符拆分成字節(jié),并將數(shù)字拆分成單獨(dú)的 token,每個(gè) token 對(duì)應(yīng)一個(gè)數(shù)字。
            突破性的語(yǔ)言、推理和代碼生成能力
            PaLM 在許多非常困難的任務(wù)上顯示出了突破性的能力,包括語(yǔ)言理解、生成、推理和代碼等相關(guān)任務(wù)。
            語(yǔ)言理解與生成

            圖片

            在 29 項(xiàng)基于英語(yǔ)的 NLP 任務(wù)上,PaLM 540B 的性能比之前的 SOTA 結(jié)果有所提高。
            除了英語(yǔ) NLP 任務(wù)外,PaLM 在包括翻譯在內(nèi)的多語(yǔ)言 NLP 基準(zhǔn)測(cè)試中也表現(xiàn)出強(qiáng)大的性能,盡管它只有 22% 的訓(xùn)練語(yǔ)料庫(kù)是非英語(yǔ)的。
            研究者還在 Beyond the Imitation Game Benchmark (BIG-bench) 上探索了 PaLM 新的和未來(lái)功能,這是一個(gè)近期發(fā)布的套件,包含 150 多個(gè)新的語(yǔ)言建模任務(wù)。在這個(gè)過(guò)程中, PaLM 與 Gopher 和 Chinchilla 的性能進(jìn)行了比較,涉及這些任務(wù)的 58 個(gè)公共子集。
            有趣的是,研究者注意到,作為 scale 函數(shù)(function of scale)的 PaLM 的性能遵循與先前模型類似的對(duì)數(shù)線性表現(xiàn),這表明 scale 的性能改進(jìn)尚未趨于平穩(wěn)。PaLM 540B 5-shot 的表現(xiàn)也優(yōu)于解決相同任務(wù)的人類平均表現(xiàn)。
            圖片PaLM 在 58 個(gè) BIG-bench 任務(wù)的子集上的 scaling behavior。
            PaLM 在幾個(gè) BIG-bench 任務(wù)中展示了令人印象深刻的自然語(yǔ)言理解和生成能力。例如,該模型可以區(qū)分因果關(guān)系,理解上下文中的概念組合,甚至可以從表情符號(hào)中猜測(cè)電影。

            圖片

            PaLM 540B 在 BIG-bench 任務(wù)上的 1-shot 性能展示:標(biāo)記因果關(guān)系、概念理解、從表情符號(hào)中猜測(cè)電影以及查找同義詞和反事實(shí)。

            推理
            通過(guò)將模型 scale 與 chain-of-thought prompting 相結(jié)合,PaLM 在需要多步驟算術(shù)或常識(shí)推理的推理任務(wù)上展示出了突破性的能力。以往諸如 Gopher 這樣的大型語(yǔ)言模型在提高性能方面從模型 scale 中獲益較少。
            圖片小學(xué)數(shù)學(xué)問題示例中的標(biāo)準(zhǔn) prompting 與 chain-of-thought prompting。Chain-of-thought prompting 將多步驟推理問題的 prompt 分解為中間步驟(黃色部分),類似于人類處理它的方式。

            研究者在三個(gè)算術(shù)數(shù)據(jù)集和兩個(gè)常識(shí)推理數(shù)據(jù)集上觀察到了 PaLM 540B 在 chain-of-thought prompt 加持下的強(qiáng)大性能。例如,借助 8-shot prompt,PaLM 解決了 GSM8K 中 58% 的問題,這是一個(gè)包含數(shù)千個(gè)具有挑戰(zhàn)性的小學(xué)水平數(shù)學(xué)問題的基準(zhǔn),超過(guò)了之前 GPT-3 175B 微調(diào)模型(訓(xùn)練集包含 7500 個(gè)問題,并與外部計(jì)算器和驗(yàn)證器相結(jié)合)獲得的 55% 的最高分。
            這個(gè)新的得分值得關(guān)注,因?yàn)樗咏?60% 的 9 到 12 歲兒童解決問題的水平,這些兒童正是問題集的目標(biāo)受眾。研究者猜測(cè),PaLM 詞匯表中數(shù)字的獨(dú)立編碼有助于實(shí)現(xiàn)這些性能改進(jìn)。
            值得注意的是,PaLM 甚至可以為需要多步驟邏輯推理、世界認(rèn)知和深度語(yǔ)言理解的復(fù)雜組合的場(chǎng)景生成明確的解釋。例如,它可以為網(wǎng)絡(luò)上搜不到的新笑話提供高質(zhì)量的解釋。
            圖片
            PaLM 用 two-shot prompts 解釋了一個(gè)原創(chuàng)笑話。
            代碼生成
            大型語(yǔ)言模型已被證明可以很好地推廣到編碼任務(wù),比如在給定自然語(yǔ)言描述(文本到代碼)的情況下編寫代碼,將代碼從一種語(yǔ)言翻譯成另一種語(yǔ)言,以及修復(fù)編譯錯(cuò)誤(代碼到代碼)。
            PaLM 540B 在單個(gè)模型中顯示了橫跨編碼任務(wù)和自然語(yǔ)言任務(wù)的強(qiáng)大性能,即使它在預(yù)訓(xùn)練數(shù)據(jù)集中只有 5% 的代碼。具體而言,PaLM 540B 的 few-shot 性能十分顯著,與經(jīng)過(guò)微調(diào)的 Codex 12B 相當(dāng),同時(shí)使用的 Python 訓(xùn)練代碼減少到了 50 分之一。這一結(jié)果印證了之前的發(fā)現(xiàn),即較大的模型比較小的模型更高效,因?yàn)樗鼈兛梢愿玫貜钠渌幊陶Z(yǔ)言和自然語(yǔ)言數(shù)據(jù)中實(shí)現(xiàn)遷移學(xué)習(xí)。

            圖片

            PaLM 540B 微調(diào)模型在文本到代碼任務(wù)(例如 GSM8K - Python 和 HumanEval)和代碼到代碼任務(wù)(例如 Transcoder)上的示例。
            此外,通過(guò)在純 Python 代碼數(shù)據(jù)集上微調(diào) PaLM ,模型進(jìn)一步提高了性能,團(tuán)隊(duì)稱之為 PaLM-Coder。如下圖所示,PaLM-Coder 接到了一個(gè)名為 DeepFix 的示例代碼修復(fù)任務(wù),目標(biāo)是修改最初損壞的 C 程序直到它們編譯成功,PaLM-Coder 540B 展示了令人印象深刻的性能,實(shí)現(xiàn)了 82.1% 的編譯率,優(yōu)于之前 71.7% 的 SOTA 結(jié)果。這為修復(fù)軟件開發(fā)過(guò)程中出現(xiàn)的更復(fù)雜的錯(cuò)誤提供了機(jī)會(huì)。

            圖片


            DeepFix 代碼修復(fù)任務(wù)的示例。經(jīng)過(guò)微調(diào)的 PaLM-Coder 540B 將編譯錯(cuò)誤(左)修復(fù)為可編譯的代碼版本(右)。
            從倫理方面考慮,最近的研究強(qiáng)調(diào)了受過(guò)網(wǎng)絡(luò)文本訓(xùn)練的 LLM 相關(guān)的各種潛在風(fēng)險(xiǎn)。通過(guò)模型卡片和數(shù)據(jù)表等透明工件分析并記錄這些潛在的不良風(fēng)險(xiǎn)是至關(guān)重要的,其中還包括有關(guān)預(yù)期用途和測(cè)試的信息。為此,谷歌的論文提供了數(shù)據(jù)表、模型卡片和 Responsible AI 基準(zhǔn)測(cè)試結(jié)果,并報(bào)告了對(duì)數(shù)據(jù)集和模型輸出的全面分析,以發(fā)現(xiàn)偏差和風(fēng)險(xiǎn)。雖然分析有助于概述模型的一些潛在風(fēng)險(xiǎn),但特定領(lǐng)域和任務(wù)的分析對(duì)于真正校準(zhǔn)、情境化和減輕可能的危害至關(guān)重要。進(jìn)一步了解這些模型的風(fēng)險(xiǎn)和收益是正在進(jìn)行的研究的主題,同時(shí)開發(fā)可擴(kuò)展的解決方案,防止惡意使用語(yǔ)言模型。
            參考鏈接:https://ai.googleblog.com/2022/04/pathways-language-model-palm-scaling-to.html



            *博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。



            關(guān)鍵詞: AI

            相關(guān)推薦

            技術(shù)專區(qū)

            關(guān)閉