GPT-3 不夠 Open,BigScience 構(gòu)建開放語言模型,規(guī)模小 16 倍
編譯 | 禾木木
出品 | AI科技大本營(ID:rgznai100)
大約一年前,總部位于紐約布魯克林的自然語言處理初創(chuàng)公司 Hugging Face 推出了 BigScience。這是一個(gè)擁有 900 多名研究人員的國際項(xiàng)目,旨在更好地理解自然語言模型原理和提高大型語言模型的質(zhì)量。大型語言模型(LLM)能夠?qū)崿F(xiàn)基于文本的數(shù)據(jù)集識(shí)別、預(yù)測和生成語言的算法,已經(jīng)吸引了商業(yè)和技術(shù)愛好者的廣泛關(guān)注。但是,它們背后沒有像 OpenAI 和 DeepMind 這樣的資源,開發(fā) LLM 所需要的昂貴硬件成本仍然是研究人員的困難。
從歐洲核研究組織(CERN)及大型強(qiáng)子對(duì)接機(jī)等項(xiàng)目中收獲得靈感,BigScience 的目標(biāo)是創(chuàng)建 LLM 和大型文本數(shù)據(jù)集,并將這些數(shù)據(jù)集最終向更廣泛的人工智能社區(qū)開放。這些模型將在法國巴黎附近的 Jean Zay 超級(jí)計(jì)算機(jī)上進(jìn)行訓(xùn)練,這也是迄今為止全球最強(qiáng)大的機(jī)器設(shè)備之一。
對(duì)企業(yè)巨頭們的影響可能還不清楚,但 BigScience 這樣的努力實(shí)際是在降低 LLM 的接觸門檻、提升模型開發(fā)透明度。除了由開放 AI 研究小組 EleutherAI 創(chuàng)建的幾個(gè)模型之外,很少有經(jīng)過培訓(xùn)的 LLM 可供研究或部署到生產(chǎn)中。OpenAI 拒絕將其最強(qiáng)大的 GPT-3 模型開源,反而是將源代碼獨(dú)家授權(quán)給了微軟。與此同時(shí),像英偉達(dá)等廠商雖然發(fā)布了性能不錯(cuò)的 LLM 代碼,但是將這些 LLM 的訓(xùn)練留給了具有足夠強(qiáng)大硬件的用戶。
剛剛離開 Meta(前 Facebook)AI 研究部門、轉(zhuǎn)投 Hugging Face 擔(dān)任研究主管的 Douwe Kiela 表示:“很明顯,直接跟業(yè)界巨頭對(duì)抗并非明智之舉。但作為弱勢一方,我們可以找尋 Hugging Face 最與眾不同的優(yōu)勢。初創(chuàng)企業(yè)更具活力,工作進(jìn)程更快,而且對(duì)于開源的關(guān)注也讓我們能夠與來自學(xué)界乃至其他領(lǐng)域的研究人員們建立起強(qiáng)大的社區(qū)合作關(guān)系。這一切,都是在為 AI 技術(shù)的大眾化與公平化進(jìn)程而努力?!?/p>
LLM 大眾化
LLM 與其他任何語言模型一樣,也需要根據(jù)文本示例理解單詞出現(xiàn)的幾率。較為簡單的模型會(huì)在特定語境下瀏覽,而大型模型則直接去理解句子甚至是段落。示例以訓(xùn)練數(shù)據(jù)集中的文本形式出現(xiàn),包含從社交媒體、維基百科、書籍、GitHub 等軟件托管平臺(tái)以及公共網(wǎng)絡(luò)上抓取到的 TB 級(jí)、甚至是 PB 級(jí)數(shù)據(jù)素材。
我們往往無法使用現(xiàn)成商用硬件訓(xùn)練最先進(jìn)的 LLM 模型,部署最先進(jìn)的 LLM 的障礙才是巨大的。像英偉達(dá)及微軟的 Megatron 530B LLM 整個(gè)訓(xùn)練周期耗費(fèi)可能高達(dá)數(shù)百萬美元,這還不包含模型存儲(chǔ)所帶來的費(fèi)用。接下來則是推理階段,即通過運(yùn)行訓(xùn)練后模型獲得預(yù)測結(jié)果。根據(jù)估計(jì),在單一 AWS 實(shí)例上運(yùn)行 GPT-3 的成本至少為 87000 美元。
年初發(fā)布的 EleutherAi 模型與訓(xùn)練數(shù)據(jù)集倒是做出了一些更加可行的商業(yè)化。但此次 BigScience 的適用范圍更廣,不僅涵蓋 LLM 的訓(xùn)練與發(fā)布,同時(shí)也解決了不少重大技術(shù)缺陷。
解決不平等問題
從計(jì)算的角度來看,LLM的好處并不是嚴(yán)格地分布不均的。英語法 LLM 的數(shù)量遠(yuǎn)遠(yuǎn)超過其他語言培訓(xùn)的 LLM,少數(shù)西歐語言(特別是德語,法語和西班牙語)占據(jù)了主導(dǎo)地位。正如哈佛大學(xué)、喬治梅森(George Mason)和卡耐基梅隆大學(xué)(Carnegie Mellon)近期共同發(fā)布了一項(xiàng)關(guān)于語言技術(shù)的研究,語言使用者的"經(jīng)濟(jì)實(shí)力"往往會(huì)推動(dòng)模型的發(fā)展,而不是人口需求。
用英語以外的語言訓(xùn)練的大型多語言和單語模型雖然很少開源,但正變得比以前更常見,部分歸功于企業(yè)利益。但是,由于公共數(shù)據(jù)源中的系統(tǒng)性偏差,非英語模型的表現(xiàn)并不總是與英語模型一樣好。例如,基于維基百科的數(shù)據(jù)集內(nèi)不同語種的素材規(guī)模差異巨大,而且在待完善內(nèi)容方面的立項(xiàng)百分比、編輯次數(shù)和用戶瀏覽量上也截然不同。相當(dāng)一部分使用特定語種的群體根本無法訪問維基百科。此外,阿拉伯語和烏爾都語版本的電子書大多為圖像掃描件、而非純文本,在使用光學(xué)字符識(shí)別工具轉(zhuǎn)錄過程中其精度可能低至 70%。
作為其工作的一部分,BigScience表示,它已經(jīng)制作了分布在世界各地的近200種語言資源的目錄。該項(xiàng)目的貢獻(xiàn)者還創(chuàng)建了最大的阿拉伯語公共自然語言目錄之一,稱為Masader,擁有200多個(gè)數(shù)據(jù)集。
結(jié)語
在商業(yè)應(yīng)用中,BIgScience 的工作很有可能會(huì)激發(fā)出原有 LLM 無法利用的全新 AI 驅(qū)動(dòng)產(chǎn)品。語言模型已成為醫(yī)療保健、金融服務(wù)等行業(yè)的關(guān)鍵工具,可用于處理專利、從科學(xué)論文中獲得見解,推薦新聞文章等。但是,規(guī)模較小的組織也越來越多地被排除在 AI 的前沿進(jìn)步之外。
在 John Snow Labs 與 Gradient Flow 在 2021 年的一項(xiàng)調(diào)查中,受訪企業(yè)普遍將準(zhǔn)確性列為語言模型評(píng)估中的重要要素,其次是生產(chǎn)就緒性和可擴(kuò)展性。最大的挑戰(zhàn)體現(xiàn)為成本、維護(hù)與數(shù)據(jù)共享。
盡管 LLM 有潛在的危害,仍然在基礎(chǔ)知識(shí)層面也仍然沒有找到可行的出路,經(jīng)常會(huì)自主打破語義規(guī)則并無休止地原地轉(zhuǎn)圈。例如,模型經(jīng)常會(huì)在沒有轉(zhuǎn)義的情況下改變對(duì)話主題,或者說出自相矛盾的言論。LLM 在道德、歷史和法律問題上的了解也堪稱淺薄,甚至?xí)跓o意間暴露出公共訓(xùn)練數(shù)據(jù)集中的個(gè)人信息。
Kiela 表示“在 Hugging Face 各研究團(tuán)隊(duì)的共同努力下,我們希望在 Meta 式的自下而上探索,與 DeepMind/OpenAI 式的自上而下研究之間找到完美的平衡點(diǎn)。在自下而上時(shí),我們往往會(huì)遇到不必要的摩擦、競爭與資源爭用問題。至于自上而下,研究人員的自由意志與創(chuàng)造力則會(huì)受到打壓。我們的員工來自谷歌、Meta 以及整個(gè)學(xué)術(shù)界,所以當(dāng)下正是最好的探索時(shí)機(jī)。我們希望創(chuàng)造出一種新的開創(chuàng)性研究環(huán)境,給傳統(tǒng)實(shí)驗(yàn)思維帶來一點(diǎn)有益的啟發(fā)和補(bǔ)充?!?/p>
原文鏈接:
https://venturebeat.com/2022/01/10/inside-bigscience-the-quest-to-build-a-powerful-open-language-model/
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。