在线看毛片网站电影-亚洲国产欧美日韩精品一区二区三区,国产欧美乱夫不卡无乱码,国产精品欧美久久久天天影视,精品一区二区三区视频在线观看,亚洲国产精品人成乱码天天看,日韩久久久一区,91精品国产91免费

<menu id="6qfwx"><li id="6qfwx"></li></menu>
    1. <menu id="6qfwx"><dl id="6qfwx"></dl></menu>

      <label id="6qfwx"><ol id="6qfwx"></ol></label><menu id="6qfwx"></menu><object id="6qfwx"><strike id="6qfwx"><noscript id="6qfwx"></noscript></strike></object>
        1. <center id="6qfwx"><dl id="6qfwx"></dl></center>

            博客專(zhuān)欄

            EEPW首頁(yè) > 博客 > 百模大戰(zhàn),誰(shuí)是大模型的裁判員?

            百模大戰(zhàn),誰(shuí)是大模型的裁判員?

            發(fā)布人:AI科技大本營(yíng) 時(shí)間:2023-08-03 來(lái)源:工程師 發(fā)布文章

            定義了樹(shù)-鄰接語(yǔ)法(TAG)的阿拉文德·喬西(Aravind Joshi)教授,曾提出過(guò)“如果沒(méi)有基準(zhǔn)來(lái)評(píng)估模型,就像不造望遠(yuǎn)鏡的天文學(xué)家想看星星?!?/strong>

            截至目前,國(guó)內(nèi)外已有數(shù)百種大模型出世,但無(wú)論何種大模型,在亮相階段,無(wú)一例外地都在強(qiáng)調(diào)自身的參數(shù)量,以及在各個(gè)評(píng)測(cè)基準(zhǔn)上的評(píng)分。

            比如,前不久Meta剛宣布開(kāi)源并支持商用的Llama2,就明確使用MMLU、TriviaQA、Natural Questions、GSM8K、HumanEval、BoolQ、HellaSwag、OpenBookQA、QuAC、Winogrande等多類(lèi)數(shù)據(jù)集進(jìn)行評(píng)測(cè)。OpenAI則在GPT-4的報(bào)告GPT-4 Technical Report中,詳細(xì)展示了在各類(lèi)型考試中的成績(jī),以及在MMLU、HellaSwag、ARC、WinoGrande、HumanEval、DROP等學(xué)術(shù)基準(zhǔn)中的表現(xiàn)。

            圖片GPT-4 各類(lèi)基準(zhǔn)測(cè)試對(duì)比(來(lái)源:GPT-4 Technical Report

            因?yàn)楦鱾€(gè)模型的基座、技術(shù)路徑都不盡相同,所以參數(shù)量和評(píng)測(cè)基準(zhǔn)的評(píng)分這兩類(lèi)指標(biāo)相對(duì)直觀,這也使得模型評(píng)測(cè)基準(zhǔn)已經(jīng)成為了業(yè)內(nèi)衡量模型各方面性能的工具。


            圖片

            大模型評(píng)測(cè)基準(zhǔn)演進(jìn)之路

            在規(guī)范化的模型評(píng)測(cè)基準(zhǔn)出現(xiàn)以前,模型多數(shù)使用SQuAD、Natural Questions這類(lèi)問(wèn)答數(shù)據(jù)集來(lái)檢驗(yàn)?zāi)P托Ч?,之后衍生出了多任?wù)、系列任務(wù)的評(píng)測(cè)基準(zhǔn),來(lái)進(jìn)行更復(fù)雜、全面的評(píng)測(cè)。

            自GLUE作為最早明確、規(guī)范的大語(yǔ)言模型評(píng)測(cè)基準(zhǔn)發(fā)布以來(lái),在大語(yǔ)言模型評(píng)測(cè)基準(zhǔn)的議題上,主要分為幾條評(píng)測(cè)路徑:

            一是以GLUE為代表,通過(guò)評(píng)估模型在自然語(yǔ)言推斷、文本蘊(yùn)含、情感分析、語(yǔ)義相似等NLU(自然語(yǔ)言理解)靜態(tài)任務(wù)上的表現(xiàn)。

            二是以MMLU、AGIEval為代表,通過(guò)收集真實(shí)世界中的書(shū)籍、考試等資料,形成選擇題、問(wèn)答題等任務(wù)。例如MMLU向大模型提出多選問(wèn)答任務(wù),涵蓋57個(gè)領(lǐng)域知識(shí),包括STEM、人文社科等學(xué)科,目的是考察大模型在多樣性、高級(jí)知識(shí)任務(wù)上的推理能力的表現(xiàn)。

            三是以HELM為代表,這類(lèi)基準(zhǔn)著重場(chǎng)景劃分,評(píng)測(cè)各種場(chǎng)景下的模型表現(xiàn)。例如HELM提出了16個(gè)場(chǎng)景,并結(jié)合7個(gè)指標(biāo)進(jìn)行細(xì)粒度測(cè)量,進(jìn)一步加強(qiáng)了大語(yǔ)言模型的透明度。除了評(píng)測(cè)基準(zhǔn),近年還涌現(xiàn)了多個(gè)垂直知識(shí)領(lǐng)域的評(píng)測(cè)基準(zhǔn)。

            除此以外,還有進(jìn)一步細(xì)分的文本任務(wù)、多語(yǔ)言評(píng)測(cè)基準(zhǔn)、安全評(píng)測(cè)基準(zhǔn)等評(píng)測(cè)路徑。也有為了直觀地展現(xiàn)模型效果,讓人類(lèi)參與評(píng)測(cè),出現(xiàn)了Chatbot Arena這類(lèi)基于Elo評(píng)分系統(tǒng)的工具,在國(guó)內(nèi)也有SuperClue瑯琊榜提供類(lèi)似服務(wù)。

            近期由吉林大學(xué)、微軟研究院、中國(guó)科學(xué)院自動(dòng)化所等機(jī)構(gòu)發(fā)布的論文 A Survey on Evaluation of Large Language Modelshttps://arxiv.org/abs/2307.03109中,羅列了全球主要的大模型評(píng)測(cè)基準(zhǔn)。

            圖片來(lái)源:A Survey on Evaluation of Large Language Models

            中文世界同樣需要適應(yīng)中文語(yǔ)言類(lèi)型的基準(zhǔn)大模型,所以近期在國(guó)內(nèi)也陸續(xù)涌現(xiàn)了多個(gè)中文大模型評(píng)測(cè)基準(zhǔn),這些模型基準(zhǔn)基本對(duì)標(biāo)傳統(tǒng)模型基準(zhǔn)技術(shù)路徑,進(jìn)行了針對(duì)中文大模型評(píng)測(cè)基準(zhǔn)的改進(jìn)和優(yōu)化。

            不少中文大模型已經(jīng)經(jīng)歷了多個(gè)版本的迭代,衍生出完整的測(cè)評(píng)矩陣,有些計(jì)劃上線更豐富的產(chǎn)品,形成一站式測(cè)評(píng)平臺(tái)。

            CSDN收錄中文大模型基準(zhǔn)產(chǎn)品(部分)

            項(xiàng)目名稱(chēng)
            團(tuán)隊(duì)
            特點(diǎn)

            C-Eval

            上海交通大學(xué)

            清華大學(xué)

            愛(ài)丁堡大學(xué)等

            覆蓋人文,社科,理工,其他專(zhuān)業(yè)四個(gè)大方向,52 個(gè)學(xué)科共 13948 道題目的中文知識(shí)和推理型測(cè)試集

            CMMLU

            MBZUAI

            上海交通大學(xué)

            微軟亞洲研究院等

            涵蓋了從基礎(chǔ)學(xué)科到高級(jí)專(zhuān)業(yè)水平的67個(gè)學(xué)科,每個(gè)學(xué)科至少有105個(gè)問(wèn)題,11528個(gè)問(wèn)題


            CLUE

            CLUE團(tuán)隊(duì)

            提供多種類(lèi)型的評(píng)測(cè)基準(zhǔn)模型、數(shù)據(jù)集、排行榜、Elo評(píng)分工具等

            FlagEval

            智源

            20+ 個(gè)主客觀評(píng)測(cè)數(shù)據(jù)集,涵蓋了公開(kāi)數(shù)據(jù)集 HellaSwag、MMLU、C-Eval ,智源自建的主觀評(píng)測(cè)數(shù)據(jù)集CCLC


            OpenCompass

            OpenMMlab

            大模型評(píng)測(cè)一站式平臺(tái),提供 50+ 個(gè)數(shù)據(jù)集約 30 萬(wàn)題的的模型評(píng)測(cè)方案

            KoLA

            清華大學(xué)團(tuán)隊(duì)

            基于維基百科和近90天的新聞與小說(shuō)作為數(shù)據(jù)集,從知識(shí)記憶、知識(shí)理解、知識(shí)應(yīng)用、知識(shí)創(chuàng)建四個(gè)維度,設(shè)計(jì)共119個(gè)任務(wù)


            PandaLM

            西湖大學(xué)

            北京大學(xué)等

            PandaLM的自動(dòng)化打分模型基于三位專(zhuān)業(yè)標(biāo)注員對(duì)不同大模型的輸出進(jìn)行獨(dú)立打分,并構(gòu)建了包含 50 個(gè)領(lǐng)域、1000 個(gè)樣本的多樣化測(cè)試集


            GAOKAO

            OpenLMLab

            收集了2010-2022年全國(guó)高考考題,其中包括1781道客觀題和1030道主觀題,評(píng)測(cè)分為兩部分,自動(dòng)化評(píng)測(cè)的客觀題部分和依賴(lài)于專(zhuān)家打分的主觀題部分,構(gòu)成了最終評(píng)分


            Xiezhi獬豸

            復(fù)旦大學(xué)

            肖仰華教授團(tuán)隊(duì)


            由 249587 道多項(xiàng)選擇題組成,涵蓋 516 個(gè)不同學(xué)科和四個(gè)難度級(jí)別


            國(guó)內(nèi)大模型梳理與評(píng)測(cè)基準(zhǔn)完整列表(持續(xù)更新)

            模型基準(zhǔn)的評(píng)分能否全面、客觀地展現(xiàn)模型能力,排行榜是否證明了模型之間的優(yōu)劣?

            CSDN了解到大部分大模型團(tuán)隊(duì)對(duì)于評(píng)測(cè)基準(zhǔn)較為重視,有受訪者向CSDN表示評(píng)測(cè)基準(zhǔn)給模型的調(diào)整方向提供了參考,團(tuán)隊(duì)可以通過(guò)模型在評(píng)測(cè)基準(zhǔn)中的表現(xiàn),對(duì)模型進(jìn)行優(yōu)化,同時(shí)能夠了解自身與其他模型之間的差距和差異,具有一定的借鑒意義。

            也有尚未進(jìn)行基準(zhǔn)評(píng)測(cè)的大模型團(tuán)隊(duì),其中有受訪團(tuán)隊(duì)提到,目前中文大模型評(píng)測(cè)基準(zhǔn)多是MMLU路徑,側(cè)重于考驗(yàn)?zāi)P偷闹R(shí)能力,但對(duì)于想要衡量模型性能,還存在一定的局限性。同時(shí)這類(lèi)基于考試、學(xué)術(shù)知識(shí)的數(shù)據(jù)集相對(duì)透明,易于獲得,也會(huì)影響評(píng)分、排行榜排名的客觀性。

            所以,雖然模型評(píng)測(cè)基準(zhǔn)是目前衡量模型性能的有效工具,但它們能否成為中文大模型競(jìng)賽中公正的裁判員,需要基準(zhǔn)本身也需要向全面、客觀、精準(zhǔn)方向繼續(xù)努力。根據(jù)當(dāng)下火熱的模型創(chuàng)業(yè)趨勢(shì),我們可以樂(lè)觀地預(yù)見(jiàn)無(wú)論是中文大模型,還是中文大模型評(píng)測(cè)基準(zhǔn),都將在未來(lái)維持不斷追趕的進(jìn)步趨勢(shì)與創(chuàng)新動(dòng)力。



            圖片

            百模格局已現(xiàn),后續(xù)如何發(fā)力?


            大模型步履不停,但方向是否走對(duì)了呢?

            根據(jù)CSDN的最新統(tǒng)計(jì),國(guó)內(nèi)已經(jīng)涌現(xiàn)出的各類(lèi)通用大模型過(guò)百家。群雄逐鹿中,通用大模型繼續(xù)堆資源,重點(diǎn)聚焦在參數(shù)量和推理能力的提升上,各個(gè)模型團(tuán)隊(duì)也在發(fā)力探索適合的技術(shù)演進(jìn)路徑。

            圖片

            大模型技術(shù)與應(yīng)用思考導(dǎo)圖(v20230428)

            王詠剛 SeedV實(shí)驗(yàn)室創(chuàng)始人/CEO


            智譜AI研發(fā)的ChatGLM、王小川領(lǐng)銜所做的Baichuan前后宣布開(kāi)源大模型,并免費(fèi)商用,期待鏈接更多場(chǎng)景挖掘價(jià)值,快速搭建生態(tài)。行業(yè)模型則在盡可能探索商業(yè)化場(chǎng)景,百姓AI創(chuàng)始人王建碩在播客節(jié)目中表示,他們經(jīng)過(guò)調(diào)研后明確了會(huì)務(wù)服務(wù)的測(cè)試場(chǎng)景。

            賈揚(yáng)清曾在播客節(jié)目中提及模型的保鮮期(shelf life)概念,他認(rèn)為從2012年AlexNet發(fā)布至今,在每個(gè)性能強(qiáng)勁的大模型發(fā)布后,只要六個(gè)月到一年左右時(shí)間,就會(huì)出現(xiàn)效果接近的模型。隨著更多優(yōu)質(zhì)的通用大模型逐漸開(kāi)源,模型間的技術(shù)壁壘有望進(jìn)一步消除。

            也有行業(yè)專(zhuān)家認(rèn)為,雖然近期大模型的熱情極為高漲,但大模型及其應(yīng)用的發(fā)展,取決于企業(yè)對(duì)模型部署成本與實(shí)際產(chǎn)生價(jià)值的衡量。

            我們常說(shuō)新技術(shù)總是在短期被高估,長(zhǎng)期被低估。大模型的熱度從去年延續(xù)至今,讓全社會(huì)矚目的技術(shù)創(chuàng)新也在不斷刷屏。隨著時(shí)間和技術(shù)的推進(jìn),大模型將不再是高深莫測(cè)的技術(shù)名詞。

            大模型的祛魅過(guò)程中,評(píng)測(cè)基準(zhǔn)必將是重要的一環(huán)。而建立更全面、客觀、準(zhǔn)確的評(píng)測(cè)體系,形成與大模型研究之間的良性互動(dòng),也將是從業(yè)者與評(píng)測(cè)基準(zhǔn)團(tuán)隊(duì)繼續(xù)探索的方向。



            *博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。



            關(guān)鍵詞: AI

            相關(guān)推薦

            技術(shù)專(zhuān)區(qū)

            關(guān)閉