在线看毛片网站电影-亚洲国产欧美日韩精品一区二区三区,国产欧美乱夫不卡无乱码,国产精品欧美久久久天天影视,精品一区二区三区视频在线观看,亚洲国产精品人成乱码天天看,日韩久久久一区,91精品国产91免费

<menu id="6qfwx"><li id="6qfwx"></li></menu>
    1. <menu id="6qfwx"><dl id="6qfwx"></dl></menu>

      <label id="6qfwx"><ol id="6qfwx"></ol></label><menu id="6qfwx"></menu><object id="6qfwx"><strike id="6qfwx"><noscript id="6qfwx"></noscript></strike></object>
        1. <center id="6qfwx"><dl id="6qfwx"></dl></center>

            博客專欄

            EEPW首頁(yè) > 博客 > 港中文團(tuán)隊(duì)提出大模型元推理范式,助力判斷大模型的真實(shí)能力,革新大模型的評(píng)價(jià)體系

            港中文團(tuán)隊(duì)提出大模型元推理范式,助力判斷大模型的真實(shí)能力,革新大模型的評(píng)價(jià)體系

            發(fā)布人:深科技 時(shí)間:2024-03-03 來(lái)源:工程師 發(fā)布文章

            曾忠燊,是一名潮汕人。其本科和碩士分別畢業(yè)于美國(guó)伊利諾伊大學(xué)和美國(guó)佐治亞理工學(xué)院。在本科畢業(yè)和碩士畢業(yè)之后,他曾先后在 IBM-Research 和深圳 IDEA 研究院工作過一段時(shí)間。

            在 ChatGPT 面世以后,他意識(shí)到針對(duì)大模型的研究范式存在一定的不足,于是決定來(lái)到香港中文大學(xué)讀博。

            圖片

            圖 | 曾忠燊(來(lái)源:曾忠燊)

            前不久,曾忠燊和所在團(tuán)隊(duì)提出一個(gè)全新評(píng)測(cè)范式?;谶@一評(píng)測(cè)范式,他們又針對(duì)現(xiàn)有數(shù)據(jù)集,提出了一種改造方法。

            實(shí)驗(yàn)證明,這種方法能有效區(qū)分不同模型的能力差異。同時(shí),他們還揭示了這種全新評(píng)測(cè)范式對(duì)于當(dāng)前數(shù)據(jù)污染的魯棒性。

            此前,由于訓(xùn)練數(shù)據(jù)的不透明,人們無(wú)法得知大模型在一些榜單上的成績(jī)提升,是否是數(shù)據(jù)污染和題目泄露所帶來(lái)的。

            而本次提出的全新評(píng)測(cè)范式,對(duì)于“背題”式的成績(jī)提高有著極強(qiáng)的抵御能力。憑借這種抵御能力,就能對(duì)絕大部分的數(shù)據(jù)集進(jìn)行“舊改”。

            同時(shí),這種全新的評(píng)測(cè)方式不僅可以揭示大模型的能力差異,也能給下游應(yīng)用帶來(lái)一定啟示。

            日前,相關(guān)論文以《大型語(yǔ)言模型評(píng)價(jià)中的元推理革命》(MR-GSM8K: A Meta-Reasoning Revolution in Large Language Model Evaluation)為題發(fā)在 arXiv,曾忠燊是第一作者,香港中文大學(xué)教授賈佳亞擔(dān)任通訊作者 [1]。

            圖片

            圖 | 相關(guān)論文(來(lái)源:arXiv

            圖片

            大模型也在依靠“題海戰(zhàn)術(shù)”?

            “背題”“題海戰(zhàn)術(shù)”,是許多人在讀書時(shí)代都曾使用過的學(xué)習(xí)方式。然而,你可知道大模型其實(shí)也在使用這兩種學(xué)習(xí)方式?此外,當(dāng)前大模型的能力邊界到底在哪里?

            從推理和認(rèn)知這兩個(gè)能力維度出發(fā),當(dāng)一篇論文稱大模型在一個(gè)評(píng)測(cè)指標(biāo)上取得超出人類水平的結(jié)果時(shí),我們是否應(yīng)該感到恐慌?

            還是仔細(xì)審視在制定指標(biāo)時(shí)是否忽略了什么因素,以至于大模型的認(rèn)知能力被夸大了?

            事實(shí)上,對(duì)于指標(biāo)的設(shè)計(jì)意義思考不足,起碼會(huì)帶來(lái)以下幾個(gè)潛在危害:

            其一,評(píng)測(cè)結(jié)果能否真實(shí)反映大模型的能力?如果對(duì)此認(rèn)識(shí)不足,往往會(huì)過分夸大模型的效果。

            其二,會(huì)讓人以為指標(biāo)的提升,等價(jià)于大模型能力的提升、以及等價(jià)于真實(shí)場(chǎng)景的效果和實(shí)用性提升,導(dǎo)致盲目追逐和攀比榜單效果,陷入惡性循環(huán)。

            其三,過分關(guān)注和比較在細(xì)分場(chǎng)景上的表現(xiàn),忽視了大模型整體認(rèn)知能力的提升。

            當(dāng)前,面向大模型推理能力和認(rèn)知能力的評(píng)測(cè)集,主要依賴一些標(biāo)準(zhǔn)化考試的試題、或一些精心設(shè)計(jì)的規(guī)則類游戲。

            這些評(píng)測(cè)集的設(shè)計(jì)初衷,很大程度上是設(shè)計(jì)者認(rèn)為求解這類推理類任務(wù)所需要的模式識(shí)別、記憶召回、分析假設(shè)、歸納演繹等能力,是一種處理所有任務(wù)都需要的“元”能力,并認(rèn)為這類能力對(duì)于大模型在現(xiàn)實(shí)場(chǎng)景中的泛化和魯棒是至關(guān)重要的。

            但是,具體到設(shè)計(jì)這些任務(wù)的評(píng)測(cè)方式時(shí),這些評(píng)測(cè)集往往僅僅依賴于對(duì)最終計(jì)算結(jié)果的簡(jiǎn)單匹配,而忽略了對(duì)于計(jì)算過程的認(rèn)知檢測(cè)。

            由此可見,這種目標(biāo)和實(shí)現(xiàn)方式的背離,在很大程度上加劇了大模型評(píng)測(cè)領(lǐng)域的種種亂象。

            舉個(gè)例子,在圖像識(shí)別里有一個(gè)著名的“走捷徑”案例,它指的是在對(duì)狼和雪狼進(jìn)行分類時(shí),大模型學(xué)習(xí)到的規(guī)律是識(shí)別背景是否存在積雪,而不是識(shí)別兩種動(dòng)物的生理特征區(qū)別。

            而在認(rèn)知推理類的數(shù)據(jù)集上也存在著類似現(xiàn)象。面對(duì)一道數(shù)學(xué)題,假如要求大模型給出分步推理的“思維鏈”時(shí),大模型往往會(huì)混淆不同單位的量,比如將時(shí)速和公里數(shù)相乘相加,這說(shuō)明對(duì)于不同概念背后的物理意義,大模型存在認(rèn)識(shí)不足的問題。

            那么,如何更好地檢測(cè)大模型對(duì)于概念的認(rèn)知水平、以及檢測(cè)它的應(yīng)用泛化能力?

            以下圖為例,對(duì)于一個(gè)復(fù)雜的推理問題來(lái)說(shuō),假如從起點(diǎn)到終點(diǎn)有多種解答方式,而其中每一步的推理都能被看成是一個(gè)節(jié)點(diǎn),節(jié)點(diǎn)和節(jié)點(diǎn)之間組成了路徑。

            而在當(dāng)前的大模型訓(xùn)練范式中,往往只讓大模型看到少數(shù)幾條正確的解題路徑(青色或藍(lán)色),而忽視了錯(cuò)誤的路徑(橙色)。

            同樣地,在評(píng)測(cè)大模型的表現(xiàn)時(shí),人們只關(guān)注最終的推理路徑終點(diǎn)是否和標(biāo)準(zhǔn)答案一致,而忽視了推理過程中可能存在的錯(cuò)誤推理節(jié)點(diǎn)或錯(cuò)誤路徑。

            圖片

            (來(lái)源:arXiv

            舉例來(lái)說(shuō):

            在教育領(lǐng)域,如果 GPT4 在小學(xué)級(jí)別的數(shù)學(xué)題目上的評(píng)測(cè)準(zhǔn)確率只有四成,那么我們難免會(huì)對(duì) GPT4 的實(shí)用性產(chǎn)生懷疑。

            在咨詢領(lǐng)域,大模型的應(yīng)用場(chǎng)景高度依賴于對(duì)不同方案的推演、整體步驟的拆分、解析等能力。

            而當(dāng)今大模型在這些方面的能力缺失,難免讓人對(duì)其下游應(yīng)用的可靠性打上了問號(hào)。

            圖片

            讓大模型“從學(xué)生變?yōu)槔蠋煛?/span>

            基于此,曾忠燊和所在團(tuán)隊(duì)開展了本次研究。事實(shí)上,本次研究的靈感來(lái)源于一次比賽,此前曾忠燊參加了“粵港澳大灣區(qū)(黃埔)國(guó)際算法算例大賽”的分賽道“大語(yǔ)言模型綜合能力強(qiáng)化”。

            當(dāng)時(shí),他調(diào)研了一些關(guān)于大模型推理方向能力增強(qiáng)的論文,這些論文主要分為以下方向:第一個(gè)方向是同源數(shù)據(jù)增廣,第二個(gè)方向是使用反饋模型針對(duì)數(shù)據(jù)篩選、或針對(duì)大模型進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練。

            在他嘗試使用時(shí),卻發(fā)現(xiàn)這兩個(gè)方法均存在很大問題:

            第一,當(dāng)使用 ChatGPT 進(jìn)行數(shù)據(jù)增廣時(shí),ChatGPT 并不能真正地理解人們希望其生成的一些概念,在應(yīng)用這些概念造題和解題時(shí)常常會(huì)出現(xiàn)各種錯(cuò)誤,因此往往需要非常精細(xì)的程序設(shè)計(jì)和引導(dǎo)來(lái)提升準(zhǔn)確率。

            第二,仔細(xì)研究反饋模型的作用后,曾忠燊認(rèn)為要求一個(gè)反饋模型對(duì)推理數(shù)據(jù)進(jìn)行篩選時(shí),實(shí)質(zhì)上等價(jià)于要求其進(jìn)行“元推理”。

            這一難度甚至高于直接解題,原因在于為了提升解題效果引入更難的評(píng)判解題任務(wù),似乎會(huì)把一個(gè)問題轉(zhuǎn)為另一個(gè)更難的問題。

            意識(shí)到這一問題之后,他和所在團(tuán)隊(duì)研發(fā)了元推理范式,并將其用于一些常見數(shù)據(jù)集之上。

            結(jié)果發(fā)現(xiàn)無(wú)論是開源大模型還是閉源大模型,它們的表現(xiàn)都開始出現(xiàn)急劇下降,尤其是開源的垂類推理大模型甚至降到了不足百分之一的準(zhǔn)確率。

            因此,他和同事呼吁將大模型認(rèn)知推理的檢測(cè)重點(diǎn),從最終的計(jì)算結(jié)果匹配,轉(zhuǎn)移到對(duì)于計(jì)算過程的檢測(cè)。

            具體做法是:先從解題空間里采樣一些給定的推理路徑,然后讓大模型進(jìn)行評(píng)判。評(píng)判的內(nèi)容包括:推理路徑是否正確?錯(cuò)誤節(jié)點(diǎn)和錯(cuò)誤步驟在哪里?錯(cuò)誤原因是什么?

            這種評(píng)測(cè)范式的轉(zhuǎn)變,意味著對(duì)于整個(gè)解題空間,大模型都必須具備全局和宏觀的理解,做到知其然也要知其所以然。

            詳細(xì)來(lái)說(shuō),大模型需要做到如下幾方面:

            其一,需要知道推理的最終結(jié)果和節(jié)點(diǎn)是什么;

            其二,需要對(duì)每一步推理節(jié)點(diǎn)的條件和前提進(jìn)行審視性評(píng)判,并對(duì)節(jié)點(diǎn)和節(jié)點(diǎn)間的邏輯連接進(jìn)行思考,以便判斷當(dāng)前步驟是否出錯(cuò);

            其三,需要能夠代入不同假設(shè),或反事實(shí)地(counterfactually)針對(duì)未來(lái)的推理路徑進(jìn)行預(yù)演和分析,從而判斷這一答案是否在正確的推理路徑上。

            這些需求將迫使大模型從一個(gè)答題者的角度,上升到一個(gè)教師的高度進(jìn)行全局審視和全局推理。對(duì)于這種“對(duì)推理過程的推理”,該團(tuán)隊(duì)將其稱之為“元推理”評(píng)測(cè)范式。

            圖片

            (來(lái)源:arXiv

            如上圖所示,當(dāng)他們把元推理范式應(yīng)用到一個(gè)流行的數(shù)學(xué)評(píng)測(cè)集 GSM8k 上時(shí),GPT4 的表現(xiàn)驟降一半以上,而 GPT3.5 的準(zhǔn)確率則由 80% 以上驟降到個(gè)位數(shù)。

            這說(shuō)明在同一個(gè)數(shù)據(jù)集上經(jīng)過簡(jiǎn)單的元推理范式轉(zhuǎn)換后,模型能力會(huì)出現(xiàn)巨大差別。值得注意的是在范式轉(zhuǎn)換之后,大模型的能力差異出現(xiàn)了更大的分化。

            同樣在 GSM8K 上取得領(lǐng)先效果的開源模型比如 Mammoth、WizardMath、MetaMath 等模型,它們的訓(xùn)練方法是這樣的:針對(duì)該數(shù)據(jù)集的數(shù)據(jù)進(jìn)行大量的同源增廣,以讓效果接近 GPT3.5。

            遺憾的是,當(dāng)課題組對(duì)其進(jìn)行范式轉(zhuǎn)換之后,開源的數(shù)學(xué)大模型效果,由原本的接近 GPT3.5、變成遠(yuǎn)遜于 GPT3.5。

            這可能也表明當(dāng)前流行的簡(jiǎn)單數(shù)據(jù)增強(qiáng)的方法,更接近于“背題”或“題海戰(zhàn)術(shù)”,并不能真正地提升大模型的實(shí)際能力。

            而作為一種通用評(píng)測(cè)范式,曾忠燊等人提出的元推理范式,能被推廣到更多評(píng)測(cè)場(chǎng)景。

            此外,本次研究中的標(biāo)注難度遠(yuǎn)遠(yuǎn)超出預(yù)期。研究期間,他們針對(duì)小初級(jí)別的數(shù)學(xué)數(shù)據(jù)集 GSM8K,進(jìn)行了元推理范式的改造。

            這一改造方式要求標(biāo)注人員針對(duì)數(shù)據(jù)集進(jìn)行類似的元推理,并將元推理結(jié)果記錄成評(píng)測(cè)集。

            雖然僅僅是小初級(jí)別的題目,但他們發(fā)現(xiàn)從讀題、讀標(biāo)準(zhǔn)答案、再到讀采樣出的待評(píng)測(cè)答案,必須針對(duì)每一步進(jìn)行細(xì)致的分析和推理。

            而由于耗時(shí)較久,單位標(biāo)注價(jià)格也就更高;同時(shí)因?yàn)殡y度高,對(duì)于標(biāo)注人員的資質(zhì)要求也高。

            曾忠燊說(shuō):“我在看到報(bào)價(jià)的時(shí)候,突然想起 OpenAI 有一個(gè)論文是對(duì)數(shù)學(xué)奧林匹克競(jìng)賽的題目和解題過程進(jìn)行標(biāo)注,以進(jìn)行強(qiáng)化學(xué)習(xí)的訓(xùn)練。OpenAI 標(biāo)注的性質(zhì)和內(nèi)容,和我們存在部分相似的地方?!?/span>

            在 OpenAI 那份名為 PRM800K 的數(shù)據(jù)集里,包含了 80 萬(wàn)道標(biāo)注題目。保守估計(jì)一道題的標(biāo)注成本是 10 美元,那么 OpenAI 數(shù)據(jù)集的價(jià)格是 800 萬(wàn)美元。而 OpenAI 那篇論文并沒有催生特別直接的落地成果,也沒有帶來(lái)實(shí)用效果上的巨大提升。

            “在真正了解標(biāo)注的昂貴和難處后,不禁感慨 OpenAI 的財(cái)大氣粗和對(duì)失敗的容忍?!痹覠稣f(shuō)。

            另?yè)?jù)悉,OpenAI 的創(chuàng)始人之一伊利亞·蘇茨凱弗(Ilya Sutskever)在一次采訪時(shí)被問到:“如果通用人工智能實(shí)現(xiàn)后他會(huì)選擇做什么?”伊利亞回答說(shuō):“或許我會(huì)主動(dòng)融入 AI(be part of AI)?!?/span>

            閱讀到上述采訪報(bào)道時(shí),當(dāng)時(shí)曾忠燊并未明白什么叫融入 AI??呻S著本次工作的不斷推進(jìn),他隱約覺得 AI 要在認(rèn)知上和人類貼合,可能很大程度上要依賴于人類不斷提供豐富的反饋信號(hào)。

            “這或許也是一種融入 AI 的方式吧?一種類似于干將莫邪以身殉劍的神話浪漫感?!痹覠稣f(shuō)。

            而在未來(lái),他和所在團(tuán)隊(duì)致力于打造一個(gè)更全面、更多元的評(píng)測(cè)體系。目前,他們已經(jīng)聯(lián)系多家國(guó)內(nèi)頭部的標(biāo)注公司,目標(biāo)場(chǎng)景包括學(xué)科類、邏輯類、具身類和應(yīng)用類等四個(gè)方向的元推理場(chǎng)景構(gòu)筑。

            參考資料:1.https://arxiv.org/abs/2312.17080
            排版:羅以


            *博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。



            關(guān)鍵詞: 大模型

            相關(guān)推薦

            技術(shù)專區(qū)

            關(guān)閉