在线看毛片网站电影-亚洲国产欧美日韩精品一区二区三区,国产欧美乱夫不卡无乱码,国产精品欧美久久久天天影视,精品一区二区三区视频在线观看,亚洲国产精品人成乱码天天看,日韩久久久一区,91精品国产91免费

<menu id="6qfwx"><li id="6qfwx"></li></menu>
    1. <menu id="6qfwx"><dl id="6qfwx"></dl></menu>

      <label id="6qfwx"><ol id="6qfwx"></ol></label><menu id="6qfwx"></menu><object id="6qfwx"><strike id="6qfwx"><noscript id="6qfwx"></noscript></strike></object>
        1. <center id="6qfwx"><dl id="6qfwx"></dl></center>

            博客專(zhuān)欄

            EEPW首頁(yè) > 博客 > 國(guó)內(nèi)首個(gè)可復(fù)現(xiàn)的RLHF基準(zhǔn),北大團(tuán)隊(duì)開(kāi)源 PKU-Beaver(1)

            國(guó)內(nèi)首個(gè)可復(fù)現(xiàn)的RLHF基準(zhǔn),北大團(tuán)隊(duì)開(kāi)源 PKU-Beaver(1)

            發(fā)布人:機(jī)器之心 時(shí)間:2023-05-20 來(lái)源:工程師 發(fā)布文章

            如今,大語(yǔ)言模型如 ChatGPT 已在人們的生產(chǎn)生活中產(chǎn)生廣泛影響。作為訓(xùn)練大語(yǔ)言模型的關(guān)鍵步驟,RLHF(Reinforcement Learning from Human Feedback)是一種利用強(qiáng)化學(xué)習(xí)方法從人類(lèi)反饋中學(xué)習(xí)的技術(shù)。借助 RLHF 技術(shù),大語(yǔ)言模型可與人類(lèi)偏好保持對(duì)齊并遵循人類(lèi)意圖,滿(mǎn)足 “有幫助的”、“誠(chéng)實(shí)的” 和 “無(wú)害的” 的 3H(Helpful, Honest, Harmless)標(biāo)準(zhǔn)。然而,當(dāng)前開(kāi)源社區(qū)中復(fù)現(xiàn) RLHF 技術(shù)仍具有較大挑戰(zhàn)性,相關(guān)研究逐漸走向封閉。尚未有團(tuán)隊(duì)公開(kāi)復(fù)現(xiàn) RLHF 所需的數(shù)據(jù)、代碼基準(zhǔn)和驗(yàn)證流程,這極大地阻礙了 RLHF 科研的發(fā)展。


            另一方面,盡管大語(yǔ)言模型的巨大成功得益于 RLHF 技術(shù),但同時(shí)也面臨著該技術(shù)帶來(lái)的諸多問(wèn)題。在 RLHF 中,標(biāo)注員對(duì)大語(yǔ)言模型產(chǎn)生的回答進(jìn)行偏好性打分,通過(guò)這些打分形成的偏序關(guān)系來(lái)訓(xùn)練模型。然而,由于人們的價(jià)值觀、世界觀存在差異,以及每個(gè)人所處地域文化、語(yǔ)言、習(xí)俗的不同,這些差異在標(biāo)注過(guò)程中可能產(chǎn)生偏見(jiàn)和歧視性數(shù)據(jù),導(dǎo)致目前依賴(lài) RLHF 技術(shù)取得巨大成功的大語(yǔ)言模型也存在潛在的不安全問(wèn)題。


            為解決上述兩個(gè)難題,北京大學(xué)團(tuán)隊(duì)開(kāi)源了名為 PKU-Beaver(河貍)項(xiàng)目,其開(kāi)源地址為:https://github.com/PKU-Alignment/safe-rlhf。


            圖片


            該項(xiàng)目首次公開(kāi)了 RLHF 所需的數(shù)據(jù)集、訓(xùn)練和驗(yàn)證代碼,是目前首個(gè)開(kāi)源的可復(fù)現(xiàn)的 RLHF 基準(zhǔn)。同時(shí),為解決人類(lèi)標(biāo)注產(chǎn)生的偏見(jiàn)和歧視等不安全因素,北京大學(xué)團(tuán)隊(duì)首次提出了帶有約束的價(jià)值對(duì)齊技術(shù) CVA(Constrained Value Alignment)。該技術(shù)通過(guò)對(duì)標(biāo)注信息進(jìn)行細(xì)粒度劃分,并結(jié)合帶約束的安全強(qiáng)化學(xué)習(xí)方法,顯著降低了模型的偏見(jiàn)和歧視,提高了模型的安全性。Beaver 使用 GPT4 進(jìn)行 Evaluation,結(jié)果表明,在原有性能保持不變的情況下,Beaver 回復(fù)的安全性大幅度提升。


            Why “Beaver”


            河貍被譽(yù)為 “自然界的水壩工程師”,它們善于利用樹(shù)枝、灌木、石頭、泥土等材料修建水壩和小木屋,創(chuàng)造出適宜其他生物居住的濕地環(huán)境,成為生態(tài)系統(tǒng)中不可或缺的一環(huán)。為了保障大語(yǔ)言模型(LLM)的安全性和可靠性,同時(shí)適應(yīng)不同人群廣泛的價(jià)值觀,北京大學(xué)團(tuán)隊(duì)將本次開(kāi)源的模型命名為 Beaver(河貍),旨在通過(guò)約束的價(jià)值對(duì)齊技術(shù) CVA 為 LLM 筑起一道堤壩。這一技術(shù)可以對(duì)標(biāo)注信息進(jìn)行細(xì)粒度劃分,并結(jié)合安全強(qiáng)化學(xué)習(xí)的方法,顯著減少模型的偏見(jiàn)和歧視,從而提高模型的安全性。類(lèi)比河貍在生態(tài)系統(tǒng)中的作用,Beaver 模型將為大語(yǔ)言模型的發(fā)展提供重要的保障,為人工智能技術(shù)的可持續(xù)發(fā)展做出積極貢獻(xiàn)。


            本次開(kāi)源的內(nèi)容包括:


            一、數(shù)據(jù)集與模型:PKU-SafeRLHF


            1. 開(kāi)源迄今為止最大的多輪 RLHF 數(shù)據(jù)集,規(guī)模達(dá)到 100 萬(wàn)條。

            2. 開(kāi)源經(jīng) Safe-RLHF 對(duì)齊訓(xùn)練得到的 7B 參數(shù)的語(yǔ)言模型 ——Beaver,并支持在線部署。

            3. 開(kāi)源了預(yù)訓(xùn)練的 Reward Model 和 Cost Model 的模型和參數(shù)。


            二、首個(gè)可復(fù)現(xiàn)的 RLHF 基準(zhǔn),PKU-Alignment/safe-rlhf 支持以下功能:


            1. 支持 LLM 模型的 SFT(Supervised Fine-Tuning)、RLHF 訓(xùn)練、Safe RLHF 訓(xùn)練。支持目前主流的預(yù)訓(xùn)練模型如 LLaMA、OPT 等模型的訓(xùn)練。

            2. 支持 Reward Model 和 Cost Model 訓(xùn)練。

            3. 提供安全約束滿(mǎn)足的多尺度驗(yàn)證方式,支持 BIG-bench、GPT-4 Evaluation 等。

            4. 支持參數(shù)定制化的 RLHF 和數(shù)據(jù)集定制接口。


            SafeRLHF 與 DeepSpeed-Chat、trlX 等框架的比較


            與 DeepSpeed-Chat、trlX 等框架相比,SafeRLHF 是國(guó)內(nèi)首個(gè)可復(fù)現(xiàn)的 RLHF 基準(zhǔn)。自 LLaMA 模型開(kāi)源以來(lái),開(kāi)源社區(qū)涌現(xiàn)出許多大型開(kāi)源模型。然而,由于缺乏高質(zhì)量人類(lèi)偏好數(shù)據(jù)集和強(qiáng)化學(xué)習(xí)(RL)領(lǐng)域積累不足等限制,大部分機(jī)構(gòu)開(kāi)源的大型模型通常僅限于監(jiān)督微調(diào)(SFT)階段,很少?lài)L試運(yùn)用 RLHF 技術(shù)。Safe-RLHF 不僅提供高質(zhì)量代碼庫(kù),還額外公開(kāi)了 RLHF 所需的多輪數(shù)據(jù),旨在幫助高校和企業(yè)充分研究 RLHF 技術(shù)。此外,Safe-RLHF 將安全強(qiáng)化學(xué)習(xí)(Safe RL)技術(shù)引入 RLHF 訓(xùn)練中,為大型模型的訓(xùn)練和對(duì)齊提供了新的研究范式。


            圖片


            圖片


            Safe RLHF vs. RLAIF (Constitutional AI、Self-Align)


            目前,實(shí)現(xiàn)對(duì)齊技術(shù)的方法主要有以下三種:


            1. 在 LLM 預(yù)訓(xùn)練階段,通過(guò)人工篩選和數(shù)據(jù)清洗,獲取更高質(zhì)量的數(shù)據(jù)。

            2. 在微調(diào)(SFT 和 RLHF)階段,增加更加多元且無(wú)害的用戶(hù)指令和人類(lèi)偏好模型進(jìn)行對(duì)齊。

            3. 在輸出階段使用獎(jiǎng)勵(lì)模型進(jìn)行 reject sampling,提高輸出質(zhì)量和安全性?;蛘咴谏暇€的產(chǎn)品中,直接基于一定規(guī)則進(jìn)行檢測(cè),拒絕回應(yīng)用戶(hù)的輸入。


            然而,這些方法各自存在一些缺陷。第一種方法只能解決部分安全問(wèn)題,需要大量人力和財(cái)力來(lái)獲得高質(zhì)量的數(shù)據(jù)。第二種方法,由于人們的價(jià)值觀存在差異和普遍存在的歧視和偏見(jiàn),RLHF 后的大型語(yǔ)言模型仍存在歧視和偏見(jiàn)問(wèn)題。第三種方法雖然可以確保模型輸出的安全性,但也可能影響模型的幫助性。例如,嚴(yán)格的過(guò)濾機(jī)制可能會(huì)影響用戶(hù)獲得有用或有價(jià)值的答案。


            因此,引入安全約束并引導(dǎo) LLM 更符合道德和法律的價(jià)值觀,是更可靠的方式。然而,這需要我們克服現(xiàn)有技術(shù)和方法的局限性,并在 RLHF 中結(jié)合多種技術(shù)和方法,以實(shí)現(xiàn)更加全面的安全性約束。目前還有另一種技術(shù)路線被提及,即引入 AI 標(biāo)注來(lái)替代 RLHF 步驟中的人類(lèi)標(biāo)注,即 RLAIF。例如 GPT-4 使用的基于規(guī)則的獎(jiǎng)勵(lì)模型 (RBRM) 和利用 AI 進(jìn)行指正和修改生成內(nèi)容的 “Constitutional AI”(Bai et al., 2022)。然而,從作者的角度來(lái)看,這個(gè)方法有很多限制和缺點(diǎn),原因有三個(gè)方面。


            首先,當(dāng)前即使最先進(jìn)的大語(yǔ)言模型,例如 GPT-4 也不能完全避免歧視、偏見(jiàn)的不安全的輸出。并且在不同的地域文化、風(fēng)土人情的差異以及一些少數(shù)群體的敏感問(wèn)題中,大型語(yǔ)言模型也未必?fù)碛凶銐虻恼J(rèn)識(shí)。事實(shí)上,在實(shí)驗(yàn)過(guò)程中,筆者發(fā)現(xiàn) AI 打分模型會(huì)偏好大預(yù)言模型的輸出而非人類(lèi)的回答,這為 RLAIF 技術(shù)的可行性帶來(lái)了很大的挑戰(zhàn)。


            其次,現(xiàn)有公開(kāi)較強(qiáng)的可訪問(wèn)的大語(yǔ)言模型在安全對(duì)其之后,會(huì)經(jīng)常拒絕用戶(hù)關(guān)于可能導(dǎo)致不安全內(nèi)容的討論,這些 AI 模型無(wú)法對(duì)安全類(lèi)型問(wèn)題的標(biāo)準(zhǔn)提供有效幫助。

            再者,人類(lèi)偏好是一個(gè)相當(dāng)模糊的概念,很難用語(yǔ)言精確描述,例如如何定義 “冒犯” 等。使用 AI 進(jìn)行標(biāo)注,非常重要的一點(diǎn)是需要模型具有非常強(qiáng)大的邏輯推理能力。目前基于模型自標(biāo)注自對(duì)齊的方法一般需要模型根據(jù)上下文,基于精心設(shè)計(jì)的規(guī)則提示詞外加思維鏈 (CoT, Chain-of-Thought) 技術(shù)引導(dǎo)推理得出標(biāo)注結(jié)果。就目前大模型發(fā)展現(xiàn)狀來(lái)看,無(wú)論是開(kāi)源還是閉源的大語(yǔ)言模型,它們還無(wú)法完成稍微復(fù)雜一些的邏輯推理問(wèn)題。這一重要挑戰(zhàn)仍待解決。


            綜上,作者認(rèn)為 AI 的自標(biāo)注自對(duì)齊以及反思等機(jī)制可以作為人類(lèi)數(shù)據(jù)增廣的有效方式,是 RLHF 的有機(jī)補(bǔ)充。但如果只用 AI 生成的數(shù)據(jù),可能導(dǎo)致會(huì)逐漸偏離人類(lèi)社會(huì)的價(jià)值觀,可能帶來(lái)潛在的危險(xiǎn)后果。


            帶有約束的價(jià)值對(duì)齊技術(shù)


            圖片


            約束價(jià)值對(duì)齊技術(shù)的目標(biāo)是將強(qiáng)化學(xué)習(xí)(RL)智能體的意圖與安全行為模式對(duì)齊,這類(lèi)似于安全強(qiáng)化學(xué)習(xí)(Safe RL)。智能體通過(guò)從環(huán)境中獲得反饋來(lái)學(xué)習(xí)尋找最優(yōu)策略,同時(shí)滿(mǎn)足最小化意外傷害或不安全行為的風(fēng)險(xiǎn)要求。在 RLHF 階段,考慮將涉及偏見(jiàn)、歧視、隱私等有害或不誠(chéng)實(shí)的方面設(shè)計(jì)成代價(jià)函數(shù),同時(shí)將模型回答的質(zhì)量抽象成獎(jiǎng)勵(lì)函數(shù)。此外,還可以更細(xì)致地劃分人類(lèi)標(biāo)注數(shù)據(jù),以將大型語(yǔ)言模型對(duì)齊到符合道德和法律約束的價(jià)值觀中。用更簡(jiǎn)潔的數(shù)學(xué)描述,基于人類(lèi)反饋的強(qiáng)化學(xué)習(xí),其目標(biāo)是獎(jiǎng)勵(lì)最大化,


            圖片


            而約束價(jià)值對(duì)齊技術(shù)中則是帶約束的獎(jiǎng)勵(lì)最大化,即旨在滿(mǎn)足約束的前提下進(jìn)行獎(jiǎng)勵(lì)優(yōu)化:


            圖片


            其中 R(·) 和 C(·) 分別是獎(jiǎng)勵(lì)和代價(jià)函數(shù),它們可以是一些基于規(guī)則的函數(shù)或神經(jīng)網(wǎng)絡(luò)等。它們被認(rèn)為是人類(lèi)偏好的代理,其一般由人類(lèi)偏好數(shù)據(jù)集訓(xùn)練得來(lái)。


            圖片


            *博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。



            關(guān)鍵詞: AI

            相關(guān)推薦

            技術(shù)專(zhuān)區(qū)

            關(guān)閉