在线看毛片网站电影-亚洲国产欧美日韩精品一区二区三区,国产欧美乱夫不卡无乱码,国产精品欧美久久久天天影视,精品一区二区三区视频在线观看,亚洲国产精品人成乱码天天看,日韩久久久一区,91精品国产91免费

<menu id="6qfwx"><li id="6qfwx"></li></menu>
    1. <menu id="6qfwx"><dl id="6qfwx"></dl></menu>

      <label id="6qfwx"><ol id="6qfwx"></ol></label><menu id="6qfwx"></menu><object id="6qfwx"><strike id="6qfwx"><noscript id="6qfwx"></noscript></strike></object>
        1. <center id="6qfwx"><dl id="6qfwx"></dl></center>

            博客專(zhuān)欄

            EEPW首頁(yè) > 博客 > 獨(dú)家 | 使用檢索增強(qiáng)生成技術(shù)構(gòu)建特定行業(yè)的 LLM

            獨(dú)家 | 使用檢索增強(qiáng)生成技術(shù)構(gòu)建特定行業(yè)的 LLM

            發(fā)布人:數(shù)據(jù)派THU 時(shí)間:2023-08-21 來(lái)源:工程師 發(fā)布文章

            企業(yè)正在競(jìng)相采用大型語(yǔ)言模型(也可以被稱(chēng)為L(zhǎng)LM)。讓我們深入了解如何通過(guò)RAG(檢索增強(qiáng)生成技術(shù)) 構(gòu)建特定行業(yè)的大型語(yǔ)言模型。

            公司可以通過(guò)使用像ChatGPT 這樣的大語(yǔ)言明星提高生產(chǎn)力。但是試著問(wèn) ChatGPT "美國(guó)目前的通貨膨脹率是多少",它會(huì)給出答案:

            很抱歉造成您的困惑,作為一個(gè)人工智能語(yǔ)言模型,我不具備實(shí)時(shí)數(shù)據(jù)的瀏覽能力。我的回答是基于截至 2021 年 9 月的信息。因此,我無(wú)法為您提供美國(guó)當(dāng)前的通貨膨脹率。

            這是一個(gè)問(wèn)題。ChatGPT顯然缺少及時(shí)相關(guān)的背景信息,而這對(duì)于做出明智的決策至關(guān)重要。

            微軟如何解決這一問(wèn)題

            在微軟 Build 會(huì)議 "矢量搜索還不夠"(Vector Search Isn't Enough)中,他們介紹了自己的產(chǎn)品,該產(chǎn)品將上下文感知較弱的LLM 與矢量搜索結(jié)合起來(lái),以創(chuàng)造更有吸引力的體驗(yàn)。

            演講的出發(fā)點(diǎn)與本文相反—他們從彈性搜索(或矢量搜索)的角度出發(fā),認(rèn)為搜索本身是有限的,而添加LLM 層可以極大地改善搜索體驗(yàn)。

            其基本想法是,在LLM 中添加相關(guān)上下文可以極大地改善用戶(hù)體驗(yàn),尤其是在大多數(shù)商業(yè)案例中,因?yàn)長(zhǎng)LM 并沒(méi)有見(jiàn)過(guò)此類(lèi)數(shù)據(jù)。當(dāng)您擁有海量數(shù)據(jù),包括 100 多份(或更多)文檔時(shí), 矢量搜索有助于選擇相關(guān)上下文。

            矢量搜索 101

            圖片

            矢量搜索101 | Skanda Vivek

            矢量化是將數(shù)據(jù)轉(zhuǎn)換成多維向量。在上面的案例中,您可以看到2個(gè)維度:尺寸和類(lèi)型。尺寸有 2 種(小或大),類(lèi)型有 2 個(gè)種(樹(shù)或動(dòng)物)。這只是一個(gè)概念性的例子,當(dāng)然矢量化也可以擴(kuò)展到數(shù)百個(gè)維度(或更多值)。

            圖片

            句子的矢量搜索101 | Skanda Vivek

            您也可以用單詞或句子代替圖片來(lái)做同樣的事情。請(qǐng)注意,在上述示例中,矢量化能夠捕捉語(yǔ)義表征,即它知道關(guān)于一只鳥(niǎo)俯沖向一只花栗鼠寶寶的句子應(yīng)該位于(小鼠,動(dòng)物)象限,而關(guān)于昨天暴風(fēng)雨時(shí)一棵大樹(shù)倒在路上的句子應(yīng)該位于(大,樹(shù))象限。實(shí)際上,嵌入的維度不止 2 個(gè)--而是384個(gè)(句子或文本塊通過(guò)BERT 變換器,輸出 384個(gè)與384維相對(duì)應(yīng)的數(shù)字)

            矢量搜索 + LLM (RAG)

            矢量搜索現(xiàn)在在所有的搜索中都很普遍(谷歌、必應(yīng),以及您最喜歡的搜索引擎)。想一想,如果您的整個(gè)搜索數(shù)據(jù)庫(kù)中只有這4 個(gè)文檔,您可以問(wèn)這樣一個(gè)問(wèn)題:"請(qǐng)告訴我關(guān)于一棵大樹(shù)的事情。您可以問(wèn)這樣一個(gè)問(wèn)題:"請(qǐng)告訴我關(guān)于一棵大樹(shù)的事情"。

            那么輸出為:

            在昨天的暴風(fēng)雨中,一棵大樹(shù)倒在路上。

            只是數(shù)據(jù)庫(kù)中最相關(guān)的文檔。但如果您向LLM提出同樣的問(wèn)題(并在最后添加 4 個(gè) "文檔"),您將得到以下結(jié)果:

            (本例中為ChatGPT):

            大樹(shù)通常是一種高聳的大型植物,具有粗壯的樹(shù)干、樹(shù)枝和廣泛的根系網(wǎng)絡(luò)。這些樹(shù)木可以達(dá)到令人印象深刻的高度, 通常遠(yuǎn)遠(yuǎn)高于周?chē)闹脖弧K鼈兪窃S多生態(tài)系統(tǒng)的重要組成部分,為各種生物提供樹(shù)蔭、庇護(hù)所和食物。

            您提到的暴風(fēng)雨中大樹(shù)倒在路上的事件表明了惡劣天氣條件的威力和影響。強(qiáng)風(fēng)暴雨會(huì)將樹(shù)木連根拔起或折斷,導(dǎo)致道路堵塞,給車(chē)輛和行人帶來(lái)潛在危險(xiǎn)。

            在您提到的另一種情況下,當(dāng)您在班迪布爾(Bandipur) 的公路上行駛時(shí),遇到一頭大象橫穿馬路。班迪普爾是位于印度的一個(gè)國(guó)家公園和野生動(dòng)物保護(hù)區(qū),以其豐富的生物多樣性和多樣的動(dòng)物而聞名。大象是班迪普爾的主要物種之一,它們經(jīng)常穿越該地區(qū),有時(shí)還會(huì)橫穿馬路。這樣的邂逅凸顯了野生動(dòng)物保護(hù)的重要性,以及人類(lèi)在自然棲息地與動(dòng)物共存的必要性。

            說(shuō)到盆景,它們是生長(zhǎng)在小盆中的微型樹(shù)木,經(jīng)過(guò)精心造型和修剪以保持其小巧的體型。盆景栽培是一種古老的藝術(shù)形式,起源于東亞,現(xiàn)已風(fēng)靡全球。由于根部空間有限,盆景景樹(shù)要定期澆水以防止干枯。小盆會(huì)導(dǎo)致土壤迅速干燥,因此監(jiān)測(cè)濕度并相應(yīng)地澆水至關(guān)重要。

            最后,您提到透過(guò)窗戶(hù)觀(guān)察到一只鳥(niǎo)俯沖一只小花栗鼠。這種觀(guān)察反映了大自然的一個(gè)行動(dòng)瞬間,一只鳥(niǎo)可能正在覓食。眾所周知,猛禽和某些鳥(niǎo)類(lèi)(如鷹或貓頭鷹)會(huì)俯沖花栗鼠等小型哺乳動(dòng)物,這是它們自然狩獵行為的一部分。目睹這種互動(dòng)令人著迷,因?yàn)樗鼈兡茏屛覀儗?duì)動(dòng)物王國(guó)的活力有更深的了解。

            總之,這些自然片段--無(wú)論是涉及大樹(shù)、大象、盆景樹(shù)還是鳥(niǎo)類(lèi)捕食--都突出了我們周?chē)匀皇澜绲亩鄻有院推婷钚浴?/p>

            這個(gè)答案似乎更加全面。ChatGPT使用的是在數(shù)萬(wàn)億文檔中訓(xùn)練出來(lái)的內(nèi)部知識(shí),并結(jié)合了所給的上下文。

            但是,假設(shè)您有不止4個(gè)文檔--也許是成千上萬(wàn)個(gè),您無(wú)法在ChatGPT 提示中找到。在這種情況下,您可以使用矢量搜索來(lái)縮小最有可能包含答案的上下文范圍,并將其附加到提示中, 然后提出如下相同的問(wèn)題:

            這是它現(xiàn)在給出的(截?cái)嗟模┐鸢福?/p>

            圖片

            ChatGPT answer | Skanda Vivek

            您可以有一個(gè)數(shù)據(jù)庫(kù),存儲(chǔ)文檔和嵌入。另一個(gè)數(shù)據(jù)庫(kù)存儲(chǔ)查詢(xún),并根據(jù)查詢(xún)找到最相關(guān)的文檔:

            圖片

            Document DB (左)和 Quey DB (右) | Skanda Vivek

            一旦您通過(guò)查詢(xún)獲得了最相似的文檔,您就可以將其輸入到任何LLM,如ChatGPT。通過(guò)這個(gè)簡(jiǎn)單的技巧,您就利用文檔檢索增強(qiáng)了您的 LLM!這也被稱(chēng)為檢索增強(qiáng)生成(RAG)。

            使用 RAG 建立特定行業(yè)的問(wèn)答模型 

            圖片

            RAG原型 | Skanda Vivek

            上圖概述了如何構(gòu)建一個(gè)基本的RAG,利用自定義文檔的LLM進(jìn)行問(wèn)題解答。第一部分是將多個(gè)文檔分割成易于管理的塊,相關(guān)參數(shù)是最大分塊長(zhǎng)度。這些塊應(yīng)該是包含典型問(wèn)題答案的典型(最?。┪谋敬笮 _@是因?yàn)橛袝r(shí)您提出的問(wèn)題可能在文檔的多個(gè)位置都有答案。例如,您可能會(huì)問(wèn)"X 公司從2015 年到 2020 年的業(yè)績(jī)?nèi)绾??而您可能有一個(gè)大型文檔(或多個(gè)文檔),在文檔的不同部分包含了公司多年來(lái)業(yè)績(jī)的具體信息。在理想情況下,您希望捕獲包含這些信息的文檔的所有不同部分,將它們連接在一起,并根據(jù)這些經(jīng)過(guò)過(guò)濾和連接的文檔塊傳遞給 LLM 進(jìn)行回答。

            最大上下文長(zhǎng)度基本上是將各種語(yǔ)塊連接在一起的最大長(zhǎng)度--為問(wèn)題本身和輸出答案留出一些空間(請(qǐng)記住,像 ChatGPT 這樣的 LLM 有嚴(yán)格的長(zhǎng)度限制,包括所有內(nèi)容:?jiǎn)栴}、上下文和答案。

            相似度閾值是將問(wèn)題與文檔塊進(jìn)行比較的方法,以找到最有可能包含答案的頂級(jí)文檔塊。余弦函數(shù)是典型的度量方法,但您可能希望使用不同的度量方法。例如,包含關(guān)鍵詞的上下文的權(quán)重更高。例如,當(dāng)您向LLM 提出總結(jié)文檔的問(wèn)題時(shí),您可能希望對(duì)包含 "摘要 "或 "總結(jié) "字樣的上下文進(jìn)行加權(quán)。

            如果您想通過(guò)一種簡(jiǎn)單的方式測(cè)試自定義文檔上的生成式問(wèn)答,請(qǐng)查看我的API (https://rapidapi.com/skandavivek/api/chatgpt-powered-question-answering-over-documents)和在后臺(tái)使用 ChatGPT 的代碼(https://github.com/skandavivek/web-qa)。

            由 RAG 推動(dòng)的 ChatGPT 原型機(jī)

            讓我們通過(guò)一個(gè)例子來(lái)說(shuō)明RAG的作用。EMAlpha 是一家調(diào)研新興市場(chǎng)的公司--基本上是印度、中國(guó)、巴西等新興國(guó)家的經(jīng)濟(jì)(完全披露--我是 EMAlpha 的顧問(wèn))。該公司正在開(kāi)發(fā)一個(gè)由 ChatGPT 支持的app,根據(jù)用戶(hù)輸入生成對(duì)新興經(jīng)濟(jì)體的觀(guān)點(diǎn)。儀表盤(pán)看起來(lái)像這樣--你可以比較 ChatGPT 和RAG 版ChatGPT(EM-GPT)的輸出,后者能夠在后臺(tái)查詢(xún)國(guó)際貨幣基金組織(IMF)的金融文件:

            圖片

            EMAlpha中的EM-GPT 從|斯坎達(dá)-維韋克

            以下是ChatGPT 對(duì) "尼泊爾每年的 GDP 是多少?"這個(gè)問(wèn)題的回答:

            圖片

            ChatGPT回答| Skanda Vivek

            ChatGPT 只返回 2019 年之前的 GDP,它說(shuō)如果您想了解更多信息,請(qǐng)?jiān)L問(wèn) IMF。但是,如果您想知道這些數(shù)據(jù)在IMF 網(wǎng)站的什么位置,那就很難了,您需要對(duì)網(wǎng)站上的文件存儲(chǔ)位置有所了解。經(jīng)過(guò)一番搜索,您會(huì)發(fā)現(xiàn)文件就在這里。即便如此,要想知道 GDP 信息到底在哪里,也需要進(jìn)行大量的滾動(dòng)。

            圖片

            國(guó)際貨幣基金組織關(guān)于尼泊爾經(jīng)濟(jì)的文件| Skanda Vivek

            你可以看到,找到這些數(shù)據(jù)是很難的。但是,當(dāng)您向 EM-GPT 提出同樣的問(wèn)題時(shí),它會(huì)追蹤相關(guān)上下文,并找到如下答案:

            圖片

            EM-GPT答案 | Skanda Vivek

            下面是發(fā)送給ChatGPT 回答這個(gè)問(wèn)題的確切提示。令人印象深刻的是,它能夠理解這些格式化的文本,提取正確的信息,并將其格式化為人類(lèi)可讀的格式!

            圖片

            使用基于查詢(xún)的上下文進(jìn)行聊天GPT 提示 | Skanda Vivek

            我花了半個(gè)小時(shí)才在IMF網(wǎng)站上找到這些信息,而 RAG 修改后的 ChatGPT 只花了幾秒鐘。僅靠矢量搜索是不行的,因?yàn)樗疃嘀荒苷业?nbsp;"名義 GDP"這個(gè)詞,而不能將數(shù)字與年份聯(lián)系起來(lái)。ChatGPT 已經(jīng)在過(guò)去的多個(gè)此類(lèi)文檔中接受過(guò)訓(xùn)練,因此一旦添加了相關(guān)上下文,它就知道文本的哪些部分包含答案,以及如何將答案格式化為可讀的格式。

            結(jié)論

            RAG提供了一種在自定義文檔中使用LLM 的好方法。微軟、谷歌和亞馬遜等公司都在競(jìng)相開(kāi)發(fā)企業(yè)可以”即插即用“的應(yīng)用程序。然而,該領(lǐng)域仍處于起步階段,在自定義文檔上使用矢量搜索驅(qū)動(dòng)的 LLM 的特定行業(yè)應(yīng)用程序可以成為先行者,并在競(jìng)爭(zhēng)中脫穎而出。

            當(dāng)有人問(wèn)我應(yīng)該使用哪種LLM,以及是否要對(duì)自定義文檔進(jìn)行微調(diào)或完全訓(xùn)練模型,他們低估了LLM 和矢量搜索之間的同步工程的作用。以下是一些可以顯著提高或降低響應(yīng)質(zhì)量的注意事項(xiàng):

            1. 文檔塊的長(zhǎng)度。如果正確答案更有可能包含在文本的不同部分,并且需要拼接在一起,則應(yīng)將文檔分割成較小的塊,以便在查詢(xún)時(shí)附加多個(gè)上下文。

            2. 相似性和檢索度量。有時(shí),單純的余弦相似性是不夠的。例如,如果許多文檔包含關(guān)于同一主題的相互矛盾的信息,您可能希望根據(jù)這些文檔中的元數(shù)據(jù)將搜索限制在某些文檔上。因此,除了相似度之外,您還可以使用其他過(guò)濾指標(biāo)。

            3. 模型結(jié)構(gòu)。我所展示的架構(gòu)只是一個(gè)原型。為了提高效率和可擴(kuò)展性,必須考慮各個(gè)方面,包括矢量嵌入模型、文檔數(shù)據(jù)庫(kù)、提示、LLM 模型選擇等。

            4. 避免幻覺(jué)。您可能已經(jīng)注意到我上面展示的例子幾乎是正確的。增強(qiáng)的 ChatGPT 得到了尼泊爾GDP 的正確數(shù)字--但是年份錯(cuò)了。在這種情況下,需要在選擇提示、以更好的格式提取數(shù)據(jù)、評(píng)估出現(xiàn)幻覺(jué)的案例比例以及有效的解決方案之間進(jìn)行大量的反饋。

            現(xiàn)在,您已經(jīng)知道如何將LLM應(yīng)用到您的自定義數(shù)據(jù)中,去構(gòu)建基于 LLM 的超棒產(chǎn)品吧!

            原文標(biāo)題:Pandas 2.0: A Game-Changer for Data Scientists?

            原文鏈接:Build Industry-Specific LLMs Using Retrieval Augmented Generation | by Skanda Vivek | May, 2023 | Towards Data Science



            *博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。



            關(guān)鍵詞: AI

            相關(guān)推薦

            技術(shù)專(zhuān)區(qū)

            關(guān)閉