彭博開發(fā)BloombergGPT 提供專于金融AI信息服務(wù)
美國(guó)財(cái)經(jīng)信息公司彭博(Bloomberg)近日宣布研發(fā)自有聊天機(jī)器人BloombergGPT,盼推出專于金融領(lǐng)域的人工智能(AI)信息處理應(yīng)用,以提供客戶和記者更好的功能與服務(wù)。
美國(guó)新聞業(yè)網(wǎng)站尼曼實(shí)驗(yàn)室(Nieman Lab)報(bào)導(dǎo),彭博3月31日發(fā)表研究論文詳述BloombergGPT的開發(fā)。據(jù)彭博介紹,BloombergGPT是「一個(gè)新的大規(guī)模生成式AI模型。這個(gè)大型語(yǔ)言模型(LLM)專門鎖定范圍廣泛的金融數(shù)據(jù)來訓(xùn)練生成,目的為了支持多元化的金融產(chǎn)業(yè)自然語(yǔ)言處理(NLP)任務(wù)集」。
彭博表示,近期以大型語(yǔ)言模型為基礎(chǔ)的人工智能發(fā)展,已在許多領(lǐng)域展示出令人振奮的新應(yīng)用;但金融領(lǐng)域因其復(fù)雜性及具有專門術(shù)語(yǔ),有必要有專屬模型。因此BloombergGPT的推出,代表將聊天機(jī)器人這項(xiàng)新科技開發(fā)應(yīng)用到金融產(chǎn)業(yè)的第一步。
彭博指出,BloombergGPT將協(xié)助其改善現(xiàn)有金融相關(guān)自然語(yǔ)言處理的任務(wù),例如文本情感分析、命名實(shí)體辨識(shí)(NER)、新聞分類、回答問題和其他功能。此外,它也創(chuàng)造新機(jī)會(huì)來排列可從彭博終端機(jī)取得的巨量數(shù)據(jù),以提供客戶更好的協(xié)助。
至于BloombergGPT的訓(xùn)練規(guī)模,彭博表示它的語(yǔ)料庫(kù)有7000億余個(gè)token(字詞碎片)。相較之下,熱門聊天機(jī)器人ChatGPT的開發(fā)公司OpenAI在2020年推出的模型GPT-3,訓(xùn)練的語(yǔ)料庫(kù)則約有5000億個(gè)token。
根據(jù)彭博說法,BloombergGPT的語(yǔ)料庫(kù)中,有3630億個(gè)token取自彭博自有金融數(shù)據(jù),也就是來自彭博終端機(jī)的數(shù)據(jù)庫(kù),彭博號(hào)稱這是「至今最大的特定領(lǐng)域數(shù)據(jù)集(dataset)」;其余3450億個(gè)token則是取自其他來源的通用數(shù)據(jù)集。
彭博還說,訓(xùn)練數(shù)據(jù)分為財(cái)金類FinPile和一般The Pile兩類。其中FinPile包括彭博檔案庫(kù)中的各類英文金融文件,如新聞文章、公告、新聞稿、網(wǎng)頁(yè)內(nèi)容和社群媒體數(shù)據(jù),以及彭博記者撰寫的新聞以外所有的新聞來源。
至于The Pile則是龐雜的語(yǔ)料庫(kù),來源從YouTube的畫面擷取、文藝數(shù)字化的古騰堡計(jì)劃(Project Gutenberg)到AI訓(xùn)練常見的安隆公司(Enron)電郵快取。
究竟BloombergGPT能夠如何應(yīng)用?尼曼實(shí)驗(yàn)室的文章表示,按照其訓(xùn)練原理,它應(yīng)該具有像ChatGPT的功能,但此外也能處理與彭博需求更相關(guān)的任務(wù),例如將自然語(yǔ)言指令翻譯成彭博查詢語(yǔ)言(Bloomberg Query Language)終端機(jī)的用戶偏好功能。
BloombergGPT也能為新聞文章提議具有彭博新聞風(fēng)格的標(biāo)題。彭博還說,BloombergGPT更能勝任回答與商業(yè)有關(guān)的提問,無(wú)論是有關(guān)文本情感分析、分類、資料擷取或任何其他任務(wù)。
評(píng)論