上海人工智能實驗室要做大模型技術的“度量衡” | 尋找中國經濟新動能

發(fā)布人：芯股嬸時間：2024-04-26 來源：工程師

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

通常來看，AI大模型在國內市場燃起的這把火，主要來自互聯(lián)網大廠和科技創(chuàng)業(yè)公司兩股力量，但實際上，還有一股力量來自能夠連接產學研三界的研發(fā)機構，他們在這場前沿科技全球競賽中的角色同樣重要。

上海人工智能實驗室正處于該行列中。該實驗室是上海人工智能創(chuàng)新中心發(fā)起設立的新型研發(fā)機構，在2020年的世界人工智能大會上正式揭牌成立。

上海人工智能實驗室的研究方向包含AI基礎理論、AI開放平臺、AI基礎軟件和基礎硬件系統(tǒng)、AI應用、AI核心技術、AI倫理與政策等。除學術成果外，實驗室已聯(lián)合業(yè)界、學界發(fā)布多項技術產品，涉及大語言、多模態(tài)、城市實景三維等基礎模型。

據(jù)界面新聞了解，目前該實驗室已在大模型領域有了諸多技術進展。今年以來，上海人工智能實驗室已發(fā)布書生·浦語2.0、新一代書生·視覺大模型、書生·天際2.0，其書生通用大模型體系全面邁向2.0時代。此外，由基礎大模型衍生出的書生·浦語靈筆2.0和書生·浦語數(shù)學開始拓寬該領域技術的應用路徑。

除了技術成果，上海人工智能實驗室在大模型領域的另一突出價值，在于建立了大模型開源開放評測體系“司南”（OpenCompass2.0），包含評測榜單CompassRank、評測基準社區(qū)CompassHub、評測工具鏈體系CompassKit三個板塊。

在大模型的混戰(zhàn)中，行業(yè)曾出現(xiàn)大模型大肆刷榜、不同來源大模型評測榜單四起的亂象，外界一時對各大榜單的公信力產生質疑，陷入無從分辨大模型真實水平的困境。

界面新聞此前曾報道，有多位行業(yè)人士表示，未來更看好OpenCompass、FlagEval等具有一定學術背景的評測機構模式，并有頭部大模型公司創(chuàng)業(yè)者以OpenCompass為準，評判各個大模型的性能表現(xiàn)。

對于如何看待大模型刷榜亂象，又如何有策略地構建評測榜單的技術公信力一事，該實驗室相關負責人表示，評測是大模型技術進步的“度量衡”。如果一些大模型沉迷于刷榜、跑分，通過“題海戰(zhàn)術”提高大模型評測成績，對于模型性能的反映可能失真，影響模型研發(fā)團隊的改進方向，“高分低能”傷害的是機構本身。

在具體做法上，OpenCompass的評測維度包括基礎能力和綜合能力兩個層級，涵蓋了語言、知識、理解、數(shù)學、代碼、長文本、智能體等12個一級能力維度，綜合設計了50余個二級能力維度。其能力維度設計具備可擴展性和增長性，同時可根據(jù)未來的大模型應用場景進行動態(tài)更新和迭代。

為了能向參與評測的機構提供更真實的大模型性能表現(xiàn)，OpenCompass借鑒了高考提前公布“考試大綱”而不公布考題的策略，在每一期榜單發(fā)布前，公開上一期的評測題目，既讓參與評測的機構有方向可循，也避免了直接刷題情況的產生。

與此同時，OpenCompass在題目構建上也進行了前沿探索。研究人員在評測題目構建中投入了巨大的研發(fā)力度，使評測題集保持創(chuàng)新狀態(tài)，盡量無法在互聯(lián)網中搜索到原題。創(chuàng)新構造題目的策略和整套的系統(tǒng)，同樣為大模型評測技術的核心環(huán)節(jié)之一。

此外，上海人工智能實驗室相關負責人強調，CompassRank作為榜單的承載平臺，將不受任何商業(yè)利益干擾，保持中立性。

為繼續(xù)提升大模型評測榜單的公信力和擴大可評測范疇，目前，OpenCompass已與多家產業(yè)機構共同推出了多個垂直領域的評測基準和數(shù)據(jù)集，涉及法律、金融、醫(yī)療、網絡安全等領域。OpenCompass還將通過司南大模型評測伙伴計劃，與各行業(yè)頭部企業(yè)機構一起，構建各類高質量的行業(yè)評測基準。

*博客內容為網友個人發(fā)布，僅代表博主個人觀點，如有侵權請聯(lián)系工作人員刪除。

在线看毛片网站电影-亚洲国产欧美日韩精品一区二区三区,国产欧美乱夫不卡无乱码,国产精品欧美久久久天天影视,精品一区二区三区视频在线观看,亚洲国产精品人成乱码天天看,日韩久久久一区,91精品国产91免费

博客專欄

上海人工智能實驗室要做大模型技術的“度量衡” | 尋找中國經濟新動能

相關推薦

技術專區(qū)