上海人工智能實驗室要做大模型技術的“度量衡” | 尋找中國經濟新動能
通常來看,AI大模型在國內市場燃起的這把火,主要來自互聯(lián)網大廠和科技創(chuàng)業(yè)公司兩股力量,但實際上,還有一股力量來自能夠連接產學研三界的研發(fā)機構,他們在這場前沿科技全球競賽中的角色同樣重要。
上海人工智能實驗室正處于該行列中。該實驗室是上海人工智能創(chuàng)新中心發(fā)起設立的新型研發(fā)機構,在2020年的世界人工智能大會上正式揭牌成立。
上海人工智能實驗室的研究方向包含AI基礎理論、AI開放平臺、AI基礎軟件和基礎硬件系統(tǒng)、AI應用、AI核心技術、AI倫理與政策等。除學術成果外,實驗室已聯(lián)合業(yè)界、學界發(fā)布多項技術產品,涉及大語言、多模態(tài)、城市實景三維等基礎模型。
據(jù)界面新聞了解,目前該實驗室已在大模型領域有了諸多技術進展。今年以來,上海人工智能實驗室已發(fā)布書生·浦語2.0、新一代書生·視覺大模型、書生·天際2.0,其書生通用大模型體系全面邁向2.0時代。此外,由基礎大模型衍生出的書生·浦語靈筆2.0和書生·浦語數(shù)學開始拓寬該領域技術的應用路徑。
除了技術成果,上海人工智能實驗室在大模型領域的另一突出價值,在于建立了大模型開源開放評測體系“司南”(OpenCompass2.0),包含評測榜單CompassRank、評測基準社區(qū)CompassHub、評測工具鏈體系CompassKit三個板塊。
在大模型的混戰(zhàn)中,行業(yè)曾出現(xiàn)大模型大肆刷榜、不同來源大模型評測榜單四起的亂象,外界一時對各大榜單的公信力產生質疑,陷入無從分辨大模型真實水平的困境。
界面新聞此前曾報道,有多位行業(yè)人士表示,未來更看好OpenCompass、FlagEval等具有一定學術背景的評測機構模式,并有頭部大模型公司創(chuàng)業(yè)者以OpenCompass為準,評判各個大模型的性能表現(xiàn)。
對于如何看待大模型刷榜亂象,又如何有策略地構建評測榜單的技術公信力一事,該實驗室相關負責人表示,評測是大模型技術進步的“度量衡”。如果一些大模型沉迷于刷榜、跑分,通過“題海戰(zhàn)術”提高大模型評測成績,對于模型性能的反映可能失真,影響模型研發(fā)團隊的改進方向,“高分低能”傷害的是機構本身。
在具體做法上,OpenCompass的評測維度包括基礎能力和綜合能力兩個層級,涵蓋了語言、知識、理解、數(shù)學、代碼、長文本、智能體等12個一級能力維度,綜合設計了50余個二級能力維度。其能力維度設計具備可擴展性和增長性,同時可根據(jù)未來的大模型應用場景進行動態(tài)更新和迭代。
為了能向參與評測的機構提供更真實的大模型性能表現(xiàn),OpenCompass借鑒了高考提前公布“考試大綱”而不公布考題的策略,在每一期榜單發(fā)布前,公開上一期的評測題目,既讓參與評測的機構有方向可循,也避免了直接刷題情況的產生。
與此同時,OpenCompass在題目構建上也進行了前沿探索。研究人員在評測題目構建中投入了巨大的研發(fā)力度,使評測題集保持創(chuàng)新狀態(tài),盡量無法在互聯(lián)網中搜索到原題。創(chuàng)新構造題目的策略和整套的系統(tǒng),同樣為大模型評測技術的核心環(huán)節(jié)之一。
此外,上海人工智能實驗室相關負責人強調,CompassRank作為榜單的承載平臺,將不受任何商業(yè)利益干擾,保持中立性。
為繼續(xù)提升大模型評測榜單的公信力和擴大可評測范疇,目前,OpenCompass已與多家產業(yè)機構共同推出了多個垂直領域的評測基準和數(shù)據(jù)集,涉及法律、金融、醫(yī)療、網絡安全等領域。OpenCompass還將通過司南大模型評測伙伴計劃,與各行業(yè)頭部企業(yè)機構一起,構建各類高質量的行業(yè)評測基準。
*博客內容為網友個人發(fā)布,僅代表博主個人觀點,如有侵權請聯(lián)系工作人員刪除。