Science:AI競賽,學界正在輸給業(yè)界
大數據文摘轉載自學術頭條
人工智能(AI)正在向業(yè)界傾斜。相比于學界的前沿性研究,風靡當下的 AI 聊天機器人 ChatGPT、AI 藝術生成器 Midjourney,以及微軟發(fā)布的新一代 AI 驅動搜索引擎 New Bing、谷歌發(fā)布 ChatGPT 競品 Bard 和那些未來將要發(fā)布的“類 ChatGPT”等,似乎正在預示著一場更大、更系統(tǒng)的變革。
盡管消費者能夠從業(yè)界的這些成果中受益,但伴隨而來的是全球決策者的擔憂——重要 AI 工具的公共科技替代品可能會越來越稀缺。
2023 年 3 月 3 日,來自麻省理工學院、弗吉尼亞理工大學的研究團隊在權威科學期刊 Science 上發(fā)文,闡述了業(yè)界在“數據、算力與人才”方面的優(yōu)勢,并探討了業(yè)界的這些優(yōu)勢可能帶來的隱患,以及可行的對策。
學術頭條在不改變文章原意的前提下,對原文進行了精簡與編譯。
幾十年來,AI 研究在學界和業(yè)界并存,但隨著深度學習成為該領域的領先技術,平衡正在向業(yè)界傾斜。我們常??吹綐I(yè)界 AI 的成功,如 DALL·E 2、ChatGPT、new Bing 等。
然而,這些頭條新聞預示著一場更大、更系統(tǒng)的變革:業(yè)界正在占據 AI 研究的主導地位,從大型數據集、計算能力和高技能研究人員三方面支配著 AI 投入。這種支配正在轉化為一系列研究成果:業(yè)界在學術出版物、尖端模型和關鍵基準方面的影響力越來越大。盡管消費者能夠從中受益,但伴隨而來的是全球決策者的擔憂——重要 AI 工具的公共科技替代品可能會越來越稀缺。
業(yè)界的投入優(yōu)勢:數據、算力與人才
業(yè)界長期以來更能夠訪問大型、具有經濟價值的數據集,因為大量用戶與設備交互時會自然而然地產生數據。例如,在 2020 年,WhatsApp 美國用戶每天發(fā)送大約 1000 億條消息。然而,業(yè)界的主導地位除了凸顯在數據之外,更是擴展到了現代 AI 的其他關鍵投入:人才和計算能力。
在過去十年中,AI 人才的需求驟升導致了 AI 人才競爭的加劇。然而,業(yè)界正在贏得這場競賽。來自北美州的眾多大學的數據顯示,專門研究 AI 的計算機科學(CS)博士畢業(yè)生正以前所未有的數量進入業(yè)界。2004 年,只有 21% 的 AI 博士進入業(yè)界,但到 2020 年,這一數量占比高達 70%。
專門研究 AI 的 CS 研究人員也從大學被聘請到業(yè)界工作。自 2006 年以來,這一招聘人數增長了 8 倍,遠高于 CS 研究人員的整體增長。這種擔憂并不局限于美國的大學。在英國,華威大學國王十字校區(qū)院長 Abhinay Muthoo 表示,“頂尖的科技公司正在汲取大學的精華”。
學界和業(yè)界的算力使用也呈現出越來越大的差距。在圖像分類中,業(yè)界使用的算力比學界或業(yè)界-學界合作使用的更大,并且增長更快。研究運用參數數量(所需算力的關鍵決定因素之一)來代替模型中使用的計算能力。2021 年,業(yè)界模型的平均規(guī)模是學界的 29 倍,突顯出兩組計算能力的巨大差異。
業(yè)界雇傭人才和利用更大算力的能力很可能是造成 AI 研究成果差異的原因。雖然公共和私營部門在 AI 方面的投資都在大幅增加,但業(yè)界的投資更大、增長更快。2021 年,非國防的美國政府機構在 AI 行業(yè)撥款 15 億美元。同年,歐盟委員會計劃支出 10 億歐元。
相比之下,同年全球范圍內,業(yè)界在 AI 上的支出超過了 3400 億美元,大大超過了公共投資。例如,2019 年,谷歌母公司 Alphabet 在其子公司 DeepMind 上花費了 15 億美元,這只是其 AI 投資的一部分。在歐洲,這一差距較小,但仍然存在;AI Watch 估計,“私營和公共部門分別占歐盟 AI 投資的 67% 和 33%”。
開展 AI 研究所需資金規(guī)模的一個例子來自 OpenAI,它最初是一個非營利組織,聲稱“不受產生財務回報的約束”,旨在“造福整個人類”。四年后,OpenAI 將其定位改為“有上限的營利組織”,并宣布這一改變將使他們“迅速增加對算力和人才方面的投資”。
業(yè)界在 AI 研究中日益占據主導地位
如今,業(yè)界對 AI 輸入的主導地位表現在 AI 成果的日益突出,尤其是在研究發(fā)布、創(chuàng)建最大模型和超越關鍵基準方面。在主要 AI 會議上,由一位或多位業(yè)界聯合作者撰寫的研究論文從 2000 年的 22% 增長到 2020 年的 38%;業(yè)界在最大的 AI 模型中所占份額已從 2010 年的 11% 上升到 2021 年的 96%。
在 AI 基準方面,縱觀圖像識別、語義分析、語言建模、語義分割、對象檢測和機器翻譯 6 個方面,以及涵蓋機器人和常識推理等領域的另外 14 項基準,在 2017 年之前,業(yè)界單獨或與大學合作,有 62% 的時間處于領先地位。自 2020 年以來,這一比例已上升到 91%。
因此,通過在領先的研究機構發(fā)表文章、建立最先進的 AI 模型以及超越關鍵基準三個方面衡量,分析表明,業(yè)界在 AI 產出方面的地位越來越突出。
業(yè)界的壓倒性優(yōu)勢帶來隱患
業(yè)界對 AI 的投資不斷增加,可能通過技術的商業(yè)化為社會帶來巨大利益。公司可以創(chuàng)造更好的產品,使消費者受益——機器翻譯有利于國際貿易,并能簡化流程降低成本。業(yè)界對 AI 的投資還產生了對整個社區(qū)有價值的工具。例如,學界廣泛使用的 PyTorch 和 TensorFlow,促進深度學習模型高效訓練的硬件如 TPU,以及可公開訪問的預訓練模型——Meta 的 OPT 模型。
與此同時,AI 在業(yè)界中的集中也令人擔憂,業(yè)界的商業(yè)動機促使他們關注以盈利為導向的話題。如果所有的前沿模型都來自業(yè)界,就會出現不存在具有公共意識的替代品的情況。換句話來說,“優(yōu)先部門的 AI 研究人員傾向于專注于數據要求高和計算密集的深度學習方法”是以“涉及其他 AI 方法的研究、考慮 AI 的社會和倫理影響的研究以及在健康等領域的應用”為代價的。
AI 的發(fā)展軌跡如何?誰來控制它?AI 會替代人類嗎并引發(fā)不平等嗎?一些研究人員擔心,“我們可能正走向社會次優(yōu)軌跡,它更側重于替代人類勞動,而不是增強人類能力。”一些人展開想象:業(yè)界和學界可能會形成與其他學科類似的分工:基礎研究主要由大學完成,而應用研究和開發(fā)則主要由業(yè)界完成。
然而,在 AI 領域,產學的明確分工并不存在。業(yè)界所使用的應用模型往往是那些突破基礎研究邊界的模型。例如,transformer 是由谷歌大腦研究人員于 2017 年開發(fā)的一種深度學習架構,使得基礎研究向前邁出重要一步,并且?guī)缀趿⒓磻糜跇I(yè)界使用。盡管這意味著學術工作可以直接惠及業(yè)界,但是應用工作的業(yè)界主導權也賦予了它決定基礎研究方向的權力。
鑒于 AI 工具可以在整個社會中得到廣泛的應用,這種情況將使少數技術公司在社會發(fā)展方向擁有巨大的權力。對于世界上許多人來說,這種擔憂進一步加劇,因為這些組織對他們來說是“外國公司”。例如,生命未來研究所認為,“歐洲公司沒有開發(fā)通用 AI 系統(tǒng),而且由于他們與美國和中國公司相比在競爭上處于相對劣勢,不太可能很快開始開發(fā)”。
學界重塑 AI 前沿的可行之路
通過對業(yè)界 AI 的審查或外部監(jiān)督,監(jiān)管可能是解決方案。例如,2018 年,學者 Joy Buolamwini 和 Timnit Gebru 記錄了商業(yè)人臉識別系統(tǒng)中的性別和種族偏見。然而,如果學界不能接觸到業(yè)界的 AI 系統(tǒng),或者沒有資源來開發(fā)競爭模型,他們解釋業(yè)界模型或提供公共利益的替代方案的能力將受到限制。
這既是因為學界無法建立尖端性能所需的大型模型,也是因為 AI 系統(tǒng)的一些有用的能力似乎是“涌現”的——系統(tǒng)只有在特別大的時候才能獲得這些能力。模型的一些負面特征似乎也隨著規(guī)模的增加而擴大。例如,AI 生成的語言中的毒性以及刻板印象。在任何一種情況下,沒有足夠資源的學者都無法對這些重要領域做出有意義的貢獻。
在全球范圍內,這種對學界在 AI 研究中的資源劣勢的擔憂正在被認識到,并開始出現政策應對措施。在美國,NAIRR 工作組提議創(chuàng)建公共研究云和公共數據集。在加拿大,國家高級研究計算平臺一直在為該國的學界服務,自從近十年前啟動以來,一直被超額使用。
對許多國家來說,這類投資所需的規(guī)??赡芰钊送?。在這種情況下,決策者面臨的關鍵問題將是,他們是否能夠與志同道合的合作者一起籌集足夠的資源,以達到創(chuàng)建反映自己優(yōu)先事項的 AI 系統(tǒng)所需的規(guī)模。
算力并不是提供補救措施的唯一領域,構建公共數據集將非常重要。但是,這并非易事,因為現代 AI 訓練數據集可以是數十億份文檔。特別值得關注的是,創(chuàng)建沒有直接商業(yè)利益的重要數據集,以及提供資源讓頂尖 AI 研究人員留在學界。例如,加拿大研究主席計劃(CRCP)通過提供工資和研究基金吸引加拿大頂尖人才。
對于致力于這一問題的決策者來說,目標應該是確保有足夠的能力來幫助審查或監(jiān)控業(yè)界模型,或生產出符合公眾利益的替代模型。
有了這些能力,學界可以繼續(xù)塑造現代 AI 研究的前沿,并為負責任的 AI 制定基準。若沒有這些能力,重要的公眾興趣 AI 工作將被拋棄。
參考鏈接:https://www.science.org/doi/10.1126/science.ade2420
*博客內容為網友個人發(fā)布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。