新技術(shù),老問題:NLP領(lǐng)域中沒有被聽到的「聲音」
大數(shù)據(jù)文摘授權(quán)轉(zhuǎn)載自AI科技評論
作者:Ben Batorsky
編譯:錢磊、Ailleurs
編輯:陳彩嫻
受到技術(shù)進步和開源數(shù)據(jù)集的推動,過去十年中人工智能經(jīng)歷了一次復(fù)興,其進步之處主要集中在計算機視覺和自然語言處理(NLP)等領(lǐng)域。
ImageNet在2010年制作了一個包含2萬張內(nèi)容標簽的圖片的公開語料庫。谷歌于2006年發(fā)布了萬億詞語料庫(Trillion Word Corpus),并從大量的公共網(wǎng)頁中獲得了n-gram頻率。NLP的進步使得機器翻譯質(zhì)量大幅提高,數(shù)字助理的應(yīng)用也迅速擴大,諸如“人工智能是新的電力”和“人工智能將取代醫(yī)生”之類的言論也越來越多。
像Allen Institute、Hugging Face和Explosion等組織也發(fā)布了開放源代碼庫和在大型語言語料庫上預(yù)先訓(xùn)練的模型,這使得NLP領(lǐng)域飛速進展。最近,NLP技術(shù)通過發(fā)布公共注釋研究數(shù)據(jù)集和創(chuàng)建公共響應(yīng)資源促進了對COVID-19的研究。
然而,其實人工智能領(lǐng)域早已形成。艾倫·圖靈(Alan Turing)在1950年就提出了“能思考的機器”的想法,這反映在人們當時對算法能力的研究上,當時人們希望研究出能夠解決一些過于復(fù)雜而無法自動化的問題(例如翻譯)的算法。在接下來的十年里,投資人看好 AI 研究并投入了大量資金,使得翻譯、物體識別和分類等研究獲得了很大進步。到了1954年,先進的機械詞典已經(jīng)能夠進行基于詞匯和短語的合理翻譯。在一定條件下,計算機可以識別并解析莫爾斯電碼。然而,到了20世紀60年代末,這些研究明顯受到限制,實際用途有限。數(shù)學(xué)家詹姆斯·萊特希爾(James Lighthill)在1973年發(fā)表的一篇論文中指出,在將自己研究的系統(tǒng)應(yīng)用于現(xiàn)實世界中的問題時,人工智能研究人員無法處理各種因素的“組合爆炸”。社會上批評聲不斷,投入資金日益枯竭,人工智能進入了第一個“冬天”,開發(fā)基本上停滯不前。
圖注:AI 的發(fā)展時間線
在過去的幾十年里,人們對人工智能的興趣又復(fù)蘇了,技術(shù)也突飛猛進。
NLP最近的研究熱點主要與基于 Transformer 的架構(gòu)有關(guān)。然而實際應(yīng)用的問題仍然值得提出,因為人們對于“這些模型真正在學(xué)習(xí)什么”感到擔憂。2019年的一項研究使用BERT來解決論證理解(argument comprehension)的困難挑戰(zhàn),該模型必須根據(jù)一系列事實來確定一個說法是否合理。BERT的表現(xiàn)達到了SOTA,但進一步的研究發(fā)現(xiàn),該模型利用的是語言中的特定線索,而這些線索與論證的“推理”無關(guān)。
有時研究員能夠在應(yīng)用算法前就解決好系統(tǒng)里的一切問題,但有時AI系統(tǒng)還是會帶有其不應(yīng)有的學(xué)習(xí)模式。一個典型例子是COMPAS算法,這種算法在佛羅里達州用來確定一個罪犯是否會再次犯罪。ProPublica 在2016年的一項調(diào)查發(fā)現(xiàn),這種算法預(yù)估黑人被告比白人被告犯下暴力犯罪的可能性高出77%。更令人擔憂的是,高達48%再次犯罪的白人被告會被該算法標記為低風險,而黑人只有28%,兩者相差20%。由于該算法是專用算法,其可能利用的線索的透明度有限。但由于這種算法當中不同種族之間的差異如此明顯,這表明該算法“眼中”有種族不平等的嫌疑,這既不利于算法自身的性能,也不利于司法系統(tǒng)。
圖注:COMPAS算法的應(yīng)用
在人工智能領(lǐng)域,這種高調(diào)的失敗并不少見。亞馬遜最近廢除了一種人工智能招聘算法,因為這種算法更有可能推薦男性擔任技術(shù)職位,其原因可能是該算法利用了以往的招聘模式。而最頂尖的機器翻譯也經(jīng)常會遇到性別不平等問題和語言資源不足的問題。
現(xiàn)代NLP的缺陷有很多來由。本文將專注于幾個代表性問題:在數(shù)據(jù)和NLP模型的發(fā)展中,什么人或物被代表了?這種不平等的代表是如何導(dǎo)致NLP技術(shù)利益的不平等分配的?
“大”就一定“好”?
一般來說,機器學(xué)習(xí)模型,尤其是深度學(xué)習(xí)模型,數(shù)據(jù)越多,其表現(xiàn)就會越好。Halevy等人(2009)解釋說,對于翻譯任務(wù)來說,與比較小的數(shù)據(jù)集上訓(xùn)練的更復(fù)雜的概率模型相比,在大型數(shù)據(jù)集上訓(xùn)練的簡單模型的表現(xiàn)更好。Sun等人在2017年也重新審視了機器學(xué)習(xí)可擴展性的想法,指出視覺任務(wù)的性能隨著提供的示例數(shù)量呈對數(shù)增長。
人工智能從業(yè)者已將這一原則牢記于心,特別是在NLP研究中。自監(jiān)督目標的出現(xiàn),如BERT的掩碼語言模型(該模型可以根據(jù)上下文學(xué)習(xí)預(yù)測單詞),基本上使整個互聯(lián)網(wǎng)都可以用于模型訓(xùn)練。2019年的原始BERT模型是在16 GB的文本數(shù)據(jù)上訓(xùn)練的,而近期的模型,如GPT-3(2020)是在570 GB的數(shù)據(jù)上訓(xùn)練的(從45 TB的CommonCrawl中過濾)。
Bender等人(2021)將“數(shù)據(jù)越多越好”這一格言作為模型規(guī)模增長背后的驅(qū)動思想。但他們的文章引起我的一個思考:這些大型數(shù)據(jù)集中包含了什么思維?
圖注:語言模型的規(guī)模隨時間的推移而增大
Wikipedia是BERT、GPT和許多其他語言模型的來源。但Wikipedia研究發(fā)現(xiàn),其編輯所代表的觀點存在問題。大約90%的文章編輯是男性,他們往往是來自發(fā)達國家的受過正規(guī)教育的白人。他們的身份可能會對維基百科的內(nèi)容產(chǎn)生影響,比如只有17%的傳記是關(guān)于女性的,可是被編輯提名刪除的傳記中卻有41%是關(guān)于女性的,女性傳記被刪除內(nèi)容明顯高于常規(guī)比例。
NLP模型的另一個主要來源是Google News,包括原始的word2vec算法。從歷史上看,新聞編輯室一直由白人男性主導(dǎo),這種模式在過去十年中沒有多大改變。實際上,在過去幾十年,這種差異變得更大,這意味著當模型使用舊的新聞數(shù)據(jù)集時,這種被代表的問題只會變得更糟。
此外,互聯(lián)網(wǎng)用戶傾向于年輕、高收入和白人。GPT模型的來源之一CommonCrawl使用了Reddit的數(shù)據(jù),Reddit有67%的用戶是男性,70%是白人。Bender等人(2021)指出,GPT-2這樣的模型有包容/排斥方法,可能會刪除代表特定社區(qū)的語言(例如通過排除潛在的冒犯性詞匯,就會將代表LGBTQ群體的語言排除在外)。
當前NLP中的許多先進性能都需要大型數(shù)據(jù)集,這種對數(shù)據(jù)如饑似渴的勁頭已經(jīng)蓋過了人們對數(shù)據(jù)中所代表的觀點看法的關(guān)注。然而,從上面的證據(jù)可以清楚地看出,有些數(shù)據(jù)源并不是“中立的”,反而放大了那些歷史上、在社會上占據(jù)主導(dǎo)地位的人的聲音。
而且,即便是有缺陷的數(shù)據(jù)源也不能平等地用于模型開發(fā)。絕大多數(shù)標記和非標記數(shù)據(jù)僅以7種語言存在,約占所有使用者的1/3。這使得世界上其他2/3的國家無法達到這種表現(xiàn)。為了彌補這一差距,NLP研究人員探索了在高資源語言中預(yù)訓(xùn)練的BERT模型和低資源語言微調(diào)(通常稱為Multi-BERT),并使用“適配器”跨語言遷移學(xué)習(xí)。但是通常來說,這些跨語言方法的表現(xiàn)要比單語言方法差。
這些模型很難跨語言泛化,這一事實可能指向一個更大的問題。喬希等人(2021年)這樣解釋:“NLP系統(tǒng)接受訓(xùn)練和測試的少數(shù)幾種語言通常是相關(guān)的……這會導(dǎo)致形成一種類型學(xué)的回聲室。因此,我們的NLP系統(tǒng)從未看到過絕大多數(shù)類型多樣化的語言現(xiàn)象?!?/span>
The State and Fate of Linguistic Diversity and Inclusion in the NLP World。圖注:語言多樣性和包容性在自然語言處理領(lǐng)域的現(xiàn)狀和命運
圖注:語言多樣性和包容性在自然語言處理領(lǐng)域的現(xiàn)狀和命運
如上所述,這些系統(tǒng)非常擅長挖掘語言中的線索。因此,它們很可能是在利用一組特定的語言模式,所以當這些系統(tǒng)應(yīng)用于資源較低的語言時,性能會崩潰。
輸入的是垃圾,輸出的也是垃圾
在上文中,我描述了現(xiàn)代NLP數(shù)據(jù)集和模型是如何為一組特定的視角「代言」的,這些視角往往是白人、男性和英語使用者的視角。但是,每一個數(shù)據(jù)集都必須從它的來源入手,解決數(shù)據(jù)代表的不均衡問題,比如ImageNet 在2019年的更新中刪除了60萬張圖像。這種調(diào)整不僅僅是為了統(tǒng)計的穩(wěn)健性,也是對那些傾向于對女性和有色人種使用性別歧視或種族主義標簽的模型的一種回應(yīng)。
圖注:一位Twitter用戶在基于ImageNet的模型所生成的圖像標簽中發(fā)現(xiàn)偏見
無論我上傳什么樣的圖片,使用擁有2500個標簽的AI來進行分類的ImageNet Roulette,都會把我看成是「Black」(黑人)、「Black African」(非裔黑人)、「Negroid」(黑色人種的)、「Negro」(黑人)。
其它可能出現(xiàn)的標簽還有「Doctor」(醫(yī)生)、「Parent」(父親)、「Handsome」(帥氣的)。
所有的模型都會出錯,所以在決定是否使用一個模型時,總是要權(quán)衡風險和收益。為了便于對這種風險效益進行評估,我們可以使用現(xiàn)有的常用性能指標,來獲得「錯誤」的發(fā)生頻率,比如準確率。但是我們非常缺乏了解的是,這些錯誤是如何分布的?如果一個模型在一個群體中的表現(xiàn)不如另一個群體,這意味著該模型可能會讓一個群體受益,而犧牲另一個群體的利益。
我把這種不平等的風險收益分配稱為「偏見」。統(tǒng)計偏差被定義為“結(jié)果的期望值與被估計的真正潛在定量參數(shù)之間的差異”。機器學(xué)習(xí)中存在許多類型的偏差,但我會主要討論“歷史偏差”和“表征偏差”。歷史偏差是指世界上已經(jīng)存在的偏差和社會技術(shù)問題在數(shù)據(jù)中得到的反映。例如,當一個在ImageNet上訓(xùn)練的模型輸出種族主義或性別歧視標簽時,它是在復(fù)制訓(xùn)練數(shù)據(jù)的種族主義和性別歧視。表征偏差是由我們從總體中定義和抽樣的方式造成的。因為我們的訓(xùn)練數(shù)據(jù)來自于一個特定群體的視角,因而我們期望訓(xùn)練出的模型會代表這個群體的視角。
在NLP領(lǐng)域,存在于詞嵌入模型word2vec和GloVe中的偏見已經(jīng)被深入研究。這些模型是許多下游任務(wù)的基礎(chǔ),它們提供包含句法和語義信息的單詞表示。它們都基于自監(jiān)督技術(shù),根據(jù)上下文來對單詞進行表示。如果這些表示反映了一個詞的真正“意義”,那么我們可以想象,與職業(yè)相關(guān)的詞語(如“工程師”或“管家”)在性別和種族上具有中立性,因為職業(yè)類型并不與特定人群關(guān)聯(lián)起來。
然而,Garg等人(2019)發(fā)現(xiàn),職業(yè)詞匯的表示并非性別中立或種族中立的。與男性性別詞匯相比,“管家”這類職業(yè)詞匯與女性性別詞匯(如“she”、“her”)關(guān)聯(lián)更強,而“工程師”這類職業(yè)的嵌入詞則更接近男性性別詞匯。這些問題還延伸到了種族上,與西班牙裔有關(guān)的詞匯更接近于“管家”,而與亞洲人有關(guān)的詞匯與“教授”或“化學(xué)家”更接近。
圖注:該表顯示了分別與西班牙裔、亞裔、白人三個種族最密切相關(guān)的十大職業(yè)類型。引自Garg等(2019)論文“Word embeddings quantify 100 years of gender and ethnic stereotypes”(《詞嵌入量化100年來的性別和種族刻板印象》)。
這些問題也存在于大型的語言模型中。比如,Zhao等人(2019)的工作表明,ELMo嵌入把性別信息納入到職業(yè)術(shù)語中,并且對男性的性別信息編碼比對女性做得更好。Sheng等人(2019)的工作也發(fā)現(xiàn),在使用GPT-2來對完成含有人口統(tǒng)計信息(即性別、種族或性取向)的句子時,會對典型的邊緣化群體(即女性、黑人和同性戀者)產(chǎn)生偏見性結(jié)果。
圖注:該表顯示了用OpenAI的GPT-2在給定的不同提示下生成的文本示例。引自Sheng等(2019)論文“The Woman Worked as a Babysitter: On Biases in Language Generation”(《當保姆的女人:論語言生成中的偏見》)。
詞嵌入模型ELMo和GPT-2,都是在來自互聯(lián)網(wǎng)的不同數(shù)據(jù)集上進行訓(xùn)練的。如上所述,互聯(lián)網(wǎng)上所代表的觀點往往來自那些在歷史上處于優(yōu)勢地位并獲得更多媒體關(guān)注的人。這些觀點很可能是偏見問題的根源,因為模型已經(jīng)內(nèi)化了那些有偏見的觀點。正如Ruha Benjamin在他的《追逐科技》(Race After Technology)一書中所言:
「將世界的美、丑和殘忍喂給AI系統(tǒng)卻期望它只反映美,這是一種幻想。」
這些NLP模型不僅復(fù)制了他們所訓(xùn)練的優(yōu)勢群體的觀點,而且建立在這些模型上的技術(shù)也加強了這些群體的優(yōu)勢性。如上文所述,目前只有一部分語言擁有數(shù)據(jù)資源來開發(fā)有用的NLP技術(shù)(如機器翻譯)。但即使是在那些資源豐富的語言中,如果口音不標準,機器翻譯和語音識別之類的技術(shù)也表現(xiàn)不佳。
例如,Koenecke等人(2020年)發(fā)現(xiàn),亞馬遜和谷歌等公司的語音識別軟件對非裔美國人的誤差率幾乎是白人的兩倍。這會造成一些不便,因為谷歌助手(Google Assistant)或Alexa對非標準口音的用戶來說表現(xiàn)得不太好。這也會對一個人的生活造成重大影響,比如移民工人很難與邊境管理人員溝通。因為訓(xùn)練數(shù)據(jù)中表現(xiàn)出了偏見,所以可以預(yù)想,這些應(yīng)用程序?qū)哂袛?shù)據(jù)「優(yōu)勢」的用戶人群的幫助會比其他人群更大。
除了翻譯和口譯,一個流行的NLP使用場景是內(nèi)容審核/管理。很難找到一個不包含至少一個垃圾郵件檢測訓(xùn)練的NLP項目。但在現(xiàn)實世界中,內(nèi)容審核意味著它要決定什么類型的言論是「可以接受的」。研究發(fā)現(xiàn),F(xiàn)acebook和Twitter的算法在審核內(nèi)容時,對非裔美國用戶內(nèi)容進行標記的可能性是白人用戶的兩倍。一名非裔美國臉書用戶因為引用了電視劇《親愛的白種人》中的一句臺詞而被凍結(jié)了賬戶,而她的白人朋友則沒有受到任何懲罰。
從上面這些例子中,我們可以看到,數(shù)據(jù)訓(xùn)練中的代表性不均衡造成了不均衡的后果。這些后果更嚴重地落在了歷史上從新技術(shù)中獲益較少的人群(即女性和有色人種)身上。因此,除非對自然語言處理技術(shù)的發(fā)展和部署作出實質(zhì)性的改變,否則它不僅不會給世界帶來積極的變化,而且還會加強現(xiàn)有的不平等制度。
如何步上“正”軌
我在本文前面提到過,AI 領(lǐng)域現(xiàn)在被炒得很熱,這在歷史上其實已經(jīng)出現(xiàn)過一次。在20世紀50年代,工業(yè)界和政府對這項令人興奮的新技術(shù)寄予厚望。但是,當實際的應(yīng)用開始達不到它的承諾時,人工智能的一個「寒冬」就會來臨,這個領(lǐng)域得到的關(guān)注和資金投入都會變少。盡管現(xiàn)代社會受益于免費、廣泛可用的數(shù)據(jù)集和巨大的處理能力,但如果人工智能仍然只關(guān)注全球人口中的一小部分,那么在這次熱潮中,也將很難看到它如何兌現(xiàn)自己的承諾。
對于NLP來說,這種「包容性」需求更加迫切,因為大多數(shù)應(yīng)用程序只關(guān)注7種最流行的語言。為此,專家們已經(jīng)開始呼吁更多地關(guān)注低資源語言。
DeepMind的科學(xué)家Sebastian Ruder在2020年發(fā)出了一項呼吁,指出“如果技術(shù)只面向標準口音的英語使用者,那么它就無法普及”。計算語言學(xué)協(xié)會(ACL)最近也宣布了2022年會議的「語言多樣性」分主題。
然而,包容性不應(yīng)僅僅被視為數(shù)據(jù)采集問題。2006年,微軟發(fā)布了智利土著馬普切人(Mapuche)的語言版本的Windows。然而,這項工作是在沒有馬普切人參與或同意的情況下進行的,馬普切部落的人們一點也沒有覺得自己被微軟的倡議所「接納」,因為微軟未經(jīng)許可使用他們的語言,他們起訴了微軟。要解決NLP技術(shù)覆蓋范圍方面的差距,就需要更多地關(guān)注代表性不足的群體。這些群體已經(jīng)加入了NLP社區(qū),并且已經(jīng)啟動了他們自己的倡議,以擴大NLP技術(shù)的效用。像這樣的舉措,不僅可以將NLP技術(shù)應(yīng)用于更加多樣化的數(shù)據(jù)集,還可以讓各種語言的母語人士參與該技術(shù)的開發(fā)。
正如我之前提到的,當前用于確定什么是「最先進」的NLP的指標,在估計一個模型可能會犯多少錯誤方面會很有用。然而,它們并不能衡量這些錯誤在不同人群中是否分布不均(即是否存在偏見)。對此,麻省理工學(xué)院的研究人員發(fā)布了一個數(shù)據(jù)集StereSet,用于測量語言模型在多個維度上的偏差。這項工作的結(jié)果是一套衡量模型總體表現(xiàn)的指標,以及它與偏好刻板印象關(guān)聯(lián)的傾向性,這很容易讓它本身成為一個“排行榜”框架。
Drivennda在其Deon ethics checklist(Deon倫理清單)中提出了一種更注重過程的方法。
然而,我們?nèi)栽谔幚硪恍┦冀K困擾著技術(shù)的重大問題:進步往往會讓強者受益,并加劇強者與弱者的現(xiàn)有「分野」。要想實現(xiàn)NLP技術(shù)的革命性進步,就需要將它變得更好,并與現(xiàn)在不同。Bender等人(2021年)提出了一種更具「價值敏感性」的設(shè)計,在這種研究的設(shè)計中,可以實現(xiàn)監(jiān)控哪些觀點被納入,哪些被排除,以及該混合觀點的風險效益計算。因此,「成功」并不在于準確率多高,而是在于技術(shù)能否推動體現(xiàn)利益相關(guān)者的價值觀。
這是一個非常有力的建議,但這意味著,如果一項倡議不太可能促進關(guān)鍵價值觀的進步,那么它可能就不值得追求。Paullada等人(2020年)指出,“一個映射可以被學(xué)習(xí)并不意味著它有意義”。如上文所舉例,一種算法會被用來確定一個罪犯是否可能再次實施犯罪。據(jù)報道,該算法的AUC分數(shù)很高,但是,它學(xué)到了什么?如上所述,模型是它的訓(xùn)練數(shù)據(jù)的產(chǎn)物,因此它很可能會重現(xiàn)司法系統(tǒng)中已經(jīng)存在的任何一種偏見。這就對這種特殊算法的價值提出了質(zhì)疑,也對判決算法的大規(guī)模使用提出了挑戰(zhàn)。而我們會看到,對價值敏感的設(shè)計可能會帶來一種非常不同的方法。
歸功于研究人員、開發(fā)人員和整個開源社區(qū)的努力,NLP最近取得了令人震驚的進步。從機器翻譯到語音助手,再到病毒研究(如COVID-19),NLP從根本上改變了我們所使用的技術(shù)。但要取得進一步的進展,不僅需要整個NLP社區(qū)的工作,還需要跨職能團體和學(xué)科的工作。我們不應(yīng)該追求指標上的邊際收益,而應(yīng)該著眼于真正具有「變革性」的改變,這意味著我們要去理解誰正在被「落在后面」,并在研究中納入他們的價值觀。
https://thegradient.pub/nlp-new-old/
https://www.mdpi.com/2072-666X/12/6/665
https://www.propublica.org/article/machine-bias-risk-assessments-in-criminal-sentencing
https://arxiv.org/pdf/1910.01108.pdf
https://arxiv.org/abs/2004.09095
https://twitter.com/lostblackboy/status/1174112872638689281
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。