AAAI 2022 | 基于詞對關系建模的統(tǒng)一NER,刷爆14個中英NER數(shù)據(jù)集
來源:PaperWeekly
引言
本研究重新審視了統(tǒng)一命名實體識別中的核心問題,即詞與詞之間的關系建模,并提出將所有類型的命名實體識別統(tǒng)一采用一種詞對關系分類的方法進行建模。所提出的系統(tǒng)廣泛地在 14 個命名實體識別數(shù)據(jù)集刷新了最好的分數(shù)。
論文題目:
基于詞對關系建模的統(tǒng)一命名實體識別系統(tǒng)Unified Named Entity Recognition as Word-Word Relation Classification
論文作者:
李京燁(武漢大學),費豪(武漢大學),劉江(武漢大學),吳勝瓊(武漢大學),張梅山(哈工大深圳),滕沖(武漢大學),姬東鴻(武漢大學),李霏(武漢大學)
收錄會議:
AAAI 2022
論文鏈接:
https://arxiv.org/pdf/2112.10070.pdf
代碼鏈接:
https://github.com/ljynlp/W2NER
一、動機介紹
1.1 命名實體識別任務
命名實體識別(Named Entity Recognition,NER)是自然語言處理領域的一項非?;镜娜蝿眨谏鐓^(qū)長久以來一直得到廣泛的研究。當前的 NER 的研究重點已經(jīng)從常規(guī)的扁平命名實體識別(Flat NER)逐漸轉向了重疊命名實體識別(Nested/Overlapped NER)與非連續(xù)命名實體識別(Discontinuous NER)。這三類 NER 分別為:
- Flat NER:抽取連續(xù)的實體片段(或者包含對應的實體語義類型);
- Nested/Overlapped NER:抽取的兩個或多個實體片段之間有一部分的文字重疊;
- Discontinuous NER:所抽取的多個實體間存在多個片段,且片段之間不相連。
▲ 圖1:重疊與非連續(xù)實體例子(a),該例子可轉化成詞對關系抽取(b)
以圖 1 為例,“aching in legs”是一個扁平實體,“aching in shoulders”是一個非連續(xù)實體,兩者在“aching in”上重疊。以上三種 NER 類型可概括為統(tǒng)一命名實體識別(Unified Named Entity Recognition,UNER) 1.2 命名實體識別方法
截至當前,命名實體識別領域的主流方法大致可分類為四類:
- 基于序列標注的方法;
- 基于超圖的方法;
- 基于序列到序列的方法;
- 基于片段的方法。
其中,基于序列標注的方法是 Flat NER 的基準模型;而基于超圖的方法由于其模型結構相對復雜從而使其獲得的關注相對較少。而基于序列到序列方法和基于片段的方法獲得了當前最好的效果,并且也是當前 NER 社區(qū)最為流行的方法,這兩種方法的基本技術思路如圖 2 所示。
▲ 圖2:序列到序列的方法與基于片段的方法
當前 NER 社區(qū)嘗試采用一種模型框架同時將三種不同類型的 NER 同時建模,即端到端抽取出所有的類型的實體。以上四種 NER 方法均可以被設計為支持統(tǒng)一命名實體識別的模型。本研究亦關注于構建一種高效的 UNER 系統(tǒng)。
1.3 本文的方法
在絕大部分現(xiàn)有的 NER 工作中,普遍認為NER的核心要點在于如何準確識別實體的邊界;然而我們在針對三種實體類型的共性進行深入挖掘后,認為詞語之間在語義上的連接特征才是 UNER 最為關鍵的問題。例如圖 1(a)中,識別扁平實體“aching in legs”相對而言是較為簡單,因為這個實體所包含的詞是天然相鄰的。而要識別出非連續(xù)實體“aching in shoulders”,則一個成功的 UNER 模型需要準確高效地片為片段“aching in”和片段“shoulders”之間在語義上的鄰接關系進行建模。
根據(jù)上述觀察,本文將 UNER 任務轉化成一種詞對的關系分類任務,提出了一種新的 UNER 架構(NER as Word-Word Relation Classification),名為 W2NER。具體地,該框架的目標是將 UNER 轉變?yōu)樽R別出實體詞中所蘊含的兩種類型的關系,即:
- 鄰接關系(Next-Neighboring-Word,NNW);
- 頭尾關系(Tail-Head-Word-*,THW-*);
如圖 1(b)所示。其中 NNW 表示兩個詞在某個實體中相鄰(如“aching”->“in”),而 THW-* 則表示兩個詞是某個實體的頭部和尾部,且該實體類型為“*”(如“l(fā)eg”->“aching”,Symptom)。具體的詞對關系分類示例如圖 3 所示。▲ 圖3:關系分類示例
二、模型框架
圖 4 給出了 W2NER 整體的框架結構。其整體可分為三層:輸入編碼層,卷積特征學習層以及最后的解碼層。其中解碼層是本論文的核心。
▲ 圖4:模型整體結構
2.1 編碼層
給定一個輸入句子,將每一個詞轉換成多個 word piece,并將他們輸入預訓練的 BERT 模塊中。經(jīng)過 BERT 計算后,使用最大池化操作將這些 word piece 表示重新聚合成詞表示。為了進一步增強模型的上下文建模能力,這里再使用了一個 BiLSTM 得到最終的詞表示序列。
2.2 卷積層
由于該框架的目標是預測詞對中的關系,因此生成高質量的詞對表示矩陣尤為重要,這里使用條件層規(guī)范化(Conditional Layer Normalization, CLN)對詞對表示進行計算。受到 BERT 輸入層的啟發(fā),對于卷積模塊的輸入,使用詞對表示、位置嵌入和區(qū)域嵌入進行拼接。其中位置嵌入表示每個詞對中蘊含的相對位置信息,而區(qū)域嵌入用于分隔矩陣中上下三角的區(qū)域信息。然后,將這三種類型的張量拼接,再使用一個全連接網(wǎng)絡對特征進行混合并降低維度,再送入多個擴張卷積中進行運算,再將不同的卷積輸出結果拼接起來。
2.3 解碼層
在解碼預測層,在使用 FFN 對卷積層輸出特征進行關系預測的同時,將編碼層輸出特征輸入 Biaffine 也進行詞對關系預測,這一步可以看做是一種特殊的殘差機制,將編碼層的特征也利用起來。因此最后的輸出為 FFN 和 Biaffine 輸出的加和。
在解碼階段,模型需要處理不同的詞對關系。模型的預測結果是詞之間的關系,這些詞和關系可以構成一個有向圖,其中詞是節(jié)點,關系是邊。模型的解碼目標則是要尋找從一個詞到另一個詞的由鄰接關系連接起來的路徑,每條路徑其實代表著一個對應的實體。而頭尾關系則可以用于判斷實體的類型和邊界,除此之外還具有消歧的作用。圖 4 從易到難展示了 4 個解碼類型的例子。
▲ 圖5:四種不同類型樣本的解碼示例
三、實驗結果 本文在 14 個 NER 常用數(shù)據(jù)集上(包括英文和中文)進行了實驗,分別是:
- 在扁平實體識別中,使用的英文數(shù)據(jù)集為 CoNLL 2003 和 OntoNotes 5.0,中文數(shù)據(jù)集為 OntoNotes 4.0、MSRA、Weibo 和 Resume;
- 在重疊實體識別中,使用 ACE 2004 和 ACE 2005 的中英文數(shù)據(jù),和生物領域的英文數(shù)據(jù)集 Genia;
- 在非連續(xù)命名實體識別中,使用 CADEC、ShARe13、ShARe14。
表 1-5 分別展示了上述任務和數(shù)據(jù)集上與基線模型對比的結果。實驗結果表明,我們提出的基于詞對關系抽取的方法,通過對鄰接關系和頭尾關系的識別,可以同時解決扁平實體、重疊實體和非連續(xù)實體的三種子任務,并在 14 個數(shù)據(jù)集上的效果都優(yōu)于之前的工作。
▲ 表1:英文扁平命名實體識別
▲ 表2:中文扁平命名實體識別
▲ 表3:英文重疊命名實體識別
▲ 表4:中文重疊命名實體識別
▲ 表5:英文非連續(xù)命名實體識別
▲ 圖6:重疊實體與非連續(xù)實體識別效果對比
通過進一步的消融實驗,我們探索了不同參數(shù)和部件對整體框架的影響。此外我們模型在相對較小的參數(shù)情況下,其訓練和推理速度超過了多個非連續(xù)實體識別模型。▲ 表6:消融實驗
▲ 圖7:模型參數(shù)與效率對比
四、總結
本文提出了一個統(tǒng)一命名實體識別框架,通過對詞與詞之間的關系進行分類的方式同時解決三種命名實體識別子任務。通過對預先定義好的詞對中的鄰接關系和頭尾關系分類,模型能夠實現(xiàn)對復雜實體的解碼。所提出的框架在 14 個中英文命名實體識別基準數(shù)據(jù)集上進行了實驗驗證,其刷新了當前最先進的基線模型,取得了目前最好的統(tǒng)一命名實體識別分數(shù)。
*博客內容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權請聯(lián)系工作人員刪除。