精心設(shè)計(jì)的 GNN 只是“計(jì)數(shù)器”?
編者按:問答(QA)任務(wù)是自然語言理解領(lǐng)域中一個(gè)基本且重要的課題,目前通常會(huì)使用預(yù)訓(xùn)練語言模型以及圖神經(jīng)網(wǎng)絡(luò)等方法對(duì)問答進(jìn)行推理。GNN 模塊在推理中到底發(fā)揮了什么作用?這個(gè)問題需要科研人員做進(jìn)一步深入探究。為此,微軟亞洲研究院和佐治亞理工的研究員們剖析了最前沿的相關(guān)方法,并且發(fā)現(xiàn)一種極其簡單、高效的圖神經(jīng)計(jì)數(shù)器就能在主流的知識(shí)問答數(shù)據(jù)集中取得更好的效果。
長期以來,問答(QA)問題都是人工智能和自然語言處理領(lǐng)域中一個(gè)基本且重要的課題,層出不窮的研究工作都試圖賦予問答系統(tǒng)具有人類水平的推理能力。然而,人類的推理過程是極為復(fù)雜的,為了接近這樣復(fù)雜的推理,目前最前沿的方法一般會(huì)使用預(yù)訓(xùn)練的語言模型(LM)來獲取和利用其隱含的知識(shí),再輔以精心設(shè)計(jì)的圖神經(jīng)網(wǎng)絡(luò)(GNN)來對(duì)知識(shí)圖譜進(jìn)行推理。但是關(guān)于 GNN 模塊在這些推理中到底發(fā)揮了哪些功能,仍需要進(jìn)一步深入研究。
為此,微軟亞洲研究院和佐治亞理工的研究員們剖析了最前沿的相關(guān)方法,并且發(fā)現(xiàn)一種極其簡單、高效的圖神經(jīng)計(jì)數(shù)器就能在主流的知識(shí)問答數(shù)據(jù)集中取得更好的效果。同時(shí),研究員們還揭示了當(dāng)前基于知識(shí)推理的 GNN 模塊很有可能只是在完成簡單的推理功能如計(jì)數(shù)。(點(diǎn)擊閱讀原文,查看論文)
論文鏈接:https://arxiv.org/abs/2110.03192
知識(shí)的獲取和推理是問答(QA)任務(wù)的核心, 而這些知識(shí)被隱式編碼于預(yù)訓(xùn)練語言模型(LM)或者顯式存儲(chǔ)在結(jié)構(gòu)化的知識(shí)圖譜(KG)里。當(dāng)前的 LM 在預(yù)訓(xùn)練過程中都會(huì)使用大規(guī)模的語料庫,其中蘊(yùn)含極其豐富的知識(shí),這就使得 LM 稍加微調(diào)(finetune)就可以在各種 QA 數(shù)據(jù)集上取得不錯(cuò)的表現(xiàn)。
但是,LM 更依賴于共現(xiàn)(co-occurrance),這在處理推理問題時(shí)捉襟見肘,并缺乏可解釋性。而與之互補(bǔ)的 KG 盡管需要人工整理且規(guī)模受限,但它可以直接顯示存儲(chǔ)特定的信息和關(guān)系,從而具備可解釋性。
如何在 QA 里將二者結(jié)合起來揚(yáng)長避短是近年來的熱點(diǎn)話題,最前沿的工作大多采用了兩個(gè)步驟來處理知識(shí)圖譜:
1. Schema graph grounding。在知識(shí)圖譜里檢索與 QA 文本提及的實(shí)體相關(guān)聯(lián)的子圖,這個(gè)子圖包含帶有概念文本的節(jié)點(diǎn)和代表關(guān)系的邊以及鄰接矩陣。
2. 圖建模推理(Graph modeling for inference)。用設(shè)計(jì)精巧的 GNN 模塊對(duì)這個(gè)子圖進(jìn)行建模推理。
這里的 GNN 模塊通常會(huì)設(shè)計(jì)得比較復(fù)雜,比如 KagNet 用了 GCN-LSTM-HPA 即基于路徑的分層注意力機(jī)制(HPA)來耦合 GCN 與 LSTM,從而對(duì)基于路徑的關(guān)系圖進(jìn)行表征;再如 QA-GNN 則在以 GAT 網(wǎng)絡(luò)為主體的同時(shí),用 LM 將 QA 文本編碼到圖中,成為一個(gè)單獨(dú)的節(jié)點(diǎn),從而與圖中其它概念和關(guān)系進(jìn)行聯(lián)合推理。
隨著 QA 系統(tǒng)變得越來越復(fù)雜,研究員們也不得不進(jìn)一步思考一些基本問題:這些 GNN 模型是不夠復(fù)雜還是過于復(fù)雜了?它們究竟在推理中扮演了哪些關(guān)鍵的角色?
為了回答這些問題,研究員們首先分析了現(xiàn)在最先進(jìn)的基于 GNN 的 QA 系統(tǒng)及其推理能力?;诎l(fā)現(xiàn),研究員們?cè)O(shè)計(jì)了一種圖計(jì)數(shù)網(wǎng)絡(luò)。這個(gè)網(wǎng)絡(luò)不光簡單高效,而且在 CommonsenseQA 和 OpenBookQA 這兩個(gè)基于推理的主流數(shù)據(jù)集上都達(dá)到了更優(yōu)的效果。
圖 1 :研究員們分析發(fā)現(xiàn)當(dāng)前 GNN 在 QA 中扮演的關(guān)鍵角色是對(duì)邊進(jìn)行計(jì)數(shù),于是便設(shè)計(jì)了一種高效且具有解釋性的圖計(jì)數(shù)模塊來對(duì) QA 進(jìn)行推理。
而為了分析 QA 里最前沿的基于 GNN 對(duì)的系統(tǒng),研究員們則用 SparseVD 剪枝方法對(duì) GNN 各個(gè)子單元先進(jìn)行剪枝訓(xùn)練,然后,在不損失精度的前提下,對(duì)各層保留的稀疏率進(jìn)行統(tǒng)計(jì),以判斷各子模塊的重要性及功能。如圖2所示,通常檢索得到的 KG 子圖會(huì)被預(yù)處理成 Node Embedding, Edge Embedding 和鄰接矩陣,相關(guān)分?jǐn)?shù)等部分則作為 GNN 的輸入。研究員們通過分析發(fā)現(xiàn),初始的 Node Embedding 和相關(guān)分?jǐn)?shù)是不必要的,相關(guān)層的稀疏率幾乎可以被剪枝到零,即這些相關(guān)層可以直接去掉。而 Edge Embedding 相關(guān)層更難被剪枝,可見其對(duì)當(dāng)前場景下的推理非常重要。對(duì)于 GAT 里的 message passing 層,通過觀察可以得知,這些層的稀疏率都比較低,尤其是前幾層的 query 和 key 層已經(jīng)接近于零,即這些層有過參數(shù)化的趨勢,并且注意力機(jī)制幾乎退化為線性變換。
圖 2:研究員們用剪枝方法 SparseVD 作為工具對(duì) QA 里的 GNN 各個(gè)模塊進(jìn)行分析,發(fā)現(xiàn)邊的信息相關(guān)層極為重要,而其它很多層存在過參數(shù)化的現(xiàn)象。
基于分析結(jié)論,研究員們?cè)O(shè)計(jì)了一個(gè)極其簡單且高效的基于計(jì)數(shù)的Graph Soft Counter(GSC)。如圖3所示,相較于其他主流的 GNN 如 GAT,GSC 只有兩個(gè)基本部件:邊編碼器(Edge encoder)和圖計(jì)數(shù)層(Graph Soft Counter Layer),并且節(jié)點(diǎn)和邊上的隱層維度也減少到1,這意味著在途中流動(dòng)的全是單個(gè)的數(shù)字,可以將它們解釋為邊和節(jié)點(diǎn)的重要性分?jǐn)?shù)。亦如圖4的算法一所示,GSC 極度簡化 massage passing 的過程為最基本的兩個(gè)操作即 propagation 和 aggregation,從而將這些重要性分?jǐn)?shù)加總到 QA context 中心節(jié)點(diǎn),并作為選項(xiàng)的分?jǐn)?shù)進(jìn)行輸出。
圖 3:GSC 層交替更新邊和節(jié)點(diǎn)上的計(jì)數(shù)分?jǐn)?shù)
圖 4:算法一:將邊信息進(jìn)行編碼后,GSC 層執(zhí)行 message passing 將分?jǐn)?shù)匯總到中心節(jié)點(diǎn)即為圖分
值得一提的是,GSC 層內(nèi)部是完全無參數(shù)的,這也使得它非常高效。如表1所示,GSC 的可學(xué)習(xí)參數(shù)量少于其它 GNN 模塊的百分之一,并且由于沒有使用初始的Node Embedding,GSC 的模型存儲(chǔ)大小更是小了五個(gè)數(shù)量級(jí)。再如表2所示,GSC 在時(shí)間和空間復(fù)雜度上也都極其高效。
表 1:GSC 僅使用了鄰接矩陣和邊/節(jié)點(diǎn)類型信息,且參數(shù)極少
表 2:GSC 在時(shí)間和空間復(fù)雜度上都極其高效
除了簡單高效,GSC 的表現(xiàn)也很突出。研究員們?cè)?CommonsenseQA 和 OpenBookQA 這兩個(gè)基于推理的主流數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)。論文中提出的基線既有未使用 KG 的 LM 本身,也有其它使用 GNN 來處理 KG 的其他前沿方法。如表3~5所示,GSC 方法在兩個(gè)數(shù)據(jù)集上都占有優(yōu)勢,并且在OpenBookQA 官方排行榜上位居第一,甚至超過了 UnifiedQA(11B)這個(gè)擁有110億參數(shù)的巨無霸模型。
表 3:GSC 在 CommonsenseQA 數(shù)據(jù)集上優(yōu)于其它基于 GNN 的方法
表 4:GSC 在 OpenBookQA 數(shù)據(jù)集上優(yōu)于其它基于 GNN 的方法
表 5:GSC 在 OpenBookQA 官方排行榜上排名第一,甚至超過了 UnifiedQA
本篇論文的分析和提出的方法,揭示了當(dāng)前復(fù)雜的基于 GNN 的 QA 系統(tǒng)很可能只是在執(zhí)行一些基礎(chǔ)的推理功能比如計(jì)數(shù)這一現(xiàn)象。如何打造一個(gè)面面俱到的 QA 系統(tǒng)以達(dá)到人類的推理水平仍是一個(gè)丞待解決的宏大命題。
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。
pa相關(guān)文章:pa是什么