精心設(shè)計(jì)的 GNN 只是“計(jì)數(shù)器”？

發(fā)布人：MSRAsia 時(shí)間：2021-11-12 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫查詢

編者按：問答（QA）任務(wù)是自然語言理解領(lǐng)域中一個(gè)基本且重要的課題，目前通常會(huì)使用預(yù)訓(xùn)練語言模型以及圖神經(jīng)網(wǎng)絡(luò)等方法對(duì)問答進(jìn)行推理。GNN 模塊在推理中到底發(fā)揮了什么作用？這個(gè)問題需要科研人員做進(jìn)一步深入探究。為此，微軟亞洲研究院和佐治亞理工的研究員們剖析了最前沿的相關(guān)方法，并且發(fā)現(xiàn)一種極其簡單、高效的圖神經(jīng)計(jì)數(shù)器就能在主流的知識(shí)問答數(shù)據(jù)集中取得更好的效果。

長期以來，問答（QA）問題都是人工智能和自然語言處理領(lǐng)域中一個(gè)基本且重要的課題，層出不窮的研究工作都試圖賦予問答系統(tǒng)具有人類水平的推理能力。然而，人類的推理過程是極為復(fù)雜的，為了接近這樣復(fù)雜的推理，目前最前沿的方法一般會(huì)使用預(yù)訓(xùn)練的語言模型（LM）來獲取和利用其隱含的知識(shí)，再輔以精心設(shè)計(jì)的圖神經(jīng)網(wǎng)絡(luò)（GNN）來對(duì)知識(shí)圖譜進(jìn)行推理。但是關(guān)于 GNN 模塊在這些推理中到底發(fā)揮了哪些功能，仍需要進(jìn)一步深入研究。

為此，微軟亞洲研究院和佐治亞理工的研究員們剖析了最前沿的相關(guān)方法，并且發(fā)現(xiàn)一種極其簡單、高效的圖神經(jīng)計(jì)數(shù)器就能在主流的知識(shí)問答數(shù)據(jù)集中取得更好的效果。同時(shí)，研究員們還揭示了當(dāng)前基于知識(shí)推理的 GNN 模塊很有可能只是在完成簡單的推理功能如計(jì)數(shù)。（點(diǎn)擊閱讀原文，查看論文）

論文鏈接：https://arxiv.org/abs/2110.03192

知識(shí)的獲取和推理是問答（QA）任務(wù)的核心，而這些知識(shí)被隱式編碼于預(yù)訓(xùn)練語言模型（LM）或者顯式存儲(chǔ)在結(jié)構(gòu)化的知識(shí)圖譜（KG）里。當(dāng)前的 LM 在預(yù)訓(xùn)練過程中都會(huì)使用大規(guī)模的語料庫，其中蘊(yùn)含極其豐富的知識(shí)，這就使得 LM 稍加微調(diào)（finetune）就可以在各種 QA 數(shù)據(jù)集上取得不錯(cuò)的表現(xiàn)。

但是，LM 更依賴于共現(xiàn)（co-occurrance），這在處理推理問題時(shí)捉襟見肘，并缺乏可解釋性。而與之互補(bǔ)的 KG 盡管需要人工整理且規(guī)模受限，但它可以直接顯示存儲(chǔ)特定的信息和關(guān)系，從而具備可解釋性。

如何在 QA 里將二者結(jié)合起來揚(yáng)長避短是近年來的熱點(diǎn)話題，最前沿的工作大多采用了兩個(gè)步驟來處理知識(shí)圖譜：

1. Schema graph grounding。在知識(shí)圖譜里檢索與 QA 文本提及的實(shí)體相關(guān)聯(lián)的子圖，這個(gè)子圖包含帶有概念文本的節(jié)點(diǎn)和代表關(guān)系的邊以及鄰接矩陣。

2. 圖建模推理（Graph modeling for inference）。用設(shè)計(jì)精巧的 GNN 模塊對(duì)這個(gè)子圖進(jìn)行建模推理。

這里的 GNN 模塊通常會(huì)設(shè)計(jì)得比較復(fù)雜，比如 KagNet 用了 GCN-LSTM-HPA 即基于路徑的分層注意力機(jī)制（HPA）來耦合 GCN 與 LSTM，從而對(duì)基于路徑的關(guān)系圖進(jìn)行表征；再如 QA-GNN 則在以 GAT 網(wǎng)絡(luò)為主體的同時(shí)，用 LM 將 QA 文本編碼到圖中，成為一個(gè)單獨(dú)的節(jié)點(diǎn)，從而與圖中其它概念和關(guān)系進(jìn)行聯(lián)合推理。

隨著 QA 系統(tǒng)變得越來越復(fù)雜，研究員們也不得不進(jìn)一步思考一些基本問題：這些 GNN 模型是不夠復(fù)雜還是過于復(fù)雜了？它們究竟在推理中扮演了哪些關(guān)鍵的角色？

為了回答這些問題，研究員們首先分析了現(xiàn)在最先進(jìn)的基于 GNN 的 QA 系統(tǒng)及其推理能力?；诎l(fā)現(xiàn)，研究員們?cè)O(shè)計(jì)了一種圖計(jì)數(shù)網(wǎng)絡(luò)。這個(gè)網(wǎng)絡(luò)不光簡單高效，而且在 CommonsenseQA 和 OpenBookQA 這兩個(gè)基于推理的主流數(shù)據(jù)集上都達(dá)到了更優(yōu)的效果。

圖 1 ：研究員們分析發(fā)現(xiàn)當(dāng)前 GNN 在 QA 中扮演的關(guān)鍵角色是對(duì)邊進(jìn)行計(jì)數(shù)，于是便設(shè)計(jì)了一種高效且具有解釋性的圖計(jì)數(shù)模塊來對(duì) QA 進(jìn)行推理。

而為了分析 QA 里最前沿的基于 GNN 對(duì)的系統(tǒng)，研究員們則用 SparseVD 剪枝方法對(duì) GNN 各個(gè)子單元先進(jìn)行剪枝訓(xùn)練，然后，在不損失精度的前提下，對(duì)各層保留的稀疏率進(jìn)行統(tǒng)計(jì)，以判斷各子模塊的重要性及功能。如圖2所示，通常檢索得到的 KG 子圖會(huì)被預(yù)處理成 Node Embedding, Edge Embedding 和鄰接矩陣，相關(guān)分?jǐn)?shù)等部分則作為 GNN 的輸入。研究員們通過分析發(fā)現(xiàn)，初始的 Node Embedding 和相關(guān)分?jǐn)?shù)是不必要的，相關(guān)層的稀疏率幾乎可以被剪枝到零，即這些相關(guān)層可以直接去掉。而 Edge Embedding 相關(guān)層更難被剪枝，可見其對(duì)當(dāng)前場景下的推理非常重要。對(duì)于 GAT 里的 message passing 層，通過觀察可以得知，這些層的稀疏率都比較低，尤其是前幾層的 query 和 key 層已經(jīng)接近于零，即這些層有過參數(shù)化的趨勢，并且注意力機(jī)制幾乎退化為線性變換。

圖 2：研究員們用剪枝方法 SparseVD 作為工具對(duì) QA 里的 GNN 各個(gè)模塊進(jìn)行分析，發(fā)現(xiàn)邊的信息相關(guān)層極為重要，而其它很多層存在過參數(shù)化的現(xiàn)象。

基于分析結(jié)論，研究員們?cè)O(shè)計(jì)了一個(gè)極其簡單且高效的基于計(jì)數(shù)的Graph Soft Counter（GSC）。如圖3所示，相較于其他主流的 GNN 如 GAT，GSC 只有兩個(gè)基本部件：邊編碼器（Edge encoder）和圖計(jì)數(shù)層（Graph Soft Counter Layer），并且節(jié)點(diǎn)和邊上的隱層維度也減少到1，這意味著在途中流動(dòng)的全是單個(gè)的數(shù)字，可以將它們解釋為邊和節(jié)點(diǎn)的重要性分?jǐn)?shù)。亦如圖4的算法一所示，GSC 極度簡化 massage passing 的過程為最基本的兩個(gè)操作即 propagation 和 aggregation，從而將這些重要性分?jǐn)?shù)加總到 QA context 中心節(jié)點(diǎn)，并作為選項(xiàng)的分?jǐn)?shù)進(jìn)行輸出。

圖 3：GSC 層交替更新邊和節(jié)點(diǎn)上的計(jì)數(shù)分?jǐn)?shù)

圖 4：算法一：將邊信息進(jìn)行編碼后，GSC 層執(zhí)行 message passing 將分?jǐn)?shù)匯總到中心節(jié)點(diǎn)即為圖分

值得一提的是，GSC 層內(nèi)部是完全無參數(shù)的，這也使得它非常高效。如表1所示，GSC 的可學(xué)習(xí)參數(shù)量少于其它 GNN 模塊的百分之一，并且由于沒有使用初始的Node Embedding，GSC 的模型存儲(chǔ)大小更是小了五個(gè)數(shù)量級(jí)。再如表2所示，GSC 在時(shí)間和空間復(fù)雜度上也都極其高效。

表 1：GSC 僅使用了鄰接矩陣和邊/節(jié)點(diǎn)類型信息，且參數(shù)極少

表 2：GSC 在時(shí)間和空間復(fù)雜度上都極其高效

除了簡單高效，GSC 的表現(xiàn)也很突出。研究員們?cè)?CommonsenseQA 和 OpenBookQA 這兩個(gè)基于推理的主流數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)。論文中提出的基線既有未使用 KG 的 LM 本身，也有其它使用 GNN 來處理 KG 的其他前沿方法。如表3~5所示，GSC 方法在兩個(gè)數(shù)據(jù)集上都占有優(yōu)勢，并且在OpenBookQA 官方排行榜上位居第一，甚至超過了 UnifiedQA（11B）這個(gè)擁有110億參數(shù)的巨無霸模型。

表 3：GSC 在 CommonsenseQA 數(shù)據(jù)集上優(yōu)于其它基于 GNN 的方法

表 4：GSC 在 OpenBookQA 數(shù)據(jù)集上優(yōu)于其它基于 GNN 的方法

表 5：GSC 在 OpenBookQA 官方排行榜上排名第一，甚至超過了 UnifiedQA

本篇論文的分析和提出的方法，揭示了當(dāng)前復(fù)雜的基于 GNN 的 QA 系統(tǒng)很可能只是在執(zhí)行一些基礎(chǔ)的推理功能比如計(jì)數(shù)這一現(xiàn)象。如何打造一個(gè)面面俱到的 QA 系統(tǒng)以達(dá)到人類的推理水平仍是一個(gè)丞待解決的宏大命題。

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀點(diǎn)，如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。