在线看毛片网站电影-亚洲国产欧美日韩精品一区二区三区,国产欧美乱夫不卡无乱码,国产精品欧美久久久天天影视,精品一区二区三区视频在线观看,亚洲国产精品人成乱码天天看,日韩久久久一区,91精品国产91免费

<menu id="6qfwx"><li id="6qfwx"></li></menu>
    1. <menu id="6qfwx"><dl id="6qfwx"></dl></menu>

      <label id="6qfwx"><ol id="6qfwx"></ol></label><menu id="6qfwx"></menu><object id="6qfwx"><strike id="6qfwx"><noscript id="6qfwx"></noscript></strike></object>
        1. <center id="6qfwx"><dl id="6qfwx"></dl></center>

            博客專欄

            EEPW首頁 > 博客 > 微軟亞洲研究院深入探索圖深度學(xué)習(xí)領(lǐng)域兩大挑戰(zhàn),以圖深度學(xué)習(xí)賦能知識計算

            微軟亞洲研究院深入探索圖深度學(xué)習(xí)領(lǐng)域兩大挑戰(zhàn),以圖深度學(xué)習(xí)賦能知識計算

            發(fā)布人:MSRAsia 時間:2023-01-15 來源:工程師 發(fā)布文章
            編者按:在 NeurIPS 2022 聯(lián)合 Open Graph Benchmark 舉辦的大規(guī)模圖學(xué)習(xí)競賽(Open Graph Benchmark Large-Scale Challenge,OGB-LSC)上,微軟亞洲研究院數(shù)據(jù)、知識與智能(DKI)組的研究員們聚焦知識圖譜的鏈接預(yù)測任務(wù),通過更好的知識圖譜補全方案,實現(xiàn)了知識圖譜更高的“時效性”、“準確性”和“完備性”。而在今年2月 WSDM 2022 聯(lián)合亞馬遜舉辦的動態(tài)異質(zhì)圖上的鏈接預(yù)測競賽中,DKI 組的研究員們也取得了優(yōu)異的成績,其研究成果強調(diào)了對異質(zhì)圖信息和時序信息的建模。
            在圖深度學(xué)習(xí)領(lǐng)域的持續(xù)深耕,讓微軟亞洲研究院 DKI 組提出了一系列新方法和新思路,為多項研究成果的突破奠定了基礎(chǔ)。那么對于圖深度學(xué)習(xí)技術(shù)在知識計算領(lǐng)域的應(yīng)用,微軟亞洲研究院的研究員們有哪些獨到的理解?又預(yù)見了哪些前沿的研究方向?


            圖(Graph),作為一種通用的數(shù)據(jù)組織方式,被廣泛應(yīng)用于建模實體間的聯(lián)系,例如知識圖譜、社交網(wǎng)絡(luò)、交通路網(wǎng)、引文網(wǎng)絡(luò)、互聯(lián)網(wǎng)以及云服務(wù)依賴關(guān)系網(wǎng)絡(luò)等。隨著深度學(xué)習(xí)技術(shù)的快速發(fā)展,由深度學(xué)習(xí)與圖數(shù)據(jù)處理相結(jié)合,催生出了圖深度學(xué)習(xí)這一熱門的研究方向,并以圖嵌入、圖神經(jīng)網(wǎng)絡(luò)等技術(shù)為代表對圖數(shù)據(jù)進行學(xué)習(xí)和分析。從數(shù)據(jù)的角度來看,圖深度學(xué)習(xí)如今已成為圖數(shù)據(jù)分析背后的重要技術(shù)。


            微軟亞洲研究院數(shù)據(jù)、知識與智能(Data, Knowledge and Intelligence,DKI)組一直致力于發(fā)掘數(shù)據(jù)的價值,因此,DKI 組的研究員們希望從數(shù)據(jù)分析和知識提取中獲取洞見,以更有效的圖深度學(xué)習(xí)技術(shù)來賦能企業(yè)級的數(shù)據(jù)分析和知識計算。所謂知識計算就是指利用計算機程序來處理人類知識的過程,而且在這個過程中要將人類的知識轉(zhuǎn)化為計算機可以理解的形式,并用這些信息解決復(fù)雜的問題。


            知識計算領(lǐng)域的數(shù)據(jù)對象往往很有特點,其中的典型數(shù)據(jù)包括知識圖譜和根據(jù)領(lǐng)域特點自定義的異構(gòu)網(wǎng)絡(luò),這類圖中的節(jié)點和邊有更明確的語義,而且往往有確定的實體名和關(guān)系類型名,還常具有詳細的文本描述。圖的結(jié)構(gòu)和語義信息都是對分析結(jié)果有明顯影響的要素,基于這兩種信息融合的知識表示也非常具有挑戰(zhàn)性,所以圖學(xué)習(xí)模型的設(shè)計也要更有針對性。


            目前對知識的建模手段主要有兩類:一類是通過大規(guī)模語言模型隱式建模知識,但這類模型的可控度和可解釋性較低,有些回答真假難辨,比如 ChatGPT;另一類是通過顯式的知識建模,利用結(jié)構(gòu)化的知識表達,將其存儲于知識庫中,可以顯式進行問答、推理等任務(wù),然而如何更好地利用知識庫中的知識卻是個難題。


            微軟亞洲研究院 DKI 組的研究員們認為可以利用圖深度學(xué)習(xí),從以下幾個方面增強顯式知識建模的能力:


            (1)增強知識表示能力。通過相應(yīng)技術(shù)學(xué)習(xí)得到知識的向量表示,讓現(xiàn)有的智能模型可以更好地利用知識庫中的知識。


            (2)提升知識挖掘能力。圖深度學(xué)習(xí)技術(shù)可以用來挖掘知識圖譜結(jié)構(gòu)中的隱藏關(guān)系,從而更好地理解知識中的含義和關(guān)聯(lián)性。


            (3)擴展知識應(yīng)用范圍。圖深度學(xué)習(xí)技術(shù)能夠應(yīng)用于多種領(lǐng)域,如自然語言處理、推薦系統(tǒng)、知識圖譜構(gòu)建等,為知識計算的應(yīng)用提供了更多的可能性。


            知識圖譜是最為常用的顯式建模知識的方式,它是一種用節(jié)點表示實體,用連邊表示關(guān)系的圖結(jié)構(gòu)組織方式。針對知識圖譜的圖深度學(xué)習(xí)技術(shù)是知識計算中非常重要的一環(huán)。目前,知識圖譜上的圖深度學(xué)習(xí)方法以嵌入技術(shù)為主,該類技術(shù)將實體和關(guān)系映射到低維向量空間,用來表示知識圖譜中實體和關(guān)系之間的相似度,從而進行知識圖譜的推理、推薦和分類等任務(wù)。在應(yīng)用外部知識解決各類智能任務(wù)的過程中,圖深度學(xué)習(xí)也發(fā)揮著重要作用。


            “我們希望利用圖深度學(xué)習(xí)來增強顯式建模知識的能力,并結(jié)合知識圖譜和圖深度學(xué)習(xí)進行更多探索。針對知識圖譜,我們通過圖深度學(xué)習(xí)來挖掘更多潛在的隱藏關(guān)系,力爭得到更全面、完善的知識表達,這也是我們在 NeurIPS 2022 大規(guī)模圖學(xué)習(xí)競賽 OGB-LSC 上的課題,比賽結(jié)果表明我們的研究已經(jīng)取得了階段性成果。”微軟亞洲研究院 DKI 組主管研究員杜侖表示。


            圖片

            系列研究讓圖深度學(xué)習(xí)模型更通用、更穩(wěn)定


            圖深度學(xué)習(xí)領(lǐng)域的研究內(nèi)容非常廣泛,微軟亞洲研究院 DKI 組將系列研究聚焦在了圖深度學(xué)習(xí)需要持續(xù)攻克的幾個課題上:設(shè)計更通用、更具泛化性的圖深度學(xué)習(xí)模型和更穩(wěn)定有效的模型訓(xùn)練策略,以及探索更廣泛的圖模型應(yīng)用場景。


            從模型設(shè)計的角度,目前很多模型都擅長處理具有同配屬性的數(shù)據(jù)。同配屬性是指圖上節(jié)點具有相鄰相似性,這種性質(zhì)在傳統(tǒng)的圖研究對象中存在較多,例如社交網(wǎng)絡(luò)、交通路網(wǎng)等等,然而圖數(shù)據(jù)的覆蓋面非常廣,例如企業(yè)中團隊協(xié)作的關(guān)系網(wǎng)絡(luò)就有更明顯的優(yōu)勢互補傾向,或者推薦系統(tǒng)中用戶對于內(nèi)容不喜歡的反饋網(wǎng)絡(luò)顯然不具備同配關(guān)系。那么如何建模更廣泛類型的圖,并挖掘更多圖中的有效信號,是目前模型設(shè)計上的一個挑戰(zhàn)。


            從模型訓(xùn)練的角度來看,由于圖數(shù)據(jù)中節(jié)點和節(jié)點的連邊導(dǎo)致訓(xùn)練過程中無法簡單地流式遍歷數(shù)據(jù),需要配合圖采樣等技術(shù)才能進行有效的訓(xùn)練,因此如何在保證高效訓(xùn)練的同時又盡可能減少信息損失,是真實大規(guī)模圖數(shù)據(jù)場景中的重要問題。除了圖特有的問題外,圖深度學(xué)習(xí)模型的訓(xùn)練也會遇到其他深度學(xué)習(xí)模型所面臨的類似的問題,比如如何保證訓(xùn)練的穩(wěn)定性、效率和最終模型的泛化表現(xiàn)等。


            此外,圖模型的過壓縮(oversquashing)、過平滑(oversmoothing),以及一般深度學(xué)習(xí)的模型初始化、過擬合等也都是需要一一解決的問題。


            經(jīng)過近幾年的持續(xù)研究,DKI 組的研究員們在適用范圍更廣、可解釋性更強的圖模型設(shè)計,以及一些通用的提高模型訓(xùn)練穩(wěn)定性和泛化性的設(shè)計等方面都取得不少突破性成果。


            在更具泛化性的模型結(jié)構(gòu)設(shè)計方面,研究員們提出了針對圖同配性和異配性同時建模的雙核圖網(wǎng)絡(luò)模型,和針對鄰域特征分布建模的混合矩圖網(wǎng)絡(luò)模型:


            • 針對圖同配性和異配性同時建模的雙核圖網(wǎng)絡(luò)模型:研究員們發(fā)現(xiàn)無法建模異配關(guān)系的部分原因是,對同一階鄰居的向量表征使用了相同的核做變換所致,即使使用類似于圖注意力網(wǎng)絡(luò)(GAT)的注意力機制,但由于注意力計算的權(quán)重總是一個正值,所以一個核無法同時對節(jié)點表征之間的相似性和相異性(如正負相關(guān)性)進行建模。針對這個問題,研究員們分析發(fā)現(xiàn),無論是在同配圖還是異配圖的數(shù)據(jù)集上,都存在著相當(dāng)數(shù)量的異配子圖,且子圖的異配度參差不齊,而傳統(tǒng)模型如 GCN(圖卷積神經(jīng)網(wǎng)絡(luò))在同配子圖上往往表現(xiàn)優(yōu)異,但在異配子圖上發(fā)揮較差,這充分說明了同時建模同配和異配性模型的必要性。因此,研究員們提出了一種基于雙核特征轉(zhuǎn)換和門(gate)機制的新型 GNN(圖形神經(jīng)網(wǎng)絡(luò))模型——GBK-GNN。通過具有不同同質(zhì)異質(zhì)特性的七個真實數(shù)據(jù)集的廣泛實驗表明,與其他 SOTA 方法相比,GBK-GNN 有穩(wěn)定且顯著的提升。


            圖片

            圖1:GBK-GNN 模型架構(gòu)圖


            • 針對鄰域特征分布建模的混合矩圖網(wǎng)絡(luò)模型:GNN 是一類通過聚合鄰居信息來對圖上的節(jié)點、邊或者子圖進行表示的機器學(xué)習(xí)模型。然而,大多數(shù)現(xiàn)有的 GNN 都使用單一的統(tǒng)計量,如平均數(shù)、最大值和求和,來聚合鄰居的特征,丟失了與鄰居特征分布相關(guān)的信息,降低了模型的性能。為了解決這個問題,研究員們借鑒統(tǒng)計學(xué)理論的矩方法,提出了新的 GNN 模型——混合矩圖神經(jīng)網(wǎng)絡(luò) MM-GNN。在15個真實世界圖數(shù)據(jù)集(包括社交網(wǎng)絡(luò)、引文網(wǎng)絡(luò)和網(wǎng)頁網(wǎng)絡(luò)等)上進行的廣泛實驗表明,MM-GNN 優(yōu)于現(xiàn)有的最先進的模型。


            圖片

            圖2:MM-GNN 模型架構(gòu)圖


            在探索穩(wěn)定的圖深度學(xué)習(xí)模型的過程中,微軟亞洲研究院 DKI 組還發(fā)現(xiàn)了穩(wěn)定神經(jīng)元的響應(yīng)對模型泛化能力提升的幫助,提出了基于信息瓶頸理論的神經(jīng)元競爭初始化策略:


            • 穩(wěn)定神經(jīng)元響應(yīng)以提升模型泛化性能:研究員們從神經(jīng)元級別的細粒度出發(fā),分析了單個神經(jīng)元在神經(jīng)網(wǎng)絡(luò)訓(xùn)練和測試中的響應(yīng)特性,發(fā)現(xiàn)提升神經(jīng)元對同類輸入樣本響應(yīng)的穩(wěn)定性能夠有效地提高神經(jīng)網(wǎng)絡(luò)的泛化性能。據(jù)此,研究員們提出了一種通用的正則項,用于控制神經(jīng)元在激活狀態(tài)下響應(yīng)的類內(nèi)方差。該正則項簡單高效,不僅顯著提高了圖學(xué)習(xí)領(lǐng)域的圖神經(jīng)網(wǎng)絡(luò)的泛化能力,還在計算機視覺領(lǐng)域中為卷積神經(jīng)網(wǎng)絡(luò)和多層感知機模型帶來了顯著提升。


            • 基于信息瓶頸理論的神經(jīng)元競爭初始化策略:在深度神經(jīng)網(wǎng)絡(luò)的復(fù)雜系統(tǒng)中,穩(wěn)定的訓(xùn)練過程往往依賴于有效的初始化機制。現(xiàn)有的初始化機制研究工作主要關(guān)注于如何更好地緩解訓(xùn)練過程中所出現(xiàn)的梯度消失或爆炸問題,但缺乏對提升模型最終泛化效果的關(guān)注。受信息瓶頸理論(information bottleneck theory)的啟發(fā),研究員們定義了兩個初始化目標,保證初始模型具有一定分類效果的同時能盡可能多地保留兩種模型輸入的信息量。此外,通過一種新穎且高效的神經(jīng)元競爭算法,模型的初始化在上述兩個目標之外還能保證初始化參數(shù)的多樣性。該方法的新穎性和有效性得到了 CIKM 委員會的青睞,并獲得了最佳短文獎。


            微軟亞洲研究院 DKI 組還利用圖建模方法賦能了更多領(lǐng)域,提出了基于圖模型增強的表格理解深度網(wǎng)絡(luò)。表格數(shù)據(jù)結(jié)構(gòu)的自動化理解是對文檔表格和網(wǎng)頁表格進行數(shù)據(jù)分析的重要步驟。然而,表格數(shù)據(jù)類型多樣,包括便于存儲的數(shù)據(jù)庫表格、為了利于展示的電子表格以及結(jié)構(gòu)更為靈活的問卷式表格,這大大增加了表格理解的難度。對此,研究員們利用圖結(jié)構(gòu)靈活、泛用性強的特點,引入了圖建模的思路,兼顧了建模表格結(jié)構(gòu)以及表格中文本的語義信息,設(shè)計了一個面向表格的通用深度網(wǎng)絡(luò),可以有效地理解表格結(jié)構(gòu)。此外,網(wǎng)絡(luò)中還引入了行粒度和列粒度上的雙向循環(huán)神經(jīng)網(wǎng)絡(luò)模塊,以更好地理解表格不同區(qū)域間的邊界關(guān)系。在兩種不同數(shù)據(jù)粒度的真實表格理解任務(wù)中,該方法都取得了最優(yōu)表現(xiàn)。


            圖片

            加強合作,推動圖深度學(xué)習(xí)賦能更多場景


            微軟亞洲研究院 DKI 組在圖深度學(xué)習(xí)研究中所取得的階段性技術(shù)突破,現(xiàn)已開始應(yīng)用在眾多業(yè)務(wù)場景中。例如,在 Excel 中,通過圖建模的方法引入 WordNet 作為建模表格語義信息時的外部知識,對表格結(jié)構(gòu)識別任務(wù)有明顯提升。而在領(lǐng)英(LinkedIn)的工作推薦功能中,一個很重要的問題是如何把合適的工作推薦給合適的人。領(lǐng)英與 DKI 組合作通過異構(gòu)圖建模包括行業(yè)信息、教育背景、技能等在內(nèi)的領(lǐng)域知識,并結(jié)合異構(gòu)圖 GNN 模型同時建模領(lǐng)域知識與用戶行為等信息,當(dāng)前已在線下實驗中取得了明顯的推薦準確率提升。


            除此之外,微軟亞洲研究院 DKI 組還與學(xué)術(shù)界的高校和科研機構(gòu)合作,一道推進圖深度學(xué)習(xí)領(lǐng)域的進步與應(yīng)用。通過微軟亞洲研究院鑄星計劃,DKI 組的研究員與中科院計算所的學(xué)者共同探索了結(jié)合圖模型的交通軌跡數(shù)據(jù)的表示學(xué)習(xí),借由層級圖模型建模數(shù)據(jù)點的物理距離,有效提升了軌跡表示學(xué)習(xí)模型的效果。在與上交所的研究合作中,研究員們對大規(guī)模圖處理進行了研究,提出了新的圖模型加速推斷方法,使推理過程更高效。


            對于圖深度學(xué)習(xí)未來的研究規(guī)劃,微軟亞洲研究院首席研究員韓石表示,“下一步,微軟亞洲研究院 DKI 組將持續(xù)推進企業(yè)級知識計算領(lǐng)域與相關(guān)基礎(chǔ)研究的探索,包括文檔智能、顯式知識表示和大規(guī)模語言模型的結(jié)合、以及圖深度學(xué)習(xí)模型等。同時,我們也希望可以與更多學(xué)術(shù)機構(gòu)和專家學(xué)者合作,共同探索圖深度學(xué)習(xí)的前沿發(fā)展方向?!?/span>


            感謝微軟亞洲研究院 DKI 組圖深度學(xué)習(xí)研究團隊(成員包括:杜侖、陳旭、馬曉君、付強、韓石)對本文的貢獻。



            相關(guān)論文鏈接:


            1. Solution for NeurIPS 2022 OGB-LSC

            https://ogb.stanford.edu/paper/neurips2022/wikikg90mv2_DNAKG.pdf

            2. HTGN-BTW: Heterogeneous Temporal Graph Network with Bi-Time-Window Training Strategy for Temporal Link Prediction

            https://www.wsdm-conference.org/2022/wp-content/uploads/2022/02/Task2_nothinghere_2nd.pdf

            3. Neuron with Steady Response Leads to Better Generalization,NeurIPS’22

            https://openreview.net/forum?id=9YQPaqVZKP

            4. MM-GNN: Mix-Moment Graph Neural Network towards Modeling Neighborhood Feature Distribution, WSDM’23

            https://arxiv.org/abs/2208.07012

            5. Neuron with Steady Response Leads to Better Generalization,NeurIPS’22

            https://openreview.net/forum?id=9YQPaqVZKP

            6. Neuron Campaign for Initialization Guided by Information Bottleneck Theory,Best Short Paper at CIKM’21

            https://dl.acm.org/doi/abs/10.1145/3459637.3482153

            7. TabularNet: A Neural Network Architecture for Understanding Semantic Structures of Tabular Data, KDD’21

            https://dl.acm.org/doi/abs/10.1145/3447548.3467228


            *博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。



            關(guān)鍵詞: AI

            相關(guān)推薦

            技術(shù)專區(qū)

            關(guān)閉