AAAI 2022|AI頂會論文究竟關(guān)注什么?(4)
10
神經(jīng)分段常時滯微分方程
論文鏈接:
https://arxiv.org/abs/2201.00960
連續(xù)深度神經(jīng)網(wǎng)絡(luò)框架(如神經(jīng)常微分方程),在時間序列分析、生成模型構(gòu)建、物理系統(tǒng)建模等領(lǐng)域取得了廣泛的應(yīng)用。但神經(jīng)微分方程的微分同胚性質(zhì)導(dǎo)致其不具備萬有逼近能力,無法表示一些簡單的函數(shù),比如,反射函數(shù)f(x)=-x.。為了克服該問題,不少學者提出了相應(yīng)的連續(xù)深度神經(jīng)網(wǎng)絡(luò)框架,例如增維神經(jīng)常微分方程、神經(jīng)時滯微分方程(neural delay differential equation, NDDEs)等。
本文提出了一類新的具有時滯的連續(xù)深度神經(jīng)網(wǎng)絡(luò),稱為神經(jīng)分段常時滯微分方程(neural piecewise-constant delay differential equations, NPCDDEs)。與之前提出的 NDDEs 框架不同, 研究員們將單個時滯轉(zhuǎn)換為分段常時滯(piecewise-constant delay)。
圖18:模型框架示意圖
經(jīng)過這樣轉(zhuǎn)換后的 NPCDDEs 一方面繼承了 NDDEs 中的萬有逼近能力的優(yōu)勢,另一方面,NPCDDEs 考慮了多個過去時刻的信息,進一步提高了模型能力。此外,研究員們還考慮了不同時段采用不同參數(shù)的 NPCDDE,稱之為 unshared NPCDDEs (UNPCDDEs),正如一般的前饋神經(jīng)網(wǎng)絡(luò)(如ResNets層與層之間的參數(shù)是不共享的)。并且研究員們還指出 ResNets 和 NODEs 都是 UNPCDDEs 的特殊形式。研究員們在不同數(shù)據(jù)集,包括1維分段常時滯種群動力學實例和圖像數(shù)據(jù)集(MNIST, CIFAR10和SVHN)上,證明了 NPCDDEs/UNPCDDEs 的性能優(yōu)于目前具有代表性的連續(xù)深度神經(jīng)網(wǎng)絡(luò)模型。
圖19:不同神經(jīng)微分方程在1維分段常時滯種群動力學上的性能比較
表11:不同神經(jīng)微分方程在 CIFAR10, MNIST, SVHN 圖像數(shù)據(jù)集上的性能比較.
所有這些結(jié)果表明將動力系統(tǒng)的要素融入到現(xiàn)有的神經(jīng)網(wǎng)絡(luò)框架中,有利于連續(xù)深度神經(jīng)網(wǎng)絡(luò)的發(fā)展。
11
一致性信息瓶頸在域泛化中的應(yīng)用論文鏈接:https://arxiv.org/abs/2106.06333領(lǐng)域泛化(Domain Generalization)旨在從不同的分布中學習到一個泛化能力更好的模型。一致性風險最小化(IRM)(Arjovsky 2019)是領(lǐng)域泛化方向里比較重要的算法之一,其致力于尋求條件獨立于標簽的特征分布一致性(invariance of feature-conditioned label distribution)。但是 IRM 也存在著對于偽一致性特征(pseudo-invariant features)的依賴,以及在數(shù)據(jù)分布存在 geometric-skews 的時候,即數(shù)據(jù)都存在一部分偽特征可以用于分類且數(shù)據(jù)量較大時(即P(z_sp * y) > 0.5),模型會偏向建立一個 short-cut classifier 用于分類,而非考慮數(shù)據(jù)中更廣為存在且一致性更強的特征。
微軟亞洲研究院的研究員們認為這種問題源自于對特征的過度依賴,從而導(dǎo)致了 pseudo-invariance 和 geometric-skews 的存在。因此,研究員們在本文中提出使用信息瓶頸的方法對特征的維度進行正則化約束,進而提出了一致性信息瓶頸(Invariant Information Bottleneck,IIB),IIB旨在使用含有輸入數(shù)據(jù)信息盡量少,且盡量在不同分布間具有條件一致性的特征用于建立分類模型。研究員們將 IRM 的優(yōu)化目標寫成互信息的形式,結(jié)合信息瓶頸的互信息優(yōu)化目標,從而可以導(dǎo)出 IIB 的互信息優(yōu)化目標,視作如下:
進一步,研究員們在神經(jīng)網(wǎng)絡(luò)框架下,采取變分推斷的方式逼近以上的互信息目標。IIB 整體的結(jié)構(gòu)如下:
圖20:IIB 整體結(jié)構(gòu)IIB 在公有的 DomainBed 數(shù)據(jù)集中表現(xiàn)良好,超越已有基線方法0.9%。
表12:IIB 在 DomainBed 數(shù)據(jù)集的表現(xiàn)
概括地講,IIB 在 IRM 的基礎(chǔ)上加入對特征的信息瓶頸(IB)約束,并且將 IRM 和 IB 的優(yōu)化目標統(tǒng)一為互信息形式加以變分推斷,進行優(yōu)化。這種較新的優(yōu)化方式能夠在用于檢驗 pseudo-invariance 和 geometric-skews 的合成數(shù)據(jù)集中相比于 IRM 有明顯的提升,同時也能在 DomainBed 這種大型的真實數(shù)據(jù)集中取得較好的效果。
12
使用點反饋與標準離線黑箱算法的在線影響力最大化問題論文鏈接:https://arxiv.org/abs/2109.06077
本文研究了在線影響力最大化問題:玩家與未知社交網(wǎng)絡(luò)進行多輪交互,每輪需要選取種子集合投放信息,然后觀察社交網(wǎng)絡(luò)上信息傳播過程的反饋數(shù)據(jù),據(jù)此學習網(wǎng)絡(luò)參數(shù)并更新選取策略,最終最小化多輪交互的累積悔值,即每輪選取的集合與使得影響力最大化的最優(yōu)集合的差距之和。
文獻中通常研究兩種反饋數(shù)據(jù)類型:點反饋和邊反饋。點反饋揭示哪些節(jié)點何時被激活,邊反饋則額外揭示信息經(jīng)由哪些邊傳播。算法設(shè)計中通常需要調(diào)用離線影響力最大化算法幫助選擇每輪的種子集合。標準離線黑箱算法只需優(yōu)化種子集合本身,文獻中存在大量可高效實現(xiàn)的這類算法;而非標準離線黑箱算法需要同時優(yōu)化種子集合和網(wǎng)絡(luò)參數(shù),這是難以實現(xiàn)的。
本文針對獨立級聯(lián)(IC)和線性閾值(LT)傳播模型,各自設(shè)計了一個基于點反饋數(shù)據(jù)并且使用標準離線黑箱算法的最優(yōu)悔值在線算法,改進了之前 IC 模型下基于邊反饋的算法和LT模型下使用非標準黑箱的算法。本文提出變種極大似然估計方法來處理點反饋數(shù)據(jù),通過定義并優(yōu)化偽似然函數(shù)來學習網(wǎng)絡(luò)參數(shù)。本文的分析能夠針對每個參數(shù)得到一個置信區(qū)間,從而使得調(diào)用標準離線黑箱算法成為可能。而前人工作在使用點反饋數(shù)據(jù)時,只能針對參數(shù)向量得到一個高維置信域,從而必須調(diào)用非標準離線黑箱算法。
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。
pa相關(guān)文章:pa是什么
pic相關(guān)文章:pic是什么