在线看毛片网站电影-亚洲国产欧美日韩精品一区二区三区,国产欧美乱夫不卡无乱码,国产精品欧美久久久天天影视,精品一区二区三区视频在线观看,亚洲国产精品人成乱码天天看,日韩久久久一区,91精品国产91免费

<menu id="6qfwx"><li id="6qfwx"></li></menu>
    1. <menu id="6qfwx"><dl id="6qfwx"></dl></menu>

      <label id="6qfwx"><ol id="6qfwx"></ol></label><menu id="6qfwx"></menu><object id="6qfwx"><strike id="6qfwx"><noscript id="6qfwx"></noscript></strike></object>
        1. <center id="6qfwx"><dl id="6qfwx"></dl></center>

            博客專欄

            EEPW首頁 > 博客 > 基礎(chǔ)算法才是王道!真正的「算法工程師」都在研究啥?

            基礎(chǔ)算法才是王道!真正的「算法工程師」都在研究啥?

            發(fā)布人:數(shù)據(jù)派THU 時(shí)間:2023-03-19 來源:工程師 發(fā)布文章
            由Jeff Dean領(lǐng)銜的Google Research年終總結(jié)系列「Google Research, 2022 & beyond」第五期,本期的主題是算法上的進(jìn)步(algorithmic advances),撰寫作者是谷歌研究院的副總裁Vahab Mirrokni。


            圖片
            穩(wěn)健的算法設(shè)計(jì)是整個(gè)谷歌系統(tǒng)的基礎(chǔ),特別是對(duì)于機(jī)器學(xué)習(xí)和人工智能模型來說,穩(wěn)健性顯得更加重要。

            因此,開發(fā)具有更高效率、更強(qiáng)性能以及更快速的算法仍然具有相當(dāng)高的優(yōu)先級(jí),可以提升從搜索和廣告到地圖和 YouTube 等各種服務(wù)的能力。
            Google Reserach一直走在該領(lǐng)域前沿,開發(fā)了許多創(chuàng)新性的算法,涉及的領(lǐng)域包括隱私安全的推薦系統(tǒng)、大規(guī)模機(jī)器學(xué)習(xí)的可擴(kuò)展解決方案等。
            下面介紹一些Google在2022年提出的最先進(jìn)的技術(shù)包括可伸縮性、隱私、市場算法和算法基礎(chǔ)等。
            可伸縮算法: 圖、聚類和優(yōu)化
            隨著處理大規(guī)模數(shù)據(jù)集的需求增加,復(fù)雜算法的可伸縮性(scalability)和可靠性(reliability)在改進(jìn)算法的可解釋性、健壯性和速度上仍然具有較高優(yōu)先級(jí)。
            谷歌開發(fā)的新算法可用于處理各個(gè)領(lǐng)域的大型數(shù)據(jù)集,包括無監(jiān)督和半監(jiān)督學(xué)習(xí)、基于圖的學(xué)習(xí)、聚類和大規(guī)模優(yōu)化。
            系統(tǒng)中的一個(gè)重要組成部分是建立一個(gè)相似圖(similarity graph),節(jié)點(diǎn)為對(duì)象,邊表示對(duì)象之間的相似度。為了提高可伸縮性和速度,鄰接圖應(yīng)該是稀疏的。
            谷歌提出了一種叫做 STAR 的兩跳擴(kuò)展技術(shù)(2-hop spanner technique),是一種高效的分布式圖形生成策略,并展示了它如何在理論和實(shí)踐上顯著減少相似度計(jì)算的數(shù)量,在生成高質(zhì)量的圖形學(xué)習(xí)或聚類輸出的同時(shí)生成更稀疏的圖形。
            圖片
            論文鏈接:https://neurips.cc/Conferences/2022/ScheduleMultitrack?event=53141
            比如說對(duì)于具有10T條邊的圖,在成對(duì)相似性比較和運(yùn)行時(shí)間加速方面實(shí)現(xiàn)了約100倍的改進(jìn),而質(zhì)量損失可以忽略不計(jì),谷歌已經(jīng)應(yīng)用這個(gè)想法來開發(fā)用于度量和最小規(guī)模聚類的大規(guī)模并行處理算法。
            圖片
            論文鏈接:https://proceedings.mlr.press/v139/dhulipala21a.html
            在廣義的聚類背景下,谷歌開發(fā)了第一個(gè)具有線性時(shí)間層次聚集聚類(HAC)算法和第一個(gè)對(duì)數(shù)深度 HAC 并行算法 DBSCAN,該算法在100B 邊圖上實(shí)現(xiàn)了50倍的加速。
            并且還針對(duì)不同類型的聚類問題設(shè)計(jì)了改進(jìn)的次線性算法,如幾何連接聚類、常數(shù)輪相關(guān)聚類和完全動(dòng)態(tài) k 聚類。
            受到多核處理(例如 GBBS)成功的啟發(fā),研究人員開始著手開發(fā)能夠在單個(gè)多核機(jī)器上處理具有100B 邊的圖的圖挖掘算法,其中最大的難題是實(shí)現(xiàn)快速(例如,次線性)并行運(yùn)行時(shí)間(例如,深度)。
            在之前社區(qū)檢測和相關(guān)聚類工作的基礎(chǔ)上,谷歌開發(fā)了一個(gè) HAC 算法叫做 ParHAC,具有可證明的多對(duì)數(shù)深度和近線性工作,并實(shí)現(xiàn)了50倍的加速。
            圖片
            論文鏈接:https://openreview.net/pdf?id=LpgG0C6Y75
            例如,ParHAC 只需要約10分鐘就可以在一個(gè)超過100B 邊的圖上找到一個(gè)近似的親和層次結(jié)構(gòu),而在一臺(tái)機(jī)器上找到完整的 HAC 則需要約3小時(shí)。
            繼之前在分布式 HAC 上的工作之后,使用這些多核算法作為分布式算法中的一個(gè)子例程來ter-scale的圖。
            2022年,谷歌在圖形神經(jīng)網(wǎng)絡(luò)(GNN)方面也得到了一些進(jìn)展。
            圖片
            論文鏈接:https://www.jmlr.org/papers/volume23/20-852/20-852.pdf
            研究人員開發(fā)了一個(gè)基于模型的分類方法,統(tǒng)一了圖學(xué)習(xí)方法,實(shí)驗(yàn)中還從數(shù)千個(gè)不同結(jié)構(gòu)的圖表中發(fā)現(xiàn)了對(duì) GNN 模型的新思路,提出了一種新的混合體系結(jié)構(gòu),以克服現(xiàn)有 GNN 解決基本圖問題(如最短路徑和最小生成樹)的深度要求。
            圖片
            此外,為了將這些成果帶到更廣泛的社區(qū)中,谷歌發(fā)布了用于在 TensorFlow (TF-GNN)中構(gòu)建圖形神經(jīng)網(wǎng)絡(luò)的旗艦建模庫的三個(gè)版本,其中的亮點(diǎn)包括一個(gè)模型庫和模型編排 API,這使得編寫 GNN 解決方案變得更加容易。
            在NeurIPS’20上的關(guān)于大規(guī)模圖形挖掘和學(xué)習(xí)研討會(huì)之后,谷歌在 ICML’22舉辦了一個(gè)關(guān)于基于圖形的學(xué)習(xí)的研討會(huì),以及在 NeurIPS’22舉辦了一個(gè)關(guān)于 TensorFlow 中 GNN 的教程。
            圖片
            論文鏈接:https://dl.acm.org/doi/abs/10.1145/3474717.3483961
            谷歌還提出了一個(gè)谷歌地圖解決方案,可以有效地計(jì)算道路網(wǎng)絡(luò)中的可選路線、持續(xù)故障(例如,道路關(guān)閉和突發(fā)事件等)。
            文中還展示了該模型如何顯著優(yōu)于現(xiàn)實(shí)世界中的道路網(wǎng)絡(luò)的最先進(jìn)的plateau and penalty方法。
            圖片
            在優(yōu)化方面,谷歌開源了 Vizier,一個(gè)強(qiáng)大的黑盒優(yōu)化和超參數(shù)調(diào)優(yōu)庫。
            研究人員還為線性規(guī)劃(LP)解決方案開發(fā)了新的技術(shù),解決了由于依賴矩陣分解而導(dǎo)致的可伸縮性限制,限制了并行性和分布式方法的發(fā)展。
            圖片
            代碼鏈接:https://github.com/google/or-tools
            為此,研究人員開源了一個(gè)稱為原始-對(duì)偶線性規(guī)劃(PDLP)的原始-對(duì)偶混合梯度(PDHG)解決方案,一個(gè)新的一階求解器,可用于解決大規(guī)模 LP 問題。
            圖片
            PDLP 已經(jīng)被用來解決現(xiàn)實(shí)世界中多達(dá)12B non-zeros的問題(內(nèi)部分布式版本擴(kuò)展到92B non-zeros),PDLP 的有效性是理論發(fā)展和算法工程相結(jié)合的結(jié)果。
            隱私和聯(lián)邦學(xué)習(xí)
            在提供高質(zhì)量服務(wù)的同時(shí)尊重用戶隱私仍然是所有 Google 系統(tǒng)的首要任務(wù),該領(lǐng)域的研究涉及許多產(chǎn)品,并使用了來自差分隱私(differential privacy,DP)和聯(lián)邦學(xué)習(xí)的原則。
            首先,為了解決用 DP 訓(xùn)練大型神經(jīng)網(wǎng)絡(luò)的問題,研究人員在算法上取得了一些進(jìn)展。
            在早期工作的基礎(chǔ)上,繼續(xù)開發(fā)了一個(gè)基于 DP-FTRL 算法的 DP 神經(jīng)網(wǎng)絡(luò),用于矩陣分解的算法DP-FTRL。
            圖片
            論文鏈接:https://arxiv.org/pdf/2103.00039.pdf
            這項(xiàng)工作表明,人們可以設(shè)計(jì)一個(gè)數(shù)學(xué)程序,以優(yōu)化超過一個(gè)可能的 DP 機(jī)制的大集,以找到那些最適合特定的學(xué)習(xí)問題。
            在神經(jīng)網(wǎng)絡(luò)和核方法的 DP 學(xué)習(xí)中,研究人員還建立了與輸入特征維數(shù)無關(guān)的邊界保證,并且進(jìn)一步將這個(gè)概念擴(kuò)展到更廣泛的機(jī)器學(xué)習(xí)任務(wù),以不到原來1/300的計(jì)算量就可以匹敵基線的性能。
            對(duì)于大型模型的微調(diào),研究人員認(rèn)為,一旦預(yù)訓(xùn)練后,這些模型(甚至與 DP)基本上操作在一個(gè)低維子空間,從而繞過了 DP 強(qiáng)加的維數(shù)災(zāi)難。
            圖片
            在算法方面,為了估計(jì)一個(gè)高維分布的熵,可以得到局部 DP 機(jī)制(即使每個(gè)樣本只有一個(gè)比特可用也能工作)和有效的shuffle DP 機(jī)制。
            圖片
            論文鏈接:https://arxiv.org/abs/2210.15178
            研究人員提出了一種更加精確的方法來同時(shí)以私密的方式估計(jì)數(shù)據(jù)庫中最受歡迎的項(xiàng)目,并在 Plume 庫中應(yīng)用了這種方法。
            此外,在近似演算法計(jì)算(MPC)模型中展示了接近最佳的 DP 集群大規(guī)模并行處理機(jī),進(jìn)一步改進(jìn)了以前在可伸縮和分布式設(shè)置方面的工作。
            圖片
            論文鏈接:https://arxiv.org/abs/2107.14527
            另一個(gè)有前景的研究方向是隱私和流媒體的交叉,研究人員提出了一個(gè)近似最優(yōu)的近似空間權(quán)衡私有頻率矩和一個(gè)新的算法私有計(jì)數(shù)不同的元素在滑動(dòng)窗口流模型,還提出了一個(gè)研究對(duì)抗流(adversarial streaming)的通用混合框架。
            針對(duì)安全性和隱私性交叉的應(yīng)用程序,谷歌開發(fā)了安全、私有和通信效率高的新算法,用于測量交叉出版商的覆蓋范圍和頻率。
            世界廣告商聯(lián)合會(huì)(World Federation of Advertisers)已經(jīng)采用這些算法作為他們測量系統(tǒng)的一部分,在后續(xù)的工作中,研究人員還開發(fā)了新的協(xié)議,是保證安全的且私有的,用于在 DP 的兩服務(wù)器模型中計(jì)算稀疏直方圖。
            圖片
            論文鏈接:https://dl.acm.org/doi/10.1145/3548606.3559383
            從計(jì)算和通信的角度來看,這些協(xié)議都是高效的,比標(biāo)準(zhǔn)方法要好得多,并且結(jié)合了草圖、密碼學(xué)和多方計(jì)算以及 DP 等工具和技術(shù)。
            雖然目前已經(jīng)用 DP 訓(xùn)練了 BERT 和變壓器,但理解大語言模型(LLM)中的訓(xùn)練樣例記憶是評(píng)估其隱私性的一種啟發(fā)式方法。
            圖片
            論文鏈接:https://arxiv.org/abs/2207.00099
            特別是研究了 LLM 在訓(xùn)練中忘記(潛在記憶)訓(xùn)練例子的時(shí)間和原因,研究結(jié)果表明,以前看到的例子可能會(huì)以后看到的例子為代價(jià)來觀察隱私的好處。
            圖片
            論文鏈接:https://arxiv.org/abs/2202.07646
            研究人員還量化了 LLM 發(fā)出記憶訓(xùn)練數(shù)據(jù)的程度。
            市場算法與因果推理
            谷歌在2022年繼續(xù)研究如何改善在線市場(online marketplaces)。
            例如,最近廣告拍賣研究的一個(gè)重要領(lǐng)域是自動(dòng)投標(biāo)在線廣告的研究,其中大多數(shù)投標(biāo)是通過代理投標(biāo)人,代表廣告商優(yōu)化更高層次的目標(biāo)。用戶、廣告商、投標(biāo)人和廣告平臺(tái),導(dǎo)致這個(gè)領(lǐng)域存在一些問題。
            繼之前分析和改進(jìn)自動(dòng)競價(jià)拍賣機(jī)制的工作之后,谷歌繼續(xù)研究如何在自動(dòng)化背景下改進(jìn)在線市場,同時(shí)考慮到了不同方面,如用戶體驗(yàn)和廣告預(yù)算。
            圖片
            論文鏈接:https://arxiv.org/abs/2207.03630
            研究結(jié)果表明,適當(dāng)結(jié)合機(jī)器學(xué)習(xí)的建議和隨機(jī)化技術(shù),即使在非真實(shí)的拍賣,可以有力地改善整體福利在均衡的自動(dòng)競價(jià)算法。
            圖片
            除了自動(dòng)競價(jià)系統(tǒng),谷歌還研究了復(fù)雜環(huán)境下的拍賣改進(jìn)措施,例如,買家由中介代表,多種告形式,每個(gè)廣告可以顯示在幾個(gè)可能的變體。在最近的一篇survey中,谷歌總結(jié)了相關(guān)工作。
            圖片
            論文鏈接:https://www.sigecom.org/exchanges/volume_20/2/BHAWALKAR.pdf
            除了拍賣,谷歌還研究了合同在多代理人和對(duì)抗性環(huán)境中的使用,在線隨機(jī)優(yōu)化仍然是在線廣告系統(tǒng)的重要組成部分,在最優(yōu)投標(biāo)和預(yù)算節(jié)奏方面有著廣泛的應(yīng)用。
            圖片
            在長期的在線分配研究的基礎(chǔ)上,研究人員最近發(fā)表了關(guān)于雙鏡像下降(dual mirror descent)的介紹,一種簡單、健壯和靈活的在線分配問題的新算法,可以抵抗廣泛的對(duì)抗性和隨機(jī)輸入分布,并且可以優(yōu)化經(jīng)濟(jì)效率之外的重要目標(biāo),如公平性。
            結(jié)果還表明,通過裁剪雙鏡下降到日益流行的特殊結(jié)構(gòu)回報(bào)的支出約束,可以優(yōu)化廣告客戶的價(jià)值,其有著廣泛的應(yīng)用,并且隨著時(shí)間的推移已經(jīng)被用來幫助廣告商通過更好的算法決策獲得更多的價(jià)值。
            圖片
            論文鏈接:https://arxiv.org/abs/2109.03173
            此外,根據(jù)在機(jī)器學(xué)習(xí)、機(jī)制設(shè)計(jì)和市場相互作用方面的工作,谷歌研究了非對(duì)稱拍賣設(shè)計(jì)的Transformer,為no-regret學(xué)習(xí)的買家設(shè)計(jì)了效用最大化策略,并開發(fā)了新的學(xué)習(xí)算法來出價(jià)或在拍賣中定價(jià)。
            圖片
            復(fù)雜的在線服務(wù)的一個(gè)關(guān)鍵組成部分是能夠通過實(shí)驗(yàn)測量用戶和其他參與者對(duì)新干預(yù)措施的反應(yīng),準(zhǔn)確估計(jì)這些因果效應(yīng)的一個(gè)主要挑戰(zhàn)是處理這些實(shí)驗(yàn)的控制單元和治療單元之間的復(fù)雜相互作用(或干擾)。
            圖片
            論文鏈接:https://openreview.net/pdf?id=hqtSdpAK39W
            將圖形聚類和因果推理專業(yè)知識(shí)結(jié)合起來,擴(kuò)展了之前在這個(gè)領(lǐng)域的工作成果,在靈活的響應(yīng)模型和新的實(shí)驗(yàn)設(shè)計(jì)下改進(jìn)了結(jié)果。
            圖片
            論文鏈接:https://proceedings.neurips.cc/paper/2021/file/48d23e87eb98cc2227b5a8c33fa00680-Paper.pdf
            當(dāng)treatment 任務(wù)和度量測量發(fā)生在二分平臺(tái)的同一側(cè)時(shí),可以更有效地減少這些相互作用,文中還展示了如何將綜合控制和優(yōu)化技術(shù)相結(jié)合來設(shè)計(jì)更強(qiáng)大的實(shí)驗(yàn),特別是在小數(shù)據(jù)情況下。
            算法基礎(chǔ)和理論
            谷歌還通過解決長期存在的「開放問題」來繼續(xù)基礎(chǔ)算法研究。
            圖片
            論文鏈接:https://dl.acm.org/doi/pdf/10.1145/3519935.3520054
            一篇簡明扼要的論文解決了一個(gè)40年前的懸而未決的問題: 是否存在一種機(jī)制,在買方價(jià)值弱于賣方成本的情況下,保證交易收益的一部分不變。
            圖片
            論文鏈接:https://dl.acm.org/doi/pdf/10.1145/3519935.3520011
            另一篇論文得到了經(jīng)典的和高度研究的 k- 均值問題的最新近似,還改進(jìn)了相關(guān)聚類的最佳逼近,突破了2的障礙逼近因子。
            并且在動(dòng)態(tài)數(shù)據(jù)結(jié)構(gòu)方面的工作解決了最小成本和其他網(wǎng)絡(luò)流量問題,在采用連續(xù)優(yōu)化技術(shù)解決經(jīng)典的離散優(yōu)化問題方面取得了突破性進(jìn)展。
            總結(jié)
            設(shè)計(jì)有效的算法和機(jī)制是谷歌大規(guī)模系統(tǒng)的關(guān)鍵組成部分,這些系統(tǒng)需要以關(guān)鍵的隱私和安全考慮來穩(wěn)健地處理大規(guī)模數(shù)據(jù)。
            指導(dǎo)思想是開發(fā)具有堅(jiān)實(shí)理論基礎(chǔ)的算法,這些算法可以有效地部署在產(chǎn)品系統(tǒng)中,此外,通過開放一些最新穎的開發(fā)和發(fā)布它們背后的高級(jí)算法,將許多這些進(jìn)步帶給了更廣泛的社區(qū)。
            在這篇博客中,谷歌的研究人員討論了算法在隱私、市場算法、可擴(kuò)展算法、基于圖表的學(xué)習(xí)和優(yōu)化方面的進(jìn)步。
            隨著朝著人工智能優(yōu)先、自動(dòng)化程度更高的谷歌邁進(jìn),開發(fā)健壯、可擴(kuò)展和保護(hù)隱私的機(jī)器學(xué)習(xí)算法仍然是當(dāng)務(wù)之急,對(duì)開發(fā)新的算法和更廣泛地部署保持熱情。
            參考資料:https://ai.googleblog.com/2023/02/google-research-2022-beyond-algorithmic.html


            *博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。



            關(guān)鍵詞: AI

            相關(guān)推薦

            技術(shù)專區(qū)

            關(guān)閉