微軟亞洲研究院推出時空預(yù)測開源工具FOST,應(yīng)對各行業(yè)共性預(yù)測需求
編者按:2020年新冠疫情肆虐全球,為了控制疫情蔓延,找到應(yīng)對措施,美國疾病控制中心公布了大量疫情相關(guān)數(shù)據(jù),向全世界頂級科研機構(gòu)救助,希望科學(xué)家們可以利用技術(shù)能力,提供具有較高參考價值的預(yù)測數(shù)據(jù),從而幫助制定有效的控制策略。微軟亞洲研究院基于時空預(yù)測技術(shù),訓(xùn)練了針對新冠疫情的預(yù)測模型,并于2020年下半年被美國疾控中心采納使用。在過去的近一年中,該預(yù)測模型的表現(xiàn)整體優(yōu)于全球其它四十幾家科研機構(gòu)提供的預(yù)測模型。日前,微軟亞洲研究院基于此前的技術(shù)積累,正式推出了面向全行業(yè)的時空預(yù)測開源工具 FOST。
什么是時空概念?“時”是指時間序列,“空”即空間上的相互影響和聯(lián)系。例如,物流行業(yè)每個站點的歷史派件量是時序關(guān)系,而各中轉(zhuǎn)/配送站點間又存在空間上的聯(lián)系;再比如,在新冠疫情防控中,各級行政區(qū)域的每日感染病例數(shù)字,單獨來看是時序關(guān)系,而彼此之間的關(guān)聯(lián)則屬于空間關(guān)系。
“時空”因素在各行業(yè)中的廣泛存在,使時空預(yù)測成為眾多行業(yè)進行科學(xué)決策、優(yōu)化效率的關(guān)鍵。近日,微軟亞洲研究院推出了面向全行業(yè)、具有高度通用性與易用性的時空預(yù)測開源工具 FOST(Forecasting Open Source Tool)。存在相關(guān)需求的企業(yè)和機構(gòu)可以基于這一便捷易用的工具生成高效的時空預(yù)測解決方案。
GitHub 鏈接:
https://github.com/microsoft/FOST
共性抽象:時空預(yù)測開源工具FOST
近年來在與行業(yè)伙伴的緊密合作中,微軟亞洲研究院的研究員們發(fā)現(xiàn),時空預(yù)測需求普遍存在于物流、電信、醫(yī)療、交通等許多行業(yè)中。然而,當前大部分的時空預(yù)測還只是停留在研究階段,真正應(yīng)用時,大家只是相互借鑒思路,想要解決實際問題還需要各自從頭開始一點點摸索,并沒有一個簡單、易上手的通用工具。
基于與多家企業(yè)在時空預(yù)測上的合作研究,微軟亞洲研究院的研究員們抽象出了行業(yè)共性問題,將多年的技術(shù)和經(jīng)驗積累進行轉(zhuǎn)化,推出了具有極高行業(yè)通用性的時空預(yù)測工具 FOST。
FOST 架構(gòu)圖
要使時空預(yù)測工具兼顧通用性和可用性,需解決三個常見問題:第一是數(shù)據(jù)的質(zhì)量問題,這就需要降低數(shù)據(jù)噪音,減小信息缺失的影響;第二是時序上要能對趨勢、周期、突發(fā)等各類維度具有良好的包容性;第三則是在空間維度上打破以往預(yù)測模型只能單點預(yù)測的局限性,能夠在空間結(jié)構(gòu)中準確預(yù)測并利用關(guān)聯(lián)影響。
為此,微軟亞洲研究院為時空預(yù)測工具 FOST 集成了三大功能模塊,來應(yīng)對多種復(fù)雜時空條件下的預(yù)測:
數(shù)據(jù)處理:數(shù)據(jù)降噪,提升數(shù)據(jù)質(zhì)量
在 FOST 中,數(shù)據(jù)的收集由用戶自主完成,這既保證了能夠基于多樣的場景數(shù)據(jù)訓(xùn)練出不同的業(yè)務(wù)場景模型,又保證了用戶數(shù)據(jù)的隱私安全。之后,F(xiàn)OST 會針對存在噪音等問題的質(zhì)量低下的數(shù)據(jù)進行清洗,提升數(shù)據(jù)質(zhì)量,確保模型訓(xùn)練的準確度。
時序解碼:輕量級時序神經(jīng)網(wǎng)絡(luò)
在時序預(yù)測上,微軟亞洲研究院采用了輕量級深度時序神經(jīng)網(wǎng)絡(luò)。
深度時序神經(jīng)網(wǎng)絡(luò)主要用來捕捉實際業(yè)務(wù)場景中的復(fù)雜歷史規(guī)律。以物流行業(yè)為例,可能數(shù)據(jù)顯示某幾個站點在夏季派件量比平時多,那么是否就可以推測出下個夏天派件量同樣會上漲呢?實際的關(guān)聯(lián)關(guān)系通常并不是這么簡單就可以推斷出來的。深度時序網(wǎng)絡(luò)的作用就是找出其中的復(fù)雜關(guān)聯(lián)和細節(jié)規(guī)律。
但深度時序神經(jīng)網(wǎng)絡(luò)往往面臨訓(xùn)練速度慢,對于噪聲敏感的問題。同時在數(shù)據(jù)量不充足的情況下,容易過擬合訓(xùn)練數(shù)據(jù)。因此,微軟亞洲研究院在深度時序神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上通過對時序數(shù)據(jù)降維,使結(jié)構(gòu)輕量化,從而加速訓(xùn)練效率并穩(wěn)定預(yù)測結(jié)果。
空間解碼:圖神經(jīng)網(wǎng)絡(luò)構(gòu)建層次圖
在空間層上,微軟亞洲研究院采用了圖神經(jīng)網(wǎng)絡(luò),通過節(jié)點間的空間聯(lián)系,來建模信號變化在空間上的相互影響和關(guān)聯(lián)。例如在疫情數(shù)據(jù)預(yù)測中,一個地區(qū)的疫情結(jié)果會受到其他區(qū)域,尤其是相鄰地區(qū)的影響,所以預(yù)測時也不能忽略空間上的關(guān)聯(lián)。對此,微軟亞洲研究院利用圖神經(jīng)網(wǎng)絡(luò),在預(yù)測疫情發(fā)展信息時,也將其他省市的信息參考進來,進一步提升預(yù)測的精度。引入圖卷積網(wǎng)絡(luò)后,無論是針對縣區(qū)的細粒度預(yù)測,還是省市級別的粗粒度預(yù)測,結(jié)果的準確性都大大提升。
微軟亞洲研究院副院長劉鐵巖表示,“FOST 不是一個自上而下的研究產(chǎn)物,也并不是一開始就有明確計劃要進行研發(fā)的,而是經(jīng)過與產(chǎn)業(yè)界的深度接觸后,我們發(fā)現(xiàn)了很多行業(yè)在時空預(yù)測方面存在的共性需求,包括問題挑戰(zhàn)、解決方案等多個層面。因此,我們決定將共性問題抽象出來做成一個通用的開源工具,幫助更多企業(yè)借助先進的人工智能技術(shù)節(jié)省精力、成本,提升運營及創(chuàng)新效率?!?nbsp;
憑借高通用性,應(yīng)對眾多行業(yè)時空預(yù)測需求
在與時間、空間概念密切相關(guān)的行業(yè)中,時空預(yù)測工具 FOST 如何運作并發(fā)揮作用?
依然以較為典型的物流行業(yè)為例。如果物流企業(yè)希望通過 FOST 對某個大站點的次日派件量進行預(yù)測,首先,企業(yè)需要在底層的深度時序神經(jīng)網(wǎng)絡(luò)模塊中輸入近一段時期的時間序列數(shù)據(jù),包括這個站點的每日總出庫量和總收件量,及以該站點為終點或中轉(zhuǎn)站的派件量,之后模型的時序模塊會先學(xué)習(xí)歷史數(shù)據(jù)中的特征,并表示為隱空間中的一組向量。
接下來則需要進一步疊加相鄰站點的時序規(guī)律信息進行空間上的信息聚合。一個例子是站點與其相鄰站點之間往往存在這樣的關(guān)系——當相鄰站點快遞件數(shù)增加時,就會將一部分快件發(fā)送給該站點。在這種情況下,當在時序上預(yù)測出該站點次日派件量為200件,同時又看到空間層上相鄰站點次日快遞件數(shù)預(yù)計會急劇增加時,就可以預(yù)估出該站點次日的派件量可能將遠超200件,這樣就將站點空間上的關(guān)聯(lián)關(guān)系也融入到了模型中。
上述僅是物流行業(yè)的例子。很多其他行業(yè)場景,如網(wǎng)絡(luò)****流量預(yù)測、交通流量預(yù)測、電力輸送預(yù)測,與物流行業(yè)同樣存在共通的時空概念,時空預(yù)測工具 FOST 在這些行業(yè)上的作用原理也基本類似。
不過要注意的是,對于關(guān)聯(lián)性越大的節(jié)點,在預(yù)測時就越要優(yōu)先考慮他們的關(guān)聯(lián)關(guān)系,否則如果將所有關(guān)聯(lián)信息都進行無差別計算,那計算量將會巨大到難以承受。比如原本就已經(jīng)有數(shù)千個地點,如果還要將所有地點間的關(guān)系都考慮進來,這樣的計算量對服務(wù)器的要求會非常高,是一般企業(yè)所無法承擔(dān)的一筆開銷。對此,微軟亞洲研究院也做了很多優(yōu)化,包括在圖隨機采樣時會優(yōu)先考慮強關(guān)聯(lián)的信息,從而提高整個預(yù)測工具的運行效率。
此外,在某些行業(yè)中,空間概念未必僅停留在地理空間層面。例如,在醫(yī)療行業(yè)的糖尿病患者病情預(yù)測中,同一類糖尿病的不同患者,就可視作多個不同空間。一個病人的病情發(fā)展規(guī)律可以作為歷史參考,幫助預(yù)測出其他患者的病情發(fā)展趨勢。
微軟亞洲研究院的時空預(yù)測開源工具給各行業(yè)用戶提供了一個簡單易用的深度學(xué)習(xí)“利器”。通過使用 FOST,用戶不僅可以有效提升業(yè)務(wù)場景預(yù)測的準確率,還可以避免從頭開發(fā)類似平臺的重復(fù)工作。未來,微軟亞洲研究院將在當前版本的基礎(chǔ)上,持續(xù)優(yōu)化時空預(yù)測工具上模型的準確性和訓(xùn)練效率,助力更多企業(yè)和機構(gòu)通過構(gòu)建時空預(yù)測能力創(chuàng)造更大的價值。
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。