大格局!第四范式要在一年內(nèi)開源95%核心技術(shù)
最先落地 AutoML 的那家公司,現(xiàn)在喊出了開源。
自動(dòng)機(jī)器學(xué)習(xí) AutoML 技術(shù),可以把特征提取、模型選擇、參數(shù)調(diào)節(jié)等機(jī)器學(xué)習(xí)的復(fù)雜過程實(shí)現(xiàn)自動(dòng)化。這種能夠大幅降低 AI 應(yīng)用門檻的工具,是目前人工智能業(yè)界炙手可熱的方向。
第四范式成立之初就開始投入力量研究 AutoML 技術(shù),現(xiàn)在又把自動(dòng)化 AI 的能力拓展到 AI 應(yīng)用的大多數(shù)環(huán)節(jié)。
在 6 月 23 日的年度發(fā)布會上,第四范式的 AI 操作系統(tǒng) AIOS 升級到了 2.0 版。更引人關(guān)注的是,這家公司還計(jì)劃在一年內(nèi)將 95% 核心技術(shù)開源出來。
「我們把最核心的數(shù)據(jù)和算力技術(shù)開源給技術(shù)社區(qū),它們是開發(fā)者最需要的東西。」第四范式聯(lián)合創(chuàng)始人、首席研究科學(xué)家陳雨強(qiáng)說道。
第四范式技術(shù)副總裁鄭曌等人在發(fā)布會上宣布了 AIOS 核心技術(shù)的開源。
從零開始,構(gòu)建 AI 數(shù)據(jù)引擎
首先是機(jī)器學(xué)習(xí)數(shù)據(jù)庫 OpenMLDB。在 AI 時(shí)代,機(jī)器學(xué)習(xí)模型不斷高頻次演進(jìn),這意味著數(shù)據(jù)供給的重要性不斷提升。但即使是在大型科技公司里,我們?nèi)匀荒芸吹?SQL 數(shù)據(jù)處理 10 小時(shí),上線排查 6 個(gè)月這樣的情況。
「機(jī)器學(xué)習(xí)技術(shù)實(shí)現(xiàn)理性和瞬時(shí)高效的推理判斷,但不論事務(wù)型數(shù)據(jù)庫、分析型數(shù)據(jù)庫還是傳統(tǒng)數(shù)倉,在執(zhí)行這類機(jī)器學(xué)習(xí)任務(wù)時(shí)都無法保障正確的數(shù)據(jù)供給」在發(fā)布會當(dāng)日的技術(shù)分論壇上,第四范式資深架構(gòu)師王太澤說道,「由于不是面向機(jī)器學(xué)習(xí)的設(shè)計(jì),傳統(tǒng)的數(shù)據(jù)庫無法完全覆蓋從離線、在線到數(shù)據(jù)反饋的全流程,對于機(jī)器學(xué)習(xí)應(yīng)用來說效率較低?!?/p>
第四范式幫助超過 120 個(gè)場景完成了數(shù)據(jù)的開發(fā)和矯正,這讓他們的工程師總結(jié)出供給正確數(shù)據(jù)的解法。
與Hadoop、Oracle、MySQL 等目前流行的數(shù)據(jù)庫相比,第四范式提出的OpenMLDB,定位是為AI 而生的機(jī)器學(xué)習(xí)數(shù)據(jù)庫,而這也是目前行業(yè)內(nèi)的空白。
OpenMLDB 解決了 3 個(gè)機(jī)器學(xué)習(xí)的核心數(shù)據(jù)問題:
首先是離線在線不一致,OpenMLDB 通過統(tǒng)一的數(shù)據(jù)存儲引擎避免了跨數(shù)據(jù)庫的信息交換。另一方面,通過統(tǒng)一的數(shù)據(jù)計(jì)算引擎,這套系統(tǒng)使離線和在線使用同一套計(jì)算邏輯,確保了總結(jié)規(guī)律和線索演算時(shí)思維方式的一致。
其次是時(shí)序正確性:在超過一半的場景中,由于傳統(tǒng)的數(shù)據(jù)庫系統(tǒng)無區(qū)別對待歷史經(jīng)驗(yàn)和未知信息,數(shù)據(jù)科學(xué)家在數(shù)據(jù)開發(fā)過程中產(chǎn)生了時(shí)序泄露,在進(jìn)行規(guī)律總結(jié)的時(shí)候使用到了不該使用、來自于未來的「穿越數(shù)據(jù)」。OpenMLDB 通過使用自動(dòng)時(shí)序拼接語法和時(shí)序泄露檢測模塊,避免了錯(cuò)誤的數(shù)據(jù)使用。
最后是閉環(huán)完整性,機(jī)器學(xué)習(xí)需要將線索演算以及業(yè)務(wù)推理判斷正確與否的反饋沉淀成經(jīng)驗(yàn)和知識,這需要數(shù)據(jù)庫系統(tǒng)能夠具備 將線索推演,以及判斷的反饋,進(jìn)行正確關(guān)聯(lián)的能力。OpenMLDB 通過對線索與反饋的自動(dòng)拼接檢測與自動(dòng)關(guān)聯(lián),保障了唯一拼接標(biāo)識,避免了數(shù)據(jù)拼接錯(cuò)位的問題。
在從傳統(tǒng)數(shù)據(jù)庫系統(tǒng)切換到 OpenMLDB 后,開發(fā)過程的數(shù)據(jù)正確性得到了保障。除了性能上的優(yōu)化外, OpenMLDB 在使用上也很方便,它支持標(biāo)準(zhǔn) JDBC、Restfull 和 SQL 接口。
「MLDB 是我們的核心能力。在機(jī)器學(xué)習(xí)數(shù)據(jù)庫上,我們的技術(shù)是非常領(lǐng)先的,」陳雨強(qiáng)表示。在一些 AI 決策任務(wù)中,使用 OpenMLDB 的開發(fā)效率可以提升多達(dá) 8 倍,相比傳統(tǒng)數(shù)據(jù)庫進(jìn)行線上實(shí)時(shí)特征計(jì)算時(shí),使用 OpenMLDB 能夠 3 到 10 倍的性能提升。
為 AI 而生的操作系統(tǒng)
在平臺側(cè),第四范式推出了為 AI 而生的的操作系統(tǒng)內(nèi)核——OpenAIOS。
AI 的應(yīng)用深入來看要經(jīng)歷十幾個(gè)步驟,不同的技術(shù)組件支撐了不同的步驟,而每一個(gè)步驟對資源的需求又有著較大的不同。第四范式將這些環(huán)節(jié)的能力面向計(jì)算、存儲、通信三個(gè)方面進(jìn)行了進(jìn)一步的抽象和沉淀。
越來越多AI異構(gòu)芯片的出現(xiàn),加速了AI異構(gòu)計(jì)算芯片對操作系統(tǒng)內(nèi)核進(jìn)行管理的細(xì)分需求,把計(jì)算負(fù)載從操作系統(tǒng)內(nèi)核調(diào)度到集群上不同機(jī)器的不同芯片上。除了AI異構(gòu)芯片外,不同的異構(gòu)存儲介質(zhì)、異構(gòu)通信設(shè)備都需要操作系統(tǒng)內(nèi)核進(jìn)行統(tǒng)一的管理。在異構(gòu)設(shè)備管理的基礎(chǔ)之上,保障任務(wù)的成功率與資源利用率,需要操作系統(tǒng)內(nèi)核提供軟硬協(xié)同的整體調(diào)度策略。
為了實(shí)現(xiàn)有效的算力,第四范式研究人員實(shí)現(xiàn)了異構(gòu) Kernel 深度優(yōu)化、計(jì)算協(xié)同處理、資源調(diào)度等能力:
在算力方面,當(dāng)數(shù)據(jù)量大到通用計(jì)算芯片無法處理時(shí),OpenAIOS 的多級計(jì)算內(nèi)核有針對性的設(shè)計(jì)硬件之間的協(xié)同處理策略,將計(jì)算任務(wù)進(jìn)行工作量拆分,通過統(tǒng)一的智能化調(diào)度,將拆分后的任務(wù)給到不同的專用計(jì)算芯片進(jìn)行處理。
在存儲方面,因?yàn)閮?nèi)存和顯存不夠?qū)е碌娜蝿?wù)失敗是開發(fā)者最常遇到的難題。在不侵入現(xiàn)有應(yīng)用和代碼的情況下,OpenAIOS 在操作系統(tǒng)內(nèi)部建立了一套面向內(nèi)存和顯存的多級存儲內(nèi)核,通過自動(dòng)擴(kuò)容策略和多級緩存機(jī)制將存儲容量進(jìn)行擴(kuò)展,提高了任務(wù)的成功率。
在通信速率方面,數(shù)據(jù)的交換效率是人們關(guān)注的重點(diǎn),OpenAIOS 提供了多級通信內(nèi)核,在機(jī)器學(xué)習(xí)特有的梯度權(quán)重交換等環(huán)節(jié),提供了低延遲、高吞吐的通信框架, 以及面向異構(gòu)加速器的專用通信協(xié)議,減輕數(shù)據(jù)通信上的壓力。
多設(shè)備的情況下,OpenAIOS 可以高效率調(diào)動(dòng) GPU 算力,提升模型訓(xùn)練時(shí)的速度。在 GPU 虛擬化的工作中,第四范式系統(tǒng)率先實(shí)現(xiàn)了應(yīng)用零改造的顯存擴(kuò)容。
第四范式技術(shù)副總裁鄭曌在發(fā)布會上宣布開源機(jī)器學(xué)習(xí)操作系統(tǒng)內(nèi)核 OpenAIOS,以及面向?qū)崟r(shí)智能決策的分布式機(jī)器學(xué)習(xí)數(shù)據(jù)庫 OpenMLDB,面向開發(fā)者提供開箱即用的技術(shù)能力。
開源地址:
OpenMLDB Github:
https://github.com/4paradigm/OpenMLDB
OpenAIOS Github:
https://github.com/4paradigm/openaios-platform
基于OpenAIOS內(nèi)核,『AIOS社區(qū)版』也已經(jīng)正式上線,AIOS的核心技術(shù)都會以「社區(qū)版」的形式,免費(fèi)向開源社區(qū)開放, AIOS 社區(qū)版擁有多元的開發(fā)體驗(yàn),支持 Visual Studio、VSCode、Jupyter Notebook 等桌面和遠(yuǎn)程開發(fā)工具,內(nèi)置核心應(yīng)用和商店,同時(shí)支持第三方應(yīng)用,又使用了原生的 Kubernetes 環(huán)境,擁抱所有云原生應(yīng)用。
『AIOS社區(qū)版』:openaios.4paradigm.com
鄭曌還宣布了 Knot「中國結(jié)」計(jì)劃:在未來一年之內(nèi),公司將實(shí)現(xiàn) 95% 以上的核心技術(shù)開源開放,并為各家企業(yè)共計(jì)培養(yǎng)超過一萬名 AI 應(yīng)用開發(fā)工程師。
「我們相信 AI 決策是幫助企業(yè)轉(zhuǎn)型的新范式,是能夠帶領(lǐng)企業(yè)走向質(zhì)變的重要方法。第四范式希望能夠幫助開發(fā)者做越來越多重要的工作」鄭曌說道。
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請聯(lián)系工作人員刪除。
電容器相關(guān)文章:電容器原理
超級電容器相關(guān)文章:超級電容器原理
電容相關(guān)文章:電容原理 電化學(xué)工作站相關(guān)文章:電化學(xué)工作站原理 閃光燈相關(guān)文章:閃光燈原理 離子色譜儀相關(guān)文章:離子色譜儀原理