復(fù)現(xiàn)AlphaFold2?完全開源新型蛋白結(jié)構(gòu)預(yù)測(cè)工具的背后:算法不是寫出來的,而是用出來的丨專訪深勢(shì)科技
站在巨人的肩膀上,國(guó)內(nèi)的同行們也在不斷改進(jìn)和優(yōu)化算法性能,并相繼推出了自己的蛋白質(zhì)預(yù)測(cè)工具。
近日,國(guó)內(nèi)人工智能初創(chuàng)公司深勢(shì)科技宣布正式推出蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)工具 Uni-Fold,并開源了推理代碼和訓(xùn)練代碼。深勢(shì)科技表示,Uni-Fold 成功復(fù)現(xiàn)了 AlphaFold2 的全規(guī)模訓(xùn)練,且已集成在其專有的****物設(shè)計(jì)平臺(tái) Hermite,用戶可以在線試用。
值得一提的是,Uni-Fold 同時(shí)開源了推理代碼和訓(xùn)練代碼,這意味著用戶不僅可以預(yù)測(cè)蛋白質(zhì)三維結(jié)構(gòu),還可以根據(jù)項(xiàng)目需求進(jìn)一步訓(xùn)練和優(yōu)化模型。而早前 AlphaFold2 只開源了推理代碼,用戶只能在現(xiàn)有數(shù)據(jù)庫(kù)基礎(chǔ)上使用。
據(jù)介紹,同等測(cè)試條件下,Uni-Fold 對(duì) CASP14 蛋白質(zhì)序列數(shù)據(jù)集的 Cα-lDDT 達(dá)到 82.6,僅次于 AlphaFold2 的預(yù)測(cè)精度。此外,Uni-Fold 在運(yùn)行硬件和代碼運(yùn)行效率上具有明顯優(yōu)勢(shì)。
與 AlphaFold2 相比,本次開源的 Uni-Fold 有何突破性?背后推手深勢(shì)科技在生物制****領(lǐng)域有著怎么樣的布局?對(duì)計(jì)算生物學(xué)又有著怎樣的見解?
就這些問題,生輝與深勢(shì)科技首席執(zhí)行官孫偉杰以及首席科學(xué)家張林峰博士進(jìn)行了探討。
孫偉杰與張林峰是典型的 90 后創(chuàng)業(yè)者,兩人既是本科同窗摯友,也是配合默契的創(chuàng)業(yè)伙伴。兩人本科均畢業(yè)于北大元培學(xué)院,此后,張林峰前往普林斯頓大學(xué)攻讀應(yīng)用數(shù)學(xué)博士學(xué)位,孫偉杰則投身于投資和管理。2018 年底,兩人一拍即合,共同創(chuàng)辦了深勢(shì)科技。
這是一家定位為工業(yè)設(shè)計(jì)的初創(chuàng)公司,目前團(tuán)隊(duì)規(guī)模約為 120 人左右。該公司計(jì)劃搭建微尺度工業(yè)設(shè)計(jì)平臺(tái),目標(biāo)是從電子、原子、分子等微觀尺度為傳統(tǒng)行業(yè)找尋解決方案,當(dāng)前兩大落地場(chǎng)景是****物設(shè)計(jì)和材料設(shè)計(jì)。
“開源兩大代碼更大的意義在于,可以為整個(gè)領(lǐng)域內(nèi)提供與 AlphaFold2 相同的起點(diǎn),從這個(gè)起點(diǎn)出發(fā),大家可以做更多的事情。同時(shí),技術(shù)的演進(jìn)也會(huì)探索更多新場(chǎng)景,包括蛋白質(zhì)復(fù)合物、動(dòng)力學(xué)等。接下來可能會(huì)出現(xiàn)更令人興奮的解決方案,整個(gè)生物計(jì)算以及生物制****領(lǐng)域也會(huì)有更大的發(fā)展。我們相信,Uni-Fold 會(huì)讓接下來半年更加值得期待。” 張林峰說。完全開源,可不斷優(yōu)化算法
AlphaFold2 在第 14 屆蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)大賽中(CASP14)的預(yù)測(cè)分值中位數(shù)為 92.4 GDT,預(yù)測(cè)水準(zhǔn)與實(shí)驗(yàn)室水平相差無幾。其預(yù)測(cè)精確度極高的一個(gè)重要原因就在于對(duì)數(shù)據(jù)的利用度非常高,幾乎應(yīng)用了領(lǐng)域內(nèi)所有數(shù)據(jù)。
張林峰告訴生輝,蛋白質(zhì)預(yù)測(cè)工具 Uni-Fold 成功復(fù)現(xiàn)了 AlphaFold2 的大規(guī)模數(shù)據(jù)訓(xùn)練過程。也就是說完全復(fù)刻了 AlphaFold2 的技術(shù)路線,兩者的方法論一致,且屬于同一代技術(shù)。
基于此,Uni-Fold 對(duì)蛋白質(zhì)三維結(jié)構(gòu)的預(yù)測(cè)精度、運(yùn)行時(shí)間和對(duì)蛋白質(zhì)復(fù)合物的預(yù)測(cè)與 AlphaFold2 接近。據(jù)悉,在同等測(cè)試條件下,Uni-Fold 對(duì) CASP14 蛋白質(zhì)序列數(shù)據(jù)集的平均 Cα-lDDT(局部比對(duì)指標(biāo))達(dá)到 82.6,僅次于 AlphaFold2,超越了 RoseTTAFold。
AlphaFold2 更擅長(zhǎng)預(yù)測(cè)和計(jì)算單個(gè)蛋白質(zhì)的結(jié)構(gòu),然而大多數(shù)蛋白質(zhì)往往是以復(fù)合物形式存在,并非單體存在。預(yù)測(cè)蛋白質(zhì)復(fù)合物是該領(lǐng)域比較棘手的問題,RoseTTAFold 的研究人員曾表示下一步將會(huì)繼續(xù)提高算法預(yù)測(cè)蛋白質(zhì)復(fù)合物的能力。張林峰也坦言,目前 Uni-Fold 還沒有完全解決復(fù)合物預(yù)測(cè)問題,這會(huì)是團(tuán)隊(duì)未來一個(gè)重點(diǎn)努力方向。
據(jù)了解,更為關(guān)鍵的一點(diǎn)在于,Uni-Fold 是蛋白質(zhì)結(jié)構(gòu)研究領(lǐng)域首款完全開源的預(yù)測(cè)工具,同時(shí)開源推理代碼和訓(xùn)練代碼。相比之下,AlphaFold2 只開源推理代碼,這就意味著只能在給定場(chǎng)景下預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu),一定程度上限制了算法的優(yōu)化以及應(yīng)用邊界的擴(kuò)展。
“這就好像一個(gè)用已有數(shù)據(jù)訓(xùn)練出來的‘熟練工’,只能根據(jù)指令做一些指定的指令,可塑性較低。從訓(xùn)練角度來看,完全開源的算法更像一個(gè)高智商的‘孩童’”,我們可以在不同場(chǎng)景,不同需求之下,指引其成為某個(gè)領(lǐng)域的專家。”
“算法不是寫出來的,而是用出來的。我們希望在原有算法的基礎(chǔ)上擴(kuò)展更多新的功能,包括蛋白質(zhì)復(fù)合物結(jié)構(gòu)預(yù)測(cè)、蛋白質(zhì)與小分子相互作用預(yù)測(cè)、與電鏡實(shí)驗(yàn)結(jié)合、抗體序列設(shè)計(jì)等場(chǎng)景。這是一個(gè)長(zhǎng)期的發(fā)展需求,需要不斷演進(jìn)迭代算法,開源算法有助于我們?cè)谡麄€(gè)領(lǐng)域不斷迭代解決方案?!?張林峰補(bǔ)充道。
此外,AlphaFold2 所開源的代碼與硬件生態(tài)耦合,需要通過 Google 專有的硬件 TPU Pod 運(yùn)行。據(jù)悉,相比之下,Uni-Fold 具備更加通用的硬件運(yùn)行平臺(tái),適配并支持 NVIDIA、AMD 以及一些國(guó)產(chǎn)硬件。同時(shí),在訓(xùn)練和效率上也做了大量工作,比如說推理代碼也更加輕量、高效,在同等運(yùn)行硬件條件下,代碼運(yùn)行效率提升約 2-3 倍。“新時(shí)代的薛定諤”
2019 年,張林峰在分子模擬算法上的取得了突破,這項(xiàng)由他作為核心開發(fā)者的研究工作獲得 2020 年全球計(jì)算機(jī)高性能計(jì)算領(lǐng)域的最高獎(jiǎng)項(xiàng) “戈登?貝爾獎(jiǎng)”,并當(dāng)選 2020 年全球人工智能十大科技進(jìn)展。
“生命科學(xué)、新能源、新材料和信息技術(shù)是人類文明最基礎(chǔ)的行業(yè),發(fā)展的瓶頸普遍是分子層面的設(shè)計(jì)問題。我們將量子物理模型、分子模擬算法、人工智能、高性能計(jì)算等新工具有機(jī)結(jié)合,搭建一個(gè)微尺度工業(yè)設(shè)計(jì)的平臺(tái),從微觀層面出發(fā)解決這些行業(yè)問題。” 孫偉杰說。
兩位創(chuàng)始人更傾向于將深勢(shì)科技定位成一家工業(yè)設(shè)計(jì)公司。目前,該公司基于分子模擬算法搭建了專有的微尺度工業(yè)設(shè)計(jì)平臺(tái),細(xì)分應(yīng)用場(chǎng)景落地在****物設(shè)計(jì)和材料設(shè)計(jì)兩大領(lǐng)域。本文的重點(diǎn)將圍繞****物設(shè)計(jì)場(chǎng)景展開。
官網(wǎng)信息顯示,****物設(shè)計(jì)平臺(tái)(Hermite)集中于臨床前計(jì)算機(jī)輔助****物設(shè)計(jì)的全部階段,涵蓋了蛋白結(jié)構(gòu)解析、靶點(diǎn)發(fā)現(xiàn)和確證、虛擬篩選、先導(dǎo)化合物優(yōu)化、分子智能推薦和****代動(dòng)力學(xué)預(yù)測(cè)等功能。上文提到的 Uni-Fold 的相關(guān)解決方案已整合在 Hermite 平臺(tái)中。
孫偉杰告訴生輝,基于這些特色的算法和功能,深勢(shì)科技首先可以為生物制****公司提供軟件服務(wù),也會(huì)基于創(chuàng)新性算法和生物制****公司針對(duì)一些難成****靶點(diǎn)進(jìn)行聯(lián)合研發(fā),包括選擇性抑制劑、別構(gòu)抑制劑,以及針對(duì)無固定構(gòu)象蛋白靶點(diǎn)的****物設(shè)計(jì)和針對(duì)特定表位的抗體設(shè)計(jì)等。目前,已經(jīng)有多個(gè)合作項(xiàng)目在推進(jìn)中。
“在****物設(shè)計(jì)場(chǎng)景下,從平臺(tái)角度來看,我們更愿意做新時(shí)代的‘薛定諤’。一方面,Hermite 平臺(tái)可以基本覆蓋到薛定諤計(jì)算化學(xué)工具的功能范圍,包括從蛋白質(zhì)結(jié)構(gòu)解析、****物分子設(shè)計(jì)與優(yōu)化,再到****物諸多性質(zhì)評(píng)估的早期****物發(fā)現(xiàn)鏈條。另一方面,Hermite 平臺(tái)整合了源自內(nèi)部創(chuàng)新和外部合作者的多個(gè)先進(jìn)算法模塊,在多個(gè)方面都有超越薛定諤現(xiàn)有功能的潛力,帶來新的應(yīng)用價(jià)值?!?孫偉杰說。
薛定諤定成立于 1990 年,是計(jì)算化學(xué)領(lǐng)域的 “老兵”,在業(yè)內(nèi)有 “計(jì)算****物研發(fā)上市第一股” 之稱。該公司長(zhǎng)期專注于利用人工智能計(jì)算平臺(tái)加速****物開發(fā)和材料設(shè)計(jì),基于物理和化學(xué)分析的專有軟件可以精準(zhǔn)預(yù)測(cè)模型,繼而以更低成本、更快發(fā)現(xiàn)更高質(zhì)量的分子,并開發(fā)相關(guān)管線。“計(jì)算模擬的本質(zhì)是替代實(shí)驗(yàn)”
通常來講,如果要研究一種材料或者一款候選化合物的性質(zhì),需要通過生化實(shí)驗(yàn)分析驗(yàn)證。分子模擬則是在計(jì)算機(jī)上完成這些的化學(xué)實(shí)驗(yàn)?!?/span>本質(zhì)上,計(jì)算的價(jià)值就在于是否有能力替代此前在微觀分子層面難以完成的實(shí)驗(yàn)或者低效的實(shí)驗(yàn)。” 孫偉杰說。
“對(duì)于計(jì)算平臺(tái)而言,無論是從 AI 概念出發(fā),還是從計(jì)算或者是 CADD(計(jì)算機(jī)輔助****物設(shè)計(jì))出發(fā),關(guān)鍵在于平臺(tái)技術(shù)中的計(jì)算方法或者工具能否具備代替試驗(yàn)的能力。”
孫偉杰透露,算法設(shè)計(jì)也應(yīng)該朝著更有潛力代替實(shí)驗(yàn)的方向出發(fā),只有這樣算法的價(jià)值才會(huì)更高,平臺(tái)技術(shù)才可以解決更多的問題。從這個(gè)角度來看,雖然前路漫長(zhǎng),但我們對(duì)公司開發(fā)的分子模擬算法充滿信心。
以****物設(shè)計(jì)場(chǎng)景為例,深勢(shì)科技未來的方向同樣也會(huì)聚焦兩個(gè)方面:一,部分代替此前成熟但相對(duì)低效的實(shí)驗(yàn),比如通過 X 射線晶體學(xué)或者是冷凍電鏡解析結(jié)構(gòu),以及****物的篩選和優(yōu)化;二,解決難以進(jìn)行實(shí)驗(yàn)的****物設(shè)計(jì)問題,比如一些傳統(tǒng)意義上難成****的靶標(biāo),以及針對(duì)離子通道和特定表位的抗體****物設(shè)計(jì)。
現(xiàn)如今,CADD、AI 制****概念火熱,資本青睞,****企頻頻拋出橄欖枝。一方面,薛定諤、Relay、Recursion、AbCelera 等相繼上市,獲得資本熱捧;另一方面,英國(guó) AI 制****領(lǐng)跑者 Exscientia 與 GSK、賽諾菲、BMS、拜耳等簽單,薛定諤與****明康德、BMS、再鼎攜手...
這是否意味著以 AI、CADD 為代表的計(jì)算生物學(xué)方式正在或者已經(jīng)可以代替?zhèn)鹘y(tǒng)實(shí)驗(yàn)手段,在生物制****領(lǐng)域發(fā)揮著重大的價(jià)值?
“我認(rèn)為現(xiàn)階段兩種方式會(huì)共存共生,互相促進(jìn)。從預(yù)測(cè)工具角度來看,首先需要區(qū)分不同的應(yīng)用場(chǎng)景,評(píng)估算法的預(yù)測(cè)精度和置信區(qū)間;從生物體層面出發(fā),針對(duì)可以物理建模的生物問題,可能會(huì)在未來幾年通過計(jì)算方法的發(fā)展得到較好的解決。而對(duì)于復(fù)雜且無法物理建模的生物學(xué)問題,需要實(shí)驗(yàn)技術(shù)揭示更深層的生物機(jī)理,提供更多高質(zhì)量的數(shù)據(jù),才能讓 AI 和計(jì)算發(fā)揮更大的價(jià)值,進(jìn)而揭開生物體運(yùn)作的奧秘?!?孫偉杰總結(jié)道。
張林峰從計(jì)算的發(fā)展過程角度談一談自己的觀點(diǎn)。從傳統(tǒng)實(shí)驗(yàn)到計(jì)算方法的演進(jìn)并非一蹴而就,這是一個(gè)循序漸進(jìn)的過程。以薛定諤為例,當(dāng)前該公司的 Docking 解決方案在某種程度上已經(jīng)實(shí)現(xiàn)了對(duì)實(shí)驗(yàn)的部分替代。此外,代替方案也需要考慮效率和成本問題。
“整體來看,計(jì)算正處于替代實(shí)驗(yàn)的過程之中,這是一個(gè)存量和增量的問題。對(duì)于一些新靶點(diǎn)或者比較大的蛋白,這些屬于存量問題,計(jì)算工具精度可能還不夠,實(shí)驗(yàn)方法必不可少;此外,新問題層出不窮,結(jié)構(gòu)生物學(xué)領(lǐng)域在可見的未來還是一個(gè)計(jì)算和試驗(yàn)有機(jī)結(jié)合的生態(tài),雙方肯定是互相促進(jìn),共同發(fā)展?!?張林峰補(bǔ)充道。
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。