在线看毛片网站电影-亚洲国产欧美日韩精品一区二区三区,国产欧美乱夫不卡无乱码,国产精品欧美久久久天天影视,精品一区二区三区视频在线观看,亚洲国产精品人成乱码天天看,日韩久久久一区,91精品国产91免费

<menu id="6qfwx"><li id="6qfwx"></li></menu>
    1. <menu id="6qfwx"><dl id="6qfwx"></dl></menu>

      <label id="6qfwx"><ol id="6qfwx"></ol></label><menu id="6qfwx"></menu><object id="6qfwx"><strike id="6qfwx"><noscript id="6qfwx"></noscript></strike></object>
        1. <center id="6qfwx"><dl id="6qfwx"></dl></center>

            博客專欄

            EEPW首頁(yè) > 博客 > 將人類語言理解能力應(yīng)用于藥物發(fā)現(xiàn)中以提高活性預(yù)測(cè)模型的性能

            將人類語言理解能力應(yīng)用于藥物發(fā)現(xiàn)中以提高活性預(yù)測(cè)模型的性能

            發(fā)布人:數(shù)據(jù)派THU 時(shí)間:2023-04-24 來源:工程師 發(fā)布文章

            在藥物發(fā)現(xiàn)和材料科學(xué)中,活性和性質(zhì)預(yù)測(cè)模型是及其重要的工具,但目前采用的模型一般需要根據(jù)新需求在目標(biāo)數(shù)據(jù)上進(jìn)行訓(xùn)練或微調(diào)。語言模型可以通過零/少樣本能力處理新的任務(wù),但其活性預(yù)測(cè)的預(yù)測(cè)質(zhì)量較差。為此,作者提出了一種新型活性預(yù)測(cè)模型,通過理解描述任務(wù)的文本信息,能夠在推理時(shí)適應(yīng)新的預(yù)測(cè)任務(wù)。

            圖片

            分子活性和分子性質(zhì)預(yù)測(cè)模型是計(jì)算藥物發(fā)現(xiàn)中的主要工具,類似于自然語言處理(NLP)中的語言模型和計(jì)算機(jī)視覺(CV)中的圖像分類模型,并且已經(jīng)發(fā)展了數(shù)年。

            圖片

            分子編碼器從化學(xué)結(jié)構(gòu)中提取相關(guān)特征,并在生物活性數(shù)據(jù)上進(jìn)行訓(xùn)練。由于活性數(shù)據(jù)的標(biāo)簽來自于濕實(shí)驗(yàn),標(biāo)注方式十分繁雜并且昂貴,因此人們對(duì)能夠在少量數(shù)據(jù)點(diǎn)上高效訓(xùn)練活性預(yù)測(cè)模型的方法非常感興趣。最近提出的基準(zhǔn)數(shù)據(jù)集FS-Mol為活性預(yù)測(cè)任務(wù)提供了僅四個(gè)標(biāo)記分子,因此模型必須能夠有效地從其他任務(wù)中轉(zhuǎn)移知識(shí),這顯然不試用于如上圖a部分所示的模型構(gòu)建形式。同時(shí),濕實(shí)驗(yàn)中有關(guān)活性預(yù)測(cè)任務(wù)的文本描述中可能也有大量信息,但目前的活性預(yù)測(cè)模型(以上圖a部分所示模型為代表)無法利用這些信息。


            對(duì)于語言模型而言(上圖b部分所示),雖然其結(jié)合了自然語言和化學(xué)結(jié)構(gòu)的信息,但它們?cè)诨钚灶A(yù)測(cè)方面仍表現(xiàn)不佳,其效果受限于隱式分子編碼器和訓(xùn)練數(shù)據(jù)量等因素。作者認(rèn)為,選擇有效的分子編碼器并利用帶自然語言的化學(xué)數(shù)據(jù)庫(kù)作為訓(xùn)練或預(yù)訓(xùn)練數(shù)據(jù),可以改進(jìn)上述兩種模型的缺點(diǎn),以提高活性預(yù)測(cè)的性能。為此,作者出了一種具有兩個(gè)獨(dú)立模塊的模型結(jié)構(gòu)(CLMAP)。第一個(gè)模塊是分子編碼器,第二個(gè)模塊是文本編碼器,兩者在這兩種數(shù)據(jù)模態(tài)之間進(jìn)行基于對(duì)比學(xué)習(xí)的預(yù)訓(xùn)練,如上圖c部分所示。值得注意的是,目前流行的對(duì)比學(xué)習(xí)框架(沒有標(biāo)簽的成對(duì)數(shù)據(jù)),將匹配數(shù)據(jù)對(duì)與生成的不匹配數(shù)據(jù)對(duì)進(jìn)行對(duì)比,而作者在這里采用的是依據(jù)數(shù)據(jù)集已有的標(biāo)簽來構(gòu)建文本和分子的數(shù)據(jù)對(duì)(即分子對(duì)文本描述的任務(wù)有活性時(shí),設(shè)置為匹配的數(shù)據(jù)對(duì),無活性時(shí),為不匹配對(duì))。

            實(shí)驗(yàn)結(jié)果

            圖片

            零樣本遷移學(xué)習(xí):作者在FS-Mol和PubChem這里兩個(gè)數(shù)據(jù)集上對(duì)CLAMP的能力與其他方法做了對(duì)比??梢钥吹?,基于純自然語言的模型GAL和KV-PLM并不能很好的做好零樣本下的遷移學(xué)習(xí)。值得注意的是,F(xiàn)H是目前最好的方法,CLAMP仍能夠在各種數(shù)據(jù)集劃分的方式下打敗它。

            圖片

            模型表示能力:為了檢查模型學(xué)習(xí)到的分子表示是否可轉(zhuǎn)移到其他任務(wù)上,文章選取MoleculeNet作為基準(zhǔn)數(shù)據(jù)集,將CLAMP與其他方法進(jìn)行對(duì)比。通過在分子表示層特征進(jìn)行線性調(diào)整之后,CLAMP效果甚佳,在大部分情況遠(yuǎn)超已有模型。

            結(jié)論

            作者提出的對(duì)比學(xué)習(xí)方法 CLAMP 在多個(gè)大型數(shù)據(jù)集上展現(xiàn)出了最佳的零樣本預(yù)測(cè)藥物活性的表現(xiàn)。除此之外,CLAMP 的預(yù)訓(xùn)練分子編碼器能夠產(chǎn)生有效的分子編碼,可以遷移到其他分子屬性預(yù)測(cè)任務(wù)上。作者還指出,盡管語言模型原則上可以用于零樣本活性預(yù)測(cè),但它們?cè)谶@個(gè)任務(wù)上表現(xiàn)不佳,并且計(jì)算成本較高。


            參考資料

            Seidl, P., Vall, A., Hochreiter, S., & Klambauer, G. (2023). Enhancing Activity Prediction Models in Drug Discovery with the Ability to Understand Human Language. arXiv preprint arXiv:2303.03363.


            *博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。



            關(guān)鍵詞: AI

            相關(guān)推薦

            技術(shù)專區(qū)

            關(guān)閉