2023年7月28日,中國醫(yī)學(xué)科學(xué)院藥物研究所汪小澗課題組與合作團隊在生物信息學(xué)領(lǐng)域國際期刊Briefings in Bioinformatics《生物信息學(xué)簡報》發(fā)表題為“CMGN: a conditional molecular generation net to design target-specific molecules with desired properties”(CMGN:一個可用于條件分子生成的藥物設(shè)計方法)的研究論文,報道了雙向自回歸轉(zhuǎn)換器的條件分子生成模型應(yīng)用于藥物發(fā)現(xiàn)的研究。
生成式人工智能(Artificial Intelligence Generated Content,AIGC)是目前人工智能研究與應(yīng)用的重點方向。課題組采用“預(yù)訓(xùn)練+微調(diào)”的訓(xùn)練模式建立CMGN模型,基于大規(guī)模數(shù)據(jù)集的預(yù)訓(xùn)練開展分子生成規(guī)則學(xué)習(xí),在特定任務(wù)的小數(shù)據(jù)集上做遷移學(xué)習(xí),以適應(yīng)不同的下游任務(wù)。CMGN采用條件分子生成訓(xùn)練策略,訓(xùn)練模型學(xué)習(xí)分子片段和分子性質(zhì)信息進而生成完整分子結(jié)構(gòu),通過輸入特定的分子片段引導(dǎo)模型具備結(jié)構(gòu)改造與優(yōu)化的能力。為了評估模型的條件分子生成能力,CMGN在包含5000萬分子的數(shù)據(jù)集上進行預(yù)訓(xùn)練,評估結(jié)果顯示,該模型能夠結(jié)合分子片段和分子性質(zhì)信息生成分子,分子回復(fù)率達到85.74%,且顯示了基于片段的分子多性質(zhì)優(yōu)化能力。課題組進一步應(yīng)用該模型開展布魯頓酪氨酸激酶(BTK)抑制劑的分子設(shè)計,發(fā)現(xiàn)了具有較好活性的先導(dǎo)化合物,具有良好的開發(fā)前景。這一通用的模型框架也可應(yīng)用于碳譜的結(jié)構(gòu)解析研究,該研究在Analytical Chemistry《分析化學(xué)》期刊以封底文章發(fā)表,并應(yīng)邀在期刊的perspective(觀點)欄目撰寫綜述。

圖1. CMGN與傳統(tǒng)藥物設(shè)計對比,及其通過遷移學(xué)習(xí)及性質(zhì)調(diào)節(jié)解決分子逆問題的應(yīng)用策略

圖2. (左)GMGNet模型基于13C NMR結(jié)構(gòu)解析的工作流程;(右)AI在四大光譜中的應(yīng)用
藥物所汪小澗研究員,碳硅智慧公司鄧亞峰博士為本論文的共同通訊作者。藥物所楊敏健博士和碩士生孫涵宇為共同第一作者。該工作獲得中國醫(yī)學(xué)科學(xué)院醫(yī)學(xué)與健康科技創(chuàng)新工程(CIFMS, No. 2021-I2M-1-028)和國家自然科學(xué)基金(NSFC, No. 82073692)的資助。
Briefings in Bioinformatics鏈接:https://academic.oup.com/bib/article/24/4/bbad185/7165252
Analytical Chemistry鏈接:https://pubs.acs.org/doi/10.1021/acs.analchem.2c05817
Analytical Chemistry (Perspective)鏈接:https://pubs.acs.org/doi/10.1021/acs.analchem.3c02540