為了簡(jiǎn)化這個(gè)過程,麻省理工學(xué)院的研究人員創(chuàng)建了一個(gè)機(jī)器學(xué)習(xí)模型,可以直接預(yù)測(cè)兩種蛋白質(zhì)結(jié)合在一起時(shí)將形成的復(fù)合物。他們的技術(shù)比最先進(jìn)的軟件方法快80 到500 倍,并且通常預(yù)測(cè)更接近實(shí)驗(yàn)觀察到的實(shí)際結(jié)構(gòu)的蛋白質(zhì)結(jié)構(gòu)。
這項(xiàng)技術(shù)可以幫助科學(xué)家更好地理解一些涉及蛋白質(zhì)相互作用的生物過程,例如DNA復(fù)制和修復(fù);它還可以加速新藥的開發(fā)。
“深度學(xué)習(xí)非常擅長捕捉不同蛋白質(zhì)之間的相互作用,否則化學(xué)家或生物學(xué)家很難通過實(shí)驗(yàn)來描述這些相互作用。其中一些相互作用非常復(fù)雜,人們還沒有找到表達(dá)它們的好方法。” “這種深度學(xué)習(xí)模型可以從數(shù)據(jù)中學(xué)習(xí)這些類型的交互,”省理工學(xué)院計(jì)算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室(CSAIL)的博士后、該論文的共同第一作者Octavian-Eugen Ganea 說。
Ganea 的共同第一作者是蘇黎世聯(lián)邦理工學(xué)院的研究生黃鑫源。麻省理工學(xué)院的合著者包括CSAIL 工程學(xué)院人工智能與健康杰出教授Regina Barzilay 和CSAIL 電氣工程Thomas Siebel 教授兼數(shù)據(jù)、系統(tǒng)和社會(huì)研究所成員Tommi Jaakkola。該研究將在國際學(xué)習(xí)表征會(huì)議上公布。
研究人員開發(fā)的模型名為Equidock,專注于剛體對(duì)接——當(dāng)兩個(gè)蛋白質(zhì)通過三維空間中的旋轉(zhuǎn)或平移連接時(shí),就會(huì)發(fā)生這種對(duì)接,但它們的形狀不會(huì)被擠壓或彎曲。該模型采用兩種蛋白質(zhì)的三維結(jié)構(gòu),并將這些結(jié)構(gòu)轉(zhuǎn)換為可以由神經(jīng)網(wǎng)絡(luò)處理的三維圖形。蛋白質(zhì)由氨基酸鏈形成,其中每個(gè)氨基酸由圖中的一個(gè)節(jié)點(diǎn)表示。
研究人員在模型中添加了幾何知識(shí),因此它可以理解物體在三維空間中旋轉(zhuǎn)或平移時(shí)會(huì)如何變化。該模型還內(nèi)置了數(shù)學(xué)功能,確保蛋白質(zhì)始終以相同的方式附著,無論它們存在于三維空間中的哪個(gè)位置。這就是蛋白質(zhì)在人體內(nèi)的對(duì)接方式。
利用這些信息,機(jī)器學(xué)習(xí)系統(tǒng)識(shí)別出兩種蛋白質(zhì)中最有可能相互作用并形成化學(xué)反應(yīng)的原子,稱為結(jié)合口袋位點(diǎn)。然后它利用這些點(diǎn)將兩種蛋白質(zhì)結(jié)合成復(fù)合物。
“如果我們能夠從蛋白質(zhì)中了解哪些單獨(dú)的部分可能是這些結(jié)合口袋位點(diǎn),那么這將捕獲我們將這兩種蛋白質(zhì)放在一起所需的所有信息。假設(shè)我們可以找到這兩組點(diǎn),那么我們可以弄清楚如何旋轉(zhuǎn)和翻譯蛋白質(zhì),以便一組與另一組匹配,”Ganea 解釋道。
構(gòu)建該模型的最大挑戰(zhàn)之一是克服訓(xùn)練數(shù)據(jù)的缺乏。 Ganea 表示,將幾何知識(shí)融入Equidock 中尤為重要,因?yàn)橛嘘P(guān)蛋白質(zhì)的實(shí)驗(yàn)3D 數(shù)據(jù)非常少。如果沒有這些幾何約束,模型可能會(huì)在數(shù)據(jù)集中發(fā)現(xiàn)錯(cuò)誤的相關(guān)性。
模型經(jīng)過“訓(xùn)練”后,研究人員將其與四種軟件方法進(jìn)行了比較。 Equidock 只需一到五秒即可預(yù)測(cè)最終的蛋白質(zhì)復(fù)合物。所有基線都需要更長的時(shí)間,從10 分鐘到一個(gè)小時(shí)或更長時(shí)間。
在計(jì)算預(yù)測(cè)蛋白質(zhì)復(fù)合物與實(shí)際蛋白質(zhì)復(fù)合物的匹配程度的質(zhì)量測(cè)量中,Equidock 的表現(xiàn)通常與基線相當(dāng),但有時(shí)表現(xiàn)卻比基線更差。
“我們?nèi)匀宦浜笥诨€之一。我們的方法仍然可以改進(jìn),它仍然有用。它可以用于一個(gè)非常大的虛擬屏幕,我們想要了解數(shù)千種蛋白質(zhì)如何相互作用并形成復(fù)合物“我們的方法可以用于非??焖俚厣梢唤M初始候選者,然后可以使用一些更準(zhǔn)確但速度較慢的傳統(tǒng)方法對(duì)其進(jìn)行微調(diào),”Ganea 說。
除了將這種方法與傳統(tǒng)模型結(jié)合使用之外,該團(tuán)隊(duì)還希望將特定的原子相互作用納入Equidock 中,以便它能夠做出更準(zhǔn)確的預(yù)測(cè)。例如,有時(shí)蛋白質(zhì)中的原子通過涉及水分子的疏水相互作用而附著。
Ganea 表示,他們的技術(shù)還可以應(yīng)用于類似于藥物的小分子的開發(fā)。這些分子以特定方式與蛋白質(zhì)表面結(jié)合,因此快速確定這種附著如何發(fā)生可以縮短藥物開發(fā)時(shí)間。
未來,他們計(jì)劃增強(qiáng)Equidock,以對(duì)靈活的蛋白質(zhì)對(duì)接進(jìn)行預(yù)測(cè)。最大的障礙是缺乏訓(xùn)練數(shù)據(jù),因此Ganea 和他的同事正在努力生成可用于改進(jìn)模型的合成數(shù)據(jù)。