深度對比學習實現了全基因組的虛擬篩選
《SCIENCE》:Deep contrastive learning enables genome-wide virtual screening
【字體:
大
中
小
】
時間:2026年01月10日
來源:SCIENCE 45.8
編輯推薦:
提出DrugCLIP,一種基于對比學習的超快速虛擬篩選框架,較傳統對接快10倍,在5HT2A受體、NET及TRIP12等靶點上通過濕實驗驗證,并發布GenomeScreenDB數據庫覆蓋約2萬口袋。
編輯總結
盡管在藥物發現方面取得了進展,但大約90%的可成藥疾病靶點仍然缺乏小分子療法。雖然虛擬篩選可以加速命中分子的識別,但傳統的分子對接等方法在基因組規模的應用中仍然過于緩慢。Jia等人提出了DrugCLIP,這是一個對比學習框架,它將蛋白質口袋和小分子嵌入到一個共享的潛在空間中,使得虛擬篩選的速度比分子對接快1000萬倍。濕實驗驗證證實了DrugCLIP的有效性,它能夠識別出針對目標蛋白質的強效激動劑或抑制劑,在某些情況下僅使用AlphaFold2預測的結構即可完成。一個開源數據庫對大約10,000個人類蛋白質和5億個分子進行了篩選,展示了這種方法在AlphaFold時代之后進行全基因組藥物發現中的變革潛力。——Di Jiang
結構化摘要
引言
人類可成藥基因組的很大一部分尚未被小分子療法所針對。隨著蛋白質結構預測技術(如AlphaFold)的進步,全基因組藥物發現已成為一個更可實現的目標。然而,目前使用的虛擬篩選工具遠遠無法滿足這一需求。現有的方法,無論是經典的分子對接還是深度學習方法,計算成本都過高,無法覆蓋全基因組的靶點。為此,我們的目標是開發一種高效的全基因組虛擬篩選方法,能夠快速識別人類基因組中每個可成藥靶點的小分子配體。
理由
我們開發了DrugCLIP,這是一種用于快速準確虛擬篩選的對比學習框架。DrugCLIP將蛋白質口袋和小分子編碼到一個共享的潛在空間中,并使用大規模合成數據和實驗確定的蛋白質-配體復合物結構進行訓練。然后可以使用密集檢索技術快速查詢大型化合物庫與蛋白質靶點,類似于現代搜索引擎。為了使其適用于AlphaFold結構,我們開發了GenPack,這是一個用于改進口袋檢測精度的生成模塊。我們使用基準數據集和濕實驗驗證了DrugCLIP的有效性。為了進一步展示其潛力,我們進行了全基因組虛擬篩選,所有結果均已公開。
結果
在DUD-E和LIT-PCBA這兩個廣泛使用的虛擬篩選數據集上,DrugCLIP在速度和準確性方面均優于傳統的分子對接和最先進的深度學習方法。它還在不同的化學骨架和蛋白質家族中表現出強大的泛化能力,并且對結構擾動具有魯棒性。
在實驗驗證中,DrugCLIP識別出了5-羥色胺2A受體(5HT2AR)和去甲腎上腺素轉運蛋白(NET)的強效配體,這兩種蛋白質是精神疾病的關鍵靶點。兩種5HT2AR激動劑的中位有效濃度值低于100 nM,兩種NET抑制劑通過冷凍電子顯微鏡得到了結構驗證。
當與GenPack結合使用時,DrugCLIP在處理具有挑戰性的無配體狀態(apo)和AlphaFold預測的結構時,其性能顯著優于分子對接和誘導對接方法。DrugCLIP和GenPack成功識別出了一個較少被研究的靶點——甲狀腺激素受體相互作用蛋白12(TRIP12)的小分子抑制劑,該靶點目前沒有報道的全貌結構或配體。該模型在表面等離子共振實驗中的命中率為17.5%,其中兩種抑制劑進一步得到了酶抑制作用的驗證。
最后,我們使用DrugCLIP對約10,000個人類蛋白質和5億個化合物進行了全基因組虛擬篩選,僅使用8個圖形處理單元(GPUs)就在24小時內評估了超過10萬億個蛋白質-配體對。這次篩選產生了超過200萬個候選分子,覆蓋了大約一半的人類基因組。所有篩選數據均已公開,以支持廣泛的藥物發現應用。
結論
DrugCLIP是一種超快的虛擬篩選方法,我們通過計算機模擬基準測試和濕實驗對其進行了嚴格驗證。其快速性使得能夠對人類可成藥蛋白質組進行萬億級別的篩選,提供了一個開放獲取的資源,為下一代藥物發現奠定了基礎,特別是對于那些了解較少靶點的研究。

使用DrugCLIP進行的全基因組超快虛擬篩選。
DrugCLIP利用包含5億個化合物的庫,在8個GPU上耗時一天完成了對約10,000個AlphaFold預測的人類蛋白質結構的全基因組虛擬篩選。由此產生的GenomeScreenDB數據庫在靶點覆蓋率上超過了ChEMBL數據庫。TRIP12的篩選結果得到了實驗驗證,識別出了功能性小分子結合劑。Kd表示解離常數;RU表示響應單位。
摘要
蛋白質結構預測的最新突破為全基因組藥物發現開辟了新的途徑,但現有的虛擬篩選方法在計算上仍然存在障礙。我們提出了DrugCLIP,這是一種對比學習框架,實現了超快且準確的虛擬篩選,速度比分子對接快1000萬倍,并且在各種計算機模擬基準測試中始終優于其他方法。在濕實驗驗證中,DrugCLIP對去甲腎上腺素轉運蛋白的命中率為15%,并且兩種鑒定出的抑制劑的結構也在與目標蛋白質的復合物中得到了確認。對于缺乏全貌結構和小分子結合劑的甲狀腺激素受體相互作用蛋白12(TRIP12),DrugCLIP僅使用AlphaFold2預測的結構就實現了17.5%的命中率。最后,我們發布了GenomeScreenDB,這是一個開放獲取的數據庫,提供了對約10,000個人類蛋白質與5億個化合物進行篩選的預計算結果,開創了AlphaFold時代之后的藥物發現范式。
生物通微信公眾號
生物通新浪微博
今日動態 |
人才市場 |
新技術專欄 |
中國科學人 |
云展臺 |
BioHot |
云講堂直播 |
會展中心 |
特價專欄 |
技術快訊 |
免費試用
版權所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
聯系信箱:
粵ICP備09063491號