《npj Systems Biology and Applications》:Cross-platform metabolomics imputation using importance-weighted autoencoders
編輯推薦:
本研究針對代謝組學數據因平臺差異難以整合的問題,開發了基于重要性加權自編碼器(IWAE)的集成模型,實現了從LC-MS平臺到Metabolon平臺的高精度代謝物插補。在979個樣本的訓練集中,199種代謝物(占22%)的插補R2≥0.55,且與BMI、CRP的關聯分析顯示高度一致性(ρBMI=0.93)。該方法為跨研究代謝組學數據整合提供了可靠工具。
代謝組學作為系統生物學的重要分支,通過全面分析生物體內的小分子代謝物,為疾病診斷、生物標志物發現和藥物研發提供關鍵信息。然而,不同實驗室采用的代謝組學平臺(如Metabolon的靶向質譜和英國國家表型中心(NPC)的非靶向液相色譜-質譜聯用技術)存在分析方法、代謝物注釋和定量標準的差異,導致數據難以直接比較或整合。這一瓶頸限制了多中心研究的協同分析和大規模驗證的效率。傳統的數據整合方法多針對同平臺或相似平臺設計,尚未實現跨平臺的完整數據重建。
為解決這一挑戰,帝國理工學院公共衛生學院的研究團隊在《npj Systems Biology and Applications》發表了一項創新性研究,提出了一種基于重要性加權自編碼器(Importance-Weighted Autoencoder, IWAE)的集成學習方法,實現了從NPC的LC-MS數據到Metabolon平臺代謝物數據的跨平臺插補。該研究利用Airwave健康監測研究的979個樣本作為訓練集,通過深度學習模型成功生成了與真實測量高度一致的插補數據,為代謝組學數據的跨研究整合提供了新范式。
研究采用了幾項關鍵技術方法:首先利用Uniform Manifold Approximation and Projection(UMAP)對Metabolon-NPC數據集中的代謝物進行降維和聚類,識別出脂肪酸、鞘脂、磷脂等5個代謝物簇;隨后基于重要性加權自編碼器框架構建了多個插補模型,采用貪心選擇策略確定最優模型;最后通過線性回歸分析驗證插補數據與真實數據在身體質量指數(BMI)和C反應蛋白(CRP)關聯中的一致性。所有分析均基于Airwave研究的鋰肝素血漿樣本和EDTA血漿樣本,包括NPC數據集(n=2,971)和Metabolon數據集(n=2,229)。
代謝物聚類分析
通過UMAP將Metabolon和NPC平臺的代謝物映射到同一二維空間,結合K-means聚類識別出五個代謝物簇,分別標記為脂肪酸(356個代謝物)、鞘脂、磷脂、酰基甘油(503個代謝物)和其他類別。聚類結果反映了代謝物的生物學通路和化學類別特征,為后續分簇建模奠定了基礎。
Metabolon插補性能
基于分簇訓練的IWAE模型在測試集上表現出色,各簇的平均絕對誤差(MAE)介于0.125-0.190之間。貪心選擇策略顯著提升了非脂類代謝物的插補精度,199種代謝物(占Metabolon平臺的22%)的插補R2≥0.55,且不確定性低(R2方差≤0.025)。值得注意的是,其中43種代謝物為Metabolon平臺獨有。插補性能存在顯著類別差異:脂類代謝物的平均R2最高(0.49),而碳水化合物、核苷酸等小分子類別的插補效果較差。測試集樣本的整體插補值與真實值的平均相關性達ρ=0.61。
觀察性關聯一致性驗證
在2,971個獨立樣本中,比較插補代謝物與真實代謝物對BMI和CRP的關聯性。結果顯示,插補數據與真實數據的關聯效應高度一致:BMI的相關系數ρ=0.93,CRP為ρ=0.89;效應值的平均差異極小(BMI的μΔ=0.005,CRP的μΔ=0.005)。與UK Biobank核磁共振(NMR)數據和NPC真實數據的對比分析進一步驗證了插補結果的可靠性,關聯差異均低于0.02標準偏差。
討論與結論
該研究首次將重要性加權自編碼器應用于跨平臺代謝組學插補,成功實現了從LC-MS數據到Metabolon數據的重構。方法的創新性體現在三個方面:一是通過集成學習策略克服了單一模型對脂類代謝物的偏好,提升了非脂類代謝物的插補效果;二是利用貪心選擇優化模型組合,降低了插補不確定性;三是通過大規模臨床關聯驗證證明了插補數據的生物學合理性。局限性在于訓練樣本量(n=979)較小限制了模型復雜度,且當前插補效果更適用于脂類代謝物。未來通過引入更多平臺數據(如核磁共振)有望進一步提升插補范圍。該方法為多中心代謝組學研究的數據整合、異質性驗證和meta分析提供了可靠的技術支撐,推動代謝組學在精準醫療中的規模化應用。