《npj Digital Medicine》:Secure distributed multiple imputation enables missing data inference for private data proprietors
編輯推薦:
本研究針對分布式電子健康記錄(EHR)中普遍存在的缺失數據問題,開發了一種基于安全多方計算(SMC)和多方同態加密(MHE)的安全分布式多重填補鏈式方程(Secure MICE)方法。該方法使多個非信任機構能夠在不共享原始數據的情況下,安全地進行缺失數據填補和聯合分析。實驗表明,該方法在保持與集中式方法相當精度的同時,顯著提升了ICU患者死亡風險預測的準確性(AUC提高10%),為隱私保護的醫療數據協作研究提供了可行方案。
在當今數字醫療時代,電子健康記錄(EHR)已成為醫學研究的重要寶庫。然而,這些珍貴數據往往分散在不同醫療機構中,形成一個個"數據孤島"。更棘手的是,這些數據常常存在缺失問題,直接影響研究結果的可靠性。傳統方法需要將數據集中處理,但出于隱私保護考慮,這種數據共享往往受到嚴格限制。如何在保護隱私的前提下,充分利用這些分散且不完整的醫療數據,成為醫學研究面臨的重要挑戰。
這項發表在《npj Digital Medicine》的研究提出了一種創新解決方案,使多個機構能夠安全協作,在不暴露原始數據的情況下進行缺失數據填補和聯合分析。研究人員開發了安全分布式多重填補(Secure MICE)技術,為隱私保護的醫療數據協作開辟了新途徑。
研究團隊主要采用了兩種隱私增強技術:安全多方計算(SMC)和多方同態加密(MHE)。SMC通過秘密共享技術使多方能夠共同計算而不暴露各自數據;MHE則允許在加密數據上直接進行計算。這些技術結合多重填補鏈式方程(MICE)算法,使多個非信任方能夠安全地進行缺失值填補。研究使用了來自Georgia Coverdell急性卒中登記處(GCASR)和重癥監護醫學信息市場(MIMIC-IV)的真實醫療數據進行驗證,涵蓋了數萬患者的臨床數據。
安全分布式多重填補的技術實現
研究團隊基于Sequre框架開發了兩種安全解決方案:SMC-MICE和MHE-MICE。SMC-MICE適用于中小規模數據集,通過秘密共享和Beaver三元組等技術實現安全計算;MHE-MICE基于CKKS同態加密方案,更適合大規模數據處理。兩種方案都支持連續變量和分類變量的安全填補,并在線性回歸和邏輯回歸等分析模型中表現出色。
實驗設計與性能評估
研究人員設計了六種模擬研究和兩項真實數據研究來驗證方法有效性。模擬研究覆蓋了隨機缺失(MAR)和非隨機缺失(MNAR)場景,評估了連續變量和分類變量的填補效果。真實數據研究則聚焦于卒中登記數據和ICU患者預后預測。
在MIMIC-IV數據集的應用中,Secure MICE展現出顯著優勢。當數據分散在三個站點時,單獨分析僅能獲得0.70的準確度和0.80的AUC,而使用安全分布式方法后,準確度提升至0.77,AUC達到0.88,意味著每100名ICU患者中可多識別出10名高危患者。
方法準確性對比分析
與現有方法相比,安全解決方案在填補精度和最終分析質量方面與非安全方案相當甚至更優。僅在分類變量填補場景中,由于切比雪夫近似算法的使用,安全變體的精度略有下降(<0.006)。在計算效率方面,SMC解決方案對GCASR數據集的處理時間僅為12秒,對MIMIC數據集為285秒,體現了良好的實用性。
不一致性分析
通過測量與scikit-learn中現成MICE算法的不一致性,進一步評估了填補質量。結果顯示,在GCASR研究中,安全對應方法產生的不一致性更少,表明其與基準算法具有相似的填補質量。
討論與展望
這項研究首次實現了隱私保護下的分布式缺失數據填補,使醫療機構能夠在符合HIPAA等數據保護法規的前提下開展協作研究。該方法特別有助于改善對少數群體的健康公平性,因為這些群體的數據缺失問題往往更為嚴重。
當前方法基于"誠實但好奇"的信任模型,并主要適用于隨機缺失(MAR)數據。未來工作將擴展至非隨機缺失(MNAR)數據的處理,增加對惡意安全協議的支持,并集成可信執行環境(TEE)如Intel SGX等技術。同時,研究團隊計劃擴展最終分析中支持的機器學習模型類型,特別是深度學習模型。
Secure MICE技術的出現,為醫療數據協作研究提供了安全可行的技術路徑,有望促進更廣泛、更包容的醫學研究合作,最終造福患者和公共衛生。