亚洲中文字,久久av高潮av无码av喷吹 ,自拍偷拍网

組織學影像預測分子生物標志物：混雜因素、偏倚挑戰(zhàn)與臨床轉化困境

《Nature Biomedical Engineering》：Confounding factors and biases abound when predicting molecular biomarkers from histological images

【字體：大中小】 時間：2026年03月03日 來源：Nature Biomedical Engineering 26.6

編輯推薦：

　　當前基于深度學習的全切片圖像（WSI）模型被寄望于替代分子檢測，快速推斷癌癥生物標志物狀態(tài)。然而，本研究通過跨多種癌癥類型、數據集和建模方法的統(tǒng)計分析揭示，訓練數據中生物標志物與臨床病理特征之間存在強烈的相互依賴關系，導致模型學習到混雜信號而非目標生物標志物的特異性生物學特征。其預測準確度高度依賴于共依賴生物標志物和臨床病理變量的狀態(tài)，對多種生物標志物的預測能力超越病理學家從常規(guī)組織學特征（如分級）中已能推斷的增益有限。這些發(fā)現表明，當前方法尚不適合作為分子檢測的替代品，但可在謹慎評估下用于分診或補充決策。實現無混雜的生物標志物預測，需要模型學習生物標志物與組織形態(tài)之間的因果關系而非相關關系。

在精準醫(yī)療時代，準確、快速地獲取腫瘤的分子生物標志物信息對于指導治療方案至關重要。傳統(tǒng)的分子檢測方法，如基因測序，雖然精準，但存在成本高、耗時長、可能破壞組織等局限。隨著計算病理學的發(fā)展，一個誘人的前景出現了：能否直接利用常規(guī)蘇木精-伊紅（H&E）染色的全切片圖像，通過深度學習模型，“一眼看穿”腫瘤的分子秘密？近年來，大量研究聲稱能夠從全切片圖像預測諸如微衛(wèi)星不穩(wěn)定性、激素受體狀態(tài)以及TP53、BRAF、KRAS等關鍵基因突變，其性能指標（如AUROC）常常看起來相當出色。這些方法似乎為快速、低成本的生物標志物檢測鋪平了道路，甚至有望替代部分分子檢測。

然而，在一片樂觀之中，一個根本性問題被忽視了：腫瘤在顯微鏡下的表現，是其內部錯綜復雜的分子網絡共同作用的結果，而非單個基因變化的“獨家秀場”。生物標志物之間常常存在共現或互斥的復雜關系，同時它們也與腫瘤分級、突變負荷等臨床病理特征緊密關聯(lián)。當訓練深度學習模型時，如果這些內在的依賴關系被忽略，模型學到的究竟是目標生物標志物獨特的形態(tài)學指紋，還是與之糾纏不清的其他因素共同塑造的“混合體”？這種潛在的混淆是否會夸大模型的表觀性能，并在應用于不同患者群體或外部數據集時暴露其脆弱性，進而危及臨床轉化的可靠性？

為了系統(tǒng)性地回答這些問題，一項發(fā)表在《自然-生物醫(yī)學工程》的研究展開了深入調查。研究人員旨在揭示當前基于全切片圖像的生物標志物預測方法所面臨的深層次挑戰(zhàn)。他們的核心假設是：訓練數據中生物標志物狀態(tài)之間以及它們與臨床病理變量之間的相互依賴性，會導致機器學習模型依賴于多個因素的聚合影響，而非學習與單個生物標志物相關的特定模式，從而產生有偏見的預測。

為了驗證這一假設，研究人員開展了一項大規(guī)模回顧性分析。他們整合了來自乳腺癌、結直腸癌、子宮內膜癌和肺癌的8,221名患者數據，涵蓋TCGA、METABRIC、MSK、DFCI等多個知名隊列。研究首先系統(tǒng)分析了不同生物標志物和基因突變狀態(tài)之間的相互依賴性（共現與互斥模式）。接著，他們訓練了多種主流的深度學習模型來從全切片圖像預測生物標志物狀態(tài)，包括基于注意力的CLAM、基于圖神經網絡的SlideGraph^∞，以及基于多模態(tài)基礎模型TITAN的特征構建的單輸出/多輸出預測模型。然后，研究通過創(chuàng)新的分層分析和置換檢驗，評估模型在預測某一生物標志物時，其性能是否受到其他有依賴關系的生物標志物或臨床病理變量（如腫瘤分級、腫瘤突變負荷）狀態(tài)的顯著影響。最后，他們還將這些復雜模型的預測能力與僅基于病理學家判讀的組織學分級的簡單基線模型進行了比較，以評估其附加價值。

關鍵技術方法概述：

本研究主要采用了多種計算病理學與生物信息學分析技術。1) 數據整合與預處理：從TCGA、METABRIC、MSK、DFCI、CPTAC和ABCTB等多個公開隊列獲取患者的H&E染色全切片圖像及對應的分子生物標志物、基因突變、臨床病理數據。使用基于U-Net的模型進行組織分割，排除偽影區(qū)域，并提取組織 patches。2) 特征提取與模型構建：使用在ImageNet上預訓練的ShuffleNet卷積神經網絡和在組織學圖像上自監(jiān)督預訓練的CTransPathTransformer模型，從全切片圖像 patches 中提取特征。基于這些特征，訓練了CLAM（注意力多實例學習）和SlideGraph^∞（圖神經網絡）等弱監(jiān)督模型進行生物標志物預測。同時，利用了在多模態(tài)病理圖像-報告對（33萬對）上訓練的基礎模型TITAN的整張切片特征，構建了邏輯回歸和帶排序損失的多層感知機模型。3) 相互依賴性與混雜效應分析：使用對數優(yōu)勢比和Fisher精確檢驗分析生物標志物間的共現/互斥關系。通過分層分析和置換檢驗（10,000次），量化模型預測性能在由混雜變量（如其他生物標志物狀態(tài)、腫瘤分級、TMB）定義的患者亞組中的變化，以評估混雜偏倚。4) 基線模型比較：使用支持向量機，僅以組織學分級的獨熱編碼作為輸入，預測生物標志物狀態(tài)，作為評估深度學習模型附加價值的簡單基線。

研究結果：

數據與研究設計

研究分析了利用機器學習從H&E染色全切片圖像預測分子生物標志物（如突變、基因組不穩(wěn)定指標、蛋白表達）的現有方法的局限性。其概念框架如圖1所示。研究假設，訓練數據中生物標志物狀態(tài)和臨床病理變量之間的相互依賴性，以及在模型開發(fā)中對這種關聯(lián)的忽視，會使機器學習模型偏向于依賴全切片圖像中多個因素的聚合影響，而非與單個生物標志物相關的模式。為闡明此點，研究回顧性分析了來自四個癌種的8,221名患者數據，并進行了四個主要步驟的分析：生物標志物間相互依賴性分析、訓練深度學習模型、通過分層分析和置換檢驗評估模型偏倚、以及分析模型相較于病理學分級的附加預測價值。

生物標志物狀態(tài)顯示出顯著的相互依賴性和變異

分析揭示了跨癌癥類型的生物標志物之間存在顯著的相互依賴性。例如，在乳腺癌中，高表達的雌激素受體和孕激素受體與CDH1、MAP3K1和PIK3CA突變共現，但與TP53突變互斥。在結直腸癌中，微衛(wèi)星不穩(wěn)定性高（MSI-H）病例常伴有BRAF、ATM、ARID1A和RNF43突變，而較少伴有KRAS突變。此外，同一組織類型中，生物標志物關聯(lián)在不同數據集間也存在變異，反映了抽樣差異。這些結果表明，生物標志物狀態(tài)顯著相互依賴，且其關聯(lián)模式因數據集而異，因此，在全切片圖像上訓練的機器學習模型可能學習由多個相互依賴的生物標志物驅動的復合表型，從而引入隊列特異性偏倚，限制其泛化能力。

從全切片圖像預測生物標志物和基因改變

研究證實，所分析的模型得到了正確訓練。不同的模型配置在交叉驗證和獨立驗證隊列中對多種生物標志物實現了AUROC > 0.80的預測性能。例如，在乳腺癌中，使用CTransPath特征的CLAM模型預測雌激素受體和孕激素受體狀態(tài)的AUROC分別達到0.87和0.79。在結直腸癌中，SlideGraph^∞預測MSI狀態(tài)的AUROC達到0.89。除了弱監(jiān)督方法，基于TITAN全切片圖像特征表示訓練的單輸出和多輸出模型也表現出大致相似的性能。

生物標志物狀態(tài)間的相互依賴性導致從全切片圖像捕獲的表型特征糾纏不清

混雜因素分析表明，基于全切片圖像的預測模型受到生物標志物相互依賴性的強烈影響。對于多種生物標志物，這些模型所達到的較高的隊列水平AUROC，在由各種分層變量狀態(tài)定義的亞組中大幅下降。例如，SlideGraph^∞預測結直腸腫瘤MSI狀態(tài)（預測變量）的AUROC為0.88。然而，當將同一患者集按高突變和非高突變亞組（分層變量）劃分時，MSI狀態(tài)預測的AUROC在每個亞組內降至0.72。在按其他與MSI共現（如CIMP活性、高突變、APC狀態(tài)）或互斥（如BRAF、CINGS）的生物標志物分層時，也觀察到類似效應。這些觀察結果超越了結直腸腫瘤，在乳腺癌和子宮內膜腫瘤的生物標志物預測模型中也很明顯，且與特定模型架構、特征嵌入或訓練方法無關。這些結果表明，機器學習模型的生物標志物預測取決于其他相互依賴的生物標志物的狀態(tài)，這些模型很可能依賴于潛在相互作用的生物標志物產生的復合表型，而非學習生物標志物特異性的形態(tài)學。

基于全切片圖像的生物標志物預測受到組織學分級的混雜影響

基于全切片圖像的模型在預測乳腺癌腫瘤受體狀態(tài)時，在隊列水平取得了高AUROC。然而，按腫瘤分級進行的分層分析顯示了明顯的亞組水平性能下降。雌激素受體預測模型的AUROC在中等分級病例中降至0.76，孕激素受體預測模型的AUROC在低和中等分級病例中分別降至0.59和0.69。突變預測模型也表現出類似的分級特異性性能下降。這些模式超越了乳腺癌，在子宮內膜腫瘤的突變預測模型中也顯而易見。研究進一步表明，基于全切片圖像模型的表觀AUROC對訓練和測試隊列之間生物標志物-分級關聯(lián)的變化很敏感。這些結果，讓人聯(lián)想到辛普森悖論，表明基于全切片圖像的生物標志物預測模型嚴重依賴與分級相關的形態(tài)學，而非生物標志物特異性的表型特征，這使得它們在分級-生物標志物關聯(lián)與訓練數據不同的外部隊列中泛化能力較差。

生物標志物預測模型超越病理學家分級判讀的附加預測能力

分析表明，跨癌癥類型的幾種生物標志物狀態(tài)可以通過高于僅憑病理學家判讀分級所預期的準確度進行推斷，并且在幾種情況下，其性能接近深度學習模型。在乳腺癌中，基于分級的雌激素受體和孕激素受體分類器在TCGA-BRCA隊列中的AUROC分別達到0.76和0.70。分級也能以0.75的AUROC預測TP53突變，幾乎與弱監(jiān)督機器學習模型達到的0.81持平。在TCGA-UCEC和CPTAC-UCEC隊列中，TP53和PTEN預測模型也觀察到類似的AUROC模式。這些結果表明，對于某些生物標志物，機器學習算法相對于病理學家判讀的分級提供的附加預測價值有限。強烈的分級-生物標志物關聯(lián)也使得機器學習模型面臨將分級相關的表型差異與生物標志物狀態(tài)聯(lián)系起來的風險；因此，基于全切片圖像的模型需要超越這一基于分級的基線，并建立獨立于腫瘤分級的穩(wěn)健表型-基因型關聯(lián)。

基于全切片圖像的生物標志物預測受到其他基因突變密度的混雜影響

基于全切片圖像的模型可以高置信度地從全切片圖像推斷結直腸腫瘤中的BRAF和TP53突變。然而，分層分析揭示了一個重大挑戰(zhàn)：對于BRAF之外其他基因突變密度低的病例，BRAF預測因子的準確度下降至AUROC 0.65。類似地，TP53預測因子AUROC在高腫瘤突變負荷病例中降至0.50。在CPTAC-CRC隊列中也觀察到類似趨勢。這一觀察也延伸至子宮內膜癌。研究進一步表明，腫瘤突變負荷和生物標志物狀態(tài)之間關聯(lián)強度的變化，顯著影響了基于全切片圖像的預測因子的預測準確性。這一分析表明，模型的預測不僅受目標預測變量（如KRAS突變狀態(tài)）的影響，還受總體腫瘤突變負荷的影響，這影響了預測準確性。

研究結論與討論

本研究揭示了當前基于H&E染色全切片圖像的深度學習模型在臨床和臨床前應用中存在關鍵局限，特別是其在模型訓練和推理中未能考慮生物標志物間的相互依賴性。統(tǒng)計分析首先證明了跨組織類型和數據集的分子因子間存在顯著的相互依賴性，表現為互斥和共現模式。隨后，通過置換檢驗和分層分析表明，訓練數據中的這些關聯(lián)導致模型對給定生物標志物的預測依賴于其他共依賴生物標志物的狀態(tài)。例如，孕激素受體預測模型在CDH1突變病例中表現出明顯的性能下降。這種亞組性能的下降表明，當前的機器學習模型無法從全切片圖像中組織表型的多因素影響中完全理清生物標志物特異性信號。

當共依賴的生物標志物具有不同的治療意義時，模型無法辨別生物標志物特異性信號具有直接的臨床影響。一個例子是結直腸癌中BRAF與微衛(wèi)星不穩(wěn)定性的關聯(lián)。分析表明，基于全切片圖像的微衛(wèi)星不穩(wěn)定性預測依賴于BRAF狀態(tài)，在BRAF突變型和野生型亞組中AUROC均下降，且在按微衛(wèi)星不穩(wěn)定性狀態(tài)分層時，BRAF預測模型也觀察到類似模式。然而，微衛(wèi)星不穩(wěn)定性高和BRAF突變具有不同的治療意義。一個無法區(qū)分微衛(wèi)星不穩(wěn)定性高和BRAF狀態(tài)的模型可能獲得較高的總體AUROC，但缺乏臨床效用，因為混淆兩者會誤導治療選擇。這個例子強調了需要進行偏倚感知評估的廣泛需求。

超越生物標志物相互依賴性的影響，研究還表明這些模型利用全切片圖像中顯著的分級或腫瘤突變負荷相關特征作為生物標志物預測的代理。在乳腺癌中，雌激素受體和TP53預測模型的AUROC在按分級分層的亞組內顯著下降，且跨隊列分級-生物標志物關聯(lián)的變化導致表觀準確性的改善或下降。同樣，按腫瘤突變負荷分層分析顯示BRAF、TP53和其他標志物的AUROC大幅下降。這些模式反映了計算病理學中一個更廣泛的挑戰(zhàn)：模型傾向于利用混雜變量并將其與目標生物標志物混淆，從而模糊了真實的基因型-表型關系，限制了泛化能力并引入了偏倚。

這些發(fā)現強調了需要謹慎解讀外部驗證結果。在分析中，雌激素受體預測模型在TCGA-BRCA的交叉驗證中達到了0.87的AUROC，在更大的獨立隊列中達到了0.90，這可能被解釋為模型具有出色的泛化能力。然而，仔細檢查后發(fā)現，這種AUROC的表觀提升很大程度上是由驗證隊列中更強的分級-雌激素受體關聯(lián)驅動的。此外，在按分級分層的亞組內，這個復雜的雌激素受體預測模型的預測性能并不比簡單的基于分級的分類器有實質性提升。這說明，在聲稱臨床效用之前，必須輔以偏倚感知評估。

生物標志物相互依賴性和臨床病理變量的混雜影響表明，當前模型尚未準備好取代常規(guī)護理中的基因組檢測。相反，在嚴格評估其性能且關鍵臨床決策仍得到確認性測試支持的前提下，它們更適用于分診、篩查或補充決策支持。為確保真正的臨床效用，作者建議進行偏倚感知評估，包括報告按分級和腫瘤突變負荷分層的指標和亞組校準，而非僅依賴總體AUROC。這些發(fā)現也對將疾病表型與生物標志物聯(lián)系起來或根據生物標志物狀態(tài)評估治療反應的研究和試驗具有重要意義。在這兩種情況下，建立穩(wěn)健的關系需要確保目標生物標志物不與隊列特異性協(xié)變量緊密耦合。

盡管從H&E全切片圖像預測生物標志物狀態(tài)的方法存在局限性，它們仍可提供重要價值。它們可以通過揭示組織學與分子因子之間的關聯(lián)來促進研究和假設生成，特別是在無法進行額外檢測的組織有限或回顧性場景中。基于全切片圖像的模型還為大規(guī)模臨床前和轉化研究提供了可擴展且經濟高效的替代方案，并可作為早期試驗或資源有限環(huán)境中的快速預篩查工具。在藥物開發(fā)中，它們可以幫助縮小需要進行更耗資源的分子分析的候選者范圍，并在適當的保障措施和臨床醫(yī)生監(jiān)督下，通過指導何時需要進行確認性測試來支持分診。

盡管從常規(guī)H&E全切片圖像預測生物標志物狀態(tài)看似是簡單的圖像到標簽映射，但實際上要復雜得多，因為全切片圖像中的表型很少由單一因素驅動，而是反映了多個共依賴分子因子的綜合效應。分析表明，當前的方法，包括單輸出和多輸出模型，以及跨不同特征表示的機器學習和基于圖的方法，未能可靠地學習生物標志物特異性的基因型-表型映射；相反，它們利用相互依賴的生物標志物的聚合表型或隊列特異性關聯(lián)作為預測的代理。這導致產生有偏倚的模型，其性能在由共依賴變量定義的患者分層中下降。這些發(fā)現推動了對方法的重新構思，包括將其形式化為因果、結構化多標簽學習問題，通過標簽空間顯式編碼生物標志物間的依賴關系，在條件獨立性目標指導下學習解纏的圖像表示，通過因果調整和反事實數據增強來減輕混雜，以及優(yōu)化不變性和分布魯棒性，并結合基于條件指標和亞組校準的評估協(xié)議。

熱點排行

新聞專題