《Scientific Reports》:Quantifying central canal stenosis prediction uncertainty in SpineNet with conformal prediction
編輯推薦:
本研究針對深度學(xué)習(xí)模型在醫(yī)學(xué)影像分類中缺乏不確定性量化的問題,將保形預(yù)測(CP)框架應(yīng)用于SpineNet模型,對中央椎管狹窄(CCS)的四級分類進(jìn)行不確定性評估。研究發(fā)現(xiàn),類條件CP方法在多個顯著性水平(α)下均能實現(xiàn)預(yù)期覆蓋率,同時產(chǎn)生最小的預(yù)測集,為臨床決策提供了可靠的置信度評估工具。
隨著人工智能技術(shù)在醫(yī)療領(lǐng)域的快速發(fā)展,深度學(xué)習(xí)模型在醫(yī)學(xué)影像分析中展現(xiàn)出巨大潛力。在脊柱影像學(xué)領(lǐng)域,SpineNet作為一款先進(jìn)的卷積神經(jīng)網(wǎng)絡(luò)模型,能夠自動識別椎體并對腰椎T2加權(quán)磁共振成像中的中央椎管狹窄進(jìn)行分級評估。然而,這類深度學(xué)習(xí)模型通常只提供單一類別的預(yù)測結(jié)果,缺乏對預(yù)測可靠性的量化指標(biāo),這在要求高可靠性的臨床決策場景中構(gòu)成了顯著限制。
傳統(tǒng)的深度學(xué)習(xí)模型在輸出預(yù)測時,往往只給出一個最終的分類結(jié)果,例如將某個病例判定為"輕度狹窄"。但這種"非黑即白"的判斷方式無法反映模型對該預(yù)測的置信程度。當(dāng)模型對某個病例的預(yù)測存在不確定性時,臨床醫(yī)生無法從單一預(yù)測結(jié)果中獲取這一重要信息,可能導(dǎo)致對模型預(yù)測的過度依賴或誤判。這一局限性在醫(yī)學(xué)影像分析中尤為關(guān)鍵,因為診斷結(jié)果直接影響患者的治療決策和預(yù)后評估。
為了解決這一問題,Andrea Cina等人開展了一項創(chuàng)新性研究,將保形預(yù)測這一統(tǒng)計框架集成到SpineNet模型中,用于量化中央椎管狹窄分級預(yù)測中的不確定性。該研究近期發(fā)表在《Scientific Reports》期刊上,為深度學(xué)習(xí)模型在醫(yī)學(xué)影像分析中的可靠性評估提供了新的思路和方法。
研究人員采用的方法主要包括四個關(guān)鍵步驟。首先,他們利用預(yù)訓(xùn)練的SpineNet V2模型對340名患者的1689個椎間盤水平進(jìn)行中央椎管狹窄分級,獲取每個等級的軟最大值輸出。其次,將數(shù)據(jù)集隨機(jī)分為校準(zhǔn)集和測試集,采用自助抽樣法進(jìn)行1000次重復(fù)實驗以評估方法的穩(wěn)健性。然后,研究人員比較了四種不同的保形預(yù)測方法:最小模糊集值分類器(LAC)、自適應(yīng)預(yù)測集(APS)、top-k保形預(yù)測以及類條件保形預(yù)測。最后,通過在多個顯著性水平(α=0.05、0.1、0.15、0.2)下系統(tǒng)評估各方法的經(jīng)驗覆蓋率和預(yù)測集大小,從而確定最優(yōu)的不確定性量化策略。
研究結(jié)果顯示,類條件保形預(yù)測方法在各項評估指標(biāo)上表現(xiàn)最為優(yōu)異。該方法不僅能夠 consistently 達(dá)到預(yù)期的覆蓋率水平,而且產(chǎn)生的預(yù)測集尺寸最小,表明其在不犧牲可靠性的前提下提供了最具信息量的預(yù)測結(jié)果。
整體評估
在整體性能評估中,類條件CP方法在所有α水平下均表現(xiàn)出色,經(jīng)驗覆蓋率與預(yù)期值(1-α)高度一致。當(dāng)α=0.15時,該方法實現(xiàn)了0.85的經(jīng)驗覆蓋率,預(yù)測集大小僅為2.13,顯著優(yōu)于其他方法。相比之下,top-k方法雖然覆蓋率最高,但預(yù)測集尺寸過大(常包含所有4個類別),降低了臨床實用性。LAC和APS方法在處理中度狹窄病例時表現(xiàn)不佳,覆蓋率低于預(yù)期水平。
狹窄等級評估
按狹窄等級進(jìn)行的細(xì)化分析進(jìn)一步證實了類條件CP方法的優(yōu)越性。在α=0.15條件下,該方法對所有狹窄等級(正常、輕度、中度、重度)均保持了穩(wěn)定的覆蓋率,預(yù)測集大小從正常的1.49到重度的2.39不等,反映了模型對不同等級狹窄的置信度差異。值得注意的是,其他方法在處理中度狹窄時普遍表現(xiàn)較差,覆蓋率顯著低于預(yù)期值。
椎體水平評估
針對不同椎體水平的分析顯示,狹窄等級的分布存在明顯差異:L1/L2水平以正常和輕度狹窄為主,而L4/L5水平則有約55%的病例為重度狹窄。使用類條件CP方法(α=0.15)進(jìn)行分析,發(fā)現(xiàn)L1/L2水平的平均預(yù)測集尺寸最小(1.82),L4/L5水平最大(2.44),這與不同水平上狹窄等級的分布特點和診斷難度相一致。覆蓋率分析表明,該方法在多數(shù)椎體水平上都能達(dá)到或超過預(yù)期覆蓋率,僅在L5/S1水平略有下降(0.77)。
研究的討論部分深入分析了各類方法的性能差異及其臨床意義。類條件CP方法的優(yōu)異表現(xiàn)歸因于其能夠為每個狹窄等級學(xué)習(xí)獨立的閾值,從而更好地適應(yīng)不同類別的特點和數(shù)據(jù)分布的不平衡性。相比之下,top-k方法產(chǎn)生的過大預(yù)測集雖然保證了高覆蓋率,但提供的臨床信息有限;LAC和APS方法則在處理特定狹窄等級(尤其是中度狹窄)時表現(xiàn)不穩(wěn)定。
作者在討論中也指出了本研究的幾個局限性。首先,SpineNet模型是在與本研究數(shù)據(jù)集分布不同的數(shù)據(jù)上預(yù)訓(xùn)練的,這可能影響預(yù)測集的尺寸。其次,當(dāng)前方法沒有利用中央椎管狹窄等級的有序性特征,未來引入考慮等級順序的保形預(yù)測方法可能進(jìn)一步提升性能。此外,類別分布不平衡對方法性能的影響也需要在臨床應(yīng)用中予以考慮。
盡管存在這些限制,本研究提出的方法為臨床醫(yī)生提供了一個直觀且可靠的工具,用于評估深度學(xué)習(xí)模型預(yù)測的不確定性。通過調(diào)整顯著性水平α,臨床醫(yī)生可以根據(jù)具體的診斷場景和風(fēng)險承受能力,在覆蓋率和預(yù)測精度之間進(jìn)行靈活權(quán)衡。例如,在篩查場景中可以選擇較低的α值以確保高覆蓋率,而在確診過程中則可以選擇較高的α值以獲得更精確的預(yù)測。
這項研究的創(chuàng)新之處在于將保形預(yù)測這一先進(jìn)的統(tǒng)計學(xué)習(xí)框架與成熟的脊柱影像分析模型相結(jié)合,為醫(yī)學(xué)影像分析中的不確定性量化提供了實用解決方案。該方法不依賴于特定的模型架構(gòu),可以輕松集成到現(xiàn)有的深度學(xué)習(xí)流程中,具有廣泛的適用性和推廣價值。隨著人工智能在醫(yī)療領(lǐng)域應(yīng)用的不斷深入,這種能夠提供透明不確定性評估的方法將變得越來越重要,有助于提高AI輔助診斷的可靠性和臨床接受度。
綜上所述,本研究通過系統(tǒng)評估不同保形預(yù)測方法在中央椎管狹窄分級任務(wù)中的表現(xiàn),確立了類條件CP方法在平衡覆蓋率和預(yù)測集尺寸方面的優(yōu)勢。研究成果不僅為脊柱影像分析提供了實用的不確定性量化工具,也為深度學(xué)習(xí)模型在醫(yī)療領(lǐng)域的可靠應(yīng)用提供了重要參考。隨著未來技術(shù)的進(jìn)一步發(fā)展和優(yōu)化,這種基于保形預(yù)測的不確定性量化框架有望在更廣泛的醫(yī)學(xué)影像分析任務(wù)中發(fā)揮重要作用,推動AI輔助診斷向更可靠、更透明的方向發(fā)展。