《npj Digital Medicine》:Structure-aware multi-task learning with domain generalization for robust vertebrae analysis in spinal CT
編輯推薦:
本研究針對(duì)脊柱CT分析中存在的模型跨域泛化能力不足、難以同時(shí)處理椎骨分割/識(shí)別/病灶檢測(cè)等多任務(wù)的問(wèn)題,提出了VertebraFormer這一統(tǒng)一Transformer框架。通過(guò)結(jié)構(gòu)感知編碼器、多任務(wù)解碼頭和動(dòng)態(tài)調(diào)制機(jī)制,該研究在MultiSpine多中心基準(zhǔn)測(cè)試中實(shí)現(xiàn)了椎骨分割Dice系數(shù)89.3%、識(shí)別準(zhǔn)確率85.6%、病灶檢測(cè)AP 68.7%的優(yōu)異性能,顯著提升了模型在未知域數(shù)據(jù)上的零樣本泛化能力,為臨床部署提供了可靠技術(shù)方案。
脊柱作為人體承重、活動(dòng)和神經(jīng)保護(hù)的核心結(jié)構(gòu),其相關(guān)疾病如骨折、退行性病變和腫瘤性病變具有高發(fā)病率,常導(dǎo)致嚴(yán)重疼痛、功能障礙甚至癱瘓。計(jì)算機(jī)斷層掃描(CT)因其高空間分辨率和骨骼細(xì)節(jié)捕捉能力,成為脊柱評(píng)估的重要手段。然而,手動(dòng)分析脊柱CT掃描存在勞動(dòng)強(qiáng)度大、耗時(shí)長(zhǎng)且易受觀察者間變異影響等問(wèn)題,迫切需要開(kāi)發(fā)自動(dòng)化分析系統(tǒng)。
盡管深度學(xué)習(xí)在椎骨分割、定位和識(shí)別領(lǐng)域已取得顯著進(jìn)展,但三大挑戰(zhàn)依然突出:脊柱不同區(qū)域(頸椎、胸椎、腰椎)的結(jié)構(gòu)異質(zhì)性導(dǎo)致椎骨形狀和外觀存在顯著變異;病灶多樣性從細(xì)微皮質(zhì)變薄到大型腫瘤浸潤(rùn),增加了正常解剖與病理聯(lián)合建模的復(fù)雜性;模型跨域泛化能力不足,當(dāng)應(yīng)用于來(lái)自不同機(jī)構(gòu)、掃描儀或協(xié)議的CT圖像時(shí),性能往往顯著下降。
針對(duì)這些挑戰(zhàn),研究人員在《npj Digital Medicine》上發(fā)表了題為"Structure-aware multi-task learning with domain generalization for robust vertebrae analysis in spinal CT"的研究,提出了VertebraFormer這一統(tǒng)一多任務(wù)框架。該研究構(gòu)建了MultiSpine多域脊柱CT基準(zhǔn)數(shù)據(jù)集,包含來(lái)自四個(gè)公共和兩個(gè)私有數(shù)據(jù)集的異質(zhì)CT體積,標(biāo)注有椎骨分割掩模、解剖標(biāo)簽和病理區(qū)域。
為開(kāi)展研究,團(tuán)隊(duì)主要采用了以下關(guān)鍵技術(shù)方法:基于Transformer的編碼器架構(gòu)捕獲全局空間依賴;多任務(wù)解碼頭同時(shí)處理分割、識(shí)別和檢測(cè)任務(wù);動(dòng)態(tài)調(diào)制機(jī)制通過(guò)對(duì)比學(xué)習(xí)域嵌入實(shí)現(xiàn)特征自適應(yīng);留一域出協(xié)議評(píng)估跨域泛化能力。研究使用六大數(shù)據(jù)集(CTSpine1K、SpineWeb、VerSe 2020、CSMD和兩個(gè)私有數(shù)據(jù)集),采用60%/20%/20%的數(shù)據(jù)劃分,在四塊NVIDIA A100 GPU上使用PyTorch 2.1實(shí)現(xiàn)。
2.1 實(shí)驗(yàn)設(shè)置
研究采用統(tǒng)一實(shí)驗(yàn)協(xié)議,使用AdamW優(yōu)化器(學(xué)習(xí)率1×10-4)訓(xùn)練300輪,批量大小為2。評(píng)估指標(biāo)包括Dice相似系數(shù)(分割)、識(shí)別準(zhǔn)確率(ID Acc)和病灶平均精度(Lesion AP),采用95%偏差校正加速自助法置信區(qū)間進(jìn)行不確定性量化。
2.2 基準(zhǔn)比較
VertebraFormer在MultiSpine基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,椎骨分割Dice系數(shù)達(dá)89.3%±0.2%,識(shí)別準(zhǔn)確率85.6%±0.6%,病灶檢測(cè)AP 68.7%±1.1%,均優(yōu)于nnU-Net、UNETR、H2Former等基線方法。按病理類別分析顯示,模型對(duì)2/3級(jí)骨折檢測(cè)AP達(dá)78.4%,但對(duì)早期溶骨性轉(zhuǎn)移(64.2%)和感染/侵蝕(52.1%)敏感性較低,與標(biāo)注者間一致性較低(κ=0.64)相關(guān)。
2.3 跨域泛化
在零樣本跨域評(píng)估中,模型在六個(gè)目標(biāo)域上保持穩(wěn)定性能,Dice系數(shù)介于86.9%-88.4%,識(shí)別準(zhǔn)確率78.2%-81.9%。熱圖分析顯示,即使在具有挑戰(zhàn)性的轉(zhuǎn)移情況(如從主要為頸椎數(shù)據(jù)訓(xùn)練到僅腰椎域測(cè)試)下,VertebraFormer仍保持競(jìng)爭(zhēng)優(yōu)勢(shì)。
2.4 消融研究
逐步添加識(shí)別分支、病灶檢測(cè)頭和動(dòng)態(tài)調(diào)制模塊的實(shí)驗(yàn)表明,各組件均帶來(lái)性能提升,其中動(dòng)態(tài)調(diào)制塊貢獻(xiàn)最大(Dice提升0.8%,識(shí)別準(zhǔn)確率提升2.5%),凸顯其在異構(gòu)成像條件下優(yōu)化特征表示的作用。
2.5 復(fù)雜性與效率分析
模型參數(shù)量85.6M,F(xiàn)LOPs 342.4G,在NVIDIA RTX A6000上吞吐量達(dá)13.8體積/秒,延遲72.5毫秒/體積,實(shí)現(xiàn)了準(zhǔn)確性與計(jì)算效率的良好平衡。
2.6 定性可視化
可視化結(jié)果顯示,預(yù)測(cè)分割掩模與真實(shí)標(biāo)注高度重疊,即使在胸腰椎連接區(qū)和退變椎間盤(pán)等挑戰(zhàn)區(qū)域也能準(zhǔn)確描繪椎骨邊界。ID分配沿整個(gè)脊柱保持一致,有效處理部分椎骨可見(jiàn)性或不規(guī)則形態(tài)情況。病灶檢測(cè)熱圖成功定位臨床相關(guān)異常,顯示局部皮質(zhì)變薄、椎骨骨折和腫瘤浸潤(rùn)等細(xì)微病理模式。
2.7 動(dòng)態(tài)域調(diào)制與推理時(shí)適應(yīng)
研究表明,當(dāng)提供正確域嵌入(0%錯(cuò)誤)時(shí),模型達(dá)到最佳性能(Dice≈90%,識(shí)別準(zhǔn)確率97%)。隨著域誤分類增加,性能逐漸下降,30%錯(cuò)誤時(shí)Dice降至82%。完全隨機(jī)或交換域嵌入導(dǎo)致性能大幅下降(Dice 75-78%),證實(shí)域特定調(diào)制的重要性。測(cè)試時(shí)熵最小化(TENT)等自適應(yīng)方法在不依賴域標(biāo)識(shí)符情況下仍能恢復(fù)大部分性能(Dice 88%),為域標(biāo)簽不可靠時(shí)的可行替代方案。
2.8 輸入擾動(dòng)魯棒性
模型對(duì)中等強(qiáng)度和噪聲擾動(dòng)表現(xiàn)出強(qiáng)韌性,僅在嚴(yán)重失真時(shí)出現(xiàn)明顯性能下降。結(jié)構(gòu)感知設(shè)計(jì)有助于在擾動(dòng)情況下保持解剖一致性,識(shí)別錯(cuò)誤通常限于單個(gè)椎骨誤標(biāo),而非整個(gè)序列混亂標(biāo)記。
2.9 統(tǒng)一模型與模塊化流程對(duì)比
在相等延遲約束下(~72毫秒),VertebraFormer在分割Dice(89.3% vs 86.5%)、識(shí)別準(zhǔn)確率(85.6% vs 81.0%)和病灶檢測(cè)AP(68.7% vs 60.5%)上均優(yōu)于三模型流程(UNETR分割+ResNet分類+YOLO檢測(cè)),峰值內(nèi)存使用更低(13.9 GB vs 15.8 GB)。
研究結(jié)論表明,VertebraFormer通過(guò)統(tǒng)一Transformer框架成功解決了脊柱CT分析中的多任務(wù)挑戰(zhàn),在保持計(jì)算效率的同時(shí)顯著提升了跨域泛化能力。動(dòng)態(tài)調(diào)制機(jī)制和結(jié)構(gòu)感知設(shè)計(jì)使模型能夠適應(yīng)異構(gòu)成像條件,產(chǎn)生解剖學(xué)上可信的預(yù)測(cè)。盡管在罕見(jiàn)病理、極端成像偽影和兒科病例覆蓋方面存在局限,但該框架為自動(dòng)化、多方面脊柱圖像分析提供了有前景的工具,未來(lái)通過(guò)融入多模態(tài)成像和臨床元數(shù)據(jù),有望進(jìn)一步擴(kuò)展其臨床實(shí)用性。