<tt id="vwe5b"></tt>
      1. <tfoot id="vwe5b"><progress id="vwe5b"></progress></tfoot><abbr id="vwe5b"></abbr>

      2. 91人人妻,99偷拍,碰碰免费视频,亚洲中文字幕AV,丝袜a片,91纯肉动漫,中文无码日,伊人福利导航

        基于視覺 grounding 的胎兒超聲視頻理解語言模型 Sonomate 的構(gòu)建與應(yīng)用

        《Nature Biomedical Engineering》:A visually grounded language model for fetal ultrasound understanding

        【字體: 時間:2026年01月16日 來源:Nature Biomedical Engineering 26.6

        編輯推薦:

          本研究針對自由手胎兒超聲檢查對操作者臨床技能要求高、全球熟練超聲醫(yī)師短缺的難題,開發(fā)了一款名為 Sonomate 的 AI 輔助系統(tǒng)。該系統(tǒng)通過聯(lián)合粗粒度視頻-文本對齊與細(xì)粒度圖像-句子對齊,構(gòu)建了能夠理解胎兒超聲視頻的視覺 grounding 語言模型,實現(xiàn)了無需手動標(biāo)注數(shù)據(jù)的胎兒超聲圖像解剖結(jié)構(gòu)識別,并在圖像和視頻層面的視覺問答任務(wù)中表現(xiàn)出色。研究還設(shè)計了安全防護機制,為超聲培訓(xùn)及診斷能力提升提供了可行的 AI 輔助技術(shù)路徑。

          
        超聲成像作為一種無創(chuàng)、無輻射、便攜且成本較低的醫(yī)學(xué)診斷技術(shù),在產(chǎn)科篩查與胎兒檢查中具有重要應(yīng)用。然而,自由手超聲檢查對操作者的技能要求極高,從新手到熟練超聲醫(yī)師通常需要數(shù)年時間,這不僅導(dǎo)致全球范圍內(nèi)高水平超聲醫(yī)師的短缺,也限制了超聲技術(shù)在基層醫(yī)療機構(gòu)的普及。現(xiàn)有基于自然圖像訓(xùn)練的視覺-語言模型(如 CLIP)在生物醫(yī)學(xué)領(lǐng)域表現(xiàn)不佳,因醫(yī)學(xué)圖像與文本的專業(yè)性較強,且同一術(shù)語在不同上下文中的視覺表現(xiàn)差異顯著(如胎兒超聲中的“頭部”與自然圖像中的“頭部”差異明顯)。此外,現(xiàn)有醫(yī)學(xué)多模態(tài)模型主要針對靜態(tài)圖像或報告,缺乏對超聲視頻的時序理解能力,且未能充分考慮超聲醫(yī)師語言習(xí)慣與掃描場景的復(fù)雜性。
        為此,來自牛津大學(xué)、香港浸會大學(xué)、哈利法大學(xué)等多機構(gòu)的研究團隊在《Nature Biomedical Engineering》上發(fā)表題為“A visually grounded language model for fetal ultrasound understanding”的研究,提出了名為 Sonomate 的超聲醫(yī)師助手。該研究利用 525 對胎兒超聲視頻與語音轉(zhuǎn)錄文本構(gòu)建大規(guī)模多模態(tài)數(shù)據(jù)集,通過聯(lián)合粗粒度視頻-文本對齊和細(xì)粒度圖像-句子對齊,構(gòu)建了一種視覺 grounding 語言模型,能夠?qū)崟r理解超聲視頻內(nèi)容,并支持解剖結(jié)構(gòu)檢測、圖像級與視頻級視覺問答(VQA)等多種下游任務(wù)。
        研究關(guān)鍵技術(shù)方法主要包括:使用基于 BiomedCLIP 初始化的視覺編碼器(ViT-B/16)與文本編碼器(BERT),引入殘差塊增強視覺特征提取;提出解剖感知對齊與上下文標(biāo)簽校正策略,解決語言異質(zhì)性與視頻-音頻時序異步問題;構(gòu)建解剖知識圖譜,增強解剖結(jié)構(gòu)的識別與推理能力;設(shè)計多模態(tài)解碼器實現(xiàn)開放式視覺問答;并集成防護機制(如分布外問題檢測與問題復(fù)述生成)提升系統(tǒng)安全性。

        數(shù)據(jù)集與挑戰(zhàn)

        研究使用 PULSE 研究中 525 對超聲視頻-音頻數(shù)據(jù),涵蓋早、中、晚孕期掃描,視頻平均時長 17.26 分鐘,語音轉(zhuǎn)錄為 79,885 句文本。數(shù)據(jù)呈現(xiàn)兩大挑戰(zhàn):語言異質(zhì)性(約 2/3 語句與視覺內(nèi)容無關(guān))和時序異步性(醫(yī)師常先講解后操作)。

        Sonomate 概述

        模型通過粗粒度對比學(xué)習(xí)拉近配對視頻-文本特征距離,推遠非配對特征;細(xì)粒度對齊則優(yōu)化句子與對應(yīng)幀的相似性矩陣,結(jié)合解剖感知對齊與自適應(yīng)標(biāo)簽校正提升跨模態(tài)對齊效果。

        Sonomate 提升文本表征理解超聲視頻

        特征可視化顯示,Sonomate 在跨模態(tài)特征對齊方面顯著優(yōu)于 BiomedCLIP,不同解剖類別的文本特征分布區(qū)分度更高,時序?qū)R更清晰。

        Sonomate 實現(xiàn)無需標(biāo)注數(shù)據(jù)的解剖結(jié)構(gòu)檢測

        在早孕期、中孕期及開源母胎超聲數(shù)據(jù)集上,Sonomate 的解剖識別準(zhǔn)確率顯著優(yōu)于 CLIP、PubMedCLIP 和 BiomedCLIP。知識增強的檢測流程(如子類別拼接為句子)效果最佳。

        Sonomate 支持知識增強的視覺問答

        圖像級與視頻級 VQA 任務(wù)中,Sonomate 在生物測量、孕期判斷、解剖分類等任務(wù)上準(zhǔn)確率優(yōu)于基線,且引入外部知識后性能進一步提升。

        Sonomate 的防護機制與計算效率

        通過分布外問題檢測與問題復(fù)述生成防護機制,系統(tǒng)能有效過濾異常輸入;計算效率評估顯示,即使在 CPU 僅環(huán)境下,圖像級任務(wù)推理時間約 100 毫秒,視頻級任務(wù)隨視頻長度增加但仍滿足實時性需求。
        研究結(jié)論表明,Sonomate 是首個針對胎兒超聲視頻理解的醫(yī)學(xué)視覺-語言基礎(chǔ)模型,通過聯(lián)合粗細(xì)粒度對齊策略,顯著提升了解剖檢測與視覺問答能力。該系統(tǒng)可輔助培訓(xùn)期及新晉超聲醫(yī)師進行實時掃描決策,減少重復(fù)掃描與患者召回,提升工作流程效率。未來需進一步優(yōu)化對視覺相似解剖的區(qū)分、圖像偽影的魯棒性及非標(biāo)準(zhǔn)切面的識別能力。
        相關(guān)新聞
        生物通微信公眾號
        微信
        新浪微博

        知名企業(yè)招聘

        熱點排行

          今日動態(tài) | 人才市場 | 新技術(shù)專欄 | 中國科學(xué)人 | 云展臺 | BioHot | 云講堂直播 | 會展中心 | 特價專欄 | 技術(shù)快訊 | 免費試用

          版權(quán)所有 生物通

          Copyright© eBiotrade.com, All Rights Reserved

          聯(lián)系信箱:

          粵ICP備09063491號