中文字幕一二区,人妻熟女在线网址,无码人妻丰满熟妇精品区

首頁今日動態(tài) 人才市場新技術(shù)專欄中國科學(xué)人云展臺
BioHot
云講堂直播會展中心特價專欄技術(shù)快訊免費試用

生物通官微
陪你抓住生命科技
跳動的脈搏

生物通首頁 > 今日動態(tài) > 正文

基于視覺 grounding 的胎兒超聲視頻理解語言模型 Sonomate 的構(gòu)建與應(yīng)用

《Nature Biomedical Engineering》：A visually grounded language model for fetal ultrasound understanding

【字體：大中小】 時間：2026年01月16日 來源：Nature Biomedical Engineering 26.6

編輯推薦：

　　本研究針對自由手胎兒超聲檢查對操作者臨床技能要求高、全球熟練超聲醫(yī)師短缺的難題，開發(fā)了一款名為 Sonomate 的 AI 輔助系統(tǒng)。該系統(tǒng)通過聯(lián)合粗粒度視頻-文本對齊與細(xì)粒度圖像-句子對齊，構(gòu)建了能夠理解胎兒超聲視頻的視覺 grounding 語言模型，實現(xiàn)了無需手動標(biāo)注數(shù)據(jù)的胎兒超聲圖像解剖結(jié)構(gòu)識別，并在圖像和視頻層面的視覺問答任務(wù)中表現(xiàn)出色。研究還設(shè)計了安全防護機制，為超聲培訓(xùn)及診斷能力提升提供了可行的 AI 輔助技術(shù)路徑。

超聲成像作為一種無創(chuàng)、無輻射、便攜且成本較低的醫(yī)學(xué)診斷技術(shù)，在產(chǎn)科篩查與胎兒檢查中具有重要應(yīng)用。然而，自由手超聲檢查對操作者的技能要求極高，從新手到熟練超聲醫(yī)師通常需要數(shù)年時間，這不僅導(dǎo)致全球范圍內(nèi)高水平超聲醫(yī)師的短缺，也限制了超聲技術(shù)在基層醫(yī)療機構(gòu)的普及。現(xiàn)有基于自然圖像訓(xùn)練的視覺-語言模型（如 CLIP）在生物醫(yī)學(xué)領(lǐng)域表現(xiàn)不佳，因醫(yī)學(xué)圖像與文本的專業(yè)性較強，且同一術(shù)語在不同上下文中的視覺表現(xiàn)差異顯著（如胎兒超聲中的“頭部”與自然圖像中的“頭部”差異明顯）。此外，現(xiàn)有醫(yī)學(xué)多模態(tài)模型主要針對靜態(tài)圖像或報告，缺乏對超聲視頻的時序理解能力，且未能充分考慮超聲醫(yī)師語言習(xí)慣與掃描場景的復(fù)雜性。

為此，來自牛津大學(xué)、香港浸會大學(xué)、哈利法大學(xué)等多機構(gòu)的研究團隊在《Nature Biomedical Engineering》上發(fā)表題為“A visually grounded language model for fetal ultrasound understanding”的研究，提出了名為 Sonomate 的超聲醫(yī)師助手。該研究利用 525 對胎兒超聲視頻與語音轉(zhuǎn)錄文本構(gòu)建大規(guī)模多模態(tài)數(shù)據(jù)集，通過聯(lián)合粗粒度視頻-文本對齊和細(xì)粒度圖像-句子對齊，構(gòu)建了一種視覺 grounding 語言模型，能夠?qū)崟r理解超聲視頻內(nèi)容，并支持解剖結(jié)構(gòu)檢測、圖像級與視頻級視覺問答（VQA）等多種下游任務(wù)。

研究關(guān)鍵技術(shù)方法主要包括：使用基于 BiomedCLIP 初始化的視覺編碼器（ViT-B/16）與文本編碼器（BERT），引入殘差塊增強視覺特征提取；提出解剖感知對齊與上下文標(biāo)簽校正策略，解決語言異質(zhì)性與視頻-音頻時序異步問題；構(gòu)建解剖知識圖譜，增強解剖結(jié)構(gòu)的識別與推理能力；設(shè)計多模態(tài)解碼器實現(xiàn)開放式視覺問答；并集成防護機制（如分布外問題檢測與問題復(fù)述生成）提升系統(tǒng)安全性。

數(shù)據(jù)集與挑戰(zhàn)

研究使用 PULSE 研究中 525 對超聲視頻-音頻數(shù)據(jù)，涵蓋早、中、晚孕期掃描，視頻平均時長 17.26 分鐘，語音轉(zhuǎn)錄為 79,885 句文本。數(shù)據(jù)呈現(xiàn)兩大挑戰(zhàn)：語言異質(zhì)性（約 2/3 語句與視覺內(nèi)容無關(guān)）和時序異步性（醫(yī)師常先講解后操作）。

Sonomate 概述

模型通過粗粒度對比學(xué)習(xí)拉近配對視頻-文本特征距離，推遠非配對特征；細(xì)粒度對齊則優(yōu)化句子與對應(yīng)幀的相似性矩陣，結(jié)合解剖感知對齊與自適應(yīng)標(biāo)簽校正提升跨模態(tài)對齊效果。

Sonomate 提升文本表征理解超聲視頻

特征可視化顯示，Sonomate 在跨模態(tài)特征對齊方面顯著優(yōu)于 BiomedCLIP，不同解剖類別的文本特征分布區(qū)分度更高，時序?qū)R更清晰。

Sonomate 實現(xiàn)無需標(biāo)注數(shù)據(jù)的解剖結(jié)構(gòu)檢測

在早孕期、中孕期及開源母胎超聲數(shù)據(jù)集上，Sonomate 的解剖識別準(zhǔn)確率顯著優(yōu)于 CLIP、PubMedCLIP 和 BiomedCLIP。知識增強的檢測流程（如子類別拼接為句子）效果最佳。

Sonomate 支持知識增強的視覺問答

圖像級與視頻級 VQA 任務(wù)中，Sonomate 在生物測量、孕期判斷、解剖分類等任務(wù)上準(zhǔn)確率優(yōu)于基線，且引入外部知識后性能進一步提升。

Sonomate 的防護機制與計算效率

通過分布外問題檢測與問題復(fù)述生成防護機制，系統(tǒng)能有效過濾異常輸入；計算效率評估顯示，即使在 CPU 僅環(huán)境下，圖像級任務(wù)推理時間約 100 毫秒，視頻級任務(wù)隨視頻長度增加但仍滿足實時性需求。

研究結(jié)論表明，Sonomate 是首個針對胎兒超聲視頻理解的醫(yī)學(xué)視覺-語言基礎(chǔ)模型，通過聯(lián)合粗細(xì)粒度對齊策略，顯著提升了解剖檢測與視覺問答能力。該系統(tǒng)可輔助培訓(xùn)期及新晉超聲醫(yī)師進行實時掃描決策，減少重復(fù)掃描與患者召回，提升工作流程效率。未來需進一步優(yōu)化對視覺相似解剖的區(qū)分、圖像偽影的魯棒性及非標(biāo)準(zhǔn)切面的識別能力。

相關(guān)新聞

生物通微信公眾號

微信

新浪微博

我要投稿

搜索
國際
國內(nèi)
人物
產(chǎn)業(yè)
熱點
科普

知名企業(yè)招聘

熱點排行

新聞專題

版權(quán)所有生物通

聯(lián)系信箱：

粵ICP備09063491號