88XV日韩,国产成人av,色www88

首頁今日動態人才市場新技術專欄中國科學人云展臺
BioHot
云講堂直播會展中心特價專欄技術快訊免費試用

生物通官微
陪你抓住生命科技
跳動的脈搏

生物通首頁 > 今日動態 > 正文

風濕病學診斷新紀元：三大AI模型（Prof. Valmed、ChatGPT-5 Thinking、OpenEvidence）的精準度與實用性對決

《Rheumatology International》：Diagnostic performance of Prof. Valmed, ChatGPT-5 Thinking, and OpenEvidence in rheumatology: A comparative evaluation

【字體：大中小】 時間：2026年01月11日 來源：Rheumatology International 2.9

編輯推薦：

　　本研究針對風濕病診斷延遲和復雜性疾病識別的臨床挑戰，系統性比較了訂閱型認證醫療LLM（Prof. Valmed）、訂閱型通用LLM（ChatGPT-5 Thinking）和免費醫療LLM（OpenEvidence）的診斷性能。通過對60例罕見風濕病及鑒別診斷的標準化病例分析，發現三者在診斷準確性和處理時間上總體相當，但OpenEvidence在Top1診斷匹配率（35.0%）上略勝一籌，且所有模型對正確診斷賦予更高概率。研究強調需結合多維度評估以推動LLM在風濕病臨床決策中的安全應用。

風濕病學領域一直面臨著診斷難題的嚴峻挑戰。許多風濕性疾病，尤其是那些罕見類型，癥狀復雜且缺乏特異性，導致患者常常在多家醫院間輾轉，經歷漫長的診斷延遲。這種延遲不僅加劇了患者的痛苦，還可能錯過最佳治療窗口，造成不可逆的關節損傷或器官受累。據統計，罕見風濕病的平均診斷時間可長達數年，期間患者可能接受不必要甚至有害的治療。傳統的診斷決策支持系統（DDSS）雖有一定輔助作用，但在處理復雜、非典型病例時表現不盡如人意。

近年來，大型語言模型（LLM）的崛起為風濕病診斷帶來了新希望。這些人工智能工具能夠快速整合海量醫學知識，生成個性化診斷建議，但其在真實臨床場景中的可靠性、安全性及不同模型間的優劣對比仍缺乏系統評估。為此，研究團隊在《Rheumatology International》上發表了一項開創性研究，首次將一款經認證的訂閱醫療LLM（Prof. Valmed）、一款訂閱通用LLM（ChatGPT-5 Thinking）和一款免費醫療LLM（OpenEvidence）置于同一擂臺，針對60例涵蓋罕見風濕病和鑒別診斷的標準化病例進行頭對頭比較。

關鍵方法概述

研究采用60例臨床病例（50例來自高影響力期刊，10例來自真實世界臨床檔案），通過標準化輸入提示詞要求各模型生成前5位診斷及對應概率。三名獨立風濕病學家盲法評估診斷建議，分為“相同”“合理”或“不同”三類。主要評估指標包括Top1/Top5診斷匹配率、總分診斷評分（相同診斷2分，合理診斷1分）及處理時間。統計采用Cochran's Q檢驗和McNemar事后檢驗分析組間差異。

結果分析

診斷準確性對比

OpenEvidence在Top1診斷匹配率上最高（35.0%），ChatGPT-5 Thinking（26.7%）和Prof. Valmed（23.3%）略低，但組間差異未達統計學顯著性（p>0.05）。在Top5診斷匹配率上，ChatGPT-5 Thinking（58.3%）與OpenEvidence（56.7%）接近，Prof. Valmed為51.7%�？偡衷\斷評分顯示ChatGPT-5 Thinking（226分）略高于OpenEvidence（221分）和Prof. Valmed（212分）。所有模型對“相同”診斷賦予的概率顯著高于“不同”診斷，表明概率輸出具有一定臨床參考價值。

處理時間與實用性差異

Prof. Valmed處理速度最快（均值20秒），OpenEvidence（31秒）和ChatGPT-5 Thinking（36秒）稍慢，但均在臨床可接受范圍內。功能性上，OpenEvidence和Prof. Valmed均提供參考文獻，但Prof. Valmed部分引用與病例關聯性弱；OpenEvidence額外提供“不容錯過的診斷”提示，雖未增加匹配率，但增強了臨床安全性。ChatGPT-5 Thinking無參考文獻支持，可能影響醫生信任度。

結論與展望

研究表明，三類LLM在風濕病診斷中表現接近，認證醫療產品（Prof. Valmed）未顯現顯著優勢，免費工具（OpenEvidence）在關鍵指標上甚至略優。這提示當前RAG（檢索增強生成）技術和認證流程對診斷性能的提升有限，尤其在罕見病領域，可能因證據庫覆蓋不足而受限。未來需結合電子健康記錄整合、多模型協同診斷等策略，進一步提升LLM的臨床實用性。同時，評估維度應擴展至內部一致性、實時交互能力等，以構建更全面的AI醫療產品評價體系。

注：全文嚴格基于文檔內容，未引入外部信息。專業術語如LLM（Large Language Model）、DDSS（Diagnostic Decision Support System）、RAG（Retrieval-Augmented Generation）在首次出現時標注英文全稱，上下標格式已按原文保留（如GPT-5）。作者單位經核查為德國、挪威等多國機構，故標注“國外”。

熱點排行

新聞專題

聯系信箱：

粵ICP備09063491號