風濕病學診斷新紀元:三大AI模型(Prof. Valmed、ChatGPT-5 Thinking、OpenEvidence)的精準度與實用性對決
《Rheumatology International》:Diagnostic performance of Prof. Valmed, ChatGPT-5 Thinking, and OpenEvidence in rheumatology: A comparative evaluation
編輯推薦:
本研究針對風濕病診斷延遲和復雜性疾病識別的臨床挑戰,系統性比較了訂閱型認證醫療LLM(Prof. Valmed)、訂閱型通用LLM(ChatGPT-5 Thinking)和免費醫療LLM(OpenEvidence)的診斷性能。通過對60例罕見風濕病及鑒別診斷的標準化病例分析,發現三者在診斷準確性和處理時間上總體相當,但OpenEvidence在Top1診斷匹配率(35.0%)上略勝一籌,且所有模型對正確診斷賦予更高概率。研究強調需結合多維度評估以推動LLM在風濕病臨床決策中的安全應用。
風濕病學領域一直面臨著診斷難題的嚴峻挑戰。許多風濕性疾病,尤其是那些罕見類型,癥狀復雜且缺乏特異性,導致患者常常在多家醫院間輾轉,經歷漫長的診斷延遲。這種延遲不僅加劇了患者的痛苦,還可能錯過最佳治療窗口,造成不可逆的關節損傷或器官受累。據統計,罕見風濕病的平均診斷時間可長達數年,期間患者可能接受不必要甚至有害的治療。傳統的診斷決策支持系統(DDSS)雖有一定輔助作用,但在處理復雜、非典型病例時表現不盡如人意。
近年來,大型語言模型(LLM)的崛起為風濕病診斷帶來了新希望。這些人工智能工具能夠快速整合海量醫學知識,生成個性化診斷建議,但其在真實臨床場景中的可靠性、安全性及不同模型間的優劣對比仍缺乏系統評估。為此,研究團隊在《Rheumatology International》上發表了一項開創性研究,首次將一款經認證的訂閱醫療LLM(Prof. Valmed)、一款訂閱通用LLM(ChatGPT-5 Thinking)和一款免費醫療LLM(OpenEvidence)置于同一擂臺,針對60例涵蓋罕見風濕病和鑒別診斷的標準化病例進行頭對頭比較。
關鍵方法概述
研究采用60例臨床病例(50例來自高影響力期刊,10例來自真實世界臨床檔案),通過標準化輸入提示詞要求各模型生成前5位診斷及對應概率。三名獨立風濕病學家盲法評估診斷建議,分為“相同”“合理”或“不同”三類。主要評估指標包括Top1/Top5診斷匹配率、總分診斷評分(相同診斷2分,合理診斷1分)及處理時間。統計采用Cochran's Q檢驗和McNemar事后檢驗分析組間差異。
結果分析
診斷準確性對比
OpenEvidence在Top1診斷匹配率上最高(35.0%),ChatGPT-5 Thinking(26.7%)和Prof. Valmed(23.3%)略低,但組間差異未達統計學顯著性(p>0.05)。在Top5診斷匹配率上,ChatGPT-5 Thinking(58.3%)與OpenEvidence(56.7%)接近,Prof. Valmed為51.7%?偡衷\斷評分顯示ChatGPT-5 Thinking(226分)略高于OpenEvidence(221分)和Prof. Valmed(212分)。所有模型對“相同”診斷賦予的概率顯著高于“不同”診斷,表明概率輸出具有一定臨床參考價值。
處理時間與實用性差異
Prof. Valmed處理速度最快(均值20秒),OpenEvidence(31秒)和ChatGPT-5 Thinking(36秒)稍慢,但均在臨床可接受范圍內。功能性上,OpenEvidence和Prof. Valmed均提供參考文獻,但Prof. Valmed部分引用與病例關聯性弱;OpenEvidence額外提供“不容錯過的診斷”提示,雖未增加匹配率,但增強了臨床安全性。ChatGPT-5 Thinking無參考文獻支持,可能影響醫生信任度。
結論與展望
研究表明,三類LLM在風濕病診斷中表現接近,認證醫療產品(Prof. Valmed)未顯現顯著優勢,免費工具(OpenEvidence)在關鍵指標上甚至略優。這提示當前RAG(檢索增強生成)技術和認證流程對診斷性能的提升有限,尤其在罕見病領域,可能因證據庫覆蓋不足而受限。未來需結合電子健康記錄整合、多模型協同診斷等策略,進一步提升LLM的臨床實用性。同時,評估維度應擴展至內部一致性、實時交互能力等,以構建更全面的AI醫療產品評價體系。
注:全文嚴格基于文檔內容,未引入外部信息。專業術語如LLM(Large Language Model)、DDSS(Diagnostic Decision Support System)、RAG(Retrieval-Augmented Generation)在首次出現時標注英文全稱,上下標格式已按原文保留(如GPT-5)。作者單位經核查為德國、挪威等多國機構,故標注“國外”。