《Frontiers in Pharmacology》:Drug shortage in South Korea: machine learning-based prediction models and analysis of duration and causal factors
編輯推薦:
本研究利用韓國食藥廳(KMFDS)2018-2024年1,054例藥品短缺報告數據,開發了兩種機器學習模型:Model 1預測短缺持續時間范圍(準確率62%),Model 2分類短缺成因(加權F1-score>70%)。研究發現短缺發生頻率(Shortage Incidence Frequency)是預測時長的最關鍵變量,而企業規模(Business size of MAH)和替代藥物可及性(Existence of alternative drugs)是成因分類的核心特征。研究為韓國建立基于供應側指標(如經濟可行性)的國家監測計劃提供了證據,有助于實現從被動應對到主動預警的藥品短缺管理策略轉變。
背景
藥品短缺是全球醫療系統面臨的嚴峻挑戰,韓國也不例外。從供應角度看,藥品短缺是指醫療系統內所需的藥品、健康相關產品和疫苗的可用性不足;從需求角度看,當供應鏈任何環節的需求超過供應時,就會發生短缺,若不及時處理可能導致缺貨并無法滿足臨床需求。藥品短缺會給醫療部門帶來巨大的社會成本,包括患者獲得藥物的機會減少、醫療費用增加、藥品市場混亂、醫療提供者焦慮加劇以及創新藥物研發延遲等。COVID-19大流行期間,生物制藥的全球價值鏈受到前所未有的威脅,加劇了全球對藥品短缺的擔憂。預測藥品短缺的發生、短缺持續時間以及短缺后的恢復期,是管理藥品短缺的關鍵因素。
韓國的制藥業主要生產仿制藥,并嚴重依賴進口的活性藥物成分(API)和新藥,這使得其供應鏈敏感且易受短缺影響。盡管韓國政府于2019年與韓國罕見病及必需藥物中心合作開發了政府主導的藥品供應中斷預測模型,并實施了利用人工智能的供需預測項目,但該模型僅旨在為潛在短缺提供實時警報,無法解決根本問題,導致國家必需藥物清單擴大后供應不穩定的藥物數量仍顯著增加。因此,迫切需要一項對1,054例監管報告的藥品短缺預測系統的回顧性分析,以有效應對藥品短缺問題。
方法
數據來源與特征
研究數據來源于韓國食品藥品安全部(KMFDS)網站的藥物安全系統,涵蓋了2018年至2024年間制藥公司報告的1,054例藥品短缺案例。研究選擇了18個與藥品短缺相關的變量作為特征。這些特征的選擇基于加拿大、美國和韓國已確定的藥品短缺因素,以及韓國藥品供應中斷預測模型中的變量。選擇標準包括:(1)數據可從公開來源(如KMFDS的藥物安全系統)獲取;(2)為連續變量或可轉換為數值的名義變量。對于“批準年份”,將其對應的年代(1960-1970年代,1980-1990年代,2000年以后)視為比具體年份更有意義的分類變量,以確保數據分布均衡。藥品短缺原因被系統地分為七大類。
模型構建與評估
研究開發了兩個機器學習模型:Model 1用于預測短缺持續時間范圍,Model 2用于將短缺原因分類為七大類。兩個模型均采用隨機森林(Random Forest)分類器。數據集通過分層70:30分割劃分為訓練集和測試集。使用貝葉斯優化(Bayesian Optimization)而非GridSearchCV進行超參數調優,參數搜索范圍包括:max_samples: 0.5–1.0, max_features: 0.5–1.0, n_estimators: 100–300, max_depth: 3–8。
模型性能使用分類評估指標(精確度、召回率、準確率和F1分數)進行評估。對于多類分類,計算了宏平均值(macro-average)。測試集在模型訓練或交叉驗證過程中完全隔離,以防止信息泄露。
結果
Model 1(短缺持續時間范圍預測模型)
使用默認超參數的基線隨機森林分類器在相同的訓練-測試分割下達到了0.43的準確率。經過貝葉斯優化后,優化后的Model 1準確率達到0.62,顯示出明顯提升。混淆矩陣顯示,優化后的模型減少了多個持續時間類別的誤分類。
預測短缺持續時間范圍最重要的三個特征是:短缺發生頻率(重要性=0.152)、進口/國產(重要性=0.106)以及是否存在相同成分的替代藥物(重要性=0.093)。上市許可持有企業(MAH)的商業規模(重要性=0.081)和國民健康保險報銷 status(重要性=0.073)也顯示出較高的重要性。
Model 2(按短缺原因分類的短缺發生預測模型)
在預測個體短缺原因的六個“一對多”(one-vs-rest)模型中,經過貝葉斯優化后,準確率均超過0.70,表明跨類別性能穩定。加權精確度、召回率和F1分數也保持在0.70以上,表明每個模型都能可靠地識別其對應的短缺原因。
對不同短缺原因預測最重要的特征各有特點:
- •
“短缺原因a”(需求增加):最重要的特征是短缺發生頻率(0.160)。
- •
“短缺原因b”(需求減少):最重要的特征是與可替代性相關的變量,如是否存在相同成分的替代藥物(0.213)、WHO基本藥物 designation(0.140)等。
- •
“短缺原因c”(原料供應問題):最重要的特征是短缺發生頻率(0.124)和MAH企業規模(0.108)。
- •
“短缺原因d”(監管問題):最重要的特征是MAH企業規模(0.104),且各特征重要性相對均勻。
- •
“短缺原因e”(供應鏈管理問題):最重要的特征是短缺發生頻率(0.110)和MAH企業規模(0.105)。
- •
“短缺原因f”(商業決策):最重要的特征是MAH企業規模(0.115)和短缺發生頻率(0.097)。
總體而言,短缺發生頻率和MAH企業規模在多個短缺原因中 consistently 位列前茅預測因子,表明其廣泛影響力。而需求減少導致的短缺則對可替代性相關變量顯示出高重要性,反映了該類短缺背后的不同動態。特征重要性模式表明,每種短缺原因都與一組獨特的決定因素相關。
討論
研究發現,預測韓國藥品短缺持續時間范圍的主要因素是短缺發生頻率。反復出現的短缺歷史反映了供應側持續存在的脆弱性,例如有限的生產能力、API供應不穩定、供應商間冗余不足或反復出現的質量控制問題,這些問題長期未得到解決,增加了同一產品未來發生中斷的可能性。
結果表明,短缺發生頻率、MAH企業規模以及是否存在相同成分的替代藥物在大多數短缺原因中都具有很高的重要性。這些發現表明,由較大MAH企業銷售的藥品往往具有更穩定的生產能力,而沒有治療等效替代品的藥品在供應中斷期間面臨更大風險。由于這些特征都是供應側特征,結果表明在韓國,生產和供應鏈限制對藥品短缺的影響強于需求側因素。
研究期間(2018-2024年)涵蓋了大流行前和大流行后的環境,使得評估COVID-19相關的供應鏈中斷是否改變了短缺決定因素成為可能。盡管大流行期間國家短缺數量有所波動,但關鍵預測因子的排名保持穩定,表明本研究中確定的決定因素代表了潛在的結構性特征,而非暫時性的疫情特定效應。
與國際模式比較發現,美國藥品短缺的驅動因素包括生產低利潤藥品的激勵有限、對生產質量控制的評估和補償不足以及確保藥品穩定供應的物流和監管挑戰。加拿大的藥品供應中斷大多源于供應相關問題,包括藥品質量控制問題、生產延遲、召回、監管行動、產品暫停和原材料不可用。中國的藥品供應中斷主要歸因于無利可圖的定價。這些發現表明,許多國家的藥品短缺主要由供應側因素驅動,這與在韓國觀察到的模式一致。
研究采用了多種措施來降低過擬合風險,包括分層訓練測試分割、保持測試集獨立、隨機森林特定的自助聚合(bootstrap aggregation)和袋外(OOB)驗證,以及通過貝葉斯優化調整超參數。這些技術共同降低了過擬合的可能性,并有助于最終預測模型的魯棒性。
局限性
本研究存在一些局限性。首先,基于數據可及性和相關性選擇了18個特征,但一些潛在重要因素(如患者行為變化、全球供應鏈中斷、政策變化)因數據收集限制未被納入。其次,使用了2018-2024年的數據,有限時期內的數據收集可能無法完全反映藥品短缺的長期趨勢。第三,預測模型主要關注供應側因素,未能充分考慮與需求側因素的相互作用。第四,短缺持續時間和短缺原因類別的分布不均衡,可能導致預測模型偏向多數類。第五,未使用獨立數據集(如來自醫院、批發商或社區藥房的數據)進行外部驗證,限制了評估模型在真實世界或跨機構環境中性能的能力。第六,由于模型僅基于韓國監管數據訓練,其推廣到具有不同藥品結構的其他衛生系統的普適性可能有限。最后,所提出的預測模型需要額外的實證研究來驗證其現實世界的適用性和有效性。
結論
本研究開發了兩個機器學習模型,一個預測短缺持續時間范圍,另一個按原因預測短缺發生,并確定短缺發生頻率是預測未來短缺持續時間的最重要預測因子。韓國必須建立利益相關者之間的集成數據共享系統,以便能夠快速應對未來的短缺并確保其迅速解決。數據應透明、一致地共享,以補充當前不完整的報告系統。對經歷過多次短缺的藥品應持續監控其供應鏈。此外,韓國專注于供應側特征(如經濟可行性)的短缺預測項目可能有助于預防短缺或縮短其持續時間,并有助于增強醫療系統的韌性。有效的全國實施需要政府監管機構、上市許可持有人、制造商、批發商、醫院和社區藥房以及學術研究人員之間的合作。