《Computers and Geotechnics》:Explainable machine learning and generative diffusion modeling for improved susceptibility mapping of rainfall-induced clustered landslides: A case study from Wuping County, southeastern China
編輯推薦:
降雨引發的多因素耦合滑坡易發性評估方法研究。采用Wuping縣2024年極端降雨事件數據,構建12.5米分辨率空間數據庫,整合11類地質環境因子。通過結構化降雨分析揭示"累積雨量-短時暴雨脈沖"雙觸發機制,比較6種機器學習模型,引入擴散概率模型進行數據增強,使XGBoost模型AUC從0.915提升至0.931(p<0.01)。建立可解釋-生成混合框架,結合信息增益比與SHAP值解耦多因素耦合機制,為東南山區滑坡風險評估提供新方法。
黃宇|李英克|黑麗莎|鄒家玲|陳定宇
同濟大學土木工程學院地質與水利工程系,上海200092,中國
摘要
由降雨引發的群發性滑坡在中國東南部越來越頻繁,其特點是多因素的強烈耦合,對當地社區和基礎設施構成了重大威脅。以福建省武平縣為例,本研究對2024年6月15日至16日極端降雨引發的6,005次淺層滑坡進行了災后統計。同時生成了等數量的非滑坡樣本,并將地形、地質、水文、植被和人為因素匯編成一個12.5米分辨率的數據集(訓練/測試比例為7:3)。基于站點觀測的降雨數據,結構降雨分析表明,滑坡的群發是由“前期降雨積累”和“短時高強度脈沖”兩種機制共同引發的。進行了全面的因素質量評估,包括多重共線性分析(VIF < 5,TOL > 0.1)和皮爾遜相關性篩選,以確認建模前條件因素的獨立性和可靠性。隨后開發并比較了六種模型——SVC-GridSearch、SVC-Bayes、SVC-GWO、SVC-PSO、隨機森林和XGBoost,并使用SHAP分析來提高可解釋性,并通過IGR結果進行交叉驗證。XGBoost模型在測試集上取得了最佳性能(AUC約為0.915)。為了解決類別邊界的模糊性,進一步引入了去噪擴散概率模型(DDPM)對11維因素空間進行控制數據增強,生成了約12%位于模型“混淆區”內的目標樣本(預測概率為0.45–0.55)。增強后,XGBoost的AUC提高到了約0.931,DeLong檢驗結果顯著(p < 0.01),靈敏度提高,置信區間變窄。這種可解釋機器學習與生成概率模型的混合框架在樣本有限的情況下有效提高了易發性繪制的準確性,為東南部山區的風險評估、應急控制和緩解規劃提供了技術支持。
引言
降雨引發的滑坡群發是山區最具破壞性的地質災害之一,其影響在中國東南部尤為明顯(Yang等人,2025年;Yi等人,2025年)。隨著極端天氣和氣候事件的加劇,滑坡的動態演變和時空不確定性變得越來越明顯(Capobianco等人,2025年;Chen等人,2025年;Huang等人,2024b年,2024a年)。此類事件往往在短時間內觸發數千次斜坡失穩,對人類生命、基礎設施安全和區域可持續性構成嚴重威脅(He等人,2025年;Ma等人,2025年;Yi等人,2025年)。例如,2024年4月,福建省武平縣的一次極端降雨事件在24小時內引發了6,000多次滑坡,對道路、村莊和農田造成了廣泛破壞。這些大規模的斜坡失穩凸顯了在多因素耦合條件下增強滑坡易發性科學理解和定量評估的迫切需求(He等人,2024年;Pokharel等人,2021年;Tang等人,2020年)。
在中國東南部的山區,強烈的巖石風化和顯著的地形起伏導致了降雨引發的淺層滑坡,這些滑坡表現出顯著的時間聚集性和多因素耦合特征(Fu等人,2025年;Ma等人,2023年;Zhang等人,2022年)。理解地形、地質、水文、降雨過程、植被和人為工程活動之間的協同機制已成為地質災害研究的重要方向(Fei等人,2025年;Villa?a等人,2024年;Wu等人,2025a年)。傳統的滑坡易發性繪制方法通過將多個因素納入統計和機器學習模型取得了顯著進展(Alvioli等人,2024年;Bezak等人,2019年;Fran?a Pereira等人,2023年)。然而,這些方法通常依賴于線性假設或過于簡化的因素相互作用(Capobianco等人,2025年;Huang等人,2024a年),這限制了它們捕捉多個條件因素之間復雜耦合的能力。此外,大多數現有模型將降雨視為單一指標,如總降水量或最大強度,而忽略了其內部結構特征,包括降雨量、短時強度脈沖和降雨偏度,這些因素共同決定了淺層斜坡失穩的時間和時空響應(Wu等人,2025b年;Zhang等人,2025年;Zhao等人,2025年)。近年來,可解釋機器學習框架,如信息增益比率(IGR)和SHAP(Shapley加性解釋),為量化條件因素的相對重要性和非線性響應提供了新途徑,從而建立了統計貢獻與物理機制之間的直接聯系(Kasahun等人,2025年;Sun等人,2024年;Wang等人,2024年)。
此外,生成模型在捕捉復雜數據分布方面展現了非凡的潛力(Ravuri等人,2021年;Wen等人,2024年;Yang等人,2024年)。其中,去噪擴散概率模型(DDPM)可以通過迭代去噪和逆過程有效地學習高維噪聲數據中的分布結構(Ho等人,2020年;Yang等人,2024年)。與傳統方法不同,DDPM不僅保留了樣本的邊際分布特征,還捕捉了變量之間的復雜依賴關系(Ramirez-Jaime等人,2025年;Song等人,2020年),使其在模擬降雨引發的滑坡的隨機背景方面具有固有的優勢。同時,它可以生成與真實分布一致的虛擬樣本,從而緩解數據稀缺問題并提高預測模型的泛化能力(Feng等人,2024年;Yang等人,2024年)。然而,DDPM在地質災害研究中的應用仍處于早期階段,特別是在將生成建模與可解釋機器學習結合用于空間易發性評估方面(Xu等人,2025年)。其在減輕樣本稀疏性和揭示多因素耦合機制的同時保持地球物理可解釋性的潛力仍需進一步探索(Xu等人,2024年)。
因此,本研究提出了一個可解釋-生成的混合框架,用于評估降雨引發的群發性滑坡。使用來自福建省武平縣的多元數據,引入了三個降雨結構指標(最大小時強度、偏度和豐度)。使用了多種機器學習模型,包括支持向量分類(SVC,通過貝葉斯優化進行優化)、灰狼優化器(GWO)、粒子群優化(PSO)、隨機森林(RF)和XGBoost,并在基于DDPM的數據增強前后比較了性能。所提出的框架結合了生成能力和可解釋性,為在數據有限和復雜因素相互作用的情況下評估淺層滑坡易發性提供了實用方法。
研究區域
研究區域位于福建省西南部(圖1),中國東南部,地處福建省、廣東省和江西省的交界處。它位于武夷山脈南部邊緣到沿海丘陵平原的過渡帶,介于東經115°51′–116°23′和北緯24°47′–25°29′之間。地形主要為山地和丘陵,從西北向東南整體海拔逐漸降低,海拔大多在200米左右。
總體工作框架
本研究采用的方法論框架遵循一個漸進的建模策略,包括七個主要階段,如圖7所示。
1.通過整合滑坡清單、非滑坡樣本以及來自地形、地質、水文、環境和巖土工程來源的十一個條件因素,構建了一個空間數據庫。所有柵格數據被重新采樣到統一的12.5米空間分辨率,并進行了標準化以確保一致性。
2.為了確保數據
變量分析
在進行滑坡易發性建模之前,有必要檢查條件因素之間的相互關系,以避免由于多重共線性導致的不穩定性和偏見解釋。在本研究中,使用了方差膨脹因子(VIF)和容忍度(TOL)統計量來評估選定變量之間的多重共線性,如圖10所示,并進一步進行了皮爾遜相關性分析以評估它們的成對線性關聯。
多因素耦合下的可解釋解耦機制
基于結合IGR和SHAP值的雙層解釋框架,本研究定量解耦了控制滑坡易感性的主要條件因素和耦合機制。IGR提供了因素重要性的整體排名,而SHAP進一步揭示了每個因素在樣本尺度上的響應方向,從而建立了統計相關性和物理機制之間的可追溯映射。結果表明,軟化
結論
本研究提出了一個綜合的、數據驅動的框架,用于評估武平縣降雨引發的滑坡易感性,結合了因素質量控制、多種智能模型比較、可解釋學習和基于擴散的數據增強。主要結論如下:
1.通過合并滑坡清單、非滑坡對照樣本和十一個統一為12.5米分辨率的條件因素,構建了一個空間一致的數據庫。
作者貢獻聲明
黃宇:撰寫 – 審稿與編輯、驗證、監督、資源管理、項目管理、方法論、資金獲取、概念化。
李英克:撰寫 – 原始草稿、可視化、驗證、軟件、方法論、正式分析、數據管理、概念化。
黑麗莎:驗證。
鄒家玲:數據管理。
陳定宇:驗證。
利益沖突聲明
作者聲明他們沒有已知的財務利益或個人關系可能影響本文所述的工作。
致謝
本研究得到了國家重點研發計劃(2024YFC3012600)的支持。