《Journal of Chemical Information and Modeling》:Defining the Data set Defines the QSAR Claim
編輯推薦:
文章指出QSAR建模中數據集處理不透明導致模型性能虛高,提出數據集合同概念,要求明確聲明化學處理規則、終點定義、數據分割和泄露診斷,以提升透明度和可信度,現有工具可實現該標準。
機器學習極大地擴展了QSAR建模,但預測性聲明仍然依賴于一些很少被記錄的選擇:如何表示化學物質、如何定義終點以及如何設計評估方法。在基準測試和基礎模型時代,不一致的標準化、不明確的測量組合規則以及隱藏的信息泄露常常夸大了報告的性能,同時掩蓋了對實際應用至關重要的弱點。我們提出了數據集合同:這些合同是可執行且可審計的文檔,明確聲明了化學處理規則、終點定義、聚合邏輯、數據分割方法以及針對預期預測場景的泄露診斷信息。使用當前的開源工具就可以實現這些合同,從而將領域從以架構為中心的比較轉向透明、可復制和可信的聲明。
QSAR一直是一個矛盾的學科:它承諾從分子結構中進行通用預測,但其有效性完全取決于這些預測背后的實驗數據的質量和含義。Hansch–Fujita公式通過將模型建立在可比較的化學系列和明確定義的終點上,而不是僅僅基于算法的新穎性,使這一點變得明確。
(1)隨著時間的推移,該領域發展出一種驗證文化,經經合組織(OECD)的原則為監管機構制定了正式的標準,要求有明確的終點、明確的算法、適用性范圍、適當的擬合優度和穩健性度量方法,以及在可能的情況下提供機制解釋。
(2,3)Tropsha–Golbraikh的傳統也警告說,樂觀的內部指標可能源于冗余、選擇偏差和薄弱的外部驗證,而不是真正的預測能力。
(4?6)然而,在過去十年中,社區的關注點從這些基礎工作轉向了基準測試性能和架構創新。
(7?10)像ChEMBL這樣的公共資源使得大規模數據集的組裝成為可能,但它們也匯集了具有不同設計、條件和報告標準的檢測方法。一旦數據以整潔的電子表格形式出現,這種復雜性就很容易被忽視,而實際上它們代表了復雜的實驗記錄。
(11,12)建模流程也在不斷發展:從手工制作的描述符到基于指紋的機器學習,再到圖和字符串上的深度學習,最近則是基于預訓練的分子編碼器的基礎模型。
(13?16)像MoleculeNet這樣的基準測試套件標準化了評估并加速了方法比較,但它們也鼓勵了一種工作流程,即把數據集準備視為一個已經解決的問題,而將架構和訓練策略置于中心位置。
(17)這種轉變提出了一個尖銳的問題:機器學習是否使嚴格的 curation(數據整理)變得過時了?答案是否定的。規模和表示學習可以吸收一些噪聲,但它們無法解決潛在測量中的模糊性。更糟糕的是,高容量的模型可能會適應微妙的偽影(數據集組裝過程中隱藏的模式),并在方便的評估設置下仍然顯得強大。
四種失敗模式說明了這個問題。
化學身份:無人記錄的建模假設
在公共數據集中,一個分子并不是一個獨特的對象。鹽的形式、混合物、互變異構體、電荷狀態、芳香性約定和立體化學表示因來源和工具包的不同而有所不同,這會改變指紋、圖拓撲結構和最近鄰關系。
(18)許多研究將這些決策壓縮成一行(例如,“使用RDKit標準化”),盡管微小的規則變化可能會顯著影響去重效果、分割難度和有效的學習問題。在某些情況下,標準化聲明引用了沒有描述任何標準化協議的論文,使得該過程不僅缺乏文檔記錄,而且無法驗證。當論文沒有說明模型使用的是提交的結構、標準化的結構還是母結構,以及如何處理立體化學和互變異構體時,讀者無法確定“重復”、“新穎”或“超出領域”在實踐中到底意味著什么。
在標簽聚合下終點定義失效
公共生物活性數據通常會將來自不同檢測格式、實驗條件和報告約定的測量結果合并在一起。如果沒有明確的選擇和轉換邏輯,單一的建模終點可能會混淆不等效的現象。
(12)現代評估指南強調,混合異構的研究設計和指標會削弱可比性和相關性評估。
(19)實際上,人工智能時代的報告往往使得難以重建模型是預測特定檢測結果、目標級別的聚合結果還是多協議混合結果。當結合親和力測量(例如K
i、IC
50)與功能讀數(例如EC
50)使用單一標簽時,問題尤為嚴重,盡管前者無法區分激動劑和拮抗劑等機制類別。
(4?6)然而,過去十年將社區的注意力從這些基礎工作轉向了基準測試性能和架構創新。
(7?10)像ChEMBL這樣的公共資源使得大規模數據集的組裝成為可能,但它們也匯集了具有不同設計、條件和報告標準的檢測方法。一旦數據以整潔的電子表格形式呈現,這種復雜性就很容易被忽視。
(11,12)建模流程也在并行發展:從手工制作的描述符到基于指紋的機器學習,再到圖和字符串上的深度學習,最近則是基于預訓練的分子編碼器的基礎模型。
(13?16)像MoleculeNet這樣的基準測試套件標準化了評估并加快了方法比較,但它們也鼓勵了一種工作流程,即把數據集準備視為一個已經解決的問題,而將架構和訓練策略置于中心位置。
(17)這種轉變提出了一個關鍵問題:機器學習是否使嚴格的 curation 變得過時了?答案是否定的。規模和表示學習可以吸收一些噪聲,但它們無法解決潛在測量中的模糊性。更糟糕的是,高容量模型可能會適應數據集組裝過程中隱藏的微妙模式,并在方便的評估設置下仍然顯得強大。
四種失敗模式說明了這個問題。
化學身份:無人記錄的建模假設
在公共數據集中,一個分子并不是一個獨特的對象。鹽的形式、混合物、互變異構體、電荷狀態、芳香性約定和立體化學表示因來源和工具包的不同而有所差異,這會改變指紋、圖拓撲結構和最近鄰關系。
(18)許多研究將這些決策壓縮成一行(例如,“使用RDKit標準化”),盡管微小的規則變化可能會顯著影響去重效果、分割難度和有效的學習問題。在某些情況下,標準化聲明引用了沒有描述任何標準化協議的論文,使得該過程不僅缺乏文檔記錄,而且無法驗證。當論文沒有說明模型使用的是提交的結構、標準化的結構還是母結構,以及如何處理立體化學和互變異構體時,讀者無法確定“重復”、“新穎”或“超出領域”在實踐中到底意味著什么。
在標簽聚合下終點定義失效
公共生物活性數據通常會將來自不同檢測格式、實驗條件和報告約定的測量結果合并在一起。如果沒有明確的選擇和轉換邏輯,單一的建模終點可能會混淆不等效的現象。
(12)現代評估指南強調,混合異構的研究設計和指標會削弱可比性和相關性評估。
(19)實際上,人工智能時代的報告往往使得難以重建模型是預測特定檢測結果、目標級別的聚合結果還是多協議混合結果。當結合親和力測量(例如K
i、IC
50)與功能讀數(例如EC
50)使用單一標簽時,問題尤為嚴重,盡管前者無法區分激動劑和拮抗劑等機制類別。同樣,將藥理學上不同的類別(例如將部分激動劑標記為完全激動劑)混淆了分類器應該學習的決策邊界,但這通常被視為一種實用的簡化。
由于信息泄露導致的過度樂觀評估
現在科學機器學習領域普遍認為,信息泄露是導致結果不可重復的主要原因之一:當訓練集和測試集對于所聲稱的預測類型沒有意義上的獨立性時,模型會利用意外的捷徑。
(20)化學數據集按照骨架系列、供應商目錄和藥物化學活動進行分組,因此隨機分割通常會評估類似結構內的插值,而不是真正的泛化能力。當訓練-測試依賴性仍然很強時,基準測試實踐可能會獎勵記憶行為。
(21)即使結構上不同的骨架在用于建模的表示空間中非常相似,骨架分割也可能高估虛擬篩選的性能。
(22,23)當暗示了未來的用途時,基于時間或時間類似性的分割仍然是可辯護的金標準:
(24)然而,許多論文仍然依賴于單一的、方便的分割方式,而沒有量化剩余的相似性或描述可能的泄露路徑。
平均指標掩蓋了最重要的案例
活動懸崖(小的結構變化導致巨大的活性差異)暴露了模型在局部上的失敗,即使整體性能看起來很強。基準測試研究表明,許多機器學習方法在處理懸崖化合物時存在困難,這揭示了被匯總分數掩蓋的局限性。
(25)懸崖也是一個 curation 問題:只有當化學身份、重復項和標簽完整性得到充分處理時,才能嚴格研究它們。
表1表1. 人工智能時代QSAR建模中的常見失敗模式以及數據集合同如何解決這些問題
| 失敗模式 | 當前實踐中的表現 | 對聲明和可信度的影響 | 數據集合同如何解決 |
|---|
| 化學身份:未記錄的建模假設 | 模糊或未記錄的標準化(例如,“使用RDKit標準化”);對鹽、互變異構體、立體化學和母結構的處理方式不一致;引用與缺失協議無關的論文作為代理。 | 讀者無法理解“重復”、“新穎”或“超出領域”實際上意味著什么;分割和最近鄰關系變得不可靠。 | 明確身份映射 + 指定用于建模、去重和分割的表示方式。 |
| 在標簽聚合下終點定義失效 | 將不同檢測方法、格式、實驗室和報告約定混合為單一的建模標簽;結合親和力和功能終點;將藥理學上不同的類別(例如,將部分激動劑標記為完全激動劑)混淆。 | 模型預測的是語義模糊的混合物,而不是明確定義的生物現象。 | 結構化的終點來源信息,記錄了選擇、轉換、聚合邏輯和來源標識符。 |
| 由于信息泄露導致的過度樂觀評估 | 在聚類數據上進行隨機或骨架分割;未量化的訓練-測試相似性;來自共享系列或活動的隱藏依賴性。 | 高的基準測試分數往往反映了插值或記憶行為,而不是所聲稱的泛化能力。 | 帶有標簽的分割方案 + 定量的泄露診斷(相似性指標 + 泄露路徑的描述)。 |
| 平均指標掩蓋了最重要的案例 | 依賴全局統計數據,同時忽略了活動懸崖和局部失敗模式。 | 模型整體上看起來很強,但在對先導化合物優化和安全性至關重要的結構相似化合物上卻失敗。 | 透明的化學身份處理 + 端點完整性,使得能夠進行嚴格的懸崖分析和適用性評估。 |
這些失敗模式有一個共同的根源:在人工智能時代的QSAR中,數據集和評估程序是一組隱藏的規則,這些規則定義了模型實際學習的內容,但這些規則的公布往往沒有模型本身那么嚴格。解決辦法很簡單:該領域應該采用數據集合同(明確、可執行的文檔,使 curation 和評估決策可審計)。
數據集合同是一組最小的文檔,這些文檔是使性能聲明可解釋、可復制和可比較所必需的。它不是對通用標準化政策或單一分割方法的強制要求;它要求所做的選擇被聲明、版本化并可執行,因為這些選擇定義了模型學習的內容以及報告的指標可以合法支持的內容。
表2表2. QSAR和分子機器學習研究的數據集合同的核心組成部分
| 組件 | 描述 | 主要用途 |
|---|
| 可執行清單 | 使用聲明的規則和工具版本從原始輸入重新生成精確處理過的數據集和分割方式的代碼或腳本。 | 確保學習任務的完全可復制性。 |
| 化學身份映射 | 從提交的結構到標準化結構的明確映射,以及關于鹽、混合物、互變異構體、立體化學等的規則,以及指定每個步驟使用的表示方式。 | 消除了構成獨特分子或新穎結構的模糊性。 |
| 終點來源 | 結構化的文檔,記錄了檢測選擇、聚合邏輯、單位、數據刪除處理和來源標識符。 | 確保建模標簽具有清晰的語義含義。 |
| 分割方案 | 按意圖(分布內、骨架/簇、時間)標記的多個可復制分割,附帶已發布的分配或代碼。 | 使得能夠在相關的泛化范圍內進行評估。 |
| 泄露診斷 | 量化的訓練-測試相似性指標 + 對所選表示方式下可能泄露路徑的描述。 | 揭示性能是否反映了真正的泛化能力。 |
| 決策上下文對齊 | 將主要指標與預期的實際用例明確關聯(即,將評估指標與模型在實踐中的使用方式相匹配)。 | 使聲明基于實際決策的相關性。 |
| 手動 curation 日志 | 當 curation 涉及手動決策(例如基于文獻的藥物學標簽驗證)時,提供帶有化合物級別來源的結構化注釋日志,而不僅僅是敘述性描述。 | 使主觀的 curation 步驟可審計和可復制。 |
這些期望在今天是可行的。存在用于化學結構處理和大規模標準化的開放、可審計的 curation 流程,
(26,27),并且也有用于在泄露約束下構建和審計分割的工具。
(28,29)期刊不需要支持單一的規則集;它們只需要要求使用的規則集以可執行的形式進行聲明。
為了實現最大影響并減少額外負擔,編輯和審稿人可以執行一個簡潔的要求:如果數據集合同仍然隱含,則不應接受任何 QSAR 論文。至少,手稿應包括 (i) 從原始輸入重新生成數據集的清單,(ii) 身份映射和工具版本,(iii) 終點來源,(iv) 帶有意圖標簽的分割分配,(v) 泄露診斷,以及 (vi) 任何手動 curation 步驟的結構化日志。這一期望與現有的代碼和模型存儲規范相一致,將立即提高可比性和可信度。它還使適用性領域變得可行:當身份、終點語義和預期的預測場景明確時,領域聲明變得可檢查,而不僅僅是理想化的。
(2,3)如果沒有數據集合同,審稿人必須從模糊的方法部分反向工程 curation 決策,這是一個耗時的過程,當它揭示出根本性缺陷時,往往會導致作者、審稿人和編輯反復修改。明確的合同可以在提交之前揭示這些問題。
人工智能時代可以放大 QSAR 的歷史優勢(明確的終點語義、明確的適用性約束和可信的驗證),或者通過使隱藏的數據集決策更難發現和更容易被利用來放大其弱點。數據集合同提供了確保前者最快的、最實用的方法。通過明確 curation 和評估意圖,社區可以從以架構為中心的基準測試競賽轉向可解釋、可比較且真正對未來決策有用的聲明。工具已經存在。問題在于該領域是否會采納它們。