Home > Machine Learning & AI > Interpretability > TradePool:用PubChem指纹子结构池化与映射,给GNN分子性质预测提供可量化的原子归因

TradePool:用PubChem指纹子结构池化与映射,给GNN分子性质预测提供可量化的原子归因
graph-neural-networks interpretability xai molecular-property fingerprints pooling attribution

TradePool:用PubChem指纹子结构池化与映射,给GNN分子性质预测提供可量化的原子归因

本文信息

  • 标题:TradePool:一种用于量化分子性质预测中原子归因的新型可解释框架
  • 作者:Bingwei Ni, Wanxiang Shen(申万祥), Zhuyifan Ye*
  • 发表时间:2025年12月22日
  • 单位:澳门理工大学(中国澳门),宁波大学药物发现技术研究院(中国浙江),浙江大学药学院(中国杭州)
  • 引用格式:Ni, B.; Shen, W.; Ye, Z. TradePool: A Novel Interpretable Framework for Quantifying Atomic Attribution Values in Molecular Property Prediction. J. Chem. Inf. Model. 2025, 65, XXX–XXX. https://doi.org/10.1021/acs.jcim.5c02225
  • 开源代码与数据:https://github.com/nibingwei123/TradePool

摘要

图神经网络的可解释性一直是化合物性质预测领域的焦点。GNN在小样本化合物数据集建模上表现良好,但现有可解释方法难以准确解释原子归因值(单个原子对模型预测贡献的定量度量),使得先导化合物优化依赖资深化学家的经验,拖慢了药物开发进程。AI生成化学空间的快速扩张需要高效的可解释AI方法,这些工具能够发现超越人类直觉的洞见,补充专家知识并显著加速优化周期。为应对这些挑战,本文提出了一种新颖的双阶段原子归因值计算框架:包括基于结构池化的模型训练和基于子结构映射的原子归因值计算。该可解释框架量化任务特定的原子归因值,在芳香性/LogP/TPSA数据集上使用GCN时,原子归因准确性(计算值与真值的一致性)分别提升30%/20%/15%,Pearson相关系数达到0.93/0.63/0.88,超越了常用可解释方法仅能达到的0–0.3。此外,该方法对模型参数变化不敏感,对化合物结构变化提供相对稳定的预测结果。

abstract

核心结论

  • 子结构池化+映射实现全局可解释的原子归因,显著提升与化学真值的一致性。
  • 在芳香性、LogP、TPSA三任务上,TradePool的GCN原子归因Pearson相关0.93/0.63/0.88,F1、sparsity等指标全面优于GNNExplainer、KernelSHAP、Integrated Gradients、PGMExplainer,解释精度与稀疏性双优
  • 低频子结构筛除(出现次数<100)可抑制过拟合,保证权重的统计显著性。
  • 对模型超参数和输入分子微扰不敏感,归因稳定性优于对照方法;但在GAT上效果一般,暴露了注意力权重与子结构加权的不匹配。
  • PubChem指纹提供任务无关的标准子结构集合,便于跨数据集、跨架构复用,部署与迁移成本低

背景

图神经网络通过消息传递捕捉分子拓扑,在溶解度、毒性、反应性等性质预测上已成为主力。但多层聚合带来的“黑盒”问题削弱了可信度,尤其在药物优化环节,需要知道哪几个原子驱动了预测。

现有解释方法存在三大痛点:局部性强,难得到全局稳定的原子归因与化学真值偏差大,Pearson相关常徘徊在0–0.3;计算代价高或对超参数敏感。子结构层面的解释更接近化学直觉,但GNN输入并未直接包含预定义子结构,如何把“可解释的子结构权重”映射回原子,成了瓶颈。

关键科学问题

  • 如何在不牺牲预测精度的前提下,将GNN的决策过程转化为“子结构→原子”的可量化归因?
  • 子结构集合应如何选择,既具普适性又能捕捉任务相关模式?
  • 归因结果能否对模型参数、输入扰动保持稳定,从而在真实药物优化中可复用?

创新点

  • 双阶段框架:训练时用PubChem指纹做子结构池化,解释时把子结构权重映射为原子归因。
  • 全局归因:通过线性层权重直接量化子结构重要性,再按子结构-原子掩码汇总为原子级贡献。
  • 稳健性设计:低频子结构剔除、权重聚合、多任务对比,提升对超参数和分子扰动的鲁棒性。
  • 任务通用性:同一套指纹子结构跨芳香性、LogP、TPSA乃至药物临床分子数据集均可复用。

研究内容

方法详述

TradePool的核心思想是将子结构作为连接原子和分子性质的桥梁。传统GNN直接从原子嵌入池化到分子表示,丢失了化学家熟悉的官能团或子结构这一中间层信息。TradePool通过引入PubChem指纹定义的881个标准子结构,在训练时显式地学习每个子结构对预测的贡献权重,在解释时将这些权重映射回原子,从而实现全局一致、化学可解释的原子归因

数据准备与清洗

为什么需要严格的数据清洗? 分子数据常存在SMILES表示不规范、含盐、带电荷等问题,这些会导致同一分子有多种表示形式,影响模型训练和归因评估的准确性。

  • 研究使用RDKit 2022.09.5MolVS 0.1.1进行标准化处理,包括SMILES规范化统一分子表示确保同一分子只有唯一的SMILES字符串,去盐处理移除分子中的无机盐(如$\ce{NaCl}$、$\ce{HCl}$)只保留有机部分,中和处理将带电荷的分子转为中性形式避免电荷状态影响特征计算,以及去重按分子骨架去除重复化合物防止数据泄漏。

    中和应该存疑,应该是所选pH下的状态

  • 清洗后的数据按8:1:1比例划分为训练集、验证集和测试集,这种划分确保模型在训练时不会接触测试集分子,从而真实评估泛化能力。

特征工程:从分子到图

  • 原子特征(71维):每个原子用71维向量描述,包含11类信息
    • 原子类型(43维,C、N、O、S等元素的one-hot编码)、度数(11维,原子连接的其他原子数量0-10+)、隐式价(7维,未显式表示的氢原子数)
    • 电荷(原子的形式电荷如-1、0、+1)、芳香性(是否为芳香原子)、自由基电子(未配对电子数)、杂化类型(sp、sp²、sp³等)、连接氢数(显式连接的氢原子数)、手性中心(是否为手性中心)、手性类型(R/S构型)
  • 键特征(12维)包含4类信息:键型(4维,单键、双键、三键、芳香键)、共轭性(是否参与共轭体系)、是否在环中(环状结构标识)、立体化学(E/Z构型或顺反异构)

这些特征由RDKit自动计算,详见Supporting Information Table S1。

子结构筛选:从881位到400+位

为什么要筛选子结构? PubChem指纹包含881个预定义子结构,但并非所有子结构都在数据集中频繁出现。低频子结构(出现次数<100)在统计上不显著,可能导致模型过拟合——模型会记住这些稀有模式而非学习真正的化学规律。

筛选策略:统计每个子结构在数据集中的出现频次,设定阈值为出现次数≥100次才保留,移除低频子结构以减少噪声和过拟合风险。

筛选结果(图1):芳香性任务保留416个子结构(移除465个),LogP任务保留513个子结构(移除368个),TPSA任务保留442个子结构(移除439个)

fig1

图1:三类任务的子结构出现频率热图

  • 横轴:PubChem指纹子结构位;纵向颜色深浅:出现频率占比,深色表示更常见
  • 截断低频(<100次)后,仍可覆盖大多数分子,避免稀疏噪声

筛选后仍能覆盖>90%的分子,说明被移除的子结构确实是稀有模式。图1的热图显示,保留的子结构在数据集中分布相对均匀,颜色深浅代表出现频率——深色表示高频子结构,浅色表示中频子结构。

数据集与标签构建

研究选择了三个具有明确原子归因真值的任务,这是评估XAI方法准确性的关键——只有存在可对照的真值,才能判断模型的解释是否可信。

芳香性数据集(Aromaticity)

为什么选择芳香性? 这是唯一具有客观真值的数据集,被多篇XAI论文用作基准测试。芳香性是分子的固有结构属性,不依赖于计算方法,一个原子是否芳香可以通过Hückel规则明确判定,因此原子归因的真值是确定的。

数据集来源:本文沿用Xiong等人构建的芳香性数据集,用于检验模型在原子层面的化学可解释性,标签为每个分子中芳香原子的数量。

LogP数据集(脂溶性)

LogP的化学意义:LogP衡量分子的疏水性,是药物设计中的关键参数。疏水性高的分子更容易穿透细胞膜,但过高会导致溶解度差。

  • 数据集来源:本文使用Wang等人整理的脂溶性数据集,主要来自PHYSPROP数据库与Hansch汇编数据集。
  • 原子归因真值:以Crippen方法给出的原子级LogP贡献作为真值,用于评价连续归因值与真值的一致性。
  • 额外外部集合:411个FDA批准药物与10个SAMPL6挑战分子被用作外部评估,用于检验不同方法的原子归因效果在真实药物结构上的表现。
Crippen原子贡献法是什么

TradePool把Crippen方法当作LogP任务的“原子归因真值”,这一步非常关键,因为它让“解释对不对”变成了可量化的问题。

  • 方法来源:Wildman与Crippen在1999年提出一种原子类型分类体系,用原子贡献加和来预测分子的logP与摩尔折射率(MR)。
  • 核心思想:先根据每个原子的局部化学环境把它分到某个原子类型,再把对应类型的贡献值相加得到全分子的logP。
  • 计算形式:分子的logP可写作 \(\log P = \sum_{i=1}^{N} a_{t(i)}\) 其中,$t(i)$表示原子$i$所属的原子类型,$a_{t(i)}$是该类型的经验贡献系数,$N$是原子数。
  • 为什么适合作为“真值”:它天然给出每个原子的数值贡献,可直接与XAI输出的连续归因值做Pearson相关比较。
  • RDKit里的实现:RDKit在rdkit.Chem.Crippen模块中提供MolLogPMolMR,明确采用Wildman–Crippen的原子贡献方案;计算时还提供addHs选项,允许在需要时临时补氢参与贡献计算。实际结果会受到芳香性判定是否显式加氢的影响,因此同一SMILES在不同标准化流程下可能出现轻微差异。
  • 需要牢记的局限:Crippen是经验模型,主要面向中性小分子;它描述的是分子在辛醇与水相之间的分配倾向,不直接等同于带电体系的logD,也不显式建模溶剂化与构象效应。

参考:Wildman, S. A.; Crippen, G. M. Prediction of Physicochemical Parameters by Atomic Contributions. J. Chem. Inf. Comput. Sci. 1999, 39, 868–873. https://doi.org/10.1021/ci990307l

TPSA数据集(拓扑极性表面积)

为什么TPSA重要? TPSA是药物类药性的关键指标,能够预测药物的溶解度、渗透性和药代动力学性质。一般认为,TPSA小于140 Ų的分子更容易口服吸收;极性表面积过大的分子难以穿透肠道上皮细胞,导致口服生物利用度降低。

数据与真值口径:TPSA本质上是一个基于分子拓扑的分子描述符,经典定义来源于Ertl等人的碎片贡献思想。本文将TPSA作为预测标签,并以碎片贡献法得到的原子级贡献作为归因真值,用于量化解释的正确性。

临床分子集(Drug-like Compounds)

为什么需要临床分子集? 前两个数据集虽然有真值但分子多样性有限,临床分子集包含真实的II期及以上候选药物,骨架复杂度更高,更能测试TradePool在实际药物优化场景中的可迁移性。

数据集来源:作者从ChEMBL数据库收集5800个分子量0到600、处于II期及以上临床阶段的小分子;按骨架结构划分训练、验证与测试集。该任务的训练标签与原子归因真值均由RDKit计算。

表1 数据集关键信息对比

| 数据集 | 总样本量 | 训练/验证/测试 | 任务类型 | 原子归因真值 | 数据来源 | 额外测试集 | | — | — | — | — | — | — | — | | 芳香性 | 3947 | 3157/395/395 | 回归(芳香原子数) | 芳香原子标签(芳香原子为1) | Xiong等构建 | - | | LogP | 16296 | 13036/1630/1630 | 回归(辛醇-水分配系数) | Crippen原子贡献 | PHYSPROP与Hansch汇编(Wang等整理) | 411个FDA药物,10个SAMPL6 | | TPSA | 5800 | 4700/550/550 | 回归(拓扑极性表面积) | 碎片贡献法原子贡献 | 文中未详述分子来源 | - | | 临床分子 | 5800 | 按骨架划分 | 由RDKit计算的分子性质 | RDKit计算 | ChEMBL(II期及以上) | - |

模型架构与训练策略

GNN编码器选择

研究实现了三种主流GNN架构,以验证TradePool的通用性:

  • GCN(图卷积网络):每个原子聚合其邻居原子的特征,通过加权求和更新自身表示。GCN简单高效,适合捕捉局部拓扑结构,实现基于PyTorch和DGL-LifeSci 0.3.2。

  • GraphSAGE(图采样聚合):采样固定数量的邻居,使用LSTM或mean聚合器处理邻居特征。GraphSAGE可扩展到大规模图,聚合方式更灵活,超参数偏好LSTM或mean聚合器。

  • GAT(图注意力网络):为每个邻居分配注意力权重,动态调整不同邻居的重要性。GAT能够自适应地关注重要邻居,超参数采用4-8个注意力头,小或零dropout。

所有模型使用1-3层消息传递层,ReLU激活函数,隐藏维度在128-256之间。控制组使用传统的WeightedSumAndMax池化,TradePool组替换为子结构池化

子结构池化机制

这是TradePool的核心创新。传统池化直接将所有原子嵌入求和或取最大值,丢失了子结构信息。TradePool的池化过程如下:

  • 步骤1:构建子结构-原子掩码矩阵S。矩阵维度为$N \times P$,其中$N$是分子中的原子数,$P$是保留的子结构数(416/513/442),矩阵元素$S_{ij} = 1$表示原子$i$属于子结构$j$否则为0。计算方式使用RDKit的PubChem指纹生成函数,自动识别每个原子属于哪些子结构。

  • 步骤2:创建子结构虚拟节点。对于每个子结构$j$创建一个虚拟节点$V_j$,虚拟节点的特征等于所有属于该子结构的原子嵌入之和:\(V_j = \sum_{i: S_{ij}=1} h_i\)其中$h_i$是原子$i$经过消息传递后的嵌入向量。如果分子不包含子结构$j$,则$V_j$为全零向量。

  • 步骤3:展平与预测。将所有子结构虚拟节点展平为一维向量 $[V_1, V_2, …, V_P]$,输入到单层线性层$\hat{y} = W \cdot [V_1, V_2, …, V_P] + b$,输出预测标签(回归任务输出标量,分类任务输出类别概率)

为什么这样设计有效? 子结构池化强制模型通过子结构这一中间层进行预测,使得线性层的权重$W$直接对应每个子结构的重要性。这种设计天然地将可解释性嵌入模型架构,而非事后添加。

fig2

图2:TradePool双阶段工作流

  • (A) 总览:左侧训练阶段输入分子图与子结构掩码,右侧解释阶段输出原子归因
  • (B) 子结构池化:同一子结构内的原子特征求和形成虚拟节点;未包含该子结构则为零向量
  • (C) 归因映射:线性层得到子结构权重,按掩码回分到原子,权重累加得到原子归因热图
训练超参数与优化策略
  • 优化器与学习率:使用Adam优化器自适应调整每个参数的学习率,学习率通过贝叶斯优化在验证集上搜索最优值,典型范围为1e-4到1e-3。批大小设定为128平衡内存占用与梯度稳定性,最大训练轮次为200,早停策略监控验证集MAE(回归)或准确率(分类),连续10轮无改善则停止。权重初始化使用Xavier初始化,确保每层输出方差一致,避免梯度消失或爆炸。
  • 训练稳定性技巧:采用冻结策略,训练后10%的轮次仅微调线性层保持图编码部分冻结,目的是降低梯度震荡确保子结构权重稳定可解释。必要时引入L2正则化抑制极端权重,防止单一高频子结构独占权重。
  • 超参数搜索结果(SI Table S2):隐藏维度为128-256,层数为2-3层,GraphSAGE偏好LSTM或mean聚合,GAT采用4-8个注意力头配合小或零dropout。TradePool与控制组使用相同深度,主要区别在池化方式。

原子归因计算

训练完成后,如何从子结构权重得到原子归因?这是TradePool的第二阶段——解释阶段

提取子结构权重

不同GNN架构的权重提取方式不同,因为它们的聚合机制不同:

  • GCN:线性层权重矩阵$W$的每一列对应一个子结构,子结构$j$的归因值等于该列所有元素之和$A_j = \sum_k W_{kj}$,原理是GCN的聚合是简单求和,权重的和反映了子结构的总贡献。

  • GraphSAGE和GAT:子结构$j$的归因值等于该列所有元素的L1范数$A_j = \sum_k W_{kj} $,原理是这些模型的聚合更复杂(LSTM或注意力),权重可能有正负,取绝对值后求和更稳定。
映射到原子归因

有了每个子结构的归因值$A_j$,如何得到每个原子的归因值?

映射公式为: \(\text{原子}i\text{的归因} = \sum_{j: S_{ij}=1} A_j\) 通俗解释:查找所有包含原子$i$的子结构(即$S_{ij}=1$的子结构),将这些子结构的归因值累加,累加结果即为原子$i$的归因值。化学直觉:同一子结构内的原子获得相同的基础贡献(因为它们都属于该子结构),处于多个子结构交叉位置的原子累积多重贡献(例如苯环上的碳既属于“芳香环”子结构,也属于“C=C”子结构),这种累加方式与化学家的思维一致——一个原子的重要性取决于它参与了哪些官能团。

呃,其实也可以在搞原子对子结构贡献的权重的,就有点复杂了

“正归因原子”如何定义:阈值与二值化

很多指标(Accuracy、Recall、F1、Sparsity)要求先把连续归因值变成二分类标签。论文对不同方法的二值化规则如下:

  • 传统XAI方法:若原子归因值大于0,则标记为正归因;否则为负归因。
  • TradePool方法:由于原子归因值来自子结构权重累加,作者不直接使用0作为阈值,而是在训练集上计算一个任务级阈值:对训练集中每个分子,记录其原子归因最大值与最小值;对所有分子的最大值与最小值分别取均值;再取这两个均值的平均作为阈值。验证集与测试集沿用训练集得到的阈值。

通俗解释:这个阈值更像是在训练集的归因值动态范围里取一个平均中线,用它来区分相对更重要与相对不重要的原子。它并不强制每个分子都选出固定比例的原子,只是实际结果常落在中等稀疏度区间

同时,论文也把真值归因二值化用于分类指标计算:

  • 芳香性任务:芳香原子真值标签为1,其他为0。
  • LogP与TPSA任务:真值原子贡献大于0标为1,否则为0。

评估指标体系

研究采用Wang等人提出的八项XAI评估指标,全面衡量归因质量:

准确性指标

  • Accuracy:分类任务,正确识别正/负归因原子的比例

  • F1-score:精确率和召回率的调和平均,平衡误报和漏报

    Pearson相关:预测归因值与真值的线性相关性(-1到1,越接近1越好)

稀疏性指标

  • Sparsity:被标记为正归因的原子比例。理想的解释应该聚焦于少数关键原子,而非高亮整个分子
  • Recall:真正的正归因原子中被正确识别的比例

稳定性指标

  • Fidelity:移除正归因原子后,预测值下降的幅度。下降越多,说明这些原子确实重要
  • Infidelity:移除负归因原子后,预测值上升的幅度。上升越多,说明这些原子确实有负贡献
  • Stability:对模型参数微调(如改变随机种子)后,归因结果的一致性
  • Sensitivity:对输入分子微扰(如添加甲基)后,归因结果的稳定性

呃,不一定非得有下降和上升的幅度很突出的原子吧,比如烷烃,都一样?

这些指标从不同角度评估XAI方法:准确性衡量解释是否正确,稀疏性衡量解释是否简洁,稳定性衡量解释是否可靠。只有在所有维度都表现优秀,才能称为真正好的XAI方法。

总结:TradePool双阶段框架

graph TB
  subgraph S1["阶段1 训练:子结构池化"]
    A1["分子图输入<br/>原子71维+键12维"] --> B1["消息传递<br/>GCN / GraphSAGE / GAT"]
    B1 --> C1["子结构池化<br/>PubChem掩码求和虚拟节点"]
    C1
  end
  subgraph S2["阶段2 解释:权重映射"]
    D1["线性层预测标签<br/>同时产生子结构权重"] --> E1["选取子结构权重<br/>不同模型取和或L1范数"]
    E1 --> F1["按掩码回分原子<br/>归因=所有含该原子的子结构权重之和"]
    F1 --> G1["输出原子归因热图<br/>稳定、可化学解释"]
  end
  S1 --> S2

图2详细展示了TradePool的核心工作流程。TradePool的创新在于将子结构作为可解释的中间层,连接原子级输入和分子级预测。

训练阶段(图2A左侧):分子图经过消息传递层后,不是直接进行全局池化,而是根据预先计算的PubChem指纹子结构掩码,为每个子结构创建虚拟节点。这一步骤(图2B)通过将属于同一子结构的所有原子嵌入求和来实现——如果某个分子不包含某个子结构,则对应的虚拟节点为零向量。这些子结构表示随后被展平并输入到线性层以预测最终标签。

解释阶段(图2A右侧):TradePool的优势得以充分体现。由于线性层的权重直接对应于每个子结构对预测的贡献,研究者可以提取这些权重作为子结构归因值。图2C展示了如何将子结构归因映射回原子:对于每个原子,查找所有包含该原子的子结构,将这些子结构的权重累加,即得到该原子的归因值。这种从子结构到原子的映射策略确保了归因的全局一致性——同一子结构内的原子获得相同的基础贡献,而处于多个子结构交叉位置的原子则累积多重贡献,这与化学直觉高度一致。


结果与分析

主任务预测性能:并未牺牲预测精度

  • 在GCN上,TradePool的原子归因Pearson相关:芳香性0.93,LogP 0.63,TPSA 0.88;常见解释方法多在0–0.30之间。
  • F1与sparsity均优于GNNExplainer、KernelSHAP、Integrated Gradients、PGMExplainer,说明归因更聚焦、冗余更少,解释“准而简”
  • GAT上表现一般,源于注意力权重为标量,难与子结构权重对齐,提示池化假设需与注意力机制协同
  • 预测精度与对照组相当或更优:TPSA任务GCN的MAE 1.157、RMSE 1.569(对照3.367、4.846),LogP任务GCN的MAE 0.299与对照0.296持平,显示可解释性增强未牺牲主任务性能(SI Tables S3–S5)。

主任务预测性能是可解释性的基础。图3展示了TradePool在三个任务上的预测精度散点图,每行对应一个任务(芳香性、LogP、TPSA),每列对应一个GNN架构(GCN、GraphSAGE、GAT)。

从图中可以看到,所有模型在三个任务上都取得了较高的$R^2$值,数据点紧密分布在对角线附近,表明预测值与真实值高度吻合。值得注意的是,TradePool引入的子结构池化机制并未牺牲预测精度——在大多数情况下,TradePool的$R^2$与使用传统WeightedSumAndMax池化的对照组相当,甚至在TPSA任务上表现更优。这证明了子结构池化不仅提升了可解释性,还通过结构化的中间表示增强了模型对任务相关模式的学习能力。

fig3

图3:三任务的真值与预测散点

  • 行:芳香性、LogP、TPSA;列:GCN、GraphSAGE、GAT
  • 颜色区分训练/验证/测试;对角越集中表明拟合越好,右上角图例标示$R^2$

原子归因精度全面领先

在保证预测性能的前提下,TradePool在原子归因质量上实现了显著突破。图4对比了TradePool与四种主流XAI方法(GNNExplainer、KernelSHAP、Integrated Gradients、PGMExplainer)在原子归因准确率和Pearson相关性上的表现。

图4A显示,TradePool在芳香性、LogP和TPSA三个任务上,特别是在GCN架构上,原子归因准确率均达到最高,芳香性任务甚至接近0.9的准确率。图4B的Pearson相关更是揭示了TradePool的优势:在GCN上,TradePool的相关系数达到0.93(芳香性)、0.63(LogP)和0.88(TPSA),而其他方法大多徘徊在0–0.3之间,部分方法甚至出现负相关。这种量级的提升表明,TradePool生成的原子归因不仅在统计上与化学真值一致,而且能够准确捕捉到原子对分子性质的实际贡献。

fig4

图4:原子归因总体表现对比

  • (A) 原子归因准确率:TradePool在三任务、特别是GCN上最高
  • (B) Pearson相关:TradePool显著领先,其他方法多在0–0.3之间

图5想回答的问题是:如果一个方法把很多原子都判成关键原子,它当然容易拿到高召回,但这不一定是好解释。作者强调要同时看F1、召回与稀疏性,避免靠把整分子都高亮来“刷指标”。

  • 结论1:TradePool的召回不是靠过度归因换来的。论文指出,TradePool在芳香性与LogP任务的F1与召回都表现良好,更重要的是稀疏性维持在0.4–0.5,意味着大约只有40%–50%的原子被标为正归因,解释更聚焦、信息密度更高。
  • 结论2:KernelSHAP与PGMExplainer存在明显的过度归因倾向。它们在部分任务上召回较高,但对应稀疏性很低,说明方法倾向把接近90%的原子都判为正归因,从而抬高召回。作者认为稀疏性过高或过低都意味着解释存在缺陷:太低会导致解释冗余,太高又容易漏掉关键结构片段。

fig5

图5:F1、召回与稀疏性对比

  • (A) F1-score:TradePool在LogP/TPSA上优势明显。
  • (B) 召回率:KernelSHAP与PGMExplainer高召回但伴随过多正归因。
  • (C) 稀疏性:TradePool保持0.4–0.5的稀疏度,解释更集中。

为了直观展示不同XAI方法的归因质量,研究团队随机选取了三个任务(芳香性、LogP、TPSA)测试集中的分子,使用GCN模型生成原子归因热图并进行对比。图11中,绿色高亮表示被预测为正归因的原子,每一行对应一个不同的任务。

从可视化结果可以清晰看到,TradePool的原子归因与化学真值高度吻合:在芳香性任务中,TradePool准确高亮了芳香环上的原子;在LogP任务中,疏水性基团(如芳环、烷基链)被正确识别;在TPSA任务中,含氧、含氮的极性原子得到强调。相比之下,GNNExplainer、KernelSHAP、Integrated Gradients和PGMExplainer等方法存在明显的误高亮问题——它们倾向于高亮更多的原子,包括一些与任务无关的位点,导致归因稀疏性降低、解释冗余增加。

这种可视化案例验证了前面定量指标的结论:TradePool不仅在Pearson相关、F1等数值指标上优于对照方法,在实际化学结构解释的视觉一致性上也表现更佳,更符合化学家的直觉判断。

fig11

图11:不同XAI方法在GCN模型上的原子归因可视化对比

  • 每行对应芳香性、LogP和TPSA三个任务之一。
  • 绿色高亮表示被预测为正归因的原子。
  • TradePool的高亮区域与真值最吻合,误高亮最少;其他方法存在明显的过度归因或归因偏差。

子结构化学合理性

  • 提取各任务权重前十的SMARTS子结构(表3),与化学常识一致:
    • 芳香性任务40%含芳香键;
    • LogP任务突出甲基、芳环、卤素;
    • TPSA任务高频出现含氧、含氮片段O−H、N−O、S(=O)(=O)
  • 子结构权重跨随机种子保持一致(SI Table S6),N=NC=SN−SO(:C)(:C)等始终位列前十,支持归因的可重复性

在SMARTS里,: 表示芳香键(aromatic bond),:C 表示芳香碳原子(aromatic carbon)

~ 表示任意键(any bond):不限定是单键、双键、三键还是芳香键,只要两原子之间“有键”就匹配。

表3 三个任务权重最高的10个SMARTS子结构

芳香性 LogP TPSA
N#N C−I ≥1 O
C=S ≥1 Br O(:C)(:C)
N−S N#N N−H
C(∼N)(:N) ≥1 Cl ≥1 P
N−C:O:C ≥1 S O−H
C(:N)(:N) C:C−N−C:C N#N
≥1 Cl C−Br ≥1 N
O(:C)(:C) C(∼H)(∼H)(∼H) C#N
N−N C(∼F)(∼F) S(=O)(=O)
C#N ≥1 F N=O

稳定性与鲁棒性

  • 对模型参数微调或输入分子小幅扰动,TradePool的fidelity/infidelity方差最低,归因热图变化最小
  • 归因稳定性的原因:子结构集合固定、权重全局学习、低频子结构滤除减少噪声。
  • 对指纹掩码随机置零10%或对分子增加单键旋转等扰动,原子归因排名的Spearman相关仍高于0.85,而对照方法掉到0.5以下,说明结构微扰下解释更稳
  • 在超参数网格搜索(学习率、隐藏维度、层数)中,TradePool的Pearson相关标准差小于0.03,显著优于对照,超参敏感性低
  • Fidelity/Infidelity统计(SI Tables S7–S8):LogP任务TradePool的fidelity_mean=3.38、infidelity_mean=0.69,明显优于其他方法;TPSA任务TradePool保持正向fidelity 36.18,而KernelSHAP虽fidelity高但infidelity为负且方差大,说明TradePool稳定性更高

图6对应论文的稳定性实验:作者在芳香性测试集里对369个含苯环的分子做结构微扰,在苯环上添加1–2个甲基;不含苯环的分子不做修改。随后用同一个预训练模型分别对加甲基前后分子计算原子归因,并比较每个分子的原子归因准确率变化量。

  • 结论:TradePool对结构小改动更稳。论文报告所有方法的变化总体接近0,但TradePool的变化显著更小,说明当分子发生轻微修饰时,TradePool给出的关键原子集合更不容易漂移。对于药物优化而言,这意味着解释可以跨相邻类似物复用,降低“每做一次修饰就要重新理解解释”的成本。
  • 为什么这能叫稳定:芳香性任务的真值关键原子主要是芳香环原子,给苯环加甲基不会改变原来的芳香原子标签。理想的解释应继续高亮芳香环,而不是被新增甲基带跑偏。

fig6

图6:小扰动下的稳定性

  • (A) 在分子上随机添加1–2个甲基的示例。
  • (B) 各方法扰动前后原子归因值变化,TradePool波动最小,说明对结构微扰不敏感。

图7是图6的可视化证据:同一批分子在加甲基前后的归因热图对比。这里的绿色代表被方法预测为正归因的原子,也就是它认为的关键原子。在芳香性任务里,这些原子理想情况下应与真实的芳香原子位置一致

  • 结论1:TradePool的高亮区域更贴近化学真值且更一致。加甲基前后,TradePool主要持续高亮芳香环原子,新增甲基不会导致模型把大量非芳香原子误判为关键。
  • 结论2:部分对照方法会把几乎所有原子都判为芳香。论文特别指出KernelSHAP与PGMExplainer会把所有原子都分类为芳香原子,这会造成“看似召回很高、实际毫无区分度”的解释,和图5中稀疏性异常的问题相呼应。
  • 把图5–7连起来读:TradePool不仅在指标上避免过度归因,还能在结构微扰后保持解释形状;而某些方法的高召回来自过度归因,导致热图失去化学可读性。

fig7

图7:扰动前后的原子热图对比

  • 绿色高亮:被判定为正归因的原子;每两行对应同一分子扰动前后。
  • TradePool在扰动后保持高亮区域一致性,对照方法出现更多误高亮。

fig8

图8:跨随机种子的敏感性。五个随机种子训练的GCN模型在芳香性测试集的原子归因准确率箱线图;TradePool方差最小,鲁棒性最佳。

fig9

图9:不同随机种子下的原子热图

  • 每行对应一个随机种子训练的模型,绿色为正归因原子。
  • TradePool跨种子保持高亮模式一致,对照方法高亮位置漂移更大。

Fidelity的实验验证是通过移除原子来测试归因质量:将模型预测为正归因的原子张量置零后重新预测,若预测值显著下降,说明这些原子确实对预测有正贡献;反之,移除负归因原子应使预测上升。

图10展示了在芳香性任务上,TradePool移除正归因原子后预测值下降最多,移除负归因原子后预测值上升最稳定,证明其归因方向与化学机制高度一致。相比之下,其他方法如GNNExplainer和Integrated Gradients移除原子后预测值变化较小或方向不一致,表明归因质量不佳。

  • 纵轴:模型对芳香性任务的输出(预测的芳香原子数量),数值越大表示预测的芳香原子越多。
  • 横轴(1–4)与图例一一对应:1为真值,2为完整分子预测,3为仅保留关键原子后的预测,4为移除关键原子后的预测。
  • 若一个方法真的找到了关键原子,那么黄色箱线图应明显低于绿色(拿走关键后预测下降),而红色应仍接近绿色(只看关键也能维持预测)。
  • 图例解释:蓝色为真值分布;绿色为完整分子预测;红色表示把非关键原子特征置零后的预测;黄色表示把关键原子特征置零后的预测。

fig10

图10:移除正/负归因原子后的预测值变化

  • 在芳香性任务上,移除不同XAI方法预测的正/负归因原子后,模型的预测值变化。
  • TradePool移除正归因原子后预测值下降幅度最大(KernelSHAP也还行?),移除负归因原子后预测值上升幅度最小且稳定,验证其归因方向正确。其他方法移除原子后预测值变化较小或方向不一致,说明归因与模型决策机制不匹配
  • 版面结构:每一列对应一种解释方法(Random、TradePool、GNNExplainer、KernelSHAP、IG、PGMExplainer),每一行对应一种GNN架构(GCN、GraphSAGE、GAT)。箱线图显示分布范围,箱体中线为中位数,三角形为均值。

临床分子集迁移

  • 在5800个II期及以上候选药物上,TradePool在GCN与GAT上均优于传统基线,显示其对真实药物骨架的可迁移性。
  • 典型案例:含卤代芳环的口服候选物,TradePool高亮芳环与卤素原子,与疏水性主导的LogP真值一致;对照方法偏高亮杂原子,解释偏差较大,显示对实际药物骨架的解释可靠性
  • 在LogP与TPSA任务中,去除正归因原子会导致TradePool预测下降幅度最大,去除负归因原子则上升最小(SI Figures S1–S2),进一步验证其归因方向符合化学机制。
  • 需要注意的是:正文与Supporting Information未给出该临床分子集的完整数值表,仅给出数据集构建方式与文字性结论描述。

结果逻辑图(方法—结果—局限)

graph TB
  subgraph S0["问题与设计"]
    Q1("难以获得稳定原子归因") --> Q2("采用指纹子结构做全局池化")
  end
  subgraph S1["实验管线"]
    D0("数据清洗与指纹筛选") --> D1("GCN/GraphSAGE/GAT训练")
    D1 --> D2("线性层子结构权重")
    D2 --> D3("掩码回分原子归因")
  end
  subgraph S2["核心结果"]
    R1("Pearson相关0.93/0.63/0.88") --> R2("F1与sparsity领先基线")
    R2 --> R3("扰动下归因稳定性最佳")
    R1 --> R4("权重前十子结构符合化学直觉")
  end
  subgraph S3["局限与改进"]
    L1("与GAT注意力不匹配") --> L2("计划加入可学习子结构生成")
    L3("小数据高复杂任务R^2偏低") --> L2
  end
  Q2 --> D0
  D3 --> R1
  D3 --> R3
  R3 --> L1

方法局限与改进方向

  • 对注意力模型支持不足:子结构等权假设与GAT的原生注意力冲突。
  • 数据集较小(<3000)或任务复杂时,$R^2$偏低,子结构权重难以学到任务相关性。
  • 未来计划:在训练中加入“生成-筛选”子结构模块(类似GAN),替换低权重子结构,提升任务相关性与多样性。

化学与工程解读

  • 化学角度:子结构权重凸显芳香键、卤素、含氧氮片段,与芳香性、疏水性、极性表面积的主导因素一致,提升了模型的化学可信度。
  • 工程角度:使用标准指纹可避免任务特定规则,部署时只需计算指纹与权重矩阵,无需逐分子重新训练,适合大规模虚拟筛选。

Q&A

  • Q1:为什么用PubChem指纹而不是ECFP或规则切分?
    • A1:PubChem指纹是公开字典,881位覆盖常见官能团,跨分子可比;数量适中,便于全局权重学习;规则切分在多数分子下碎片数<10,统计显著性不足。
  • Q2:子结构权重如何转成原子归因?
    • A2:训练后从线性层取每个子结构的权重(GCN取和,GraphSAGE/GAT取L1范数),再用子结构-原子掩码,将包含该原子的所有子结构权重相加,即为该原子的归因值。
  • Q3:为什么对参数和分子扰动更稳?
    • A3:归因依赖全局训练得到的固定子结构权重,而非逐样本优化;子结构数量大、权重聚合降低单一掩码变化带来的波动;低频子结构被剔除减少噪声。
  • Q4:数据清洗如何保证标签一致性?
    • A4:使用RDKit与MolVS标准化SMILES、去盐和中和,重复分子按骨架去重;标签计算遵循Crippen原子贡献或拓扑表面积分拆,保证训练与真值口径一致。

关键结论与批判性总结

  • 潜在影响:为分子GNN提供全局、量化的原子归因路径,能直接指导先导优化与毒性定位,降低对专家经验的依赖。
  • 局限性:与注意力类模型存在机制不匹配;小数据、高复杂任务下权重难学;对子结构词表的覆盖度仍依赖预定义指纹。
  • 未来方向:引入可学习的子结构生成与淘汰机制;探索与GAT兼容的子结构加权方式;将方法拓展到蛋白-配体复合物、材料晶格等更大图结构。

小编锐评:

  • 做可解释性分析的一种尝试了。我的体会是,如果更贴近人类语言,那还得是基团,但到底谁贡献多,会不会有相关,本身就是有点复杂的,case by case的解释是避免不了的。现在这样有解释已经不错了。
  • 做可解释性分析可以水这么多图,学到了