Home > Machine Learning & AI > QSAR application > 附录:QSAR基准测试的技术细节与补充分析

附录:QSAR基准测试的技术细节与补充分析
qsar machine-learning molecular-descriptors benchmarking supplementary

附录:QSAR基准测试的技术细节与补充分析

本附录补充主文档中未展开的技术细节,包括Y-scrambling验证、bootstrap置信区间分析、scaffold划分的详细统计量、适用域敏感性分析、EGFR残差分析,以及活性悬崖的完整描述符对比。

Y-scrambling验证

Y-scrambling(响应变量随机打乱)是验证QSAR模型是否捕获了真实的构效关系信号、而非偶然相关性的标准方法。本研究在LightGBM + ECFP4上进行了30次打乱迭代:

靶点 原始CV $R^2$ 打乱均值 打乱SD 差距
EGFR 0.654 −0.069 0.007 0.723
DRD2 0.603 −0.084 0.010 0.687
BACE-1 0.670 −0.079 0.010 0.749
hERG 0.516 −0.086 0.010 0.602

fig8

图8:四个靶点的Y-scrambling验证。红色直方图为30次打乱后的CV $R^2$分布(均值接近零或为负值),红色虚线为原始模型的CV $R^2$。原始模型与打乱分布之间的巨大差距(0.60–0.75 $R^2$)证实了模型捕获的是真实的结构-活性关系信号

所有四个靶点的打乱$R^2$均值均在零附近或为负值(−0.069至−0.086),与原始模型$R^2$的差距均超过0.60。这一结果排除了算法偏差或数据伪影导致虚假高性能的可能性。

Bootstrap置信区间与算法差异的统计检验

为了评估RF对其他算法的优势是否具有统计显著性,研究计算了1000次bootstrap重采样的95%置信区间。以EGFR为例(ECFP4,随机划分):

对比 $\Delta R^2$(RF − 对手) 95% CI 是否显著
RF vs XGB +0.039 [+0.028, +0.050]
RF vs LGBM +0.051 [+0.039, +0.062]
RF vs SVR +0.031 [+0.012, +0.049]
RF vs GBR +0.061 [+0.048, +0.076]

fig3

图3:EGFR上RF + ECFP4的预测值与观测值散点图。训练集$R^2$ = 0.942(a),测试集$R^2$ = 0.720(b),训练-测试差距为0.222,反映了RF在中等规模数据集上的典型过拟合程度。测试集中数据点沿完美预测线的分散程度在活性范围两端略有增大,这与训练数据密度效应一致

fig4

图4:四个靶点上RF与Top竞争算法的$R^2$差异的bootstrap 95%置信区间。绿色柱表示RF优势具有统计显著性(CI不包含零),灰色柱表示差异不显著。RF在EGFR和DRD2上的优势较稳定,但在BACE-1和hERG上的多数小幅差异并不显著

统计显著性具有明显的靶点依赖性:RF在EGFR上相对四个竞争算法均显著占优,在DRD2上相对LGBM、SVR和GBR显著但相对XGB不显著;在BACE-1上仅相对SVR显著;在hERG上所有对比均未达到显著。这说明RF是稳健强基线,但不能把所有小幅$R^2$差异都解释为真实优势

Scaffold划分的详细统计量

Bemis-Murcko scaffold划分(seed = 42,目标80:20比例)的详细统计信息:

靶点 总化合物 唯一scaffold 孤立scaffold(%) 最大cluster 训练集 测试集 测试占比 pActivity偏移(KS检验)
EGFR 10036 3700 2490(67.3%) 547 7780 2256 22.5% +0.249(p < 0.001)
DRD2 7558 3549 2501(70.5%) 69 6036 1522 20.1% +0.008(p = 0.256)
BACE-1 8080 3156 2089(66.2%) 146 6463 1617 20.0% +0.168(p < 0.001)
hERG 8077 4131 2977(72.1%) 103 6460 1617 20.0% +0.086(p < 0.001)

几个关键观察:

  • EGFR的scaffold cluster最大(547个化合物),且scaffold多样性较低(3700个唯一scaffold对应10036个化合物),这与其激酶抑制剂的高度保守骨架结构一致
  • DRD2的pActivity偏移最小(+0.008,KS p = 0.256),说明训练集和测试集在活性分布上高度一致,其较小的scaffold gap(0.084)不能归因于分布偏移
  • EGFR的pActivity偏移最大(+0.249,KS p < 0.001),测试集的活性均值高于训练集,这意味着scaffold划分将更多高活性化合物分入了测试集,这是其较大scaffold gap的重要贡献因素之一
  • hERG的孤立scaffold比例最高(72.1%),反映了hERG抑制剂化学空间的高度碎片化

适用域敏感性分析

AD阈值由两个参数控制:k近邻数$k$和Z-score阈值$Z$。默认设置为$k=5$、$Z=1.5$。以下展示了参数变化对覆盖率和$R^2$降幅的影响(RF + ECFP4,随机划分):

靶点 k Z=1.0(覆盖率 / $R^2$降幅) Z=1.5(覆盖率 / $R^2$降幅) Z=2.0(覆盖率 / $R^2$降幅)
EGFR 3 88.7% / 0.298 93.1% / 0.454 95.6% / 0.697
EGFR 5 88.2% / 0.285 92.7% / 0.370 95.4% / 0.729
EGFR 10 87.0% / 0.228 92.0% / 0.348 95.2% / 0.630
DRD2 5 85.7% / 0.209 92.0% / 0.350 96.2% / 0.457
BACE-1 5 87.1% / 0.171 92.3% / 0.314 95.5% / 0.461
hERG 5 82.1% / 0.465 87.4% / 0.512 93.7% / 0.528

hERG对AD参数的变化最为敏感:即使在最宽松的设定(k=5, Z=1.0)下,hERG的$R^2$降幅仍高达0.465。而在最严格的设定(k=5, Z=2.0)下,hERG的域外$R^2$仅比0高出约0.05。这一敏感性分析的定性结论(hERG > EGFR > DRD2 ≈ BACE-1)在所有参数组合下保持一致,增强了结论的可靠性。

残差分析

fig14

图14:EGFR上RF + ECFP4的残差分析。(a)残差 vs 预测值散点图:x轴为预测$\mathrm{pIC}_{50}$(4–10),y轴为残差(观测 − 预测),红色虚线为零残差参考线。数据点(浅蓝色)围绕零线随机分布,无系统性偏差。(b)残差分布直方图(MAE = 0.520):蓝色柱为频率分布,红色虚线为均值残差位置,分布近似对称

EGFR上RF + ECFP4(随机划分)的残差分析显示:

  • 无系统性偏差:残差在pActivity预测值4–10的范围内围绕零线随机分布,无明显的趋势或模式
  • MAE = 0.520 $\mathrm{pIC}_{50}$单位,即平均预测误差约半个log单位
  • 残差分布近似对称:直方图呈近似正态分布,峰值在零附近
  • 活性极端区域的方差略有膨胀:在pActivity < 4.5和 > 10.5的区域,残差离散度增大,这与训练数据密度在这些区域的稀疏性一致

活性悬崖的完整描述符对比

完整的活性悬崖分析结果(RF,随机划分,seed = 42),cliff对定义为ECFP4 Tanimoto $\ge 0.6$且$ \Delta \mathrm{pActivity} \ge 2.0$:
靶点 描述符 cliff测试化合物 非cliff测试化合物 $R^2_{all}$ $R^2_{cliff}$ $R^2_{non-cliff}$
EGFR ECFP4 765 1243 0.720 0.632 0.773
EGFR ECFP6 765 1243 0.716 0.631 0.765
EGFR MACCS 765 1243 0.646 0.543 0.706
EGFR RDKit-2D 765 1243 0.671 0.575 0.727
EGFR RDKit-2D+ECFP4 765 1243 0.706 0.613 0.761
DRD2 ECFP4 219 1293 0.641 0.476 0.682
DRD2 ECFP6 219 1293 0.634 0.449 0.681
DRD2 MACCS 219 1293 0.541 0.316 0.597
DRD2 RDKit-2D 219 1293 0.556 0.375 0.599
DRD2 RDKit-2D+ECFP4 219 1293 0.628 0.437 0.677
BACE-1 ECFP4 618 998 0.682 0.517 0.767
BACE-1 ECFP6 618 998 0.679 0.517 0.761
BACE-1 MACCS 618 998 0.638 0.457 0.731
BACE-1 RDKit-2D 618 998 0.650 0.465 0.746
BACE-1 RDKit-2D+ECFP4 618 998 0.671 0.495 0.763
hERG ECFP4 174 1442 0.584 0.481 0.581
hERG ECFP6 174 1442 0.575 0.458 0.577
hERG MACCS 174 1442 0.550 0.426 0.551
hERG RDKit-2D 174 1442 0.568 0.478 0.557
hERG RDKit-2D+ECFP4 174 1442 0.595 0.497 0.591

ECFP4在EGFR和DRD2两个靶点的cliff化合物预测上表现最佳,在BACE-1上与ECFP6并列最高(均为0.517);hERG上则是RDKit-2D + ECFP4组合描述符最高(0.497),略高于ECFP4(0.481)。MACCS的cliff预测$R^2$始终最低,尤其是对DRD2($R^2_{cliff}$仅0.316),进一步印证了预定义结构键指纹在精细结构区分上的局限性。

hERG的cliff密度最低(2529对,占全部化合物10.2%;测试集中174个cliff化合物,占10.8%),且cliff与非cliff化合物的$R^2$差距也最小(ECFP4:$\Delta R^2$ = 0.100),这与其较窄的pActivity分布(SD = 0.91)一致——活性范围有限意味着“cliff”($ \Delta \mathrm{pActivity} \ge 2.0$)的绝对数量较少。