附录:QSAR基准测试的技术细节与补充分析
本附录补充主文档中未展开的技术细节,包括Y-scrambling验证、bootstrap置信区间分析、scaffold划分的详细统计量、适用域敏感性分析、EGFR残差分析,以及活性悬崖的完整描述符对比。
Y-scrambling验证
Y-scrambling(响应变量随机打乱)是验证QSAR模型是否捕获了真实的构效关系信号、而非偶然相关性的标准方法。本研究在LightGBM + ECFP4上进行了30次打乱迭代:
| 靶点 | 原始CV $R^2$ | 打乱均值 | 打乱SD | 差距 |
|---|---|---|---|---|
| EGFR | 0.654 | −0.069 | 0.007 | 0.723 |
| DRD2 | 0.603 | −0.084 | 0.010 | 0.687 |
| BACE-1 | 0.670 | −0.079 | 0.010 | 0.749 |
| hERG | 0.516 | −0.086 | 0.010 | 0.602 |

图8:四个靶点的Y-scrambling验证。红色直方图为30次打乱后的CV $R^2$分布(均值接近零或为负值),红色虚线为原始模型的CV $R^2$。原始模型与打乱分布之间的巨大差距(0.60–0.75 $R^2$)证实了模型捕获的是真实的结构-活性关系信号
所有四个靶点的打乱$R^2$均值均在零附近或为负值(−0.069至−0.086),与原始模型$R^2$的差距均超过0.60。这一结果排除了算法偏差或数据伪影导致虚假高性能的可能性。
Bootstrap置信区间与算法差异的统计检验
为了评估RF对其他算法的优势是否具有统计显著性,研究计算了1000次bootstrap重采样的95%置信区间。以EGFR为例(ECFP4,随机划分):
| 对比 | $\Delta R^2$(RF − 对手) | 95% CI | 是否显著 |
|---|---|---|---|
| RF vs XGB | +0.039 | [+0.028, +0.050] | 是 |
| RF vs LGBM | +0.051 | [+0.039, +0.062] | 是 |
| RF vs SVR | +0.031 | [+0.012, +0.049] | 是 |
| RF vs GBR | +0.061 | [+0.048, +0.076] | 是 |

图3:EGFR上RF + ECFP4的预测值与观测值散点图。训练集$R^2$ = 0.942(a),测试集$R^2$ = 0.720(b),训练-测试差距为0.222,反映了RF在中等规模数据集上的典型过拟合程度。测试集中数据点沿完美预测线的分散程度在活性范围两端略有增大,这与训练数据密度效应一致

图4:四个靶点上RF与Top竞争算法的$R^2$差异的bootstrap 95%置信区间。绿色柱表示RF优势具有统计显著性(CI不包含零),灰色柱表示差异不显著。RF在EGFR和DRD2上的优势较稳定,但在BACE-1和hERG上的多数小幅差异并不显著
统计显著性具有明显的靶点依赖性:RF在EGFR上相对四个竞争算法均显著占优,在DRD2上相对LGBM、SVR和GBR显著但相对XGB不显著;在BACE-1上仅相对SVR显著;在hERG上所有对比均未达到显著。这说明RF是稳健强基线,但不能把所有小幅$R^2$差异都解释为真实优势。
Scaffold划分的详细统计量
Bemis-Murcko scaffold划分(seed = 42,目标80:20比例)的详细统计信息:
| 靶点 | 总化合物 | 唯一scaffold | 孤立scaffold(%) | 最大cluster | 训练集 | 测试集 | 测试占比 | pActivity偏移(KS检验) |
|---|---|---|---|---|---|---|---|---|
| EGFR | 10036 | 3700 | 2490(67.3%) | 547 | 7780 | 2256 | 22.5% | +0.249(p < 0.001) |
| DRD2 | 7558 | 3549 | 2501(70.5%) | 69 | 6036 | 1522 | 20.1% | +0.008(p = 0.256) |
| BACE-1 | 8080 | 3156 | 2089(66.2%) | 146 | 6463 | 1617 | 20.0% | +0.168(p < 0.001) |
| hERG | 8077 | 4131 | 2977(72.1%) | 103 | 6460 | 1617 | 20.0% | +0.086(p < 0.001) |
几个关键观察:
- EGFR的scaffold cluster最大(547个化合物),且scaffold多样性较低(3700个唯一scaffold对应10036个化合物),这与其激酶抑制剂的高度保守骨架结构一致
- DRD2的pActivity偏移最小(+0.008,KS p = 0.256),说明训练集和测试集在活性分布上高度一致,其较小的scaffold gap(0.084)不能归因于分布偏移
- EGFR的pActivity偏移最大(+0.249,KS p < 0.001),测试集的活性均值高于训练集,这意味着scaffold划分将更多高活性化合物分入了测试集,这是其较大scaffold gap的重要贡献因素之一
- hERG的孤立scaffold比例最高(72.1%),反映了hERG抑制剂化学空间的高度碎片化
适用域敏感性分析
AD阈值由两个参数控制:k近邻数$k$和Z-score阈值$Z$。默认设置为$k=5$、$Z=1.5$。以下展示了参数变化对覆盖率和$R^2$降幅的影响(RF + ECFP4,随机划分):
| 靶点 | k | Z=1.0(覆盖率 / $R^2$降幅) | Z=1.5(覆盖率 / $R^2$降幅) | Z=2.0(覆盖率 / $R^2$降幅) |
|---|---|---|---|---|
| EGFR | 3 | 88.7% / 0.298 | 93.1% / 0.454 | 95.6% / 0.697 |
| EGFR | 5 | 88.2% / 0.285 | 92.7% / 0.370 | 95.4% / 0.729 |
| EGFR | 10 | 87.0% / 0.228 | 92.0% / 0.348 | 95.2% / 0.630 |
| DRD2 | 5 | 85.7% / 0.209 | 92.0% / 0.350 | 96.2% / 0.457 |
| BACE-1 | 5 | 87.1% / 0.171 | 92.3% / 0.314 | 95.5% / 0.461 |
| hERG | 5 | 82.1% / 0.465 | 87.4% / 0.512 | 93.7% / 0.528 |
hERG对AD参数的变化最为敏感:即使在最宽松的设定(k=5, Z=1.0)下,hERG的$R^2$降幅仍高达0.465。而在最严格的设定(k=5, Z=2.0)下,hERG的域外$R^2$仅比0高出约0.05。这一敏感性分析的定性结论(hERG > EGFR > DRD2 ≈ BACE-1)在所有参数组合下保持一致,增强了结论的可靠性。
残差分析

图14:EGFR上RF + ECFP4的残差分析。(a)残差 vs 预测值散点图:x轴为预测$\mathrm{pIC}_{50}$(4–10),y轴为残差(观测 − 预测),红色虚线为零残差参考线。数据点(浅蓝色)围绕零线随机分布,无系统性偏差。(b)残差分布直方图(MAE = 0.520):蓝色柱为频率分布,红色虚线为均值残差位置,分布近似对称
EGFR上RF + ECFP4(随机划分)的残差分析显示:
- 无系统性偏差:残差在pActivity预测值4–10的范围内围绕零线随机分布,无明显的趋势或模式
- MAE = 0.520 $\mathrm{pIC}_{50}$单位,即平均预测误差约半个log单位
- 残差分布近似对称:直方图呈近似正态分布,峰值在零附近
- 活性极端区域的方差略有膨胀:在pActivity < 4.5和 > 10.5的区域,残差离散度增大,这与训练数据密度在这些区域的稀疏性一致
活性悬崖的完整描述符对比
| 完整的活性悬崖分析结果(RF,随机划分,seed = 42),cliff对定义为ECFP4 Tanimoto $\ge 0.6$且$ | \Delta \mathrm{pActivity} | \ge 2.0$: |
| 靶点 | 描述符 | cliff测试化合物 | 非cliff测试化合物 | $R^2_{all}$ | $R^2_{cliff}$ | $R^2_{non-cliff}$ |
|---|---|---|---|---|---|---|
| EGFR | ECFP4 | 765 | 1243 | 0.720 | 0.632 | 0.773 |
| EGFR | ECFP6 | 765 | 1243 | 0.716 | 0.631 | 0.765 |
| EGFR | MACCS | 765 | 1243 | 0.646 | 0.543 | 0.706 |
| EGFR | RDKit-2D | 765 | 1243 | 0.671 | 0.575 | 0.727 |
| EGFR | RDKit-2D+ECFP4 | 765 | 1243 | 0.706 | 0.613 | 0.761 |
| DRD2 | ECFP4 | 219 | 1293 | 0.641 | 0.476 | 0.682 |
| DRD2 | ECFP6 | 219 | 1293 | 0.634 | 0.449 | 0.681 |
| DRD2 | MACCS | 219 | 1293 | 0.541 | 0.316 | 0.597 |
| DRD2 | RDKit-2D | 219 | 1293 | 0.556 | 0.375 | 0.599 |
| DRD2 | RDKit-2D+ECFP4 | 219 | 1293 | 0.628 | 0.437 | 0.677 |
| BACE-1 | ECFP4 | 618 | 998 | 0.682 | 0.517 | 0.767 |
| BACE-1 | ECFP6 | 618 | 998 | 0.679 | 0.517 | 0.761 |
| BACE-1 | MACCS | 618 | 998 | 0.638 | 0.457 | 0.731 |
| BACE-1 | RDKit-2D | 618 | 998 | 0.650 | 0.465 | 0.746 |
| BACE-1 | RDKit-2D+ECFP4 | 618 | 998 | 0.671 | 0.495 | 0.763 |
| hERG | ECFP4 | 174 | 1442 | 0.584 | 0.481 | 0.581 |
| hERG | ECFP6 | 174 | 1442 | 0.575 | 0.458 | 0.577 |
| hERG | MACCS | 174 | 1442 | 0.550 | 0.426 | 0.551 |
| hERG | RDKit-2D | 174 | 1442 | 0.568 | 0.478 | 0.557 |
| hERG | RDKit-2D+ECFP4 | 174 | 1442 | 0.595 | 0.497 | 0.591 |
ECFP4在EGFR和DRD2两个靶点的cliff化合物预测上表现最佳,在BACE-1上与ECFP6并列最高(均为0.517);hERG上则是RDKit-2D + ECFP4组合描述符最高(0.497),略高于ECFP4(0.481)。MACCS的cliff预测$R^2$始终最低,尤其是对DRD2($R^2_{cliff}$仅0.316),进一步印证了预定义结构键指纹在精细结构区分上的局限性。
| hERG的cliff密度最低(2529对,占全部化合物10.2%;测试集中174个cliff化合物,占10.8%),且cliff与非cliff化合物的$R^2$差距也最小(ECFP4:$\Delta R^2$ = 0.100),这与其较窄的pActivity分布(SD = 0.91)一致——活性范围有限意味着“cliff”($ | \Delta \mathrm{pActivity} | \ge 2.0$)的绝对数量较少。 |