附录：QSAR基准测试的技术细节与补充分析

本附录补充主文档中未展开的技术细节，包括Y-scrambling验证、bootstrap置信区间分析、scaffold划分的详细统计量、适用域敏感性分析、EGFR残差分析，以及活性悬崖的完整描述符对比。

Y-scrambling验证

Y-scrambling（响应变量随机打乱）是验证QSAR模型是否捕获了真实的构效关系信号、而非偶然相关性的标准方法。本研究在LightGBM + ECFP4上进行了30次打乱迭代：

靶点	原始CV $R^2$	打乱均值	打乱SD	差距
EGFR	0.654	−0.069	0.007	0.723
DRD2	0.603	−0.084	0.010	0.687
BACE-1	0.670	−0.079	0.010	0.749
hERG	0.516	−0.086	0.010	0.602

fig8

图8：四个靶点的Y-scrambling验证。红色直方图为30次打乱后的CV $R^2$分布（均值接近零或为负值），红色虚线为原始模型的CV $R^2$。原始模型与打乱分布之间的巨大差距（0.60–0.75 $R^2$）证实了模型捕获的是真实的结构-活性关系信号

所有四个靶点的打乱$R^2$均值均在零附近或为负值（−0.069至−0.086），与原始模型$R^2$的差距均超过0.60。这一结果排除了算法偏差或数据伪影导致虚假高性能的可能性。

Bootstrap置信区间与算法差异的统计检验

为了评估RF对其他算法的优势是否具有统计显著性，研究计算了1000次bootstrap重采样的95%置信区间。以EGFR为例（ECFP4，随机划分）：

对比	$\Delta R^2$（RF − 对手）	95% CI	是否显著
RF vs XGB	+0.039	[+0.028, +0.050]	是
RF vs LGBM	+0.051	[+0.039, +0.062]	是
RF vs SVR	+0.031	[+0.012, +0.049]	是
RF vs GBR	+0.061	[+0.048, +0.076]	是

fig3

图3：EGFR上RF + ECFP4的预测值与观测值散点图。训练集$R^2$ = 0.942（a），测试集$R^2$ = 0.720（b），训练-测试差距为0.222，反映了RF在中等规模数据集上的典型过拟合程度。测试集中数据点沿完美预测线的分散程度在活性范围两端略有增大，这与训练数据密度效应一致

fig4

图4：四个靶点上RF与Top竞争算法的$R^2$差异的bootstrap 95%置信区间。绿色柱表示RF优势具有统计显著性（CI不包含零），灰色柱表示差异不显著。RF在EGFR和DRD2上的优势较稳定，但在BACE-1和hERG上的多数小幅差异并不显著

统计显著性具有明显的靶点依赖性：RF在EGFR上相对四个竞争算法均显著占优，在DRD2上相对LGBM、SVR和GBR显著但相对XGB不显著；在BACE-1上仅相对SVR显著；在hERG上所有对比均未达到显著。这说明RF是稳健强基线，但不能把所有小幅$R^2$差异都解释为真实优势。

Scaffold划分的详细统计量

Bemis-Murcko scaffold划分（seed = 42，目标80:20比例）的详细统计信息：

靶点	总化合物	唯一scaffold	孤立scaffold（%）	最大cluster	训练集	测试集	测试占比	pActivity偏移（KS检验）
EGFR	10036	3700	2490（67.3%）	547	7780	2256	22.5%	+0.249（p < 0.001）
DRD2	7558	3549	2501（70.5%）	69	6036	1522	20.1%	+0.008（p = 0.256）
BACE-1	8080	3156	2089（66.2%）	146	6463	1617	20.0%	+0.168（p < 0.001）
hERG	8077	4131	2977（72.1%）	103	6460	1617	20.0%	+0.086（p < 0.001）

几个关键观察：

EGFR的scaffold cluster最大（547个化合物），且scaffold多样性较低（3700个唯一scaffold对应10036个化合物），这与其激酶抑制剂的高度保守骨架结构一致
DRD2的pActivity偏移最小（+0.008，KS p = 0.256），说明训练集和测试集在活性分布上高度一致，其较小的scaffold gap（0.084）不能归因于分布偏移
EGFR的pActivity偏移最大（+0.249，KS p < 0.001），测试集的活性均值高于训练集，这意味着scaffold划分将更多高活性化合物分入了测试集，这是其较大scaffold gap的重要贡献因素之一
hERG的孤立scaffold比例最高（72.1%），反映了hERG抑制剂化学空间的高度碎片化

适用域敏感性分析

AD阈值由两个参数控制：k近邻数$k$和Z-score阈值$Z$。默认设置为$k=5$、$Z=1.5$。以下展示了参数变化对覆盖率和$R^2$降幅的影响（RF + ECFP4，随机划分）：

靶点	k	Z=1.0（覆盖率 / $R^2$降幅）	Z=1.5（覆盖率 / $R^2$降幅）	Z=2.0（覆盖率 / $R^2$降幅）
EGFR	3	88.7% / 0.298	93.1% / 0.454	95.6% / 0.697
EGFR	5	88.2% / 0.285	92.7% / 0.370	95.4% / 0.729
EGFR	10	87.0% / 0.228	92.0% / 0.348	95.2% / 0.630
DRD2	5	85.7% / 0.209	92.0% / 0.350	96.2% / 0.457
BACE-1	5	87.1% / 0.171	92.3% / 0.314	95.5% / 0.461
hERG	5	82.1% / 0.465	87.4% / 0.512	93.7% / 0.528

hERG对AD参数的变化最为敏感：即使在最宽松的设定（k=5, Z=1.0）下，hERG的$R^2$降幅仍高达0.465。而在最严格的设定（k=5, Z=2.0）下，hERG的域外$R^2$仅比0高出约0.05。这一敏感性分析的定性结论（hERG > EGFR > DRD2 ≈ BACE-1）在所有参数组合下保持一致，增强了结论的可靠性。

残差分析

fig14

图14：EGFR上RF + ECFP4的残差分析。（a）残差 vs 预测值散点图：x轴为预测$\mathrm{pIC}_{50}$（4–10），y轴为残差（观测 − 预测），红色虚线为零残差参考线。数据点（浅蓝色）围绕零线随机分布，无系统性偏差。（b）残差分布直方图（MAE = 0.520）：蓝色柱为频率分布，红色虚线为均值残差位置，分布近似对称

EGFR上RF + ECFP4（随机划分）的残差分析显示：

无系统性偏差：残差在pActivity预测值4–10的范围内围绕零线随机分布，无明显的趋势或模式
MAE = 0.520 $\mathrm{pIC}_{50}$单位，即平均预测误差约半个log单位
残差分布近似对称：直方图呈近似正态分布，峰值在零附近
活性极端区域的方差略有膨胀：在pActivity < 4.5和 > 10.5的区域，残差离散度增大，这与训练数据密度在这些区域的稀疏性一致

活性悬崖的完整描述符对比

完整的活性悬崖分析结果（RF，随机划分，seed = 42），cliff对定义为ECFP4 Tanimoto $\ge 0.6$且$

\Delta \mathrm{pActivity}

\ge 2.0$：

靶点	描述符	cliff测试化合物	非cliff测试化合物	$R^2_{all}$	$R^2_{cliff}$	$R^2_{non-cliff}$
EGFR	ECFP4	765	1243	0.720	0.632	0.773
EGFR	ECFP6	765	1243	0.716	0.631	0.765
EGFR	MACCS	765	1243	0.646	0.543	0.706
EGFR	RDKit-2D	765	1243	0.671	0.575	0.727
EGFR	RDKit-2D+ECFP4	765	1243	0.706	0.613	0.761
DRD2	ECFP4	219	1293	0.641	0.476	0.682
DRD2	ECFP6	219	1293	0.634	0.449	0.681
DRD2	MACCS	219	1293	0.541	0.316	0.597
DRD2	RDKit-2D	219	1293	0.556	0.375	0.599
DRD2	RDKit-2D+ECFP4	219	1293	0.628	0.437	0.677
BACE-1	ECFP4	618	998	0.682	0.517	0.767
BACE-1	ECFP6	618	998	0.679	0.517	0.761
BACE-1	MACCS	618	998	0.638	0.457	0.731
BACE-1	RDKit-2D	618	998	0.650	0.465	0.746
BACE-1	RDKit-2D+ECFP4	618	998	0.671	0.495	0.763
hERG	ECFP4	174	1442	0.584	0.481	0.581
hERG	ECFP6	174	1442	0.575	0.458	0.577
hERG	MACCS	174	1442	0.550	0.426	0.551
hERG	RDKit-2D	174	1442	0.568	0.478	0.557
hERG	RDKit-2D+ECFP4	174	1442	0.595	0.497	0.591

ECFP4在EGFR和DRD2两个靶点的cliff化合物预测上表现最佳，在BACE-1上与ECFP6并列最高（均为0.517）；hERG上则是RDKit-2D + ECFP4组合描述符最高（0.497），略高于ECFP4（0.481）。MACCS的cliff预测$R^2$始终最低，尤其是对DRD2（$R^2_{cliff}$仅0.316），进一步印证了预定义结构键指纹在精细结构区分上的局限性。

hERG的cliff密度最低（2529对，占全部化合物10.2%；测试集中174个cliff化合物，占10.8%），且cliff与非cliff化合物的$R^2$差距也最小（ECFP4：$\Delta R^2$ = 0.100），这与其较窄的pActivity分布（SD = 0.91）一致——活性范围有限意味着“cliff”（$