QSAR算法排名在四大靶点上高度一致,但scaffold泛化差距因靶点而异
本文信息
- 标题:系统性多靶点QSAR基准测试:机器学习算法、分子描述符与验证策略
- 作者:Salah A. Alshehade, Ghazi Al Jabal, Iqbal H. Jebril
- 发表期刊:Journal of Chemical Information and Modeling
- 发表时间:2026年(Received:2026年4月21日;Revised:2026年5月21日;Accepted:2026年5月26日)
- DOI:https://doi.org/10.1021/acs.jcim.6c01237
- 单位:Universiti Sultan Zainal Abidin(马来西亚)、MAHSA University(马来西亚)、Yarmouk Private University(叙利亚)、Al-Zaytoonah University of Jordan(约旦)
- 引用格式:Alshehade, S. A.; Al Jabal, G.; Jebril, I. H. Systematic Multi-Target QSAR Benchmarking: Machine Learning Algorithms, Molecular Descriptors, and Validation. J. Chem. Inf. Model. 2026. https://doi.org/10.1021/acs.jcim.6c01237
- 代码与数据:https://github.com/salahalsh/ML_QSARX (v1.0 tagged release);QSAR-X网页界面:https://insilicosigma.com/qsar-x/
摘要
定量构效关系(QSAR)建模是计算药物发现的核心方法之一,但算法选择、描述符类型和验证策略对模型性能的影响尚未在多靶点、统一实验条件下得到系统性评估。本研究在四个治疗性靶点家族(EGFR激酶、DRD2 G蛋白偶联受体、BACE-1蛋白酶、hERG离子通道)的33751个化合物上,以完全一致的实验流程比较了10种机器学习算法和5种分子描述符。结果表明,scaffold划分导致的泛化差距在不同靶点间存在约2倍的变异($\Delta R^2$均值:0.084–0.171);适用域分析证实,超出Tanimoto化学域的化合物预测质量大幅下降($R^2$降幅0.31–0.51),其中hERG对结构远缘化合物的预测能力几乎丧失($R^2$:0.62 → 0.11);算法排名在四个蛋白家族间高度一致(Spearman $\rho$均值 = 0.92),树集成方法(随机森林 + ECFP4)在每个靶点上均优于基础图卷积网络(GCN,平均$R^2$亏损0.22)。
核心结论
- 算法排名跨靶点高度一致:随机森林、XGBoost、LightGBM的排序在四个靶点上几乎不变($\rho = 0.92$),说明最优算法选择具有可迁移性
- scaffold泛化差距是数据属性,而非算法属性:hERG的泛化差距最大(0.171),DRD2和BACE-1最小(约0.085),且这一差距在不同算法间变化不大
- ECFP4是最稳健的描述符选择:在全部四个靶点上表现最优或接近最优,优于ECFP6、MACCS和RDKit-2D
- 适用域报告不可或缺:域内$R^2$与域外$R^2$差距巨大,尤其对hERG而言,不报告AD等于掩盖模型的真实局限
- 基础GCN远不及精心构建的指纹基线:3层GCN(无边特征、无预训练)在所有靶点上均显著弱于RF + ECFP4

背景
药物发现是一项资源密集型工作,开发一种获批药物通常需要10–15年和超过26亿美元的投入。传统上,识别生物活性小分子主要依赖高通量筛选(HTS),但HTS成本高昂且受限于物理化合物库,而可药性分子空间的估计规模高达约 $10^{60}$ 个分子。定量构效关系(QSAR)建模通过将分子结构特征映射为生物活性预测值来应对这一挑战,其理论基础是Hansch-Fujita线性自由能框架。现代QSAR借助高维描述符和机器学习来捕获本质上非线性的结构-活性关系,已在虚拟筛选、先导化合物优化和ADMET预测中得到广泛应用。
- 在描述符层面:二维QSAR仅从分子图提取特征,无需三维坐标。扩展连通性指纹(ECFP)通过Morgan算法枚举原子周围的圆形化学环境,是当前最常用的分子表示之一;MACCS结构键以166位预定义子结构模式编码分子的宏观特征;RDKit-2D物理化学描述符则捕获分子量、logP、极性表面积等全局性质
- 在算法层面:随机森林(RF)因其鲁棒性强、对超参数不敏感、内部特征子采样天然适合高维稀疏指纹,已成为QSAR回归的事实标准。梯度提升方法(XGBoost、LightGBM、GBR)通过序列化误差校正可达到与RF相当的精度,而深度神经网络在表格型分子描述符数据上的提升并不一致
- 图神经网络的挑战:近年来,图神经网络(GNN)直接在分子图上端到端地学习任务特定的表示,理论上能捕获比手工描述符更丰富的结构信息,但在中等规模化学数据集(n < 10000)上是否能超越精心构建的指纹基线,仍缺乏严格对照
尽管算法和描述符选择的研究已有大量积累,但现有基准研究普遍存在几个共性问题:
- 不同研究使用的数据集、靶点、划分策略和评估指标差异巨大,跨研究的直接比较几乎不可行
- 大多数基准仅使用随机划分评估模型,而OECD QSAR验证原则强调的scaffold划分(Bemis-Murcko骨架)才能真正模拟对新骨架化合物的前瞻性预测能力
- 单靶点基准无法区分靶点特异性现象与普遍规律
本文通过在四个治疗性靶点家族(EGFR激酶、DRD2 GPCR、BACE-1蛋白酶、hERG离子通道)的33751个化合物上,以完全一致的实验流程系统比较10种算法和5种描述符,填补了这一空白。
| 已有基准研究的常见局限 | 本文的应对 |
|---|---|
| 单靶点评估,结论难以推广 | 四靶点跨家族(激酶/GPCR/蛋白酶/离子通道) |
| 仅随机划分,$R^2$可能虚高 | 同时使用随机和scaffold划分,量化泛化差距 |
| 缺少适用域分析 | Tanimoto距离AD分析 + 参数敏感性检验 |
| 描述符和算法比较不充分 | 10种算法 × 5种描述符的完整交叉对比 |
| 单次随机种子,结论不稳定 | 5个随机种子 + 1000次bootstrap置信区间 |
| GNN对比缺少严格控制 | 3层GCN基线 vs RF + ECFP4,相同划分和数据 |
关键科学问题
- 算法选择是否具有跨靶点一致性? 在激酶、GPCR、蛋白酶和离子通道这四类截然不同的蛋白家族上,同一种算法是否始终表现最佳?
- 描述符层级的泛化性如何? ECFP4在文献中常被报告为最优描述符,但这一结论是否在多靶点、大样本量条件下依然成立?
- scaffold划分会暴露多大的泛化差距? 随机划分给出的乐观 $R^2$ 在多大程度上掩盖了模型在结构新颖化合物上的真实预测能力?
- 适用域(AD)能否量化预测可靠性? 当化合物超出训练集覆盖的化学空间时,模型性能下降多少?这一现象在不同靶点间是否一致?
创新点
- 四靶点统一流程基准测试:在涵盖激酶、GPCR、蛋白酶、离子通道的四个靶点上使用完全一致的实验流程,排除了方法学差异带来的混淆因素
- 多维度实验设计:原文方法部分列出9类系统实验,结果部分进一步以Experiment 10展开活性悬崖分析,覆盖算法比较、描述符比较、特征选择、划分策略、Y-scrambling验证、跨靶点一致性分析、超参数优化、GNN基线、适用域分析和活性悬崖分析
- 多随机种子验证与bootstrap置信区间:使用5个随机种子和1000次bootstrap重采样,确保结论不依赖于特定的数据划分
- 靶点依赖的泛化差距量化:在多靶点框架下系统报告scaffold gap的变异范围(约2倍),为QSAR模型的泛化能力评估提供了新的参考基准
研究内容
数据集与方法
研究通过ChEMBL REST API从ChEMBL 35数据库中提取了四个靶点的结合活性数据($\mathrm{IC}_{50}$或$K_i$),并使用自定义Python脚本(RDKit 2025.03.6)进行统一的数据清洗流程:
- 有效性过滤:去除缺少SMILES或活性值为非正的记录
- 去重:同一canonical SMILES对应多条测量值时取中位数
- SMILES规范化:使用RDKit canonical SMILES标准化
- 盐去除:去除含片段分隔符的SMILES
- 分子量过滤:100–900 Da
- 活性转换:$\mathrm{IC}{50}$(nM)转为pActivity(= $-\log{10}(\mathrm{IC}_{50}/\mathrm{M})$)
最终获得33751个化合物,涵盖四个最重要的蛋白家族:
| 靶点 | ChEMBL ID | 蛋白家族 | 活性类型 | 原始记录 | 最终数量 | pActivity范围 | 均值 ± SD |
|---|---|---|---|---|---|---|---|
| EGFR | CHEMBL203 | 激酶 | $\mathrm{IC}_{50}$ | 17652 | 10036 | 3.05–11.52 | 6.90 ± 1.35 |
| DRD2 | CHEMBL217 | GPCR | $K_i$ | 13041 | 7558 | 3.07–11.52 | 6.77 ± 1.02 |
| BACE-1 | CHEMBL4822 | 蛋白酶 | $\mathrm{IC}_{50}$ | 14298 | 8080 | 3.00–12.00 | 6.68 ± 1.27 |
| hERG | CHEMBL240 | 离子通道 | $\mathrm{IC}_{50}$ | 12886 | 8077 | 3.00–9.85 | 5.43 ± 0.91 |

图1:四个靶点的pActivity分布直方图。EGFR(激酶,n=10036)和DRD2(GPCR,n=7558)的活性分布范围较宽,BACE-1(蛋白酶,n=8080)居中,hERG(离子通道,n=8077)的分布最窄(SD仅0.91),反映了hERG抑制剂的活性范围相对集中
描述符方面,研究计算了5种分子表示:
- ECFP4(半径=2,2048位):捕获中心原子周围2个化学键范围内的局部原子环境,是QSAR建模中最广泛使用的圆形指纹
- ECFP6(半径=3,2048位):将捕获范围扩展至3个化学键,编码更大的分子子结构
- MACCS结构键(166位):基于预定义的166个子结构模式的存在/不存在,是一种结构键指纹
- RDKit 2D物理化学描述符(217维):通过RDKit的
Descriptors.descList模块计算全部210个命名描述符(constitutional、topological、physicochemical),加上fragment-count描述符后保留217维。包括分子量、logP、拓扑极性表面积(TPSA)、氢键供体/受体数、可旋转键数等经典药物化学参数 - 组合描述符(RDKit-2D + ECFP4):将局部子结构信息与全局理化性质相结合
算法方面,研究比较了10种回归算法(详见下表),涵盖集成方法、核方法、实例学习、正则化线性模型和深度学习五大类。主体实验(Experiments 1-6, 8-10)使用下表默认超参数,Experiment 7专门对Top 4算法(RF、XGB、LGBM、SVR)进行了Bayesian超参数优化(Optuna TPE采样器,每靶点30次试验,5折交叉验证$R^2$目标),发现梯度提升方法获益最大(LGBM平均$\Delta R^2$ +0.040,XGB +0.034),而RF提升较小(+0.010)。
| 算法 | 类别 | 关键超参数 |
|---|---|---|
| 随机森林(RF) | 集成 | n_estimators=500, min_samples_split=5 |
| XGBoost(XGB) | 集成 | n_estimators=300, max_depth=6, lr=0.1 |
| LightGBM(LGBM) | 集成 | n_estimators=300, max_depth=6, lr=0.1 |
| 梯度提升(GBR) | 集成 | n_estimators=300, max_depth=5, lr=0.1 |
| 支持向量回归(SVR) | 核方法 | kernel=RBF, C=10, γ=scale |
| K近邻(KNN) | 实例学习 | k=5, weights=distance |
| Ridge | 正则化线性 | α=1.0 |
| LASSO | 正则化线性 | α=0.01 |
| 弹性网络(Elastic Net) | 正则化线性 | α=0.01, l1_ratio=0.5 |
| 多层感知器(MLP) | 深度学习 | layers=(256,128), relu, adam, lr=0.001 |
graph TB
direction TB
subgraph S1["实验设计总览"]
direction TB
E1["1.算法比较:10种算法 × 5种描述符"]
E2["2.描述符比较:RF × 5种描述符"]
E3["3.特征选择:RDKit-2D逐步剪枝"]
E4["4.划分策略:随机与Scaffold"]
E5["5.Y-scrambling验证"]
E6["6.跨靶点一致性:Spearman ρ"]
E7["7.超参数优化:Optuna TPE"]
E8["8.GNN基线:3层GCN"]
E9["9.适用域:Tanimoto距离"]
E10["10.活性悬崖:结构相似活性差异大"]
end
E1 --> E2 --> E3 --> E4 --> E5
E6 --> E7 --> E8 --> E9 --> E10
所有实验采用80:20的训练/测试划分。数据划分策略包括两种 orthogonal 方式:
- 随机划分:stratification-free随机采样,固定随机seed=42确保可复现性
- Scaffold划分:使用RDKit的
MurckoScaffold.GetScaffoldForMol()函数实现Bemis-Murcko scaffold划分- 提取每个分子的Bemis-Murcko骨架(环系统+连接链)
- 无环化合物归为单一
no-ring组 - 相同scaffold的分子聚成cluster
- 整个cluster只分配到训练集或测试集之一,确保scaffold不跨集
- 所有唯一scaffold cluster随机打乱(seed=42),贪心累积到测试集直到约20%总化合物数,剩余进训练集
- 单独出现的scaffold(singleton)作为独立cluster处理
评估指标包括决定系数$R^2$(coefficient of determination,衡量模型解释的方差比例)、RMSE和MAE,结果报告为5个随机种子(42、0、1、2、3)的均值 ± SD,并通过1000次bootstrap重采样计算95%置信区间。
实验1:算法比较——树集成方法的持续领先
以EGFR + ECFP4为例,10种算法在随机划分下的测试集$R^2$排名如下:
| 排名 | 算法 | $R^2$(均值 ± SD) | RMSE | MAE |
|---|---|---|---|---|
| 1 | RF | 0.726 ± 0.008 | 0.706 | 0.520 |
| 2 | XGB | 0.689 ± 0.011 | 0.752 | 0.574 |
| 3 | SVR | 0.692 ± 0.009 | 0.747 | 0.556 |
| 4 | GBR | 0.670 ± 0.010 | 0.774 | 0.594 |
| 5 | LGBM | 0.674 ± 0.010 | 0.769 | 0.587 |
| 6 | Elastic Net | 0.610 ± 0.017 | 0.841 | 0.648 |
| 7 | LASSO | 0.596 ± 0.014 | 0.857 | 0.664 |
| 8 | KNN | 0.604 ± 0.013 | 0.849 | 0.648 |
| 9 | MLP | 0.587 ± 0.017 | 0.866 | 0.637 |
| 10 | Ridge | 0.536 ± 0.028 | 0.917 | 0.695 |
RF以$R^2$ = 0.726排名第一,且bootstrap 95%置信区间证实RF对所有竞争算法的优势均具有统计显著性(CI不包含零)。前5名算法的$R^2$集中在0.67–0.73区间内,而线性模型(Ridge、LASSO)和MLP则明显落后。

图2:四个靶点上Top-5算法的测试集$R^2$比较(ECFP4指纹,随机划分)。每个子图顶部标注了跨种子排名的Spearman $\rho$值(均 > 0.92),表明算法排名在不同随机种子间高度稳定。RF在所有靶点上均排名第一或接近第一,其误差棒(SD)也是最小的

图3:EGFR上RF + ECFP4的预测值与观测值散点图。(a)训练集($R^2$ = 0.942):浅蓝色点沿红色虚线(完美预测线)紧密排列。(b)测试集($R^2$ = 0.720):数据点分散度增大,训练-测试差距为0.222,反映了RF在中等规模数据集上的典型过拟合程度。活性极端区域($\mathrm{pIC}_{50} < 5$和$> 10$)的偏差略有增大

图4:四个靶点上RF与Top竞争算法的$R^2$差异的bootstrap 95%置信区间(1000次重采样)。绿色柱表示RF优势具有统计显著性(CI不包含零),灰色柱标注“n.s.”表示差异不显著。RF在EGFR上对所有四个竞争算法均显著优于(绿色柱全为绿),在DRD2上对三个显著、对XGB不显著,在BACE-1上仅对SVR显著,在hERG上对所有算法均不显著
当将比较扩展到全部四个靶点时,这一模式高度一致:RF在EGFR和DRD2上明确排名第一;BACE-1上XGB以0.685略高于RF和LGBM(均为0.684),但bootstrap检验显示RF只显著优于SVR;hERG上RF和SVR同为0.578,所有Top算法差异均不显著。四个靶点的Top-5算法测试集$R^2$汇总如下(Table 4):
| 算法 | EGFR | DRD2 | BACE-1 | hERG |
|---|---|---|---|---|
| RF | 0.726 | 0.654 | 0.684 | 0.578 |
| XGB | 0.689 | 0.629 | 0.685 | 0.576 |
| SVR | 0.692 | 0.610 | 0.663 | 0.578 |
| LGBM | 0.674 | 0.611 | 0.684 | 0.557 |
| GBR | 0.670 | 0.612 | 0.673 | 0.559 |

图9:10种算法在4个靶点上的测试集$R^2$热力图。颜色从深红($R^2 \approx 0.3$)到深绿($R^2 \approx 0.8$),清晰展示了树集成方法(RF、XGB、LGBM、GBR)和SVR等强基线的优势。线性模型(Ridge)在所有靶点上排名末位
核心发现:树集成方法在QSAR回归任务上的统治地位不是偶然的。RF的内部特征bagging机制使其对高维稀疏特征(如2048位指纹)具有天然的鲁棒性,而梯度提升方法通过序列化学习也能有效处理这类数据。
实验2:描述符比较——ECFP4的稳健优势
使用RF作为固定算法,比较5种描述符在四个靶点上的表现:
| 描述符 | EGFR | DRD2 | BACE-1 | hERG |
|---|---|---|---|---|
| ECFP4 | 0.726 | 0.654 | 0.684 | 0.578 |
| ECFP6 | 0.720 | 0.641 | 0.678 | 0.577 |
| MACCS | 0.656 | 0.574 | 0.643 | 0.523 |
| RDKit-2D | 0.670 | 0.577 | 0.650 | 0.564 |
| RDKit-2D+ECFP4 | 0.706 | 0.643 | 0.670 | 0.598 |

图5:5种描述符在4个靶点上的RF测试集$R^2$比较。ECFP4在EGFR、DRD2和BACE-1上均表现最佳;仅在hERG上,组合描述符(RDKit-2D + ECFP4)以0.020的$R^2$优势略胜。MACCS在四个靶点上整体最弱,尤其低于ECFP类指纹,说明166位结构键对精细局部化学环境的分辨力不足
描述符层级的稳定性值得注意:四个靶点上的描述符排名Spearman $\rho$均高于0.90,说明圆形指纹相对MACCS的优势并非特定于某个靶点,而是反映了ECFP在编码局部化学环境方面的固有信息优势。hERG的例外(组合描述符略优)提示,全局理化性质(如logP、极性表面积)对hERG阻断的预测提供了额外的互补信息。
实验3–4:特征选择与scaffold泛化差距
| 特征选择对RF的影响微乎其微。在EGFR上使用RDKit-2D描述符进行逐步特征剪枝:从无选择(217维)到方差过滤(183维)、相关性过滤( | r | ≤ 0.95,148维)、更严格的 | r | ≤ 0.75(112维),$R^2$仅从0.673下降至0.661。删去84.5%的特征仅损失0.012的$R^2$,这归功于RF的内部特征子采样机制。 |

图6:特征选择对EGFR上RF性能的影响。蓝色柱为测试集 $R^2$(左轴),橙色柱为保留的特征数(右轴)。五种特征选择配置下,$R^2$ 从0.673仅下降至0.661,删去84.5%的特征仅损失0.012
相比之下,scaffold划分揭示的泛化差距才是真正值得关注的问题。使用Bemis-Murcko scaffold划分后,$R^2$出现了靶点依赖的系统性下降:
| 靶点 | RF | XGB | LGBM | GBR | 均值差距 |
|---|---|---|---|---|---|
| EGFR | 0.146 ± 0.061 | 0.145 ± 0.069 | 0.130 ± 0.057 | 0.139 ± 0.065 | 0.140 |
| DRD2 | 0.102 ± 0.037 | 0.080 ± 0.042 | 0.080 ± 0.049 | 0.075 ± 0.038 | 0.084 |
| BACE-1 | 0.097 ± 0.057 | 0.087 ± 0.044 | 0.080 ± 0.041 | 0.078 ± 0.040 | 0.085 |
| hERG | 0.179 ± 0.043 | 0.172 ± 0.065 | 0.158 ± 0.050 | 0.174 ± 0.047 | 0.171 |

图7:四个靶点的scaffold泛化差距(随机 $R^2$ 减去scaffold $R^2$),四种算法(蓝色=RF,绿色=XGB,橙色=LGBM,红色=GBR)在EGFR、DRD2、BACE-1、hERG上的表现。hERG的差距最大(均值0.171),DRD2和BACE-1最小(约0.085),呈现约2倍的变异范围。误差棒反映了5个随机种子的变异性
scaffold gap是数据集属性而非算法属性。四种算法在同一靶点上的差距高度一致,说明泛化困难源于数据本身的结构分布(如scaffold多样性、活性分布偏移),而非特定算法的过拟合倾向。
补充分析(Table S1)进一步揭示了scaffold划分导致的pActivity分布偏移:EGFR的测试集pActivity均值比训练集高0.249个log单位(KS检验p < 0.001),这是导致其较大scaffold gap的重要因素之一。
实验7:超参数优化——梯度提升获益最大
使用Optuna的TPE采样器进行贝叶斯超参数优化(每个靶点30次试验),三个规律浮现:
- 梯度提升方法获益最大:LGBM的$\Delta R^2$均值为+0.040,XGB为+0.034,而RF仅+0.010,SVR仅+0.007
- 优化后排名可能改变:XGB在优化后在四个靶点中的三个跃升至第一位,但这依赖于单次测试集划分,结论需谨慎对待
- 树方法收敛于狭窄的$R^2$区间:优化后,前5名算法的$R^2$差距不超过0.025,表明描述符信息量才是性能天花板

图10:默认超参数 vs Optuna优化后的测试集 $R^2$(30次Optuna试验,5折交叉验证)。四个子图分别为EGFR、DRD2、BACE-1、hERG,浅色柱为默认参数,深色柱为优化后参数。每个柱顶标注了$\Delta R^2$值。梯度提升方法(XGB、LGBM)的提升幅度显著高于RF和SVR
实验8:GNN基线——基础GCN不敌指纹
研究构建了一个3层图卷积网络(GCN),使用128维隐藏层、ReLU激活、全局平均池化,与RF + ECFP4进行对比:
| 靶点 | 划分方式 | RF $R^2$ | GCN $R^2$ | $\Delta R^2$ |
|---|---|---|---|---|
| EGFR | 随机 | 0.720 | 0.513 | −0.207 |
| DRD2 | 随机 | 0.648 | 0.374 | −0.274 |
| BACE-1 | 随机 | 0.680 | 0.556 | −0.124 |
| hERG | 随机 | 0.580 | 0.312 | −0.268 |
| EGFR | Scaffold | 0.474 | 0.275 | −0.199 |
| DRD2 | Scaffold | 0.541 | 0.321 | −0.221 |
| BACE-1 | Scaffold | 0.632 | 0.548 | −0.084 |
| hERG | Scaffold | 0.331 | 0.153 | −0.178 |

图11:GCN vs RF + ECFP4在四个靶点上的 $R^2$ 对比。左图为随机划分,右图为scaffold划分。绿色柱为RF + ECFP4,紫色柱为3层GCN。红色数字标注了RF相对于GCN的优势(均为正值)。随机划分下DRD2的差距最大($\Delta R^2$ = −0.274),scaffold划分下DRD2的差距也最大($\Delta R^2$ = −0.221)
GCN在随机划分下平均亏损0.218 $R^2$,在scaffold划分下平均亏损0.170 $R^2$。随机划分下差距最大的靶点是DRD2(亏损0.274),hERG也接近这一水平(亏损0.268)。研究使用的GCN不含边特征和预训练,属于最基础的图架构,但即便如此,这一结果也提醒我们:在中等规模的化学数据集(约7500–10000个化合物)上,GNN的数据效率远不及精心构建的分子指纹。
实验9:适用域——预测可靠性的量化
基于Tanimoto距离的适用域分析(k=5近邻,Z=1.5阈值)揭示了模型预测的可靠性边界:
| 靶点 | AD阈值 | 域内占比 | $R^2$(域内) | $R^2$(域外) | $R^2$降幅 |
|---|---|---|---|---|---|
| EGFR | 0.475 | 92.7% | 0.738 | 0.369 | −0.370 |
| DRD2 | 0.468 | 92.0% | 0.672 | 0.322 | −0.350 |
| BACE-1 | 0.447 | 92.3% | 0.680 | 0.366 | −0.314 |
| hERG | 0.590 | 87.4% | 0.620 | 0.108 | −0.512 |

图12:Williams图——四个靶点的标准化残差(y轴)与Tanimoto距离(x轴)关系。蓝色圆点为域内化合物(Inside AD),红色叉号为域外化合物(Outside AD),红色虚线为AD边界。各靶点的AD阈值分别为:EGFR 0.475、DRD2 0.468、BACE-1 0.447、hERG 0.590。域外化合物的残差离散度显著高于域内

图13:域内与域外预测质量对比。灰色柱为全部测试集 $R^2$,绿色柱为域内 $R^2$,红色柱为域外 $R^2$。hERG的域外 $R^2$ 仅0.107,几乎丧失预测能力
hERG的适用域问题最为严峻:约13%的测试化合物位于AD之外,这些化合物的$R^2$从0.62骤降至0.11,意味着模型对结构远缘的hERG抑制剂几乎丧失了预测能力。这一发现对hERG安全性预测的实际应用提出了重要警示。
实验10:活性悬崖——描述符的分辨力差异
| 活性悬崖(Activity Cliff)是指结构高度相似但活性差异巨大的化合物对,是QSAR建模的“天敌”。研究定义cliff对的条件为ECFP4 Tanimoto $\ge 0.6$且$ | \Delta \mathrm{pActivity} | \ge 2.0$: |
- BACE-1的cliff密度最高(9531对,39.6%的化合物;测试集中38.2%的化合物属于cliff),其次是EGFR(8547对,37.0%)。EGFR上ECFP4的cliff化合物$R^2$为0.632,非cliff化合物为0.773
- hERG的cliff密度最低(10.8%),且cliff与非cliff的$R^2$差距也最小($\Delta = 0.100$),反映了hERG数据集较低的活性异质性
- MACCS的cliff预测能力最差:四个靶点的MACCS cliff $R^2$均低于ECFP4和ECFP6,尤其在DRD2上仅为0.316,因为166位结构键指纹无法区分仅差几个原子的cliff对

| 图15:描述符类型对活性悬崖化合物预测的影响(RF,随机划分,seed=42)。四个面板分别为EGFR、DRD2、BACE-1、hERG。每个面板中,蓝色柱为非cliff化合物的 $R^2$,灰色柱为全部测试化合物的 $R^2$,红色柱为cliff化合物的 $R^2$。Cliff对定义:ECFP4 Tanimoto $\ge 0.6$且$ | \Delta \mathrm{pActivity} | \ge 2.0$。各面板上方标注了cliff和非cliff化合物的数量。ECFP4在EGFR、DRD2和BACE-1上给出最高cliff $R^2$,hERG上则是RDKit-2D + ECFP4略高 |
残差分析(图14,见附录)证实了RF + ECFP4模型在EGFR上无系统性偏差,MAE = 0.520 $\mathrm{pIC}_{50}$单位,残差分布近似对称。
关键结论与批判性总结
本文在多靶点、统一流程下对QSAR建模的关键决策因素进行了系统性评估,主要贡献包括:
- 为QSAR建模提供了可操作的决策指南:RF + ECFP4作为默认配置在绝大多数场景下是合理的选择;超参数优化优先应用于梯度提升方法
- 量化了scaffold泛化差距的靶点依赖性:约2倍的变异范围(0.084–0.171)提醒研究者,不同靶点的结构外推难度可能截然不同
- 强调了适用域报告的必要性:域内外$R^2$差距高达0.31–0.51,不报告AD等于对使用者隐瞒了模型的关键局限
存在的局限性:
- 特征选择仅在EGFR上进行了详细分析,结论的跨靶点普适性有待验证
- 超参数优化只使用30次Optuna试验和单一测试划分,优化后XGB排名上升这一现象仍需要多随机种子确认
- ECFP指纹折叠为2048位向量,哈希折叠不可避免地带来一定bit collision风险
- GNN基线仅测试了最简单的GCN架构,未包含边特征、attention、预训练或Chemprop、AttentiveFP、Uni-Mol等更强模型
- ChEMBL assay异质性仍然存在,同一化合物多条记录取中位数只能部分缓解实验噪声
- 本文限于二维描述符和四类靶点,三维描述符、interaction fingerprint、physics-informed表示以及更多靶点类别仍需要进一步验证