QSAR算法排名在四大靶点上高度一致，但scaffold泛化差距因靶点而异

本文信息

标题：系统性多靶点QSAR基准测试：机器学习算法、分子描述符与验证策略
作者：Salah A. Alshehade, Ghazi Al Jabal, Iqbal H. Jebril
发表期刊：Journal of Chemical Information and Modeling
发表时间：2026年（Received：2026年4月21日；Revised：2026年5月21日；Accepted：2026年5月26日）
DOI：https://doi.org/10.1021/acs.jcim.6c01237
单位：Universiti Sultan Zainal Abidin（马来西亚）、MAHSA University（马来西亚）、Yarmouk Private University（叙利亚）、Al-Zaytoonah University of Jordan（约旦）
引用格式：Alshehade, S. A.; Al Jabal, G.; Jebril, I. H. Systematic Multi-Target QSAR Benchmarking: Machine Learning Algorithms, Molecular Descriptors, and Validation. J. Chem. Inf. Model. 2026. https://doi.org/10.1021/acs.jcim.6c01237
代码与数据：https://github.com/salahalsh/ML_QSARX （v1.0 tagged release）；QSAR-X网页界面：https://insilicosigma.com/qsar-x/

摘要

定量构效关系（QSAR）建模是计算药物发现的核心方法之一，但算法选择、描述符类型和验证策略对模型性能的影响尚未在多靶点、统一实验条件下得到系统性评估。本研究在四个治疗性靶点家族（EGFR激酶、DRD2 G蛋白偶联受体、BACE-1蛋白酶、hERG离子通道）的33751个化合物上，以完全一致的实验流程比较了10种机器学习算法和5种分子描述符。结果表明，scaffold划分导致的泛化差距在不同靶点间存在约2倍的变异（$\Delta R^2$均值：0.084–0.171）；适用域分析证实，超出Tanimoto化学域的化合物预测质量大幅下降（$R^2$降幅0.31–0.51），其中hERG对结构远缘化合物的预测能力几乎丧失（$R^2$：0.62 → 0.11）；算法排名在四个蛋白家族间高度一致（Spearman $\rho$均值 = 0.92），树集成方法（随机森林 + ECFP4）在每个靶点上均优于基础图卷积网络（GCN，平均$R^2$亏损0.22）。

核心结论

算法排名跨靶点高度一致：随机森林、XGBoost、LightGBM的排序在四个靶点上几乎不变（$\rho = 0.92$），说明最优算法选择具有可迁移性
scaffold泛化差距是数据属性，而非算法属性：hERG的泛化差距最大（0.171），DRD2和BACE-1最小（约0.085），且这一差距在不同算法间变化不大
ECFP4是最稳健的描述符选择：在全部四个靶点上表现最优或接近最优，优于ECFP6、MACCS和RDKit-2D
适用域报告不可或缺：域内$R^2$与域外$R^2$差距巨大，尤其对hERG而言，不报告AD等于掩盖模型的真实局限
基础GCN远不及精心构建的指纹基线：3层GCN（无边特征、无预训练）在所有靶点上均显著弱于RF + ECFP4

abs

背景

药物发现是一项资源密集型工作，开发一种获批药物通常需要10–15年和超过26亿美元的投入。传统上，识别生物活性小分子主要依赖高通量筛选（HTS），但HTS成本高昂且受限于物理化合物库，而可药性分子空间的估计规模高达约 $10^{60}$ 个分子。定量构效关系（QSAR）建模通过将分子结构特征映射为生物活性预测值来应对这一挑战，其理论基础是Hansch-Fujita线性自由能框架。现代QSAR借助高维描述符和机器学习来捕获本质上非线性的结构-活性关系，已在虚拟筛选、先导化合物优化和ADMET预测中得到广泛应用。

在描述符层面：二维QSAR仅从分子图提取特征，无需三维坐标。扩展连通性指纹（ECFP）通过Morgan算法枚举原子周围的圆形化学环境，是当前最常用的分子表示之一；MACCS结构键以166位预定义子结构模式编码分子的宏观特征；RDKit-2D物理化学描述符则捕获分子量、logP、极性表面积等全局性质
在算法层面：随机森林（RF）因其鲁棒性强、对超参数不敏感、内部特征子采样天然适合高维稀疏指纹，已成为QSAR回归的事实标准。梯度提升方法（XGBoost、LightGBM、GBR）通过序列化误差校正可达到与RF相当的精度，而深度神经网络在表格型分子描述符数据上的提升并不一致
图神经网络的挑战：近年来，图神经网络（GNN）直接在分子图上端到端地学习任务特定的表示，理论上能捕获比手工描述符更丰富的结构信息，但在中等规模化学数据集（n < 10000）上是否能超越精心构建的指纹基线，仍缺乏严格对照

尽管算法和描述符选择的研究已有大量积累，但现有基准研究普遍存在几个共性问题：

不同研究使用的数据集、靶点、划分策略和评估指标差异巨大，跨研究的直接比较几乎不可行
大多数基准仅使用随机划分评估模型，而OECD QSAR验证原则强调的scaffold划分（Bemis-Murcko骨架）才能真正模拟对新骨架化合物的前瞻性预测能力
单靶点基准无法区分靶点特异性现象与普遍规律

本文通过在四个治疗性靶点家族（EGFR激酶、DRD2 GPCR、BACE-1蛋白酶、hERG离子通道）的33751个化合物上，以完全一致的实验流程系统比较10种算法和5种描述符，填补了这一空白。

已有基准研究的常见局限	本文的应对
单靶点评估，结论难以推广	四靶点跨家族（激酶/GPCR/蛋白酶/离子通道）
仅随机划分，$R^2$可能虚高	同时使用随机和scaffold划分，量化泛化差距
缺少适用域分析	Tanimoto距离AD分析 + 参数敏感性检验
描述符和算法比较不充分	10种算法 × 5种描述符的完整交叉对比
单次随机种子，结论不稳定	5个随机种子 + 1000次bootstrap置信区间
GNN对比缺少严格控制	3层GCN基线 vs RF + ECFP4，相同划分和数据

关键科学问题

算法选择是否具有跨靶点一致性？ 在激酶、GPCR、蛋白酶和离子通道这四类截然不同的蛋白家族上，同一种算法是否始终表现最佳？
描述符层级的泛化性如何？ ECFP4在文献中常被报告为最优描述符，但这一结论是否在多靶点、大样本量条件下依然成立？
scaffold划分会暴露多大的泛化差距？ 随机划分给出的乐观 $R^2$ 在多大程度上掩盖了模型在结构新颖化合物上的真实预测能力？
适用域（AD）能否量化预测可靠性？ 当化合物超出训练集覆盖的化学空间时，模型性能下降多少？这一现象在不同靶点间是否一致？

创新点

四靶点统一流程基准测试：在涵盖激酶、GPCR、蛋白酶、离子通道的四个靶点上使用完全一致的实验流程，排除了方法学差异带来的混淆因素
多维度实验设计：原文方法部分列出9类系统实验，结果部分进一步以Experiment 10展开活性悬崖分析，覆盖算法比较、描述符比较、特征选择、划分策略、Y-scrambling验证、跨靶点一致性分析、超参数优化、GNN基线、适用域分析和活性悬崖分析
多随机种子验证与bootstrap置信区间：使用5个随机种子和1000次bootstrap重采样，确保结论不依赖于特定的数据划分
靶点依赖的泛化差距量化：在多靶点框架下系统报告scaffold gap的变异范围（约2倍），为QSAR模型的泛化能力评估提供了新的参考基准

研究内容

数据集与方法

研究通过ChEMBL REST API从ChEMBL 35数据库中提取了四个靶点的结合活性数据（$\mathrm{IC}_{50}$或$K_i$），并使用自定义Python脚本（RDKit 2025.03.6）进行统一的数据清洗流程：

有效性过滤：去除缺少SMILES或活性值为非正的记录
去重：同一canonical SMILES对应多条测量值时取中位数
SMILES规范化：使用RDKit canonical SMILES标准化
盐去除：去除含片段分隔符的SMILES
分子量过滤：100–900 Da
活性转换：$\mathrm{IC}{50}$（nM）转为pActivity（= $-\log{10}(\mathrm{IC}_{50}/\mathrm{M})$）

最终获得33751个化合物，涵盖四个最重要的蛋白家族：

靶点	ChEMBL ID	蛋白家族	活性类型	原始记录	最终数量	pActivity范围	均值 ± SD
EGFR	CHEMBL203	激酶	$\mathrm{IC}_{50}$	17652	10036	3.05–11.52	6.90 ± 1.35
DRD2	CHEMBL217	GPCR	$K_i$	13041	7558	3.07–11.52	6.77 ± 1.02
BACE-1	CHEMBL4822	蛋白酶	$\mathrm{IC}_{50}$	14298	8080	3.00–12.00	6.68 ± 1.27
hERG	CHEMBL240	离子通道	$\mathrm{IC}_{50}$	12886	8077	3.00–9.85	5.43 ± 0.91

fig1

图1：四个靶点的pActivity分布直方图。EGFR（激酶，n=10036）和DRD2（GPCR，n=7558）的活性分布范围较宽，BACE-1（蛋白酶，n=8080）居中，hERG（离子通道，n=8077）的分布最窄（SD仅0.91），反映了hERG抑制剂的活性范围相对集中

描述符方面，研究计算了5种分子表示：

ECFP4（半径=2，2048位）：捕获中心原子周围2个化学键范围内的局部原子环境，是QSAR建模中最广泛使用的圆形指纹
ECFP6（半径=3，2048位）：将捕获范围扩展至3个化学键，编码更大的分子子结构
MACCS结构键（166位）：基于预定义的166个子结构模式的存在/不存在，是一种结构键指纹
RDKit 2D物理化学描述符（217维）：通过RDKit的Descriptors.descList模块计算全部210个命名描述符（constitutional、topological、physicochemical），加上fragment-count描述符后保留217维。包括分子量、logP、拓扑极性表面积（TPSA）、氢键供体/受体数、可旋转键数等经典药物化学参数
组合描述符（RDKit-2D + ECFP4）：将局部子结构信息与全局理化性质相结合

算法方面，研究比较了10种回归算法（详见下表），涵盖集成方法、核方法、实例学习、正则化线性模型和深度学习五大类。主体实验（Experiments 1-6, 8-10）使用下表默认超参数，Experiment 7专门对Top 4算法（RF、XGB、LGBM、SVR）进行了Bayesian超参数优化（Optuna TPE采样器，每靶点30次试验，5折交叉验证$R^2$目标），发现梯度提升方法获益最大（LGBM平均$\Delta R^2$ +0.040，XGB +0.034），而RF提升较小（+0.010）。

算法	类别	关键超参数
随机森林（RF）	集成	n_estimators=500, min_samples_split=5
XGBoost（XGB）	集成	n_estimators=300, max_depth=6, lr=0.1
LightGBM（LGBM）	集成	n_estimators=300, max_depth=6, lr=0.1
梯度提升（GBR）	集成	n_estimators=300, max_depth=5, lr=0.1
支持向量回归（SVR）	核方法	kernel=RBF, C=10, γ=scale
K近邻（KNN）	实例学习	k=5, weights=distance
Ridge	正则化线性	α=1.0
LASSO	正则化线性	α=0.01
弹性网络（Elastic Net）	正则化线性	α=0.01, `l1_ratio`=0.5
多层感知器（MLP）	深度学习	layers=(256,128), relu, adam, lr=0.001

graph TB
    direction TB
    subgraph S1["实验设计总览"]
        direction TB
        E1["1.算法比较：10种算法 × 5种描述符"]
        E2["2.描述符比较：RF × 5种描述符"]
        E3["3.特征选择：RDKit-2D逐步剪枝"]
        E4["4.划分策略：随机与Scaffold"]
        E5["5.Y-scrambling验证"]
        E6["6.跨靶点一致性：Spearman ρ"]
        E7["7.超参数优化：Optuna TPE"]
        E8["8.GNN基线：3层GCN"]
        E9["9.适用域：Tanimoto距离"]
        E10["10.活性悬崖：结构相似活性差异大"]
    end
    E1 --> E2 --> E3 --> E4 --> E5
    E6 --> E7 --> E8 --> E9 --> E10

所有实验采用80:20的训练/测试划分。数据划分策略包括两种 orthogonal 方式：

随机划分：stratification-free随机采样，固定随机seed=42确保可复现性
Scaffold划分：使用RDKit的MurckoScaffold.GetScaffoldForMol()函数实现Bemis-Murcko scaffold划分
- 提取每个分子的Bemis-Murcko骨架（环系统+连接链）
- 无环化合物归为单一no-ring组
- 相同scaffold的分子聚成cluster
- 整个cluster只分配到训练集或测试集之一，确保scaffold不跨集
- 所有唯一scaffold cluster随机打乱（seed=42），贪心累积到测试集直到约20%总化合物数，剩余进训练集
- 单独出现的scaffold（singleton）作为独立cluster处理

评估指标包括决定系数$R^2$（coefficient of determination，衡量模型解释的方差比例）、RMSE和MAE，结果报告为5个随机种子（42、0、1、2、3）的均值 ± SD，并通过1000次bootstrap重采样计算95%置信区间。

实验1：算法比较——树集成方法的持续领先

以EGFR + ECFP4为例，10种算法在随机划分下的测试集$R^2$排名如下：

排名	算法	$R^2$（均值 ± SD）	RMSE	MAE
1	RF	0.726 ± 0.008	0.706	0.520
2	XGB	0.689 ± 0.011	0.752	0.574
3	SVR	0.692 ± 0.009	0.747	0.556
4	GBR	0.670 ± 0.010	0.774	0.594
5	LGBM	0.674 ± 0.010	0.769	0.587
6	Elastic Net	0.610 ± 0.017	0.841	0.648
7	LASSO	0.596 ± 0.014	0.857	0.664
8	KNN	0.604 ± 0.013	0.849	0.648
9	MLP	0.587 ± 0.017	0.866	0.637
10	Ridge	0.536 ± 0.028	0.917	0.695

RF以$R^2$ = 0.726排名第一，且bootstrap 95%置信区间证实RF对所有竞争算法的优势均具有统计显著性（CI不包含零）。前5名算法的$R^2$集中在0.67–0.73区间内，而线性模型（Ridge、LASSO）和MLP则明显落后。

fig2

图2：四个靶点上Top-5算法的测试集$R^2$比较（ECFP4指纹，随机划分）。每个子图顶部标注了跨种子排名的Spearman $\rho$值（均 > 0.92），表明算法排名在不同随机种子间高度稳定。RF在所有靶点上均排名第一或接近第一，其误差棒（SD）也是最小的

fig3

图3：EGFR上RF + ECFP4的预测值与观测值散点图。（a）训练集（$R^2$ = 0.942）：浅蓝色点沿红色虚线（完美预测线）紧密排列。（b）测试集（$R^2$ = 0.720）：数据点分散度增大，训练-测试差距为0.222，反映了RF在中等规模数据集上的典型过拟合程度。活性极端区域（$\mathrm{pIC}_{50} < 5$和$> 10$）的偏差略有增大

fig4

图4：四个靶点上RF与Top竞争算法的$R^2$差异的bootstrap 95%置信区间（1000次重采样）。绿色柱表示RF优势具有统计显著性（CI不包含零），灰色柱标注“n.s.”表示差异不显著。RF在EGFR上对所有四个竞争算法均显著优于（绿色柱全为绿），在DRD2上对三个显著、对XGB不显著，在BACE-1上仅对SVR显著，在hERG上对所有算法均不显著

当将比较扩展到全部四个靶点时，这一模式高度一致：RF在EGFR和DRD2上明确排名第一；BACE-1上XGB以0.685略高于RF和LGBM（均为0.684），但bootstrap检验显示RF只显著优于SVR；hERG上RF和SVR同为0.578，所有Top算法差异均不显著。四个靶点的Top-5算法测试集$R^2$汇总如下（Table 4）：

算法	EGFR	DRD2	BACE-1	hERG
RF	0.726	0.654	0.684	0.578
XGB	0.689	0.629	0.685	0.576
SVR	0.692	0.610	0.663	0.578
LGBM	0.674	0.611	0.684	0.557
GBR	0.670	0.612	0.673	0.559

fig9

图9：10种算法在4个靶点上的测试集$R^2$热力图。颜色从深红（$R^2 \approx 0.3$）到深绿（$R^2 \approx 0.8$），清晰展示了树集成方法（RF、XGB、LGBM、GBR）和SVR等强基线的优势。线性模型（Ridge）在所有靶点上排名末位

核心发现：树集成方法在QSAR回归任务上的统治地位不是偶然的。RF的内部特征bagging机制使其对高维稀疏特征（如2048位指纹）具有天然的鲁棒性，而梯度提升方法通过序列化学习也能有效处理这类数据。

实验2：描述符比较——ECFP4的稳健优势

使用RF作为固定算法，比较5种描述符在四个靶点上的表现：

描述符	EGFR	DRD2	BACE-1	hERG
ECFP4	0.726	0.654	0.684	0.578
ECFP6	0.720	0.641	0.678	0.577
MACCS	0.656	0.574	0.643	0.523
RDKit-2D	0.670	0.577	0.650	0.564
RDKit-2D+ECFP4	0.706	0.643	0.670	0.598

fig5

图5：5种描述符在4个靶点上的RF测试集$R^2$比较。ECFP4在EGFR、DRD2和BACE-1上均表现最佳；仅在hERG上，组合描述符（RDKit-2D + ECFP4）以0.020的$R^2$优势略胜。MACCS在四个靶点上整体最弱，尤其低于ECFP类指纹，说明166位结构键对精细局部化学环境的分辨力不足

描述符层级的稳定性值得注意：四个靶点上的描述符排名Spearman $\rho$均高于0.90，说明圆形指纹相对MACCS的优势并非特定于某个靶点，而是反映了ECFP在编码局部化学环境方面的固有信息优势。hERG的例外（组合描述符略优）提示，全局理化性质（如logP、极性表面积）对hERG阻断的预测提供了额外的互补信息。

实验3–4：特征选择与scaffold泛化差距

特征选择对RF的影响微乎其微。在EGFR上使用RDKit-2D描述符进行逐步特征剪枝：从无选择（217维）到方差过滤（183维）、相关性过滤（

≤ 0.95，148维）、更严格的

≤ 0.75（112维），$R^2$仅从0.673下降至0.661。删去84.5%的特征仅损失0.012的$R^2$，这归功于RF的内部特征子采样机制。

fig6

图6：特征选择对EGFR上RF性能的影响。蓝色柱为测试集 $R^2$（左轴），橙色柱为保留的特征数（右轴）。五种特征选择配置下，$R^2$ 从0.673仅下降至0.661，删去84.5%的特征仅损失0.012

相比之下，scaffold划分揭示的泛化差距才是真正值得关注的问题。使用Bemis-Murcko scaffold划分后，$R^2$出现了靶点依赖的系统性下降：

靶点	RF	XGB	LGBM	GBR	均值差距
EGFR	0.146 ± 0.061	0.145 ± 0.069	0.130 ± 0.057	0.139 ± 0.065	0.140
DRD2	0.102 ± 0.037	0.080 ± 0.042	0.080 ± 0.049	0.075 ± 0.038	0.084
BACE-1	0.097 ± 0.057	0.087 ± 0.044	0.080 ± 0.041	0.078 ± 0.040	0.085
hERG	0.179 ± 0.043	0.172 ± 0.065	0.158 ± 0.050	0.174 ± 0.047	0.171

fig7

图7：四个靶点的scaffold泛化差距（随机 $R^2$ 减去scaffold $R^2$），四种算法（蓝色=RF，绿色=XGB，橙色=LGBM，红色=GBR）在EGFR、DRD2、BACE-1、hERG上的表现。hERG的差距最大（均值0.171），DRD2和BACE-1最小（约0.085），呈现约2倍的变异范围。误差棒反映了5个随机种子的变异性

scaffold gap是数据集属性而非算法属性。四种算法在同一靶点上的差距高度一致，说明泛化困难源于数据本身的结构分布（如scaffold多样性、活性分布偏移），而非特定算法的过拟合倾向。

补充分析（Table S1）进一步揭示了scaffold划分导致的pActivity分布偏移：EGFR的测试集pActivity均值比训练集高0.249个log单位（KS检验p < 0.001），这是导致其较大scaffold gap的重要因素之一。

实验7：超参数优化——梯度提升获益最大

使用Optuna的TPE采样器进行贝叶斯超参数优化（每个靶点30次试验），三个规律浮现：

梯度提升方法获益最大：LGBM的$\Delta R^2$均值为+0.040，XGB为+0.034，而RF仅+0.010，SVR仅+0.007
优化后排名可能改变：XGB在优化后在四个靶点中的三个跃升至第一位，但这依赖于单次测试集划分，结论需谨慎对待
树方法收敛于狭窄的$R^2$区间：优化后，前5名算法的$R^2$差距不超过0.025，表明描述符信息量才是性能天花板

fig10

图10：默认超参数 vs Optuna优化后的测试集 $R^2$（30次Optuna试验，5折交叉验证）。四个子图分别为EGFR、DRD2、BACE-1、hERG，浅色柱为默认参数，深色柱为优化后参数。每个柱顶标注了$\Delta R^2$值。梯度提升方法（XGB、LGBM）的提升幅度显著高于RF和SVR

实验8：GNN基线——基础GCN不敌指纹

研究构建了一个3层图卷积网络（GCN），使用128维隐藏层、ReLU激活、全局平均池化，与RF + ECFP4进行对比：

靶点	划分方式	RF $R^2$	GCN $R^2$	$\Delta R^2$
EGFR	随机	0.720	0.513	−0.207
DRD2	随机	0.648	0.374	−0.274
BACE-1	随机	0.680	0.556	−0.124
hERG	随机	0.580	0.312	−0.268
EGFR	Scaffold	0.474	0.275	−0.199
DRD2	Scaffold	0.541	0.321	−0.221
BACE-1	Scaffold	0.632	0.548	−0.084
hERG	Scaffold	0.331	0.153	−0.178

fig11

图11：GCN vs RF + ECFP4在四个靶点上的 $R^2$ 对比。左图为随机划分，右图为scaffold划分。绿色柱为RF + ECFP4，紫色柱为3层GCN。红色数字标注了RF相对于GCN的优势（均为正值）。随机划分下DRD2的差距最大（$\Delta R^2$ = −0.274），scaffold划分下DRD2的差距也最大（$\Delta R^2$ = −0.221）

GCN在随机划分下平均亏损0.218 $R^2$，在scaffold划分下平均亏损0.170 $R^2$。随机划分下差距最大的靶点是DRD2（亏损0.274），hERG也接近这一水平（亏损0.268）。研究使用的GCN不含边特征和预训练，属于最基础的图架构，但即便如此，这一结果也提醒我们：在中等规模的化学数据集（约7500–10000个化合物）上，GNN的数据效率远不及精心构建的分子指纹。

实验9：适用域——预测可靠性的量化

基于Tanimoto距离的适用域分析（k=5近邻，Z=1.5阈值）揭示了模型预测的可靠性边界：

靶点	AD阈值	域内占比	$R^2$（域内）	$R^2$（域外）	$R^2$降幅
EGFR	0.475	92.7%	0.738	0.369	−0.370
DRD2	0.468	92.0%	0.672	0.322	−0.350
BACE-1	0.447	92.3%	0.680	0.366	−0.314
hERG	0.590	87.4%	0.620	0.108	−0.512

fig12

图12：Williams图——四个靶点的标准化残差（y轴）与Tanimoto距离（x轴）关系。蓝色圆点为域内化合物（Inside AD），红色叉号为域外化合物（Outside AD），红色虚线为AD边界。各靶点的AD阈值分别为：EGFR 0.475、DRD2 0.468、BACE-1 0.447、hERG 0.590。域外化合物的残差离散度显著高于域内

fig13

图13：域内与域外预测质量对比。灰色柱为全部测试集 $R^2$，绿色柱为域内 $R^2$，红色柱为域外 $R^2$。hERG的域外 $R^2$ 仅0.107，几乎丧失预测能力

hERG的适用域问题最为严峻：约13%的测试化合物位于AD之外，这些化合物的$R^2$从0.62骤降至0.11，意味着模型对结构远缘的hERG抑制剂几乎丧失了预测能力。这一发现对hERG安全性预测的实际应用提出了重要警示。

实验10：活性悬崖——描述符的分辨力差异

活性悬崖（Activity Cliff）是指结构高度相似但活性差异巨大的化合物对，是QSAR建模的“天敌”。研究定义cliff对的条件为ECFP4 Tanimoto $\ge 0.6$且$

\Delta \mathrm{pActivity}

\ge 2.0$：

BACE-1的cliff密度最高（9531对，39.6%的化合物；测试集中38.2%的化合物属于cliff），其次是EGFR（8547对，37.0%）。EGFR上ECFP4的cliff化合物$R^2$为0.632，非cliff化合物为0.773
hERG的cliff密度最低（10.8%），且cliff与非cliff的$R^2$差距也最小（$\Delta = 0.100$），反映了hERG数据集较低的活性异质性
MACCS的cliff预测能力最差：四个靶点的MACCS cliff $R^2$均低于ECFP4和ECFP6，尤其在DRD2上仅为0.316，因为166位结构键指纹无法区分仅差几个原子的cliff对

fig15

图15：描述符类型对活性悬崖化合物预测的影响（RF，随机划分，seed=42）。四个面板分别为EGFR、DRD2、BACE-1、hERG。每个面板中，蓝色柱为非cliff化合物的 $R^2$，灰色柱为全部测试化合物的 $R^2$，红色柱为cliff化合物的 $R^2$。Cliff对定义：ECFP4 Tanimoto $\ge 0.6$且$

\Delta \mathrm{pActivity}

\ge 2.0$。各面板上方标注了cliff和非cliff化合物的数量。ECFP4在EGFR、DRD2和BACE-1上给出最高cliff $R^2$，hERG上则是RDKit-2D + ECFP4略高

残差分析（图14，见附录）证实了RF + ECFP4模型在EGFR上无系统性偏差，MAE = 0.520 $\mathrm{pIC}_{50}$单位，残差分布近似对称。

关键结论与批判性总结

本文在多靶点、统一流程下对QSAR建模的关键决策因素进行了系统性评估，主要贡献包括：

为QSAR建模提供了可操作的决策指南：RF + ECFP4作为默认配置在绝大多数场景下是合理的选择；超参数优化优先应用于梯度提升方法
量化了scaffold泛化差距的靶点依赖性：约2倍的变异范围（0.084–0.171）提醒研究者，不同靶点的结构外推难度可能截然不同
强调了适用域报告的必要性：域内外$R^2$差距高达0.31–0.51，不报告AD等于对使用者隐瞒了模型的关键局限

存在的局限性：

特征选择仅在EGFR上进行了详细分析，结论的跨靶点普适性有待验证
超参数优化只使用30次Optuna试验和单一测试划分，优化后XGB排名上升这一现象仍需要多随机种子确认
ECFP指纹折叠为2048位向量，哈希折叠不可避免地带来一定bit collision风险
GNN基线仅测试了最简单的GCN架构，未包含边特征、attention、预训练或Chemprop、AttentiveFP、Uni-Mol等更强模型
ChEMBL assay异质性仍然存在，同一化合物多条记录取中位数只能部分缓解实验噪声
本文限于二维描述符和四类靶点，三维描述符、interaction fingerprint、physics-informed表示以及更多靶点类别仍需要进一步验证

Mendelevium

Contact