针对ADMET预测的分子描述符优化集:一项基于文献的元分析与设计方案
I. 引言:策划描述符集的理论依据
1.1 QSAR中高维度的挑战
在现代计算药物发现中,定量构效关系(Quantitative Structure-Activity Relationship, QSAR)和定量构性关系(Quantitative Structure-Property Relationship, QSPR)模型是评估候选药物吸收(Absorption)、分布(Distribution)、代谢(Metabolism)、排泄(Excretion)和毒性(Toxicity),即ADMET性质的核心工具 1。RDKit、PaDEL-Descriptor、Dragon和MOE等先进的化学信息学软件的出现,使得从单一分子结构中生成成百上千个分子描述符变得轻而易举 3。这些描述符涵盖了从简单的物理化学性质(如分子量、脂溶性)到复杂的拓扑和三维结构信息。
然而,这种特征生成能力的极大提升也带来了一个严峻的统计学挑战,即“维度灾难” 5。在典型的药物发现项目中,用于建模的数据集规模通常是中小型(几百到几千个化合物),而描述符的数量(
p)远远超过化合物的数量(n),即所谓的“p≫n”问题。在这种高维场景下,直接使用全部描述符进行模型构建会引发一系列严重问题:
- 模型过拟合(Overfitting):模型会学习到训练数据中的随机噪声而非真实的构效关系,导致其在预测新分子时的泛化能力极差。
- 特征冗余与共线性(Redundancy and Collinearity):许多描述符之间存在高度相关性。例如,不同的方法计算出的分子体积或表面积描述符往往高度共线。这不仅增加了计算负担,还会使模型变得不稳定,难以解释 7。
- 计算成本高昂:训练一个包含数千个特征的模型需要大量的计算资源和时间,这在需要快速迭代的高通量虚拟筛选中是不可接受的。
- 可解释性降低:一个包含数千个变量的模型几乎不可能被人类理解,使得从模型中提取化学直觉和指导分子优化的过程变得异常困难。
大量研究表明,简单地将所有可用描述符“暴力”地输入机器学习算法,不仅效率低下,而且其预测性能往往不如经过精心特征选择后的简约模型 5。因此,从庞大的原始描述符池中筛选出一个信息量丰富、非冗余且具有普适性的子集,是构建稳健、高效且可解释的ADMET预测模型的关键前提。
1.2 “黄金描述符集”的价值主张
为了应对上述挑战,本报告旨在通过对已发表的成功研究案例进行系统性的元分析,设计出一系列经过精心策划的、非冗余的、信息量丰富的“黄金描述符集”。这些预定义的描述符集具有巨大的科学价值和实践意义:
- 标准化与可复现性:为ADMET建模提供一个标准化的、经过验证的起点,减少了研究人员在特征工程上的主观性和随意性,从而提高了研究的可复现性 2。
- 效率提升:通过预先筛选掉大量冗余和不相关的特征,极大地降低了模型训练的计算成本和时间,使研究人员能够更快速地进行模型迭代和评估。
- 性能与稳健性:这些集合基于大量成功案例的经验总结,旨在捕获对ADMET性质最关键的分子信息,从而在保证模型性能的同时,避免因维度过高而导致的过拟合风险,提升模型的稳健性。
- 知识提炼:本研究的核心目标是将过去5-10年间,发表在顶级期刊上的众多QSAR研究中蕴含的集体智慧,提炼并固化为一套具体、可操作的实践指南和工具 9。
本报告将首先系统性地回顾和整理近期ADMET建模研究中最终使用的描述符列表,然后通过元分析揭示其中的规律和模式,最后基于这些洞察,提出三套分别面向不同应用场景的、经过优化的分子描述符预设集合。
II. 当代ADMET建模中特征选择后描述符的系统性回顾
2.1 文献调研方法
为了构建一个坚实的证据基础,本次调研遵循了严格的文献筛选标准。调研范围限定在过去5-10年内,发表于主流化学信息学和药物化学期刊上的研究论文,包括但不限于《Journal of Chemical Information and Modeling》、《Journal of Medicinal Chemistry》、《Molecular Pharmaceutics》和《Bioinformatics》。筛选的论文必须是使用分子描述符构建用于ADMET性质预测(如溶解度、渗透性、血浆蛋白结合率、hERG抑制、细胞毒性等)的回归或分类模型,并且明确报告了经过特征选择后,最终用于构建模型的描述符列表 1。本研究只关注分子描述符,排除了分子指纹等其他特征表示方法。
2.2 证据基础:已发表ADMET QSAR模型中的最终描述符集
以下表格(表1)系统性地整理了从代表性研究中提取的关键信息。该表格是后续元分析的数据基础,它将零散发表的研究成果整合为一个统一的、可供分析的数据集。每一行代表一个已发表的、成功的QSAR模型,详细列出了其研究目标、数据规模、所用软件以及最核心的——最终被选入模型的描述符。
表1:已发表ADMET QSAR模型中使用的最终描述符集(代表性研究摘要)
| 参考文献 (作者, 年份, 期刊, DOI) | 机器学习任务 | 数据集规模 | 描述符计算软件 | 最终使用的描述符列表 (经过特征选择后) |
|---|---|---|---|---|
| Delaney, J.S. (2004), J. Chem. Inf. Comput. Sci., doi:10.1021/ci034243x | 水溶性 (logS) 回归预测 | ~2,874 | In-house/Daylight | clogP (计算的辛醇/水分配系数), MWT (分子量), RB (可旋转键数), AP (芳香原子比例) 12 |
| Ghamali, M., et al. (2012), Mol. Divers., doi:10.1007/s11030-012-9416-8 | 血浆蛋白结合率 (%PPB) 回归预测 | ~662 | MOE, ACD/logD | LogP, Q_VSA_NEG (总负范德华表面积), FiB7.4 (pH 7.4下碱性基团电离分数), GCUT_SLOGP_3, GCUT_PEOE_3 (电荷相关的GCUT描述符), FU7.4 (pH 7.4下未电离分数), Q_VSA_PPOS (总正极性范德华表面积), VAdjEq (顶点邻接信息) 13 |
| Poongavanam, V., et al. (2022), Pharmaceutics, doi:10.3390/pharmaceutics14102046 | Caco-2 细胞渗透性 (logPapp) 回归预测 | ~4,900 | RDKit (in KNIME) | slogP (辛醇/水分配系数), TPSA (拓扑极性表面积), SMR (分子摩尔折射率), HallKierAlpha (Hall-Kier alpha值), Kappa3 (Kappa形状指数3) 14 |
| Delre, P., et al. (2022), Front. Pharmacol., doi:10.3389/fphar.2022.951083 | hERG 通道抑制 (分类) | ~7,963 | Dragon 7.0 | 由VSURF方法筛选出的79-86个描述符。类别包括:nCIC (环数), GATS1p (Geary自相关-滞后1/加权原子极化率), MATS2m (Moran自相关-滞后2/加权原子质量), Mor15v (3D-MoRSE-滞后15/加权原子范德华体积), HATS2u (GETAWAY-滞后2/未加权) 等。(注:完整列表见原文补充材料) 15 |
| Arab, I., et al. (2023), J. Chem. Inf. Model., doi:10.1021/acs.jcim.3c01301 | hERG 通道抑制 (分类) | >12,000 | RDKit/Custom | 用于基准测试的大量描述符,最终模型常依赖组合。关键物理化学描述符被强调:MolWt, MolLogP, TPSA, NumHDonors, NumHAcceptors, NumRotatableBonds, NumAromaticRings, FractionCSP3 16 |
| Ingle, B. L., et al. (2016), J. Chem. Inf. Model. (as cited in 18) | 血浆蛋白结合率 (fu) 回归预测 | ~1,045 | 未明确指定 | 强调了疏水性指数(如 LogP)作为最重要的特征 18。另一项研究分析了该模型,指出阳性极性表面积、碱性官能团数量和脂溶性是关键描述符 19。 |
| Wang, J., et al. (2020), RSC Adv. (as cited in 20) | Caco-2 细胞渗透性 (logPapp) 回归预测 | ~1,000+ | PaDEL-Descriptor | 经过MDI和HQPSO选择后,强调了“H E-state”和氢键相关描述符的重要性 20。 |
| Low, Y. S., et al. (2011), Chem. Res. Toxicol. (as cited in 21) | 药物性肝损伤 (DILI) 分类 | ~127 | 未明确指定 | 使用了化学描述符和毒理基因组学数据。仅使用化学描述符的模型外部验证正确率为61% 21。 |
2.3 关键研究的叙述性分析
表1中的数据揭示了ADMET建模领域从简单到复杂的发展轨迹和核心思想。
Delaney在2004年提出的ESOL模型是一个里程碑式的研究 12。尽管年代稍早,但其影响深远,至今仍被广泛引用和用作基准 22。该模型的卓越之处在于其极致的简约和强大的可解释性。仅使用四个基本且易于计算的描述符(
clogP, MWT, RB, AP),通过简单的多元线性回归,就对数千种药物分子的水溶性给出了相当准确的预测。这四个描述符分别代表了分子的脂溶性、大小、柔性和芳香性,这四个方面构成了理解分子在水相中行为的基础。ESOL的成功证明,对于某些ADMET性质,抓住最核心的物理化学驱动力比堆砌大量复杂的描述符更为有效。
相比之下,对更复杂的生物过程的建模则需要更精细的描述符。例如,Poongavanam等人(2022)在预测Caco-2细胞渗透性时,除了经典的slogP和TPSA外,还引入了分子形状描述符(HallKierAlpha, Kappa3)和分子摩尔折射率(SMR) 14。这反映了分子要穿过细胞膜,不仅与其极性和脂溶性有关,还与其整体的形状、大小和柔性密切相关,这些因素共同决定了分子能否有效地“挤”过磷脂双分子层 14。
对于血浆蛋白结合率(PPB)*的预测,Ghamali等人(2012)的研究则突显了*分子电离状态的重要性 13。他们的模型中包含了在生理pH 7.4下的电离分数(
FiB7.4, FU7.4)和电荷相关的表面积描述符(Q_VSA_NEG, Q_VSA_PPOS)。这是因为药物在血液中与血浆蛋白(主要是白蛋白和α1-酸性糖蛋白)的结合,在很大程度上取决于药物在该pH下的电荷状态——酸性药物倾向于与白蛋白结合,而碱性药物则与α1-酸性糖蛋白结合 13。这一发现被多项后续研究证实,强调了在模拟体内过程时考虑生理环境(如pH)的必要性 19。
而对于hERG钾通道抑制这一关键的心脏毒性终点,情况则更为复杂。hERG通道以其巨大而“混杂”(promiscuous)的结合口袋而闻名,能够容纳多种化学结构差异巨大的药物分子 26。因此,简单的物理化学性质往往不足以捕捉导致结合的关键特征。Delre等人(2022)的研究体现了这一点,他们从数千个Dragon描述符中,使用复杂的特征选择方法(VSURF),最终筛选出多达79-86个描述符,涵盖了拓扑、几何、3D-MoRSE和GETAWAY等多种类别 15。这表明,要准确预测hERG抑制,需要一个更丰富、更多样化的特征空间来描述分子的形状、静电势分布和原子间复杂的空间关系。Arab等人(2023)的研究也支持这一观点,他们通过对多种特征表示(包括描述符)进行基准测试,发现虽然基础的物理化学描述符(如
MolLogP, MolWt等)仍然重要,但高性能模型往往需要更复杂的特征组合 16。
III. 元分析:提炼描述符选择的指导原则
在系统性地整理了文献数据之后,本节将进行深入的元分析,旨在从这些看似零散的信息中发现普适性规律、总结核心趋势,并为后续的描述符集设计提炼出可操作的洞察。
3.1 “核心”物理化学描述符集的存在性
通过对表1及相关文献中“最终使用的描述符列表”进行横向比较,一个非常清晰的模式浮现出来:无论研究的ADMET终点是什么(溶解度、渗透性、PPB或毒性),一个由少数几个基本物理化学描述符组成的集合几乎总是出现。这个发现强烈地支持了一个“核心描述符集”的存在,它捕获了分子在任何生物系统中最基本的行为特征。
这个核心集通常包括:
- 脂溶性描述符(Lipophilicity): 以
logP(辛醇/水分配系数)及其各种计算变体(如MolLogP,slogP,clogP)为代表。logP是QSAR领域中最常用、最重要的描述符之一,它直接量化了分子在极性(水)和非极性(脂质)环境中的分配倾向。这一性质主导了药物的膜通透性、与疏水性蛋白口袋的结合以及水溶性 12。 - 分子尺寸描述符(Size): 最常见的代表是分子量(Molecular Weight,
MolWt)。它虽然简单,却是衡量分子大小、体积和扩散速率的一个有效代理。分子大小直接影响其能否通过细胞间隙、跨膜转运以及是否符合药物结合口袋的空间限制 12。 - 极性与氢键能力描述符(Polarity & Hydrogen Bonding): 这一类通常由拓扑极性表面积(Topological Polar Surface Area,
TPSA)、氢键供体数(Number of Hydrogen Bond Donors,NumHDonors)和氢键受体数(Number of Hydrogen Bond Acceptors,NumHAcceptors)共同表征。TPSA衡量了分子表面极性区域的总和,是预测渗透性的关键参数。HBD和HBA的数量则决定了分子与水以及生物大分子(如蛋白、核酸)形成氢键的能力,这对于溶解、结合和转运至关重要 14。 - 分子柔性描述符(Flexibility): 主要由可旋转键数(Number of Rotatable Bonds,
NumRotatableBonds)来量化。它描述了分子的构象灵活性。高柔性会带来熵罚,可能不利于受体结合,但适度的柔性又是分子适应结合口袋构象所必需的 12。
这组描述符并非偶然出现。它们正是构成利平斯基“五规则”(Lipinski’s Rule of Five)等经典药物相似性(drug-likeness)规则的基石 14。这表明,这些描述符所代表的物理化学性质——脂溶性、大小、极性和柔性——是决定一个分子能否成为药物的四个最基本的、不可或缺的维度。因此,任何通用的ADMET预测模型都应将这个核心集作为其特征空间的基础。
3.2 任务导向的描述符选择模式:超越核心集
尽管核心描述符集具有普适性,但高精度的预测模型往往需要在核心集的基础上,增加针对特定ADMET终点的“任务特异性”描述符。这些描述符能够捕捉到特定生物过程背后独特的物理或化学机制。
-
溶解度(Solubility)与渗透性(Permeability): 这两个性质都与分子如何与水和脂质环境相互作用密切相关。因此,除了核心集之外,模型常常受益于能够更精细地描述分子形状和饱和度的描述符。
- 形状描述符:Poongavanam等人的研究表明,Kappa形状指数(如
Kappa3)和HallKierAlpha的加入显著提升了Caco-2渗透性模型的性能 14。Kappa指数能够量化分子的线性度、支链化和环状程度,这些都影响分子在膜中的排列和通过效率。 - 饱和度描述符:sp3杂化碳原子分数(FractionCSP3)是近年来备受关注的一个描述符。高
FractionCSP3值通常意味着分子具有更三维的、非平面的结构,这与更好的溶解度和更低的脱靶毒性相关 16。 - 极性表面积:
TPSA是预测渗透性的黄金标准之一,因为它直接关联到分子穿过极性头部进入非极性核心时需要克服的脱溶剂化能垒 14。
- 形状描述符:Poongavanam等人的研究表明,Kappa形状指数(如
-
血浆蛋白结合(Plasma Protein Binding, PPB): PPB预测模型的一个显著特点是对分子在生理pH下的电离状态高度敏感。
-
电离相关描述符:Ghamali等人的模型明确包含了
FiB7.4(pH 7.4下的碱性电离分数)和FU7.4(未电离分数) 13。其他研究也反复强调,使用在生理pH(7.4)下计算的描述符,特别是那些反映分子电荷的描述符(如charge_at_pH7_4),对于准确预测与带电的血浆蛋白(白蛋白、α1-酸性糖蛋白)的结合至关重要 19。这是因为静电相互作用是药物-蛋白结合的主要驱动力之一。
-
-
hERG抑制(hERG Inhibition): hERG预测的挑战在于其结合口袋的“混杂性”,能够适应多种化学骨架 26。
- 复杂的拓扑和电子描述符:为了捕捉这种复杂的相互作用,模型需要超越简单的物理化学性质。Delre等人的研究表明,3D-MoRSE描述符(如
Mor15v,编码分子三维结构信息)、GETAWAY描述符(如HATS2u,编码分子几何与原子属性的空间分布)以及自相关描述符(如GATS1p,MATS2m,描述原子属性在拓扑距离上的分布)等高级描述符是必要的 15。这些描述符能够更全面地刻画分子的静电场、形状和化学环境,从而识别出导致hERG结合的微妙特征。
- 复杂的拓扑和电子描述符:为了捕捉这种复杂的相互作用,模型需要超越简单的物理化学性质。Delre等人的研究表明,3D-MoRSE描述符(如
这些任务特异性模式表明,一个“一刀切”的描述符集是不存在的。一个优秀的设计方案必须是分层的,既要包含一个通用的核心,也要提供针对特定任务的扩展模块。
3.3 维度约减与冗余控制的主流策略
成功的QSAR研究几乎无一例外地都采用了严格的特征选择流程来处理数千个原始描述符带来的高维度和共线性问题 5。这一流程通常是一个多步骤的级联过程,而非单一方法。
-
第一步:预处理与过滤(Filtering)
这是特征选择的第一道防线,也是最普遍采用的步骤。其目标是快速剔除明显无用或高度冗余的描述符。常见的过滤策略包括 4:
- 移除低方差特征:剔除那些在整个数据集中值几乎不变(常数或准常数)的描述符,因为它们不包含区分不同分子的信息。
-
移除高相关性特征:计算所有描述符之间的皮尔逊相关系数矩阵,当一对描述符的相关性超过一个预设阈值(通常是$ R > 0.75$ 到 0.95)时,保留其中一个(通常是与目标变量相关性更高的那个),剔除另一个。这能有效解决共线性问题。
-
第二步:高级特征选择(Wrapper/Embedded Methods)
经过初步过滤后,研究人员会采用更复杂的、基于算法的策略来筛选出最终的模型特征。
- 基于随机森林(Random Forest-based)的方法:这是文献中最流行和最成功的方法之一。随机森林算法在构建过程中,可以自然地评估每个特征的重要性。常用的方法有:
- Gini重要性/平均精度下降:通过计算每个特征对模型决策纯度或准确性的贡献来对其进行排序 6。
- VSURF(Variable Selection Using Random Forests):这是一个专门的R包,它通过一个三步过程(筛选、解释、预测)来识别与响应变量相关的特征,并剔除冗余信息。Delre等人在其hERG研究中成功应用了此方法 15。
- 递归特征消除(Recursive Feature Elimination, RFE):该方法首先用所有特征训练一个模型,然后迭代地移除最不重要的特征,并重新训练模型,直到达到预设的特征数量。Poongavanam等人的研究中提到了RFE的应用 14。
- 嵌入式方法(Embedded Methods):一些学习算法本身就包含了特征选择的功能。例如,Lasso回归(通过L1正则化将不重要特征的系数压缩至零)和梯度提升机(Gradient Boosting Machines)(如XGBoost)在构建模型的同时也在进行隐式的特征选择。
- 基于随机森林(Random Forest-based)的方法:这是文献中最流行和最成功的方法之一。随机森林算法在构建过程中,可以自然地评估每个特征的重要性。常用的方法有:
一个值得注意的细微之处是,一些研究指出,对于像随机森林和支持向量机(SVM)这样本身就很稳健的现代学习算法,外部的特征选择步骤可能不会显著提升模型的预测准确度 5。然而,这种观点需要结合具体情况来看。对于数据集较小、模型较简单(如多元线性回归)或模型可解释性至关重要的场景,特征选择是不可或缺的。特别是对于像hERG抑制或Tox21这类具有高度类别不平衡或复杂构效关系的挑战性任务,有效的特征选择被证明是获得高性能模型的关键 5。
综合来看,最佳实践是一个组合策略:先用简单的过滤器进行快速降维和去相关,再用强大的、基于算法的方法(如VSURF)进行最终的特征精选。
IV. 分层、非冗余描述符集的设计与原理
基于上述文献调研和元分析的深度洞察,本节将所有发现转化为具体、可操作的设计方案。我们提出三套由简到繁、非冗余且经过优化的分子描述符预设集合。每一套集合都有明确的设计理念、理论依据和适用场景,旨在为不同阶段和不同需求的药物发现任务提供最优的起点。
4.1 集合A:“轻量核心集”(The Lightweight Core Set)
- 设计哲学:追求极致的速度、最高的模型可解释性以及在小数据集上的稳健性。该集合是元分析中发现的“核心描述符集”的直接体现,旨在成为一个快速、可靠、且不易过拟合的基线模型特征集。
- 适用场景:
- 对数百万级别化合物库进行超快速的初步虚拟筛选。
- 构建简单、直观的QSAR模型(如多元线性回归、决策树),以便于化学家理解和提取化学直觉。
- 处理小规模数据集(例如,化合物数量 < 500),此时避免模型过拟合是首要任务。
- 描述符列表与理论依据:
| 描述符名称 | 类别 | 描述符含义与入选依据 |
|---|---|---|
MolWt |
1D-物理化学 | 分子量。最基本的大小描述符,频繁出现于各类ADMET模型中,如ESOL 12。 |
MolLogP |
1D-物理化学 | 辛醇/水分配系数。衡量脂溶性的黄金标准,几乎是所有ADMET性质预测的必备描述符 12。 |
TPSA |
1D-物理化学 | 拓扑极性表面积。衡量分子极性的关键指标,尤其对渗透性和溶解度至关重要 14。 |
NumHDonors |
1D-物理化学 | 氢键供体数。与TPSA和NumHAcceptors共同定义了分子的氢键能力和极性相互作用潜力 14。 |
NumHAcceptors |
1D-物理化学 | 氢键受体数。同上,是利平斯基规则的核心组成部分,与脱溶剂化能和受体结合密切相关 14。 |
NumRotatableBonds |
1D-物理化学 | 可旋转键数。衡量分子构象柔性的标准描述符,影响结合熵和跨膜能力 12。 |
FractionCSP3 |
1D-物理化学 | sp3杂化碳原子分数。现代药物设计中日益重要的描述符,高FractionCSP3与更好的溶解度、代谢稳定性和更低的脱靶效应相关,代表了分子的三维复杂性 16。 |
NumAromaticRings |
1D-物理化学 | 芳香环数量。衡量分子的芳香性和平面性,与MolLogP互补,对代谢(CYP酶作用)和一些毒性(如hERG)有重要影响。 |
4.2 集合B:“均衡性能集”(The Balanced Performance Set)
-
设计哲学:在“轻量核心集”的基础上,增加一系列经过验证的、针对特定ADMET任务(尤其是渗透性、溶解度和PPB)的“任务特异性”描述符,以在不显著增加计算成本和复杂性的前提下,获得更优的预测性能。
-
适用场景:
- 作为大多数通用ADMET建模项目的默认推荐特征集。
- 适用于中等规模数据集(例如,500-5000个化合物)的建模任务。
- 当目标是在模型预测精度和计算效率之间取得最佳平衡时。
-
描述符列表与理论依据:
该集合包含集合A的全部描述符,并额外增加以下描述符:
| 描述符名称 | 类别 | 描述符含义与入选依据 |
|---|---|---|
SMR |
1D-物理化学 | 分子摩尔折射率。与分子体积和极化率相关,能够补充MolWt对分子大小的描述,已被证明对渗透性预测有益 14。 |
Kappa1, Kappa2, Kappa3 |
2D-拓扑 | Kappa形状指数。描述分子的拓扑形状,如线性度、支链度和环状度。对需要穿越生物膜的渗透性预测尤其重要 14。 |
pKa_strongest_acidic |
1D-物理化学 | 最强酸性pKa。量化分子的酸性强度,是计算生理pH下电离状态的基础。 |
pKa_strongest_basic |
1D-物理化学 | 最强碱性pKa。量化分子的碱性强度,同上。 |
charge_at_pH7_4 |
1D-物理化学 | 在pH 7.4下的净电荷。直接模拟分子在血浆中的电荷状态,对预测PPB至关重要,因为静电作用是药物与血浆蛋白结合的关键驱动力 13。 |
BalabanJ |
2D-拓扑 | Balaban J指数。一个高度不相关的拓扑指数,用于衡量分子的支链程度和中心性,常在特征选择后的模型中出现,能提供独特的拓扑信息。 |
MaxAbsEStateIndex |
2D-电性拓扑 | 最大绝对E-State指数。E-State指数结合了原子的电子信息和拓扑环境,该描述符反映了分子中电正性或电负性最强的区域,与分子的反应活性位点相关。 |
MinAbsEStateIndex |
2D-电性拓扑 | 最小绝对E-State指数。同上,反映了分子中电性最中性的区域。 |
4.3 集合C:“全面特征集”(The Comprehensive Feature Set)
-
设计哲学:为解决复杂预测任务(如hERG抑制、细胞毒性)或进行探索性特征工程研究,提供一个信息量最大化的起点。该集合并非设计用于直接建模,而是一个经过精心策划和去冗余的“特征池”,用户应在此基础上结合强大的特征选择算法(如VSURF)来构建最终模型。
-
适用场景:
- 针对具有复杂或混杂作用机制的靶点(如hERG通道、细胞毒性终点)进行建模。
- 处理大规模数据集(> 5000个化合物),有足够的数据支撑更复杂的模型。
- 研究人员希望探索新的构效关系,寻找非经典描述符的重要性。
-
描述符列表与推荐工作流:
该集合包含集合B的全部描述符,并额外增加约100-150个经过筛选的2D描述符。这些描述符从RDKit和PaDEL等工具生成的数千个描述符中选出,剔除了明显的冗余(如多个软件计算的同一性质)和共线性(预先进行相关性过滤,∣R∣<0.9)。其类别包括:
- 拓扑描述符:
WienerIndex、ZagrebIndex、AvgIpc等,描述分子骨架的连接性。 - 连接性指数:
Chi0v,Chi1n,Chi3v等一系列Chi指数,量化分子的支链和复杂性。 - 电性拓扑状态(E-State)指数:完整的原子类型E-State指数(如
S_ssCH2,S_dO等),以及它们的和、平均值、最大/最小值。这些描述符对模拟分子内电子分布和反应性位点非常有效 20。 - 自相关描述符:
ATS(Moreau-Broto),MATS(Moran),GATS(Geary)等不同权重(如原子质量、极化率、电负性)和不同拓扑距离(lag 1-8)的自相关描述符。这些描述符能捕捉到原子属性在分子内的空间分布规律,对于hERG等复杂靶点尤其重要 15。 - 电荷描述符:除了
charge_at_pH7_4,还包括部分电荷的均值、方差等统计量。 - 官能团与片段计数:对特定官能团(如
fr_nitro,fr_amide)的计数。
推荐工作流:
-
使用集合C计算所有分子的描述符。
-
对训练集应用一个强大的特征选择算法,例如VSURF 15 或结合了梯度提升的
递归特征消除(RFE-XGBoost)。
-
使用筛选出的最优特征子集来训练最终的机器学习模型。
- 拓扑描述符:
4.4 提议的优化描述符集总结
下表(表2)直观地总结了三套提议的描述符集的内容和递进关系。
表2:为ADMET建模提议的优化描述符集
| 集合A: 轻量核心集 | 集合B: 均衡性能集 | 集合C: 全面特征集 |
|---|---|---|
MolWt |
包含集合A的全部描述符 | 包含集合B的全部描述符 |
MolLogP |
SMR |
WienerIndex |
TPSA |
Kappa1 |
ZagrebIndex |
NumHDonors |
Kappa2 |
全套 Chi 连接性指数 |
NumHAcceptors |
Kappa3 |
全套原子类型 E-State 指数 |
NumRotatableBonds |
BalabanJ |
全套 Moreau-Broto 自相关描述符 |
FractionCSP3 |
pKa_strongest_acidic |
全套 Moran 自相关描述符 |
NumAromaticRings |
pKa_strongest_basic |
全套 Geary 自相关描述符 |
charge_at_pH7_4 |
各种 BCUT 和 GCUT 描述符 |
|
MaxAbsEStateIndex |
详细的官能团计数 | |
MinAbsEStateIndex |
…以及约100个其他经过筛选的2D描述符 | |
| (共8个描述符) | (共约18个描述符) | (约150-200个描述符的特征池) |
V. 结论与前瞻
本次研究通过对过去十年间ADMET建模领域的权威文献进行系统性的挖掘和元分析,成功地应对了在QSAR研究中普遍存在的特征维度过高和冗余的挑战。分析结果清晰地揭示了几个关键的指导原则:
- 核心描述符的普适性:存在一个由少数基本物理化学性质(脂溶性、大小、极性、柔性、饱和度)构成的“核心描述符集”,它在各种ADMET性质预测中都表现出高度的相关性。
- 任务特异性的必要性:对于特定的生物终点,如血浆蛋白结合或hERG抑制,高精度模型必须在核心集的基础上,引入能够捕捉其独特生物物理机制的特异性描述符(如电离状态或复杂的拓扑电子特征)。
- 特征选择流程的重要性:成功的QSAR建模依赖于一个系统化的特征选择流程,通常始于简单的相关性和方差过滤,继而采用基于机器学习算法(特别是随机森林)的先进方法进行最终的特征精选。
基于这些原则,本报告设计并提出了三套分层的、非冗余的“黄金描述符集”——轻量核心集(A)、均衡性能集(B)*和*全面特征集(C)。这三套集合为不同复杂程度和需求的ADMET建模任务提供了经过验证的、标准化的、且高效的起点。它们将大量分散的文献知识固化为一套可直接应用的工具,旨在提升药物发现流程中计算预测的效率、稳健性和可复现性。
展望未来,化学信息学领域正处在不断演进之中。虽然本报告的设计方案基于当前文献中得到最广泛验证和应用的2D描述符,但未来的“黄金描述符集”无疑将融合新的技术进展。随着计算能力的提升和算法的成熟,三维(3D)描述符(如分子形状和药效团距离)将扮演更重要的角色。更令人兴奋的是,深度学习衍生的“学习”描述符,例如从图神经网络(GNN)或化学自编码器(autoencoder)的潜在空间(latent space)中提取的特征向量,展现出巨大的潜力 22。这些方法能够自动从数据中学习到高度信息化的特征表示,可能超越人类手工设计的描述符。当这些新兴方法的最佳实践在文献中得到更广泛的建立和验证后,将它们整合到下一代的优化描述符集中,将是推动ADMET预测能力迈向新高度的关键一步。