Mendelevium
Drug Design
Field Knowledge
Biology
Physics
Machine Learning & AI
Active Learning
Boltz-2
Interpretability
Mol2Image
Representations
Molecular Dynamics
Free Energy Calculation
Modeling Tools
QM
Nano Polymers
Software & Tools
Techniques
about
Home
Contact
Copyright © 2025 Xufan Gao | Academic Research Blog
Home
>
Machine Learning & AI
> Interpretability
A Bunch of Biophysics is Loading ...
Interpretability
Making Black Boxes Transparent: Interpretable pKa Prediction Models via Atomic Sensitivity Analysis
“黑箱”的透明化:BCL-XpKa通过原子敏感性分析实现可解释的pKa预测模型 Title: Interpretable Deep-Learning pKa Prediction for Small Molecule Drugs via Atomic Sensitivity Analysis Authors: Joseph DeCorte,* Benjamin Brown, Rathmell Jeffrey, and Jens Meiler https://doi.org/10.1021/acs.jcim.4c01472 Cite This: J. Chem. Inf. Model. 2025, 65, 101-113 一、 论文整体概览 1. 摘要、背景与科学问题 摘要翻译 机器学习(ML)模型如今在预测药物研发所必需的性质方面扮演着至关重要的角色,例如药物的对数尺度酸解离常数(pKa)。尽管近期在架构上取得了进展,但由于缺乏基准真实数据,这些模型在面对新化合物时常常泛化能力不佳。此外,这些模型也缺乏可解释性。为此,通过精心设计的分子嵌入,可以通过观察模型对输入分子进行原子扰动后的响应,来获取化学结构中的原子级分辨率信息。在此,我们提出了BCL-XpKa,一个基于深度神经网络(DNN)的多任务分类器,用于pKa预测,它通过Mol2D描述符来编码局部原子环境。BCL-XpKa为每个分子输出一个离散分布,该分布存储了pKa预测值以及模型对该分子的不确定性。BCL-XpKa能很好地泛化到新的小分子上,其性能与现代ML pKa预测器相当,在泛化任务中优于多个模型,并能准确模拟常见分子修饰对分子可电离性的影响。然后,我们通过原子敏感性分析(ASA)利用BCL-XpKa的精细描述符集和以分布为中心的输出,该分析无需重新训练模型即可将分子的预测pKa值分解为其各自的原子贡献。ASA揭示了BCL-XpKa已经隐式地学习到了关于分子亚结构的高分辨率信息。我们进一步通过在93.2%的复杂小分子酸和87.8%的碱中识别电离位点,展示了ASA在为蛋白质-配体对接准备结构方面的效用。最后,我们应用带有BCL-XpKa的ASA方法,识别并优化了一款最近发表的KRAS降解PROTAC的物理化学缺陷。 背景 在计算辅助药物研发领域,准确预测化合物在体内的行为(如生物利用度、溶解度等)对于节约研发时间和成本至关重要。其中,分子的酸解离常数(pKa)是一个决定其在生理pH下电离状态的关键物理化学性质,深刻影响着药物的吸收、分布、代谢、排泄和毒性(ADMET)。 传统的预测方法中,量子力学(QM)计算能够提供与实验相当的精度,但其巨大的计算成本使其无法应用于药物发现早期阶段对数以亿计化合物的虚拟高通量筛选(vHTS)。因此,机器学习(ML)方法,特别是定量结构-活性/性质关系(QSAR/QSPR)模型,因其极高的预测速度而成为主流。这些模型通过分子指纹或图神经网络(GNNs)等方式将化学结构转化为数学表示,并学习结构与性质之间的关系。 本文解决的科学问题总结 尽管ML方法取得了巨大成功,但仍面临两大核心挑战,这也是本文着力解决的科学问题: 性能与泛化问题:现有的ML模型大多依赖于数量有限的高质量实验数据进行训练,这常常导致模型在面对训练集中未见过的、新颖的化学骨架时泛化能力差,容易过拟合。 可解释性问题:大多数先进的ML模型(尤其是深度学习模型)如同一个“黑箱”,我们很难理解模型是基于分子的哪些具体结构特征做出某一特定预测的。这种可解释性的缺乏阻碍了我们对模型预测结果的信任,也使得我们难以从模型的“智慧”中获得化学洞见来指导后续的药物设计。 本文旨在通过创新的模型架构(BCL-XpKa)和新颖的可解释性分析方法(ASA)来同时应对这两个挑战。 mindmap root(可解释性pKa预测分析思路) )为可解释性服务的模型架构( ::icon(fa fa-cogs) **多任务分类(MTC)架构** **核心思路**<br/>预测pKa落入离散区间的概率分布 **关键产出**<br/>输出**概率分布**而非单个值<br/>为ASA提供可比较的分布 **附加价值**<br/>分布的标准差可作为**模型不确定度** **局部原子描述符(Mol2D)** **核心思路**<br/>仅编码原子及其一阶邻居<br/>使模型对单原子扰动更敏感 **关键特性**<br/>**可逆性**:描述符可直接映射回化学亚结构<br/>是实现归因分析的基础 )原子敏感性分析(ASA)( ::icon(fa fa-atom) **核心方法:基于扰动的归因** **扰动方式**<br/>将目标杂原子替换为同构的碳原子 **差异量化**<br/>用**KL散度**衡量扰动前后<br/>模型输出的pKa概率分布差异 **分数计算**<br/>通过指数函数放大KL散度<br/>得到最终ASA分数 **应用一:识别关键电离位点** **做法**<br/>寻找分子中ASA分数最高的原子 **结论**<br/>高分原子大概率是主要质子化或去质子化位点 **价值**<br/>快速标注分子质子态<br/>用于对接或MD模拟前的结构准备 **应用二:洞察模型学习到的化学知识** **做法**<br/>分析特定亚结构在不同化学环境下的ASA分数变化 **化学原理验证**<br/>**诱导效应**:邻近吸电子或给电子基团<br/>会相应降低或提高碱性氮的ASA分数 **上下文理解**<br/>模型能区分局部环境相同但整体有别的基团<br/>(如咪唑 vs. 吲哚) **研究启发**<br/>验证模型是否学到真实的化学规则<br/>增加对“黑箱”预测的信任 **应用三:指导先导化合物优化** **完整工作流**<br/>1. **定位缺陷**:用ASA找到导致不良pKa的原子<br/>2. **提出方案**:对高分原子进行生物电子等排替换<br/>3. **快速验证**:用模型预测新分子的pKa<br/>4. **结构确认**:用对接等方法确认活性 2. BCL-XpKa 模型简介 作者首先构建了一个名为 BCL-XpKa 的pKa预测模型,其核心是一个多层感知机(MLP)。该模型的设计巧妙,集成了几个关键特性: 分类而非回归(Multitask Classification, MTC):不同于传统模型直接预测一个连续的pKa值,BCL-XpKa将pKa范围划分为多个离散的“桶”(bins),并预测分子的pKa值落入每个“桶”的概率。最终的pKa值是这个概率分布的期望值。这种做法的好处是: 可以直接从输出分布的标准差中读出模型对预测的不确定度。 通过识别模型在哪些分子上表现出“高不确定性”或“高置信度但高错误率”,可以指导训练数据的优化。 在性能上与回归模型相当,甚至略优。 双模型架构:为了处理既有酸性基团又有碱性基团的复杂分子,作者分别训练了 BCL-XpKaAcid 和 BCL-XpKaBase 两个模型,用于分别预测一个分子中酸性最强和碱性最强的pKa值。 图1:BCL-XpKa的架构评估 (A) BCL-XpKa 使用独立的模型来预测分子的酸性和碱性pKa值。它使用 Mol2D 局部原子环境描述符来嵌入分子,然后使用一个多层感知机(MLP)来对pKa值所属的1-pKa单位区间进行分类。区间边缘交替包含和不包含端点。极值区间(pKa≤0, pKa>12)在其无界的一侧是开放的。 (B) 用于pKa预测的多任务分类误差随“桶”尺寸的增加而变化。小的“桶”允许更高的精度,但每个桶的数据更少;而大的“桶”精度较低,但每个桶的数据更多。 (C) BCL-XpKa与使用相同分子描述符和训练集训练的最佳性能回归架构在两个外部测试集上的性能对比。 (D) “留下一类” (leave-class-out, LCO) 方法,其中一种分子亚结构被从模型训练中移除,并在之后用作结构新颖的测试集。 (E) 模型误差由LCO亚结构和描述符类型决定。 (F) LCO亚结构的误差与包含该亚结构的TS-Acid或TS-Base分子数量的关系。 3. Mol2D 描述符为何对 ASA 至关重要? BCL-XpKa模型选择使用 Mol2D 描述符 而非更复杂的GNN,这是实现原子级别可解释性(ASA)的基石。参考其原始论文 BCL::Mol2D—a robust atom environment descriptor for QSAR modeling and lead optimization,Mol2D 的核心优势在于其设计上的简洁性与可逆性。 核心定义:Mol2D的核心是原子环境(Atom Environment, AE)。一个 AE 是以某个原子为中心,包含其周围一定化学键距离内的原子及其成键信息。BCL-XpKa使用的是 height=1 的AE,这意味着它只考虑中心原子和与它直接相连的邻居原子。 与传统指纹的关键区别: 计数而非存在与否:传统指纹(如 Molprint2D)通常是二进制的,只记录某种AE是否“存在”。而 BCL::Mol2D 是一个计数向量,它记录了分子中每种特定AE出现的次数。这提供了更丰富的信息,例如可以区分五元环和六元环。 细粒度的原子类型:Mol2D 不仅考虑元素类型,还考虑了原子的杂化状态/轨道构型(’Atom type’ 编码),这使得它能够区分同样是氮原子,但在不同化学环境下的细微差别。 通用 AE 库:BCL::Mol2D 的描述符向量的每一个维度都对应一个从大型化合物库(超过90万个类药分子)中预先构建好的“通用AE库”中的特定AE。这意味着描述符的索引是固定的,任何分子都可以被映射到这个统一的向量空间中。 可逆性(Reversibility)——实现ASA的关键: 这是 Mol2D 最重要的特性。由于描述符向量的每个索引都唯一地、固定地对应着一个具体的化学亚结构(即一个AE),我们可以从描述符向量反推回它所代表的化学结构。 这种清晰的“描述符-结构”对应关系,使得当我们扰动一个原子时,我们能精确知道是哪些维度的描述符发生了变化。这为衡量模型对特定原子变化的敏感度提供了直接、无歧义的途径。 相比之下,许多复杂的GNN模型其内部表示(节点嵌入)是经过多轮信息传递后高度抽象化的向量,难以直接映射回具体的、独立的原子或化学键贡献,从而使原子级别的归因分析变得非常困难。 4. BCL-XpKa 模型性能与表现总结 BCL-XpKa模型尽管采用了相对简单的多层感知机(MLP)架构,但在多个基准测试中展现了极具竞争力的性能。 与主流预测器的性能对比:在多个外部标准测试集(如Novartis、SAMPL6-8)上,BCL-XpKa的平均绝对误差(MAE)与包括ChemAxon、QupKake以及基于GNN的MolGpKa和Uni-pKa等在内的多种现代pKa预测器不相上下。例如,在Novartis-Acid测试集上,其MAE为0.79。 优秀的泛化能力:模型的核心优势在于其对新化学骨架的泛化能力。在“留下一类”(Leave-Class-Out, LCO)的交叉验证中,模型需要预测从未在训练集中见过的、特定化学亚结构分子的pKa。结果显示,使用Mol2D描述符的BCL-XpKa显著优于使用传统MACCS和Morgan指纹的同等模型,平均MAE分别为1.1(BCL-XpKa)、1.46(MACCS)和1.20(MFP2)。 准确捕捉化学趋势:模型不仅能预测绝对pKa值,更能准确地再现微小化学修饰所引起的pKa变化趋势。例如,在包含71对仅有细微结构差异的分子测试中,BCL-XpKa能够正确预测pKa变化方向的比例高达81.7%。这对于指导药物化学中的先导化合物优化尤为重要。 数据策略的有效性:该研究还表明,尽管模型主要在预测数据(来自ChEMBL)上进行训练,但其性能全面优于仅使用少量实验数据训练的同等模型(BCL-MLP-MTC-EO),证实了在大规模预测数据基础上进行训练策略的有效性。 二、 原子敏感性分析(ASA)方法细节与应用 这部分是该研究的核心。原子敏感性分析(Atomic Sensitivity Analysis, ASA) 的设计初衷是:在不重新训练模型的情况下,将模型对整个分子的pKa预测值“分解”到每个原子上,从而理解哪个原子或基团对最终的预测贡献最大。 1. ASA的核心原理 ASA的核心思想是“基于扰动的敏感性分析”。它通过系统性地、有物理意义地扰动分子中的每一个原子,并观察模型预测结果的变化剧烈程度,来判断该原子对原始预测的重要性。如果对某个原子的微小改动导致了模型预测结果的巨大变化,那么这个原子就被认为是“敏感的”或“重要的”。 2. ASA的具体实施步骤 graph TD subgraph "ASA 核心流程(针对单个原子)" A["**第1步:父本预测**<br/>将原始分子输入BCL-XpKa<br/>获得pKa概率分布 P_parent"] --> B; B["**第2步:原子扰动**<br/>将分子中的杂原子 a<br/>替换为同构的碳原子<br/>生成'扰动分子'"] --> C; C["**第3步:扰动预测**<br/>将'扰动分子'输入模型<br/>获得新的pKa概率分布 P_perturbed"] --> D; D["**第4步:量化差异**<br/>计算两个分布的差异<br/>使用Kullback-Leibler (KL)散度<br/>D_KL(P_perturbed || P_parent)"] --> E; E["**第5步:计算ASA分数**<br/>通过经验公式放大信号<br/>ASA(a) = exp[S * D_KL] - 1<br/>得到原子 a 的敏感性分数"] end style A fill:#e3f2fd,stroke:#1e88e5,stroke-width:2px style B fill:#fff3e0,stroke:#ef6c00,stroke-width:2px style C fill:#e3f2fd,stroke:#1e88e5,stroke-width:2px style D fill:#e8f5e9,stroke:#2e7d32,stroke-width:2px style E fill:#f3e5f5,stroke:#6a1b9a,stroke-width:2px 第1步:获取父本分子的预测分布:将原始的、未经修改的“父本分子”(parent molecule)输入到BCL-XpKa模型中,获取模型输出的pKa概率分布 Pparent。 第2步:对单个原子进行扰动:遍历分子中的每一个杂原子(非碳、氢原子),将其替换为一个保持价态和杂化状态正确的碳原子。 第3-4步:获取扰动分布并量化差异:将这个新的“扰动分子”输入到同一个BCL-XpKa模型中,获取其pKa概率分布 Pperturbed,并使用Kullback-Leibler(KL)散度来衡量 Pparent 和 Pperturbed 这两个概率分布的差异。 第5步:计算最终的ASA分数:原始的KL散度值需要经过一步经验性的去噪和放大,才能得到最终的ASA分数。其计算公式为: \(\text{ASA}(\text{atom } a) = e^{[S \cdot D_{KL}(P_{\text{perturbed}} || P_{\text{parent}})]} - 1\) 这个公式通过指数函数非线性地放大差异,使得影响显著的原子的分数远高于影响微弱的原子。 3. ASA的分析思路与应用 识别关键功能位点(Ionization Site Identification) 做法是直接找出分子中ASA分数最高的原子。这通常就是模型认为的、决定该分子pKa值的主要电离/质子化位点。论文在Novartis测试集上进行了验证,该测试集中的酸性分子平均有2.93个潜在电离亚结构,碱性分子平均有2.61个。ASA方法在识别最酸性原子时达到了灵敏度96.6%和特异性82.9%,在识别最碱性亚结构时也表现出色。这种方法的直接应用是在药物研发早期,可以快速、批量地为化合物库中的分子标注质子化状态,为后续的对接、MD模拟等步骤提供更准确的输入结构。 图3:用于分子分析的原子敏感性 (A) ASA协议示意图。“扰动pKa分布”和“父本pKa分布”指的是由BCL-XpKa输出的离散分布。 (B) 一个由BCL-XpKaAcid评分的酸的ASA分数示例。在这里,磺酰胺的氮原子被正确地选择为比其他潜在的酸性亚结构更具酸性。 (C) 一个由BCL-XpKaBase评分的碱的ASA分数示例。 (D) 一个碱,其中酰胺的氧原子在存在更具碱性的氮原子的情况下,主导了ASA分数。这种情况在61个含酰胺的碱性化合物中出现了4次。 (E) 用于BCL-XpKaBase分解的阳性(蓝色)和阴性(红色)对照亚结构的ASA分数。 (F) 通过添加一个胺基来调节吡啶氮的ASA分数,示例显示在x轴下方。ns = 不显著。*** = p < 0.001。 洞察模型的“化学知识”与学习机制(Probing Model Learning) 做法是比较同一官能团在不同化学环境下的ASA分数,或比较局部环境相同但整体化学性质迥异的基团。论文发现,邻近的吸电子基团(EWG)会显著降低吡啶氮的ASA分数(即降低其碱性贡献),而给电子基团(EDG)则会提高其分数(见图4F)。例如,在图2D的分子系列中,将哌啶(pKa 11.2,预测10.45)芳构化为吡啶(pKa 5.20,预测5.45),其碱性显著下降,模型准确地捕捉了这一趋势。这证明了模型虽然只学习了局部原子环境,但隐式地捕捉到了上下文依赖的化学规则。这种分析可以用来验证模型是否学到了正确的化学知识,而不是仅仅记住了某些表观特征,从而增加我们对模型预测的信任度。 图4:亚结构的原子敏感性分析 (A-D) 常见亚结构在作为分子的主要电离位点时与存在更主要电离位点时的ASA分数小提琴图。 (E) 常见亚结构在作为主要电离位点时的ASA分数小提琴图。 (F) 相邻的吸电子基团(EWG)和给电子基团(EDG)对吡啶氮ASA分数的影响,通过ASA分数的变化(ΔASA)来衡量。 (G) 分子对称性对ASA分数的“掩蔽效应”。 指导先导化合物的理性优化(Lead Optimization) 这是一个非常实用的应用场景,也是可以借鉴的完整工作流。论文以一个已知的KRAS降解剂PROTAC(P-1, PDB: 8QU8)为例,该分子与靶蛋白形成的复合物中,其连接臂上的一个叔胺与KRAS的Q62残基形成了关键的盐桥相互作用(图5A-B)。 流程: 问题定位:ASA分析显示,这个叔胺氮原子具有最高的ASA分数(12.1),确认了它就是导致PROTAC在生理条件下可能质子化的主要碱性位点(图5C)。而这种质子化状态不利于细胞膜通透性。 提出优化方案:针对这个高分子的叔胺,进行生物电子等排替换,例如将其替换为酰胺,设计出候选分子P-2(图5D)。 快速虚拟验证:BCL-XpKa模型预测P-2的pKa值显著降低至3.23,成功消除了碱性。 结构验证:通过对接模拟发现,新的P-2分子依然能够与KRAS的Q62残基形成一个关键的氢键,保持了必要的结合模式(图5F-H)。 结论:这个流程展示了如何利用ASA精确定位分子的物化性质缺陷来源,并指导进行高效、理性的化学修饰,从而在保持活性的前提下优化类药性。 图5:用于药物设计的原子敏感性分析 (A) 泛KRAS降解PROTAC P-1与VHL和KRAS形成的三元复合物的晶体结构(PDB: 8QU8)。 (B) PROTAC P-1,其pKa由BCL-XpKaBase计算为6.51。 (C) P-1连接臂中氮原子的ASA分数。 (D) 提出的P-1连接臂生物电子等排替换修饰及其由BCL-XpKa预测的pKa值。 (E) P-1和P-2对接到8QU8中VHL-KRAS蛋白-蛋白相互作用界面的三元复合物模型全局视图。 (F-H) 8QU8晶体结构和P-2酰胺修饰的结合位点视图,显示它们支持相似的PROTAC构象,并保留了与KRAS Q62的氢键。 三、 ASA的局限性与未来方向 作者在论文的讨论部分明确提到了当前框架的一些局限性,这对于我们借鉴和改进该方法至关重要。 仅限于原子级别:ASA旨在识别单个原子对预测的贡献,但不能直接输出“官能团级别”的贡献。一个原子的影响往往与它所在的整个官能团或药效团紧密相关,而ASA目前无法直接解耦这种集体效应。 对非直接电离原子的影响处理不完美:一些本身不电离但能显著影响pKa的原子(例如,通过强诱导效应或共振效应)偶尔会得到异常高的分数,从而干扰对真正电离位点的判断。例如,在一个含有酰胺的碱性分子中,有少数情况是酰胺的氧原子(本身不质子化)得到了最高的ASA分数,这可能是因为它被扰动后对分子整体电子云的改变过大,从而“掩盖”了真正的质子化位点。 扰动方式单一:将杂原子替换为碳是一种有意义但简化的扰动方式。对于某些复杂的化学环境,这种替换可能无法完全反映该原子在真实化学修饰中的作用。 未来方向: 指导数据增强:通过ASA识别出模型预测不佳或不确定的化学结构类型,可以指导性地扩充训练集,从而提升模型的性能和泛化能力。 整合到药物发现工作流:作者致力于将ASA整合到更大的药物发现工作流中,例如用于超大规模虚拟筛选(vHTS)的分子库预处理,以确保正确的分子质子化状态,提高筛选的命中率。 拓展到其他性质预测:论文提出,未来可以将ASA的思想应用于ADMET(吸收、分布、代谢、排泄、毒性)等更复杂性质的预测模型中,以理解和优化这些关键的药物属性。
Machine Learning & AI
· 2025-06-12
Deconstructing Blood-Brain Barrier Permeability: An Interpretable Multimodal Deep Ensemble Framework
解构血脑屏障渗透性:一个可解释的多模态深度集成框架 一、 论文整体概览 1. 论文基本信息 标题:Interpretable Multimodal Deep Ensemble Framework Dissecting Blood–brain Barrier Permeability with Molecular Features 中文译名:使用分子特征解构血脑屏障渗透性的可解释多模态深度集成框架 期刊:The Journal of Physical Chemistry Letters DOI: 10.1021/acs.jpclett.5c01077 发表年份:2025 Citation: J. Phys. Chem. Lett. 2025, 16, 5806-5819 2. 摘要、背景与科学问题 摘要翻译 血脑屏障渗透性(BBBP)预测在药物发现过程中扮演着关键角色,特别是对于靶向中枢神经系统(CNS)的化合物。尽管机器学习(ML)已显著推动了BBBP的预测,但目前仍迫切需要能够揭示调控BBB渗透性的物理化学原理的可解释性ML模型。在本研究中,我们提出了一个多模态ML框架,该框架整合了分子指纹(Morgan, MACCS, RDK)和图像特征以改进BBBP预测。分类任务(BBB可渗透 vs. 不可渗透)通过一个结合了多个基础分类器的堆叠集成模型来解决。在可比较的评估设置下,所提出的框架与近期的方法相比,展示了有竞争力的预测稳定性、泛化能力和特征可解释性。除了预测性能,我们的框架还结合了主成分分析(PCA)和沙普利加性解释(SHAP)分析,以突显对预测有贡献的关键指纹特征。回归任务(logBB值预测)则通过一个多输入深度学习框架来解决,该框架包含一个用于处理指纹的Transformer编码器,一个用于提取图像特征的卷积神经网络(CNN),以及一个用于增强特征交互的多头注意力融合机制。从多模态特征中提取的注意力图(Attention maps)揭示了分子表示内部的令牌(token)级关系。这项工作提供了一个可解释的框架,用于以增强的透明度和机理洞察力来建模BBBP,并为未来结合透明描述符和物理信息特征的研究奠定了基础。 背景与科学问题 血脑屏障(BBB)是保护中枢神经系统(CNS)的关键生理屏障,但它也成为CNS药物研发的巨大障碍。准确预测一个候选药物能否穿透BBB,是其成药性的决定性因素之一。传统的实验方法成本高昂且耗时,因此开发快速、准确且可靠的计算模型至关重要。 近年来,机器学习(ML)和深度学习(DL)模型在BBBP预测上取得了很高的准确率。然而,这些高性能的模型往往像一个“黑箱”,研究人员难以理解其做出特定预测的具体依据。这种可解释性的缺失不仅阻碍了我们对模型预测的信任,更重要的是,我们无法从模型学到的知识中提炼出清晰的、指导性的化学规则来辅助新药的理性设计。 因此,本文的核心科学问题是:如何在保证高预测精度的前提下,构建一个透明、可解释的BBBP预测框架,从而不仅“知其然”(预测结果),更能“知其所以然”(揭示分子结构与BBB渗透性之间的构效关系)? mindmap root(可解释性分析思路与实践) )特征集质量初评( ::icon(fa fa-flask) **PCA降维可视化** **核心思路**<br/>在建模之前快速评估特征集的质量与判别能力 **关键发现**<br/>MACCS指纹比Morgan指纹<br/>能更有效地分离BBB正负样本 **研究启发**<br/>这是筛选有效分子表示方法的一种重要且高效的前置步骤 )模型归因分析( ::icon(fa fa-search-plus) **SHAP值分析** **核心思路**<br/>定量计算每个“分子亚结构”对最终预测的贡献度 **高贡献度(高SHAP值)的关键亚结构** MACCS_43<br/>极性官能团(氢键供体/受体、磺酸盐) MACCS_39<br/>亚硫酸(酯) MACCS_37<br/>氨基酰胺(如脲结构) **化学原理验证** **极性表面积(PSA)原理**<br/>极性基团(如MACCS_43)增加PSA从而**降低**穿透脂质血脑屏障的能力<br/>(表现为高的负SHAP值) **卤化效应**<br/>MACCS_46(溴代基团)的负贡献可能源于分子量增加或代谢不稳定 **上下文依赖性** **结论**<br/>亚结构的最终效果受到<br/>分子整体拓扑和周围化学环境的共同调节 **具体表现**<br/>同一亚结构(如MACCS_38)在不同分子中可产生相反的SHAP贡献 **研究启发**<br/>为药物化学家提供**可操作的优化线索**<br/>指导基于构效关系的**理性药物设计** )深度模型内部机制探索( ::icon(fa fa-project-diagram) **注意力图可视化** **核心思路**<br/>揭示Transformer等深度模型在预测时“关注”的特征区域 **两种分析模式** **内部结构注意力**<br/>分析指纹序列内部各部分的重要性 **跨模态注意力**<br/>分析“指纹特征”与“图像空间区域”的关联 **关键发现**<br/>模型注意力会**从模糊逐渐聚焦**<br/>到化学上有意义的区域<br/>(例如`C=C`和`C-O-C`官能团) **研究启发**<br/>验证深度模型是否抓住了**正确的物理化学特征**<br/>为理解复杂模型的**内部工作机制**提供直观窗口 3. 模型框架总结 为解决上述问题,作者提出了一个多模态深度集成框架,其核心是融合不同来源的分子信息来提供更丰富的表征。 多模态特征输入:模型不依赖于单一的分子表示,而是同时整合了多种信息。其中分子指纹(Morgan、MACCS 和 RDK)和2D分子图像特征是两大核心输入模态。 指纹与模型的使用方式:论文中的框架分别针对分类和回归两个任务设计了不同的模型。在评估时,Morgan、MACCS和RDK这三种指纹是分开独立使用的,即用每一种指纹分别训练和评估模型,以比较不同分子表示方法的效果。它们并未融合成一个单一的巨大特征向量。 双任务模型架构:图2中展示的(a)和(b)是针对两个不同任务的两种独立模型。 分类模型(图2a,BBB+ vs. BBB-):该模型仅使用分子指纹作为输入。它采用一个堆叠集成模型(Stacking Ensemble Model)。该模型将多个基础分类器(如逻辑回归、随机森林、XGBoost等)的预测结果作为元特征(meta-features),再由一个最终的分类器进行综合决策,以提高模型的稳定性和泛化能力。 回归模型(图2b,logBB值预测):该模型采用了多模态输入,即同时使用分子指纹和2D分子图像。它是一个更复杂的多输入深度学习网络,使用Transformer处理序列化的指纹特征,用CNN处理图像特征,最后通过多头注意力机制(Multi-Head Attention)将这两种不同模态的特征进行深度融合。 图像特征的价值:论文明确提出,通过多模态融合来丰富分子表示是其核心策略之一。在回归模型中,作者专门设计了CNN和注意力模块来处理和融合图像特征。结论部分也强调,多样化分子模态的融合(即指纹+图像)结合透明的归因技术,能够提供更准确和有意义的预测。PCA分析(图8 e,f)显示,在与MACCS和RDK指纹融合后,特征空间的解释方差有所提升或保持高位,这表明图像特征确实为模型提供了有价值的互补信息,特别是在通过跨模态注意力分析揭示两种特征的关联时,其价值更为凸显。 二、 核心可解释性方法与发现 本文的亮点在于系统性地应用了多种前沿的可解释性技术来剖析其模型,从不同维度揭示了BBBP的分子层面的驱动因素。 1. 特征空间分析:PCA降维可视化 在进行复杂的模型解释之前,作者首先使用了主成分分析(PCA)这一经典的无监督降维方法,来直观地评估不同分子指纹对BBB+/BBB-两类分子的区分能力。 做法与发现: 将所有分子的Morgan指纹和MACCS指纹分别通过PCA降到二维空间进行可视化。 图6(a)显示,在使用Morgan指纹时,BBB+(红色)和BBB-(蓝色)两类分子的数据点严重重叠,难以区分,且前两个主成分仅能解释总方差的极小部分(PC1: 1.36%, PC2: 1.16%)。这表明Morgan指纹生成的特征向量虽然信息量大,但可能过于稀疏或其线性组合难以捕捉到类别间的清晰界限。 相比之下,图6(b)显示,在使用MACCS指纹时,两类分子的数据点形成了相对清晰可分的簇,且前两个主成分解释了更多的方差(PC1: 11.31%, PC2: 8.0%)。这说明MACCS指纹定义的166个预设化学亚结构,能够更有效地捕捉与BBB渗透性相关的结构差异。 应用与价值:PCA分析虽然简单,但它是在建模之前快速评估特征集质量和判别能力的有效手段。通过这种方法,作者在早期就得出结论:MACCS指纹在这种二元分类任务中比Morgan指纹更具信息量,这为后续选择MACCS作为主要特征进行SHAP分析提供了依据。 2. SHAP分析:量化分子指纹的贡献 SHAP(Shapley Additive Explanations)是一种源于合作博弈论的模型解释方法,它可以为单个样本的预测结果计算出每个输入特征的贡献值(SHAP值)。一个正的SHAP值表示该特征将预测推向正类(如BBB+),负值则推向负类(如BBB-)。 做法与发现: 作者对表现最好的分类模型(基于MACCS指纹的堆叠模型)进行了SHAP分析。图6(c)的蜂群图(Beeswarm plot)直观地展示了所有测试样本中,对模型影响最大的前几个MACCS指紋特征。 关键特征识别:分析发现,MACCS_43(通常代表富含氢键供体/受体和磺酸盐的极性官能团)、MACCS_39(O-S(=O)O)、MACCS_37(N-C(=O)N)和MACCS_38(N-C(-C)-N)等特征具有最高的平均SHAP值,表明它们对模型的预测有决定性影响。 化学意义的验证:图6(d)展示了包含这些关键亚结构的具体分子示例。例如,MACCS_43 在一个分子中贡献了+0.130的正SHAP值,而在另一个分子中贡献了-0.169的负SHAP值。这与化学直觉相符:极性基团通常会增加分子的极性表面积(PSA),从而降低其穿透富含脂质的血脑屏障的能力(对应负的SHAP值,预测为BBB-)。MACCS_46(代表溴代亚结构)的SHAP值为负,这可能是因为过度卤化会增加分子量或引入代谢不稳定性,从而整体上降低了渗透性。 上下文依赖性:SHAP分析还揭示了亚结构贡献的上下文依赖性。例如,MACCS_38(对称的二胺结构)在某些分子中贡献为正(+0.108),而在另一些分子中为负(-0.057),这表明其最终效果受到分子整体拓扑结构和周围化学环境的调节。 应用与价值:SHAP提供了一种强大的、定量的手段,可以将抽象的模型预测归因于具体的、化学家可以理解的分子亚结构。这使得模型的决策过程不再是“黑箱”,而是可以被验证和理解的。论文指出,这种由SHAP引导的分析为以结构功能关系为基础的CNS靶向药物设计提供了可操作的见解。虽然本文未直接展示用SHAP结果指导模型调优或新实验,但其揭示的关键特征无疑可以用于指导特征工程(例如,构建仅包含最重要特征的简化模型)或提出需要通过实验验证的化学假说(例如,系统性地修饰MACCS_43代表的基团来验证其对渗透性的影响)。 图6:特征分析与SHAP可解释性 (a) 使用Morgan特征的BBB+/BBB-样本的前两个主成分(PC)的PCA得分图。 (b) 使用MACCS特征的PCA得分图。 (c) 展示了使用MACCS指纹的模型中,样本级别的SHAP值分布的蜂群图。 (d) 包含关键亚结构的代表性分子的结构可视化,并标注了其对应的SHAP值(pos代表正贡献,neg代表负贡献)。 3. 注意力机制可视化:揭示模型内部焦点 对于用于logBB值预测的多输入深度学习模型,作者利用其核心组件——注意力机制(Attention Mechanism)——来探索模型在进行预测时,其“注意力”集中在哪些特征上。 做法与发现: 内部结构注意力(Intra-Structure Attention):图11(a)展示了Transformer编码器内部的注意力热图。这张图揭示了模型在处理一个分子的指纹序列时,不同指纹“令牌”(tokens)之间的相互依赖关系。 跨模态注意力(Cross-Modal Attention):图11(b)展示了从训练的第1个周期到第50个周期,分子指纹特征和CNN提取的图像特征之间的跨模态注意力图的演化。可以清晰地看到,随着训练的进行,模型逐渐学会将指纹中的特定信息(符号/化学特征)与图像中的特定空间区域(视觉特征)对应起来。模型的注意力从最初的模糊、分散状态,逐渐锐化并聚焦于化学上有意义的区域。 具体案例分析:以一个BBB+的分子divinylether为例,模型的高度注意力权重区域,无论是内部结构注意力还是跨模态注意力,都准确地对应于其分子结构中的关键官能团,如烯烃(C=C)和醚键(C-O-C)。 应用与价值:注意力可视化为理解深度学习模型(特别是基于Transformer的模型)的内部工作机制提供了一个直观的窗口。它能告诉我们模型在做决策时“正在看哪里”,从而验证模型是否抓住了正确的物理化学特征,而不是依赖于数据中的某些伪影或噪声。这种方法为以一种更具机理性的方式理解BBB渗透性提供了支持。 图11:注意力权重的可视化 (a) 代表指纹内部结构的注意力热图。 (B) 从第1个训练周期到第50个训练周期,结合图像特征的跨模态注意力热图的演化过程。 三、 本文的局限性与未来展望 作者在论文的结论部分坦诚地指出了当前工作的局限性,并对未来研究方向进行了展望。 需要更先进的特征选择技术:尽管当前框架表现良好,但未来可以引入更先进的特征选择方法(如LASSO、SHAP-RFE)来进一步优化输入特征,可能会提升模型性能和可解释性。 需要更广泛的外部验证:目前模型的验证主要基于B3DB数据集。为了证明其更广泛的适用性,未来需要在更多、更多样化的外部数据集上进行验证。 计算预测与实验验证的鸿沟:模型最终需要与真实的实验结果相结合。未来的工作需要整合实验分析,以弥合计算预测与药理学现实之间的差距。 展望:作者希望这个可解释的框架能够为药物发现早期阶段CNS活性化合物的设计和优先级排序做出贡献,并为未来融合更多透明化描述符和物理信息特征的研究铺平道路。
Machine Learning & AI
· 2025-06-12
<
>
Touch background to close