Mendelevium
Diary
Drug Design
Field Knowledge
Academia
Yang
Biology
Physics
Free Energy
Machine Learning & AI
Active Learning
Basics
Boltz-2
Data
Generation
Interpretability
QSAR application
Representations
Mol2Image
Workflow & Agent
Molecular Dynamics
FF & Algorithm
Small Molecule
martini
water
Interaction
Modeling & Tools
QM
Sampling & Analysis
Allostery
Fundamental
Other
Specific Sytems
Enzyme Engineering
Fiber & LLPS
Membrane
orientation_penetration
Metal
Nano Polymers
Skin Permeation
Techniques
Linux
Python
Research
Web
about
Home
Contact
Copyright © 2025 Xufan Gao | Academic Research Blog
Home
> Drug Design
A Bunch of Biophysics is Loading ...
Drug Design
对比学习破译DEL口袋模式:从蛋白质语言模型到靶点预测
对比学习破译DEL口袋模式:从蛋白质语言模型到靶点预测(上篇) 本文信息 标题:Deciphering DEL Pocket Patterns through Contrastive Learning 作者:Wenyi Zhang, Yuxing Wang, Rui Zhan, Runtong Qian, Qi Hu, Jing Huang 发表时间:2026年2月(在线发表) 单位:西湖大学生命科学学院,西湖AI治疗实验室,中国杭州 引用格式:Zhang, W., Wang, Y., Zhan, R., Qian, R., Hu, Q., & Huang, J. (2026). Deciphering DEL pocket patterns through contrastive learning. Nature Communications. https://doi.org/10.1038/s41467-026-69663-y 代码与数据:GitHub仓库:https://github.com/JingHuangLab/ErePOC包含完整源代码和数据文件; BioLiP2、AlphaFill和AF2预测的蛋白质结构数据分别来源于BioLiP:https://zhanggroup.org/BioLiP/、AlphaFill:https://alphafill.eu/、AlphaFold:https://alphafold.ebi.ac.uk/download 摘要 DNA编码库(DEL)通过分割池合成和DNA标记技术,实现了针对蛋白质靶点的数万亿分子规模的高通量筛选。尽管DEL技术在药物发现中展现出巨大潜力,但进入临床试验或成功上市的DEL衍生化合物仍然寥寥无几。提高DEL筛选成功率的关键在于深入理解靶蛋白的定义性特征,特别是那些适合DEL筛选的结合口袋特征。然而,现有方法在评估口袋柔性和功能相似性方面仍然存在显著局限。本研究提出了ErePOC(Enhanced representation of POCkets),一种基于ESM-2嵌入的对比学习口袋表征模型,有效解决了这些挑战。ErePOC能够同时捕捉结合口袋的结构和功能特征,揭示DEL靶点之间的共同特征。通过整合低维物理化学性质分析和高维ErePOC嵌入分析,我们提供了DEL靶点空间的全面视图。在下游分类任务中达到约98%的精确率,ErePOC在口袋表征方面表现出卓越性能,进而应用于预测适合DEL筛选的人类蛋白质,在18个蛋白质类别中发现显著富集。 核心结论 DEL口袋的独特物理化学特征:DEL结合口袋在大小和疏水性方面显著区别于常规配体结合口袋,平均体积为3301.2 Å3,比FDA-AD药物口袋大1.3倍,比BioLiP2常规配体口袋大1.2倍,且疏水相互作用占比高达50.7% ErePOC模型的创新性:基于ESM-2蛋白质语言模型和对比学习框架,从326,416个口袋-配体对中学习256维紧凑表示,通过KL散度损失函数对齐配体相似性与口袋相似性,在零样本(zero-shot)与小样本(few-shot)任务中取得约0.98量级的分类准确率 人类蛋白质组的DEL适配性预测:对23,391个人类蛋白质的182,424个口袋进行筛选,识别出2,739个含有DEL兼容口袋的独特蛋白质,氧化还原酶、转移酶、水解酶等18个功能类别显著富集,为DEL技术在更广泛靶点上的应用提供了系统性的靶点优先级排序 背景 DNA编码库(DEL)技术代表了药物发现领域的一项革命性筛选平台,通过分割池合成策略构建包含数十亿至万亿个化合物的超大组合库,每个化合物都通过独特的DNA条形码进行标记。这些DNA标记的化合物随后根据其与特定靶蛋白的亲和力进行筛选,从而高通量地鉴定潜在的药物候选分子。DEL技术已在基于靶点的药物发现中贡献了大量Hit化合物,在SARS-CoV-2 3CL蛋白酶、可溶性环氧化物水解酶、Autotaxin和受体相互作用丝氨酸/苏氨酸激酶1等抑制剂发现中取得了显著成功。 尽管DEL技术具有高通量能力和经济优势,但进入临床试验或成功上市的DEL衍生分子数量相对较低,这在一定程度上反映了我们对靶点可成药性,特别是与DEL分子相容的口袋特征的理解仍然不足。 为克服这些障碍,人工智能与DEL筛选的整合工作逐渐涌现,大多数研究专注于如何从高度噪声的筛选数据中选择更有前景的Hit分子。然而,DEL分子具有由溶液化学和DNA标签连接的结构要求所约束的共同特征,这可能导致它们与靶蛋白口袋产生特定的相互作用模式。从能够结合DEL分子的蛋白质口袋特征角度出发,可以为DEL提供重要见解,从而提高药物发现活动的效率和成功率。 蛋白质语言模型已成为生物研究的强大工具,广泛应用于蛋白质结构预测、性质预测、功能注释以及蛋白质设计和工程等领域。 尽管取得了这些进展,但专门为结合口袋——药物设计中的基本功能单元——设计的大规模语言模型仍然有限。 MASIF:主要依赖于学习蛋白质表面的化学和几何特征 Uni-Mol:利用自监督掩码原子预测来学习口袋结构的表征 PocketAnchor:通过在空间中采样锚点来表征口袋,用于下游口袋检测和结合亲和力预测任务 对比学习是一种自监督表征学习技术,模型通过训练区分相似和不相似的数据对,旨在学习可泛化的特征表征。 将这种技术与预训练的大型蛋白质语言模型(如ESM-2)相结合,可以利用语言模型中编码的进化信息实现零样本(zero-shot)或小样本(few-shot)学习。这种方法在DrugLAMP和PocketDTA等DTI预测方法中已得到有效应用。然而,用于结合口袋的功能分类模型仍然相当缺失。 当前口袋表征方法面临的关键挑战包括:缺乏全面的口袋数据库以及结合口袋固有的结构柔性,这对基于结构的模型构成了重大困难,限制了它们在功能注释和分类方面的有效性。 研究表明,相同配体的结合口袋可能表现出显著的几何差异(如ATP),而蛋白质的全局结构相似性并不总是对应于局部口袋结构的相似性。这些观察突显了当前口袋表征方法的局限性,特别是在区分功能相似的口袋方面。 近期研究强调,精细的口袋表征可以直接实现生物学发现。为应对这些挑战,需要一种更定制的、功能驱动的口袋建模方法,以推进结合口袋的理解和药物发现。 关键科学问题 本研究旨在解决以下核心科学问题: DEL靶点口袋的识别特征:DEL成功靶点的结合口袋在序列组成、物理化学性质和相互作用模式方面具有哪些区别于常规配体结合口袋的独特特征,这些特征如何影响DEL分子的筛选效率和Hit分子质量? 口袋功能相似性的准确度量:如何克服传统3D结构比对方法在评估口袋相似性时的局限性,开发能够捕捉口袋功能相似性而不仅仅是几何相似性的计算方法,从而实现对结合口袋的准确功能分类? 人类蛋白质组的DEL适配性预测:如何利用已知的DEL靶点口袋特征,在全人类蛋白质组范围内系统预测适合DEL筛选的潜在靶点,识别哪些蛋白质功能类别最可能含有DEL兼容的口袋,从而扩展DEL技术的应用范围? 创新点 graph TB subgraph S1["数据准备与特征提取"] direction TB A1["蛋白质-配体复合物<br/>BioLiP2: 326,416个复合物"] --> A2["口袋残基提取<br/>5 Å距离标准"] A2 --> A3["蛋白质序列ESM-2嵌入<br/>1280维/残基"] A3 --> A4["配体ECFP4指纹<br/>2048维"] end subgraph S2["对比学习架构"] direction TB B1["口袋平均池化<br/>1280维口袋向量"] B1 --> B2["两层感知器投影<br/>1280维→256维"] B2 --> B3["配体相似度分布 Q<br/>余弦相似度"] B2 --> B4["口袋相似度分布 P<br/>余弦相似度"] end subgraph S3["对比学习优化"] direction TB C1["KL散度损失函数<br/>KL(P||Q)"] C1 --> C2["最小化损失<br/>对齐P与Q分布"] C2 --> C3["256维ErePOC表征<br/>功能感知的紧凑表示"] end subgraph S4["下游应用"] direction TB D1["功能结合评估<br/>余弦相似度"] D2["结合类型分类<br/>7种配体类型"] D3["药物靶点识别<br/>人类蛋白质组筛选"] end A3 --> B1 A4 --> B3 B3 --> C1 B4 --> C1 C3 --> D1 C3 --> D2 C3 --> D3 本研究在理论、方法和应用层面实现了多项创新: 理论创新:首次系统揭示了DEL靶点口袋的物理化学特征,发现DEL口袋显著大于常规配体口袋且以疏水相互作用为主导,为理解DEL分子的结合偏好和优化策略提供了理论基础 方法创新:提出了ErePOC模型,将蛋白质语言模型(ESM-2)与对比学习相结合,通过KL散度损失函数对齐配体化学相似性与口袋表征相似性,实现了256维紧凑且功能感知的口袋表示,在零样本和小样本学习任务中显著优于传统ESM-2嵌入 应用创新:将ErePOC应用于人类蛋白质组规模预测,从23,391个人类蛋白质中识别出2,739个含有DEL兼容口袋的蛋白质,系统揭示了18个显著富集的蛋白质功能类别,为DEL技术的靶点选择和优先级排序提供了全面的资源 研究内容 本研究旨在识别适合DEL筛选的蛋白质靶点的共享特征,特别关注结合口袋作为分析的核心单元。我们整合了多个数据源,包括BioLiP2和AlphaFill数据集,分别包含实验和预测的配体-蛋白质复合物结构,还精心策划了两个包含DEL分子和FDA批准药物复合物结构的数据集。 我们系统分析了DEL、FDA-AD和BioLiP2数据集中结合口袋的特征,重点关注序列特征、物理化学性质和结合相互作用。研究结构如下: 首先详细分析DEL口袋模式 介绍ErePOC模型的训练和验证用于表征蛋白质口袋 探索口袋景观聚类,比较实验确定和计算预测的结构 预测人类蛋白质中最可能富集于DEL筛选的类别 在全局和局部层面评估其功能作用和结构相似性 DEL口袋的序列与物理化学特征分析 我们通过分析口袋内氨基酸残基的分布,比较了不同结构中的口袋大小。这些结构来源于四个类别: 数据集 口袋数量 描述 BioLiP2数据库 326,416个 标注为常规配体(生物学相关小分子)的条目,使用网络服务器提供的实验注释结合残基定义 AlphaFill数据集 293,019个 包含计算预测的配体-蛋白质复合物结构 DEL数据集 128个 精心策划的包含报告由DEL筛选鉴定的配体 FDA-AD数据集 340个 包含具有实验确定复合物结构的FDA批准药物 对于AlphaFill、DEL和FDA-AD数据集,口袋通过包含距结合配体5 Å内的所有氨基酸残基来生成。为评估这种不一致性的影响,我们使用相同的基于距离的标准重新定义了BioLiP2口袋,并在这个统一定义下重复了所有分析。关键发现在不同定义下保持一致,表明我们的结论对口袋定义的差异具有合理的鲁棒性。 图1:口袋大小分布和氨基酸频率分析。面板A展示使用小提琴图显示四个数据集中口袋残基数量的分布,包括DEL、FDA-AD、BioLiP2和AlphaFill。每个小提琴的宽度代表分布的核密度,中心线表示中位数,数值标签表示每个数据集的平均口袋残基数。样本量分别为:BioLiP2(326,416个口袋)、AlphaFill(293,019个口袋)、DEL(128个口袋)和FDA-AD(340个口袋)。 如图1A所示,BioLiP2、AlphaFill、DEL和FDA-AD口袋中平均残基数分别为12.5、12.5、28.1和16.1。DEL和FDA-AD配体周围更多的残基数可能反映了它们更大的分子尺寸和化学复杂性。 面板B展示DEL、BioLiP2、AlphaFill和FDA-AD数据集中20种氨基酸的相对频率,通过它们在PDB中的相应频率进行归一化,突出显示不同数据集中氨基酸组成的富集或缺失模式。 本研究中DEL和FDA-AD配体的平均分子量分别为560.5和310.9,这些分子通常含有卤素原子和其他庞大功能基团,需要更空间延伸的结合环境。相比之下,常规配体及其口袋已经共同进化,实现了针对生物学需求而非最大结合的优化拟合。 合成药物分子通常通过药物化学努力进行效力和选择性优化,这通常导致比常规配体更大且化学更复杂的支架。它们通常靶向更大、更柔性和动态的蛋白质口袋,能够适应更广泛的相互作用范围。 我们分析了BioLiP2、DEL和FDA-AD数据集中结合口袋的氨基酸频率。为突出组成差异,我们计算了每种氨基酸相对于其在PDB中丰度的富集比例。如图1B所示,甲硫氨酸、酪氨酸、色氨酸和苯丙氨酸是DEL数据集中四种最显著富集的氨基酸。 这四种氨基酸在FDA-AD中也最富集,在药物结合口袋中出现的频率是一般蛋白质中的两倍以上。这些庞大的侧链可能为特定的分子结合提供独特的口袋几何形状,并为疏水和芳香相互作用提供锚点。 与BioLiP2相比,包括甲硫氨酸和亮氨酸在内的疏水氨基酸在DEL和FDA-AD中显著富集。相反,半胱氨酸在药物结合口袋中显示出显著较低的富集。我们注意到我们的分析排除了共价药物分子,这些分子主要与半胱氨酸的巯基反应。 总体而言,我们的分析揭示了DEL和FDA-AD口袋具有相似的氨基酸组成模式,使它们区别于结合常规配体的口袋。 三个数据集的口袋物理化学性质对比 我们使用Fpocket分析了DEL、FDA-AD和BioLiP2数据集中口袋的生化和生物物理性质。六个Fpocket描述符分为三个簇,以比较口袋大小、疏水性和极性。在口袋大小方面,DEL口袋最大,其次是BioLiP2和FDA-AD口袋。DEL口袋还包含更多的α球,而FDA-AD和BioLiP2较少。DEL口袋的平均α球密度也更高,表明DEL口袋通常更开放与暴露。 性质指标 DEL口袋 FDA-AD口袋 BioLiP2口袋 平均体积 3301.2 Å3 2534.1 Å3 2739.5 Å3 α球数量 164.3个 118.8个 106.6个 α球密度 11.0 Å 10.0 Å 10.5 Å 非极性α球比例 50.8% 53.9% 46.2% 极性原子比例 37.3% 36.0% 38.6% 什么是α球? α球(alpha sphere)是Fpocket算法用来描述蛋白质口袋几何特征的虚拟球体——就像用无数小球来填充洞穴以测量其大小和形状。α球数量反映口袋的空间容纳能力,α球密度反映口袋的开阔程度,非极性α球比例则反映口袋的疏水程度。 图2:口袋物理化学性质和配体-口袋相互作用分析。面板A-F展示使用Fpocket计算的口袋物理化学性质,包括体积、α球数量、α球密度、非极性α球比例、平均局部疏水密度和极性原子比例。这些描述符分为三个簇:口袋大小(体积和α球数量)、疏水性(非极性α球比例和平均局部疏水密度)和极性(极性原子比例)。 面板a-c展示使用Arpeggio方法分析的配体-口袋相互作用特征,重点关注疏水相互作用、氢键和极性相互作用。每个表示不同数据集中特定相互作用类型的比例,样本量在源数据中注明。 在疏水性方面,DEL和FDA-AD口袋显示出更高的非极性α球比例和更大的平均局部疏水密度。三种数据集的非极性α球比例各不相同。对于极性相互作用,分布相似。BioLiP2口袋中极性原子的比例最高(38.6%),其次是DEL(37.3%)和FDA-AD(36.0%)。 三种数据集的配体-口袋相互作用类型对比 我们进一步使用Arpeggio方法分析了口袋残基与配体之间的相互作用,发现了显著的差异模式: 相互作用类型 DEL FDA-AD BioLiP2 趋势 疏水相互作用 50.7% 42.9% 32.5% DEL疏水性最强 极性相互作用 6.0% 11.7% 14.5% 递增趋势 氢键相互作用 3.8% 6.7% 9.7% DEL最少 离子相互作用 1.3% 0.7% 3.9% BioLiP2最高 主要发现:DEL结合主要由疏水效应驱动,氢键和极性相互作用显著较少,反映了DEL化合物的早期预优化状态。DEL筛选得到的Hit分子优先结合更大、更疏水的口袋。 这些口袋中的扩展接触区域通过形状互补性增强结合,从而有利于疏水相互作用。这些特征提示了向药物样分子优化的潜在途径——通过平衡极性相互作用来提高结合特异性。 使用Cliff’s δ效应量对关键口袋和口袋-配体相互作用特征进行统计分析,证实了DEL口袋的独特性。 什么是Cliff’s δ效应量? Cliff’s δ是一种非参数效应量指标,用于衡量两个组之间差异的大小,不依赖数据分布假设。δ值范围为-1到1,绝对值越接近1表示差异越大,绝对值越接近0表示差异越小:δ < 0.147为微小效应,0.147 ≤ δ < 0.33为小效应,0.33 ≤ δ < 0.474为中等等效,δ ≥ 0.474为大效应。与p值不同,效应量不仅告诉我们差异是否统计显著,还告诉我们差异的实际大小。 口袋物理化学性质的Cliff’s δ效应量分析 性质指标 DEL vs FDA-AD DEL vs BioLiP2 统计学意义 体积 $\delta = 0.405$ $p < 3.6 \times 10^{-11}$ $\delta = 0.302$ $p < 3.4 \times 10^{-9}$ DEL口袋显著更大 α球数量 $\delta = 0.409$ $p < 3.6 \times 10^{-11}$ $\delta = 0.321$ $p < 3.4 \times 10^{-9}$ 更复杂的口袋结构 α球密度 $\delta = 0.395$ $p < 3.6 \times 10^{-11}$ $\delta = 0.201$ $p < 3.4 \times 10^{-9}$ 更开放与暴露 体积显著增大:DEL口袋在三维空间中占据显著更大的体积,相比FDA-AD靶点和BioLiP2常规配体口袋,所有体积相关指标(体积、α球数量、α球密度)均达到极高的统计显著性($p < 10^{-9}$),表明DEL口袋需要更大的空间来容纳其结合的配体 平衡的极性-非极性组成:DEL口袋表现出平衡的极性-非极性组成,物理化学性质介于FDA-AD和BioLiP2之间,说明DEL口袋既保留了可成药性特征,又具有独特的疏水偏向 相互作用模式的Cliff’s δ效应量分析 相互作用类型 DEL vs FDA-AD DEL vs BioLiP2 相互作用特征 疏水相互作用 $\delta = 0.122$ $\delta = 0.378$ DEL疏水性最强,且与BioLiP2差异更大 氢键相互作用 $\delta = -0.150$ $\delta = -0.392$ DEL显著减少,与BioLiP2差异更明显 极性相互作用 $\delta = -0.207$ $\delta = -0.459$ 递减趋势,DEL最少 疏水接触主导:口袋-配体相互作用分析证实,DEL结合主要由疏水接触主导,正δ值表明DEL的疏水相互作用显著多于FDA-AD和BioLiP2 氢键和极性相互作用减少:氢键和极性相互作用显著减少(δ值为负),表明DEL结合主要由疏水效应驱动,通过最小但功能关键的极性锚定来稳定,这种相互作用模式反映了DEL化合物的早期预优化状态,尚未像FDA批准药物那样进行充分的极性相互作用优化 主成分分析(PCA)进一步证实了这些模式,显示DEL口袋在PCA空间中占据一个独特的区域。PC1主要反映化学组成,包括非极性/极性原子比例和相互作用类型,而PC2主要由结构大小描述符主导,两者共同解释了约75%的方差。 DEL分子与FDA批准药物的分子性质对比 口袋分析与使用MOE获得的分子性质差异一致,揭示了DEL分子的独特性质: 分子性质 DEL分子 FDA批准药物 差异倍数 水溶性 (LogS) -6.49 -3.05 DEL更不溶 疏水性 (cLogP) 3.42 1.44 DEL是FDA的2.4倍 平均分子量 560.5 310.9 DEL更大 关键发现:DEL分子表现出更低的水溶性和更高的疏水性,这解释了为什么DEL分子优先结合更大、更疏水的口袋。虽然DEL口袋共享了FDA-AD靶点的整体可成药性特征,但它们表现出独特的物理化学偏向。 多特征融合的必要性:没有单一特征或简单组合能够区分DEL与FDA-AD或一般蛋白质口袋,这可能是由于口袋结构的广泛变异性,强调需要开发更信息丰富的口袋表征方法。 为什么DEL口袋具有这些特征? 基于对原文的深入分析,DEL口袋表现出大尺寸和高疏水性的特征,其背后的原理可以从分子约束、氨基酸偏好和结合模式三个层面理解: DEL分子的结构约束:DEL分子受到溶液化学反应条件和DNA标签连接的结构要求双重约束,这使得DEL分子倾向于具有共同的化学特征,例如更疏水的骨架和有限的极性官能团,从而导致它们与靶蛋白口袋产生独特的相互作用模式,优先结合更大、更疏水的口袋 氨基酸富集的结构适应性:甲硫氨酸、亮氨酸和缬氨酸等疏水性氨基酸在DEL口袋中显著富集,这并非偶然——这些氨基酸具有更高的侧链柔性,能够允许口袋适应其构象以容纳多样化的配体形状,这种构象灵活性是DEL分子能够成功结合的关键因素 形状互补性驱动:DEL Hit分子的结合更多依赖于口袋形状互补性而非特异性氢键网络,这与DEL分子作为早期发现阶段的苗头化合物的定位一致——它们通过最大化疏水接触和形状匹配来实现初步结合,随后在药物优化阶段再引入更多的极性相互作用以提高结合选择性和类药性 分子性质的协同性:DEL分子本身的物理化学性质与它们结合的口袋特征高度一致——DEL分子表现出更低的水溶性(LogS = -6.49)和更高的疏水性(cLogP = 3.42),这解释了为什么它们优先结合更大、更疏水的口袋,形成疏水—疏水的匹配模式 这种理解表明,DEL口袋的独特特征并非随机出现,而是DEL技术固有的化学约束与靶点选择压力共同演化的结果,反映了DEL筛选在药物发现流程中的早期定位——它旨在快速发现结合起点,而非直接生成高度优化的药物分子。 ErePOC:基于对比学习的增强口袋表征 我们开发了ErePOC(Enhanced representation of POCkets),这是一个基于对比学习的口袋表征模型,在BioLiP2数据集的326,416个口袋-配体对上进行训练。ErePOC的核心思想是:通过配体的化学相似性来学习口袋的功能相似性。 对比学习的核心思想:想象你在整理一个”锁匠铺”,有很多”锁”(蛋白质口袋)和”钥匙”(配体分子)。传统的ESM-2方法只观察锁的材质、大小、形状等物理特征,但不知道这些锁能被哪些钥匙打开。而ErePOC的对比学习方法不仅观察锁的物理特征,还通过实际观察哪些锁能被相似的钥匙打开来学习——如果锁A和锁B都能被相似的钥匙(比如都是ATP分子)打开,就把它们放在架子上相邻的位置。这样,即使你看到一把从未见过的新锁,只要它位于”ATP锁”密集的区域,你就知道它很可能也结合ATP,这就是零样本学习的核心思想。 模型架构:从序列到口袋表征 图3:ErePOC模型架构与训练流程。该图展示了完整的ErePOC模型训练流程,包含三个核心步骤: 数据准备阶段:从BioLiP2数据集中提取口袋残基,使用ESM-2对蛋白质序列进行编码生成1280维残基嵌入,并计算配体的ECFP4指纹 对比学习架构:通过平均池化获得1280维口袋向量,经两层感知器投影至256维潜在空间,分别计算口袋相似度分布P和配体相似度分布Q 对比学习优化:采用KL散度损失函数对齐P和Q分布,学习功能感知的256维紧凑口袋表征。下游应用包括功能结合评估、结合类型分类和药物靶点识别 ErePOC的训练流程包含三个核心步骤: 步骤1:特征提取 口袋表征:使用ESM-2对整个蛋白质序列进行编码,生成每个残基的1280维嵌入向量。对于口袋残基(配体5 Å范围内的残基),通过平均池化获得1280维的口袋级特征向量。这种方法确保空间轮廓捕捉口袋内在的结构信息 配体表征:使用Morgan指纹(ECFP4)将配体编码为2048维的分子指纹 步骤2:降维投影 将1280维口袋嵌入通过两层感知器(带GELU激活函数)投影到256维潜在空间 这个256维向量就是ErePOC的最终口袋表征 步骤3:对比学习优化 对于训练集中的任意两个口袋$i$和$j$,ErePOC计算两种相似度: 口袋相似度 $P_{ij}$:口袋$i$和口袋$j$的256维表征$z_i$和$z_j$之间的余弦相似度 \[P_{ij} = \text{CosineSimilarity}(z_i, z_j) = \frac{z_i \cdot z_j}{\|z_i\| \|z_j\|}\] 配体相似度 $Q_{ij}$:口袋$i$结合的配体与口袋$j$结合的配体之间的余弦相似度(基于2048维Morgan指纹) 模型使用KL散度损失函数对齐这两个相似度分布: \[\mathcal{L} = \sum_i \sum_j P_{ij} \log \frac{P_{ij}}{Q_{ij}}\] KL散度的通俗理解:训练过程中,模型不断调整口袋在潜在空间中的位置,使得地图$P$和地图$Q$尽可能一致。当KL散度最小时,说明模型学会了正确的排列方式:结合相似配体的口袋被放在了一起。 最终,ErePOC为每个口袋学习到一个紧凑的256维表征,有效捕捉结合位点之间的细粒度相似性和关键区别。这种表征不仅包含了口袋的物理化学特征,更重要的是,它反映了口袋的功能特性——即”这个口袋结合什么样的配体”。 通过在训练过程中最小化KL散度损失函数,ErePOC学习到一个256维的潜在空间,其中口袋的位置由它们结合配体的化学性质决定。与传统的交叉熵损失不同,KL散度能够更好地处理分布之间的差异,特别是在配体化学空间的高维和稀疏性质方面。这种功能感知的表征使得模型能够执行零样本学习:即使某些口袋类型在训练期间被完全排除,模型仍然能够基于它们结合配体的化学特征,准确地将其分类和聚类。 听起来还是比较粗糙的一个映射 下一篇将描述ErePOC模型的性能评估和实际应用。
Drug Design
· 2026-03-01
ErePOC应用:人类蛋白质组的DEL适配性预测与验证
ErePOC应用:人类蛋白质组的DEL适配性预测与验证(下篇) 本文是《对比学习破译DEL口袋模式》系列的第二篇,聚焦于ErePOC模型的性能评估和实际应用。第一篇介绍了DEL口袋特征分析和ErePOC方法原理。 研究内容(续) 零样本与小样本学习性能评估 我们使用零样本学习任务评估了我们的模型,以比较从ESM-2嵌入导出的表征与通过ErePOC学习的表征的性能。 我们考虑了一个涉及七种口袋类型的分类任务,每种对应于唯一的配体类型: 配体类型 口袋数量 配体类型 口袋数量 ADP 9,531个 NAD 5,354个 FAD 6,367个 NADP(NAP) 3,997个 HEM 13,312个 COA 1,900个 SAM 1,228个 总共约43,000个从BioLiP2策划的结合口袋。 基于ESM-2和ErePOC表征,图4A和B分别展示了使用t-SNE的这七种结合口袋类型的聚类。结果清楚地表明,对比学习框架为不同的配体/口袋类型生成了良好分离的簇,有效地捕捉了结合口袋的功能和配体特异性特征。 相比之下,缺乏口袋特异性功能注释的ESM-2模型显示口袋类型之间的分离有限。这种比较突显了对比学习在产生用于功能口袋分类的更精细和信息丰富的表征方面的卓越性能。 为评估我们模型的鲁棒性,我们进行了消融研究,其中在对比学习之前从BioLiP2训练数据集中完全排除了两种类型的结合口袋。然后我们评估了模型对被排除的口袋类型进行分类的性能。 图S5展示了各种排除场景的t-SNE可视化,包括ADP和FAD、HEM和ADP、ADP和NAD,以及HEM和SAM口袋的排除场景。 图S5:消融研究中排除口袋类型的t-SNE可视化。该图展示了在不同口袋类型被排除后的模型性能,包括: 面板A-D:ADP和NAD口袋排除场景,展示ESM-2(A、C)和ErePOC(B、D)的表征 面板E-H:HEM和ADP口袋排除场景,展示ESM-2(E、G)和ErePOC(F、H)的表征 面板I-L:ADP和NAD口袋排除场景的重复实验 面板M-P:HEM和SAM口袋排除场景,展示ESM-2(M、O)和ErePOC(N、P)的表征 被排除的口袋类型包括ADP(n = 9,513)、NAD(n = 5,354)、HEM(n = 13,312)和SAM(n = 1,228)。 结果表明,即使对于从训练中排除的口袋,也能保持很强的分类性能。对比学习框架有效地区分了被移除的配体类型,突显了其基于功能和配体结合特征概括和准确分类口袋的能力。 图4:BioLiP2数据集的ErePOC和ESM-2表征的t-SNE可视化。 面板A-B:展示使用ESM-2(A)和ErePOC(B)的7种配体结合口袋景观的可视化,包括ADP、FAD、HEM、NAD、NADP(NAP)、COA和SAM。每种颜色代表一种配体类型,点的聚集程度表示表征模型区分不同功能口袋的能力。 面板C:展示使用ErePOC表征的BioLiP2数据集生成的全局口袋景观,实验确定的代谢物口袋组织成明显的局部区域。 面板D:展示FDA-AD(紫色)和DEL(深灰色)数据集在BioLiP2口袋景观上的投影,显示它们在整个蛋白质空间中的广泛分布,而非局限于特定簇。 这种鲁棒性表明,模型利用训练期间注释的配体信息做出可靠的预测,即使特定配体类型从训练集中缺失。这强调了ErePOC在捕捉和概括关键结合口袋特征方面的有效性。 该方法通过分析来自BioLiP2数据集(实验确定的结构)和AlphaFill数据集(将配体植入AF2预测结构)的ATP-、FAD-和HEM-结合口袋得到进一步验证。 基于ESM-2特征的t-SNE聚类显示口袋类型之间的分离有限。相比之下,ErePOC表征揭示了来自两个数据集的结合相同配体的口袋之间的大量重叠,证明了ErePOC捕捉实验和预测蛋白质-配体复合物之间结构相似性的能力。 此外,使用从BioLiP2数据集中随机选择的500个口袋计算相关系数(如图S7所示)。Pearson相关分析显示,配体Tanimoto相似度与从ErePOC向量导出的口袋余弦相似度之间有0.96的强相关性,突显了ErePOC捕捉有意义的口袋-配体相互作用的禀赋。 此外,从七种配体结合类型中随机选择五个口袋来计算成对余弦相似度。图S8中的热图比较了使用ESM-2嵌入、ErePOC向量和ErePOC转换后的t-SNE 2D投影的相似度结果。 从ErePOC表征计算的余弦相似度有效地区分了不同的口袋类型,而ESM-2的区分能力有限。总之,ErePOC在识别结合具有类似结构特征配体的口袋方面非常熟练。 我们设计了另一个下游分类任务,涉及使用ESM-2和ErePOC表征的小样本学习预测七种配体结合口袋类型。为了独立测试,保留了10%的靶点,确保对模型性能的全面评估。 在这个小样本学习设置中,我们测试了四个模型: ErePOC-NN和ErePOC-SVM:使用从对比学习导出的口袋表征作为输入特征,分别与神经网络(NN)或支持向量机(SVM)分类器配对 ESM2-NN和ESM2-SVM:依赖于直接来自ESM-2的嵌入,利用NN和SVM分类器 图S9比较了这些模型在测试数据集上的性能。ESM2-NN在分类七种配体结合口袋类型方面达到了最高的整体准确率(0.989),其次是ErePOC-NN(0.986)。我们注意到,使用MaSIF表征训练的MaSIF-ligand模型在同一任务上达到了0.74的准确率,尽管结果是在不同的测试集上获得的。 有趣的是,在评估具有RBF核的SVM模型的性能时,ESM2-SVM的准确率显著下降到0.811,而ErePOC-SVM保持了较高准确率0.985。 小样本学习模型性能对比 模型 准确率 分类器 核函数 关键特征 ESM2-NN 0.989 神经网络 - 最高整体准确率 ErePOC-NN 0.986 神经网络 - 接近最优性能 ErePOC-SVM 0.985 支持向量机 RBF 鲁棒性强,泛化能力好 ESM2-SVM 0.811 支持向量机 RBF 性能显著下降 这一显著差异强调了对比学习在生成用于功能口袋分类的鲁棒表征方面的优越性。它还突显了ErePOC概括到多样化或以前未见过的口袋的能力,而ESM-2的预训练特征在这个特定任务上似乎效果较差,没有进一步的微调。 DEL口袋在实验和预测蛋白质景观中的聚类与表征 本研究的首要目标是探索整个蛋白质空间中药物相关和先导结合口袋的分布。使用ErePOC表征,我们将FDA-AD和DEL数据集投影到使用BioLiP2数据集生成的综合口袋景观上。 t-SNE可视化说明,实验确定的代谢物口袋组织成明显的局部区域,证明了ErePOC区分功能口袋的能力。此外,与批准药物分子结合的口袋(FDA-AD,图中紫色显示)在整个蛋白质空间中广泛分布,而不是局限于特定簇,突显了它们的多样性。图4D显示了DEL口袋(深灰色)和FDA-AD口袋的相似分布模式,它们散布在整个潜在空间中。这种空间一致性与之前的Fpocket分析一致——DEL筛选可以进入大多数已知可成药口袋的空间。 ErePOC表征将BioLiP2口袋空间划分为不同的模式,为全局口袋景观提供了关键见解。例如,与SAM或HEM等天然配体结合的口袋在DEL和FDA-AD化学空间中明显缺失,表明这些紧密结合的、辅因子相关的口袋可能不太适合常规DEL筛选。 为了进一步探索口袋景观中的DEL适配区域,我们基于余弦相似度在BioLiP2数据集中识别了每个DEL靶点的五个最近邻居。BioLiP2中共有361个口袋,称为DEL邻居,表现出大于0.8的余弦相似度得分。 使用Fpocket计算的这些DEL邻居的物理化学性质总结在图S13中。DEL邻居的平均口袋体积从1612.84 Å3变化到2038.69 Å3,相对于BioLiP2数据集中天然口袋的平均体积增加了约26.4%。 DEL邻居的平均α球数量从69.35变化到92.35,反映了33.2%的增加,表明更高的结构复杂性。此外,DEL邻居的平均局部疏水密度从14.98增加到21.71,增长44.9%,强调其更显著的疏水性质。 DEL邻居口袋的物化偏移概览 指标 BioLiP2天然口袋均值 DEL邻居均值 相对变化 口袋体积 1612.84 Å3 2038.69 Å3 +26.4% α球数量 69.35 92.35 +33.2% 平均局部疏水密度 14.98 21.71 +44.9% 人类蛋白质组的DEL适配性预测 基于ErePOC对DEL口袋特征的深刻理解,我们进一步将其应用于预测人类蛋白质组中适合DEL筛选的潜在靶点。对AlphaFold预测的23,391个人类蛋白质进行了分析,使用Fpocket识别出182,424个口袋。 在应用过滤标准后,排除了体积小于800 Å3或pLDDT得分低于0.7的口袋。选择800 Å3阈值是基于先前研究建议500 Å3作为最小可成药口袋体积,加上我们观察到DEL结合口袋明显更大的观察结果。 然后使用ErePOC嵌入对这些口袋进行编码,并计算它们与128个已知DEL口袋的余弦相似度,为每个口袋分配最高相似度。 识别出4,774个余弦相似度大于0.8的口袋 在基于UniProt ID去除重复项后,预测出2,739个独特的人类蛋白质含有DEL兼容的口袋 总体预测工作流程如图5A所示。 图5:预测适合DEL筛选的人类蛋白质靶点。 面板A:展示筛选流程,总共分析了AlphaFold预测的23,391个人类蛋白质。Fpocket识别出182,424个口袋,使用ErePOC嵌入进行表征。计算每个DEL口袋与人类口袋之间的余弦相似度,最高相似度得分作为最终得分。余弦相似度大于0.8的人类口袋被认为适合DEL筛选。使用超几何检验确定每个蛋白质的富集得分。 面板B:展示预测含有适合DEL筛选口袋的人类蛋白质比例,与DEL和FDA-AD靶点进行比较。 面板C:展示预测的人类蛋白质中p值小于0.05的富集得分分布,数值标签表示每个功能类别的蛋白质计数,括号中显示精确p值。 预测和已知DEL靶点的功能类别分布对比 功能类别 预测人类蛋白质 已知DEL靶点 已知FDA-AD靶点 转移酶 17.9% 27.1% 20.8% 水解酶 11.6% 17.4% 18.1% 氧化还原酶 9.4% - 14.8% DNA结合蛋白 9.4% - 7.3% 受体 - 9.7% 6.9% 关键发现:转移酶、水解酶、氧化还原酶在预测和已知数据集中都高度富集,表明这些酶类可能具有灵活和可适应的结合口袋,适合DEL筛选。 使用超几何检验计算每个蛋白质类别的富集得分,图5C描绘了p值小于0.05的蛋白质的富集得分分布。值得注意的是,包括氧化还原酶、多功能酶、转移酶、染色质调节因子、裂解酶和异构酶在内的几个类别,在DEL靶点集和预测人类蛋白质数据集中都显示出1.36至6.24范围的富集得分。 此外,在比较预测的DEL-like口袋与FDA-AD-like口袋时,两者呈现出不同的富集偏好:FDA-AD-like口袋更集中于受体、离子通道和异构酶等经典靶点家族,而DEL-like口袋更偏向RNA结合蛋白、染色质调节因子和GTP酶激活剂。这提示DEL筛选可能更适合探索结构更复杂、口袋更柔性的蛋白质家族,同时也反映了膜蛋白在DEL实验中的可操作性限制。 图S14展示了DEL口袋在人类蛋白质中的分布的t-SNE可视化,以及余弦相似度大于0.8的人类蛋白质口袋。与BioLiP2和AlphaFill数据集的发现一致,DEL口袋表现出广泛和多样化的分布。 值得注意的是,与DEL口袋密切相似的人类蛋白质口袋聚集成三个不同的簇。 然而,相当数量的DEL口袋在人类蛋白质中缺乏高度相似的对应物。这种差异可能由于AlphaFold2在预测准确蛋白质结构方面的局限性,或者Fpocket在识别结合口袋方面的潜在不准确性,两者都可能影响在整个人类蛋白质组中检测DEL样口袋的能力。 全局和局部结构比较 图6:预测和已知DEL靶点的全局和局部结构比较。该图展示了对预测和已知DEL靶点中富集的蛋白质类别的全局和局部口袋结构比较的案例研究。使用ErePOC嵌入,计算了每个类别内结合口袋的余弦相似度得分,将具有高余弦相似度和同一蛋白质类别的口袋分组进行全局和局部结构比较。TM-align评估全局结构相似性(TM得分),PPS-align评估口袋级相似性(PS得分)。图中包含8个案例: 面板A-D:氧化还原酶、多功能酶、转移酶和水解酶类别中的案例,在潜在表征空间中高相似,但全局和局部结构不相似 面板E-F:裂解酶和染色质调节因子类别中的案例,在所有三个相似性指标上都高度一致 面板G-H:异构酶和RNA结合蛋白类别中的案例,余弦相似度较高但局部口袋相似性中等或偏低 两个得分范围从0到1,较高值表示更相似的拓扑结构。具体而言,PS得分大于0.46表示口袋具有相似结构。 氧化还原酶、多功能酶、转移酶和水解酶类别中的四个代表性案例(图6A-D)在潜在表征空间中表现出高相似性,尽管在全局蛋白质和局部口袋结构上不相似。 这些案例表明,对比学习可能捕捉到结合口袋之间的潜在功能或物理化学关系,这些关系不能完全通过全局蛋白质折叠或局部几何相似性来解释。 在早期的观察中已经报道了类似的发现,即结合相同配体(如ATP)的口袋表现出相当大的几何多样性,并且功能关联可以在不同的结构折叠中检测到。尽管需要进一步的实验证据来证实我们预测中的这些关系,但这些发现表明,基于嵌入的相似性可以提供传统结构比对方法的信息补充,并为未来的探索提供假设。 与上述案例相反,我们也识别出了在潜在口袋表征空间和全局及局部结构中都一致高相似性的实例。裂解酶和染色质调节因子类别中的两个示例(图6E-F)在所有三个相似性指标上都表现出高度一致性:余弦相似度(0.85和0.94)、TM得分(0.99和0.96)和PS得分(0.54和0.54)。 图6案例的三指标对比表 面板与类别 余弦相似度(CS) 口袋相似性(PS) 全局相似性(TM) A 氧化还原酶 0.99 0.35 0.26 B 多功能酶 0.82 0.31 0.43 C 转移酶 0.86 0.29 0.38 D 水解酶 0.87 0.35 0.27 E 裂解酶 0.85 0.54 0.99 F 染色质调节因子 0.94 0.54 0.96 G 异构酶 0.81 0.24 0.85 H RNA结合蛋白 0.81 0.43 0.75 这些案例代表更传统的相似性情景,其中全局和局部结构对齐与功能相关。 异构酶类别的FKBP2靶点(图6G)与已知DEL靶点共享0.85的TM得分,表明强的全局结构相似性。然而,它们的口袋相似性得分仅为0.24,可能是由于结合口袋的柔性延伸性质,这严重限制了局部结构的刚体3D比对的有效性。尽管如此,ErePOC在口袋潜在空间中识别出0.81的高余弦相似度,合理地表明FKBP2也应该是一个可被DEL分子进入的靶点。 我们的分析不限于UniProt中注释的功能类别。例如,ErePOC识别出RNA结合蛋白NOP56(UniProt:Q8TAS1)和SAM依赖甲基转移酶TrmD(PDB:1UA2)之间潜在的配体结合相似性,尽管它们具有不同的经典生物学作用。 中等TM得分(0.75)表明共享Rossmann样折叠,而中等PS得分(0.43)表明局部口袋结构差异。然而,ErePOC识别出0.81的高余弦相似度,表明尽管缺乏明显的功能或结构关联,这两个口袋在潜在功能空间中是相似的。 这一观察意味着靶向TrmD催化口袋的DEL衍生化学物质可能具有与其他具有类似结构特征的RNA修饰酶相互作用的能力。 作为进一步验证,我们设计了一个针对14个选定人类靶点的大规模计算机内DEL筛选实验,以比较DEL富集家族与DEL中性家族的结合倾向差异。 六个靶点来自不同的DEL富集功能家族,并且口袋与已知DEL口袋的ErePOC余弦相似度大于0.8: 功能类别 UniProt ID 功能类别 UniProt ID 染色质调节因子 O15294 裂解酶 P43166 水解酶 P03951 多功能酶 P14060 异构酶 P26885 RNA结合蛋白 Q8TAS1 作为对照组,六个靶点来自DEL中性家族,同样包含与已知DEL口袋余弦相似度大于0.8的口袋: 功能类别 UniProt ID 功能类别 UniProt ID 信号转导抑制因子 O14508 有丝分裂原 Q9H706 延伸因子 P43897 肌动蛋白封帽蛋白 P47756 降压相关蛋白 P68871 细胞周期蛋白 Q5T5M9 另外加入MAT2A(P31153)和MAT2B(Q9NZL9)作为家族级案例研究。 虚拟筛选使用了一个公开的DEL虚拟库,约280万个分子,来自HitGen OpenDEL三轮反应库的15个子库,不包含DNA标签,代表off-bead合成的小分子化合物。 虚拟筛选结果对比 指标 DEL富集家族 DEL中性家族 差异显著性 平均Z分数 $-2.18$ $-1.07$ DEL富集家族更负 平均对接分数 $-7.45~\mathrm{kcal\cdot mol^{-1}}$ $-6.15~\mathrm{kcal\cdot mol^{-1}}$ DEL富集家族更低 前1%化合物对接分数范围 $-8.93$至$-11.96~\mathrm{kcal\cdot mol^{-1}}$ $-5.49$至$-9.73~\mathrm{kcal\cdot mol^{-1}}$ DEL富集家族显著更低 前1%化合物Z分数范围 $-1.54$至$-3.73$ $+0.95$至$-2.12$ DEL富集家族更负 表格集中呈现平均Z分数、平均对接分数、前1%对接分数范围与前1% Z分数范围,清晰显示DEL富集家族靶点在虚拟筛选中的优势表现。 这些差异在统计检验与Monte Carlo重采样中均保持显著,支持ErePOC识别的DEL富集口袋更适合DEL筛选。 Q&A Q1:ErePOC使用KL散度作为对比学习的损失函数,这与传统的交叉熵损失或三元组损失(triplet loss)相比有什么优势?为什么选择KL散度来对齐配体相似度分布和口袋相似度分布? A1:KL散度在ErePOC中的应用具有独特的理论优势。KL散度衡量两个概率分布之间的差异,天然适合处理分布对齐问题。在ErePOC中,我们将配体相似度$Q(i)$和口袋相似度$P(i)$都建模为分布,而非单点相似度值,这使得模型能够学习更丰富的关系。 与triplet loss相比,KL散度不需要显式地定义正负样本对,减少了超参数调优的复杂性。更重要的是,KL散度对长尾分布更加鲁棒,这在药物化学空间中尤为重要,因为某些配体类别(如ATP结合蛋白)样本量巨大,而其他类别样本稀少。 交叉熵损失倾向于在类别不平衡时偏向多数类,而KL散度通过最小化整个分布的差异,能够更好地处理这种不平衡。实验结果表明,这种设计使得ErePOC在零样本学习任务中表现出色,即使某些配体类型完全从训练集中排除,模型仍能准确分类和聚类这些口袋。 Q2:DEL口袋被识别为更大、更疏水的特征,这与传统药物发现的“Lipinski规则”中强调的极性表面积和氢键似乎矛盾。如何理解DEL分子的这种独特性质,以及对药物优化的启示是什么? A2:这是一个深刻的观察,实际上反映了DEL筛选与传统药物发现处于药物发现流程的不同阶段。DEL技术主要用于苗头化合物发现,而非先导化合物优化阶段。 DEL分子受DNA标记连接和溶液化学的限制,倾向于含有疏水芳环和有限的可旋转键,这导致它们优先识别大而疏水的口袋,通过形状互补和疏水效应实现结合。本研究发现DEL分子具有: 更低的水溶性($\mathrm{LogS} = -6.49$ vs $-3.05$) 更高的疏水性($\mathrm{cLogP} = 3.42$ vs 1.44) 然而,DEL分子并非最终的药物,它们是药物发现的起点。一旦通过DEL识别出苗头化合物,药物化学家会通过引入极性官能团、优化氢键网络来提高结合选择性和类药性,最终将偏向DEL的疏水口袋转化为更类药的平衡口袋。 DEL的独特性质不是对Lipinski规则的违背,而是药物发现的早期策略——通过最大化疏水接触来快速发现结合起点,然后在后续优化中引入极性相互作用。 Q3:研究中选择0.8作为余弦相似度阈值的依据是什么?这个阈值在不同蛋白质家族中是否需要调整?假阳性和假阴性的主要来源是什么? A3:0.8的余弦相似度阈值是基于多个考虑的经验选择。 首先,在BioLiP2数据集的分析中,研究者发现已知DEL靶点的五个最近邻居中,361个口袋的余弦相似度大于0.8,这些“DEL邻居”口袋的物理性质(体积、α球数量、疏水密度)显著大于一般BioLiP2口袋,与DEL口袋的特征一致,支持0.8作为功能相似性的合理阈值。 其次,在小样本学习验证中,ErePOC-SVM模型达到0.985的准确率,表明模型在高相似度区域具有可靠的判别能力。 然而,这个阈值在不同蛋白质家族中可能需要调整。例如,对于G蛋白偶联受体(GPCR)这类具有保守7次跨膜螺旋结构的蛋白家族,口袋相似度的基线分布可能不同,0.8可能过于严格或宽松。 假阳性的主要来源包括: AlphaFold2在预测柔性环区和无序区域时的不准确性 Fpocket对大而浅口袋的过度识别 某些蛋白质在apo状态下与holo状态下的构象差异 假阴性则可能由于: 蛋白质翻译后修饰(如磷酸化、糖基化)未在结构中考虑 别构调节位点的复杂性 某些蛋白质需要特定辅因子或膜环境才能形成功能性口袋 本研究通过计算机内DEL筛选实验对14个人类靶点进行验证,显示DEL富集家族的对接Z分数与对接分数整体更有利,且在前1%化合物的对接分数范围上明显优于DEL中性家族,支持0.8阈值在靶点优先级排序上的实用性,但也说明在具体应用中仍需实验验证和可能的人工调整。 关键结论与批判性总结 本研究通过系统分析128个成功DEL筛选靶点的结合口袋特征,揭示了DEL口袋的独特物理化学性质,并开发了ErePOC模型用于功能感知的口袋表征。 主要发现包括DEL口袋显著大于常规配体口袋(平均体积3301.2 Å3 vs 2739.5 Å3),以疏水相互作用为主导(50.7% vs 32.5%),以及甲硫氨酸、酪氨酸、色氨酸和苯丙氨酸的显著富集。 ErePOC模型通过对比学习,在BioLiP2数据集的326,416个口袋-配体对上训练,实现了256维紧凑口袋表征,在下游分类任务中达到约98%量级的精确率。将ErePOC应用于人类蛋白质组预测,识别出2,739个含有DEL兼容口袋的独特蛋白质,氧化还原酶、转移酶、水解酶等18个功能类别显著富集,为DEL技术的靶点选择提供了系统性资源。 潜在影响 这项研究为DEL领域的靶点选择和优先级排序提供了首个系统性的计算框架。通过揭示DEL口袋的物理化学特征并提供人类蛋白质组的DEL适配性预测,ErePOC可以帮助研究团队在启动DEL筛选项目之前评估靶点的可行性,从而提高筛选成功率和资源利用效率。 主要应用场景包括: 为DEL技术的靶点选择提供系统性资源 共价抑制剂设计和蛋白-蛋白相互作用抑制剂开发 其他需要功能感知口袋表征的药物发现场景 该研究还展示了蛋白质语言模型(ESM-2)与结构数据结合的强大能力,为AI驱动的药物发现提供了方法论范例。 局限性 研究存在几个重要局限性: 核心局限性: 数据集规模限制:DEL数据集相对较小(128个靶点),可能不足以捕捉DEL靶点空间的全貌 3D信息缺失:ErePOC缺乏口袋的3D几何和动力学信息,可能限制其对构象变化剧烈的口袋的表征能力 阈值缺乏实验验证:使用0.8的余弦相似度阈值缺乏大规模实验验证,假阳性和假阴性率仍有待评估
Drug Design
· 2026-03-01
双管齐下:CADD筛选发现SARS-CoV-2 RdRp双位点小分子抑制剂
双管齐下:计算机筛选同时发现能靶向SARS-CoV-2聚合酶两个位点的小分子抑制剂 本文信息 标题:通过计算机辅助药物发现方法鉴定出能阻断病毒复制的、可双位点抑制SARS-CoV-2 RNA依赖性RNA聚合酶的小分子 作者:Paolo Malune, Daniela Iaconis, Candida Manelfi, Stefano Giunta, Roberta Emmolo, Filippo Lunghini, Annalaura Paulis, Carmine Talarico, Angela Corona, Andrea Rosario Beccari, Enzo Tramontano, Francesca Esposito* 发表时间:2025年9月26日 单位:意大利卡利亚里大学(University of Cagliari)、意大利Dompe制药公司EXSCALATE平台 引用格式:Malune, P., Iaconis, D., Manelfi, C., Giunta, S., Emmolo, R., Lunghini, F., Paulis, A., Talarico, C., Corona, A., Beccari, A. R., Tramontano, E., & Esposito, F. (2025). Dual-Site Inhibition of SARS-CoV-2 RNA-Dependent RNA Polymerase by Small Molecules Able to Block Viral Replication Identified through a Computer-Aided Drug Discovery Approach. ACS Infectious Diseases, 11(9), 2821–2835. https://doi.org/10.1021/acsinfecdis.5c00517 摘要 自2019年底出现以来,SARS-CoV-2(COVID-19的病原体)持续在全球传播,截至2025年3月报告的死亡病例已超过700万。在病毒的非结构蛋白中,nsp12作为RNA依赖性RNA聚合酶(RdRp),与其辅助因子nsp7和nsp8共同介导病毒基因组的复制和转录。迄今为止,只有两种靶向SARS-CoV-2 nsp12的核苷类似物(瑞德西韦和莫努匹拉韦)获得FDA授权用于COVID-19治疗。为满足对额外安全有效抗病毒药物的需求,我们利用EXSCALATE平台,针对SARS-CoV-2 nsp12/7/8复合物,筛选了两个广泛的“安全用于人体”化合物库(>9000个)和天然化合物库(>249,000个),靶向正构位点和两个变构位点。随后根据对接打分显著性、靶点新颖性和临床安全性筛选化合物。前119名候选分子随后在生化实验中被评估抑制SARS-CoV-2 nsp12/7/8聚合酶活性的潜力,42个化合物被鉴定出具有抑制能力,其中4个显示出纳摩尔或低微摩尔范围的IC50和EC50值。在基于细胞的实验中评估它们对SARS-CoV-2复制的效力时,它们被证实在相同浓度范围内具有抑制作用。作用机制研究揭示了不同的抑制模式。这些结果为开发靶向RdRp活性位点和变构位点的新型抗SARS-CoV-2化合物奠定了基础,进一步表明计算机辅助药物发现(CADD) 方法与实验验证相结合,可为加速抗病毒药物研发提供基础。 核心结论 高效虚拟筛选:通过对超过25万个化合物(包括已上市或临床阶段药物及天然产物)进行大规模分子对接虚拟筛选,成功将候选范围从数万缩小至百余个。 发现新型抑制剂:经过生化与细胞实验验证,从筛选出的119个分子中,最终鉴定出4个能有效抑制SARS-CoV-2 RdRp酶活性和病毒复制的先导化合物,其IC50/EC50值在纳摩尔至低微摩尔范围。 明确双位点作用机制:研究发现,效力最强的两个化合物(孟加拉玫瑰红和维奈托克)分别结合于RdRp的催化活性中心和掌状区的变构位点,并通过动力学实验证实了它们分别为混合型和非竞争性抑制剂。 揭示“老药新用”潜力:发现的先导化合物中包括孟加拉玫瑰红(一种历史悠久的诊断染料)和维奈托克(一种已获批的BCL-2抑制剂抗癌药),为药物重定位策略抗病毒提供了新线索。 背景 SARS-CoV-2疫情已持续数年,尽管疫苗和部分抗病毒药物已投入使用,但病毒仍在持续演变和传播,给全球公共卫生带来长期压力。病毒基因组复制和转录的核心机器——RNA依赖性RNA聚合酶(RdRp),因其在病毒生命周期中的关键作用及在RNA病毒间的保守性,成为极具吸引力的抗病毒药物靶点。 目前,仅有少数靶向SARS-CoV-2 RdRp的药物获得批准,且各自存在局限。瑞德西韦作为核苷类似物,其疗效仍在评估中;莫努匹拉韦因其诱变机制可能促进病毒变异,已在欧洲撤市。这凸显了开发具有新作用机制、更高安全性RdRp抑制剂的紧迫性。 传统的药物发现耗时长、成本高。计算机辅助药物发现(CADD) 技术,特别是大规模的虚拟筛选,能够快速从海量化合物库中锁定潜在苗头化合物,极大加速了早期发现进程。其中,针对已具备良好人用安全性数据的化合物库(“老药”或临床阶段药物)进行筛选的药物重定位策略,因能显著缩短研发周期和降低风险而备受青睐。 关键科学问题 如何超越现有核苷类似物:能否发现不依赖于链终止或诱变机制的新型、高效、非核苷类SARS-CoV-2 RdRp抑制剂? 如何应对靶点变异性:除了高度保守的催化活性中心,能否靶向RdRp的其他变构位点,以提供更广谱或更难产生耐药性的抑制策略? 如何加速发现进程:如何将大规模计算筛选(CADD)与高效实验验证紧密结合,快速、可靠地从数十万化合物中甄别出有潜力的先导分子? 创新点 大规模多靶点虚拟筛选:首次对包含上市药物、临床阶段化合物及大量天然产物的超大规模化合物库,针对SARS-CoV-2 RdRp复合物的一个正构位点和两个变构位点同时进行系统性的分子对接筛选。 严格的“从计算到实验”验证流程:建立了从虚拟对接→基于新颖性和打分筛选→生化酶活抑制验证→细胞水平抗病毒验证→作用机制与动力学研究的完整闭环研究体系。 发现双作用位点的先导化合物:不仅发现了抑制活性位点的化合物(如孟加拉玫瑰红),更鉴定出作用于掌状区变构位点的抑制剂(如维奈托克),并阐明了其不同的抑制动力学模式。 研究内容 整体研究策略与筛选流程 本研究采用了一种计算与实验紧密结合的策略来发现新型SARS-CoV-2 RdRp抑制剂。核心思路是:首先利用高性能计算平台对超大规模化合物库进行分子对接虚拟筛选,快速聚焦到少量高潜力候选分子;然后通过一系列逐步严格的生物化学和细胞生物学实验,验证这些候选分子的抑制活性、抗病毒效果和作用机制。 整个研究过程可以通过下面的流程图清晰地展示: graph TB subgraph S1["第一阶段:大规模虚拟筛选"] A["两个化合物库<br/>超过25万个分子"] --> B["分子对接<br/>靶向3个位点"] B --> C["筛选标准"] C --> D1["靶点新颖性<br/>排除已知抑制剂"] C --> D2["对接打分显著性<br/>大于均值加2倍标准差"] C --> D3["临床安全性和可及性<br/>安全人用库优先"] D1 & D2 & D3 --> E["最终候选池:119个化合物"] end subgraph S2["第二阶段:逐级实验验证"] direction LR F["初级生化筛选<br/>浓度100微摩尔<br/>抑制率大于50%"] F --> G["42个初筛阳性化合物"] G --> H["剂量响应曲线测定IC50"] H --> I["13个IC50小于20微摩尔<br/>4个最有效化合物<br/>IC50小于10微摩尔"] I --> K["细胞水平抗病毒实验<br/>测定EC50"] end subgraph S3["第三阶段:深入机理研究"] M1["竞争性动力学实验"] M2["分子动力学模拟<br/>250纳秒模拟"] M1 & M2 --> N["明确结合位点与抑制模式"] end S1 --> S2 --> S3 核心方法详述 1. 虚拟筛选平台与流程 化合物库准备: “安全人用”库:包含约1万个已上市、处于临床阶段或曾中止开发的药物分子,来源于Cortellis、DrugBank等数据库。 天然产物库:包含约25万个来源于天然产物的分子。 所有分子使用Schrödinger LigPrep进行3D结构生成、质子化状态和 tautomer 枚举,并用OPLS3力场进行能量最小化。 蛋白靶点与对接位点: 使用SARS-CoV-2 nsp12/nsp7/nsp8复合物的冷冻电镜结构(PDB:7BV2)。 定义了三个对接位点: 正构位点(催化活性中心):瑞德西韦结合的位置。 变构位点1(掌状区,Palm):靠近NTP进入通道的区域。 变构位点2(拇指区,Thumb):另一个潜在的变构调节区域。 对接引擎与筛选:使用 Dompé 公司专有的 LiGen 对接软件进行刚性几何匹配和打分。筛选标准严格,首先排除文献已报道的RdRp抑制剂,然后保留对接优化打分(CSopt)高于该位点平均值两个标准差以上的分子。对于“安全人用”库的分子,还额外要求其至少通过临床Ⅰ期试验,以确保安全性基础。 2. 生化与细胞实验体系 RdRp酶活测定:建立并优化了基于引物延伸-尿素PAGE的生化实验。使用Cy5标记的RNA引物与模板,在含有纯化的SARS-CoV-2 RTC(nsp12/7/8复合物)的体系中进行反应,通过凝胶电泳和密度定量来评估酶活性和化合物抑制效果(图2)。 图2:SARS-CoV-2 RdRp酶活测定方法的建立与优化。(A)RNA引物/模板示意图,引物5’端用Cy5荧光标记。(B)不同MgCl₂浓度下的RNA延伸产物凝胶电泳图。(C)反应时间进程曲线,显示线性范围约30分钟。(D)nsp12/nsp7/nsp8比例优化结果。 酶动力学参数测定:通过测定不同底物浓度下的初始反应速度,建立酶促反应动力学曲线。使用Lineweaver-Burk双倒数图确定米氏常数($K_M$)和最大反应速度($V_{max}$),为后续抑制剂机制研究提供基础(图3)。 图3:SARS-CoV-2 RdRp酶动力学参数测定。(A,B)RNA底物和(C,D)GTP底物的Michaelis-Menten动力学曲线和Lineweaver-Burk双倒数图,显示RdRp的动力学常数($K_M$:RNA 0.39 nM,GTP 27.4 μM)。 细胞水平抗病毒实验:在Vero E6细胞系中,用SARS-CoV-2病毒感染细胞,并加入不同浓度的化合物。通过噬斑测定法计算病毒滴度,评估化合物抑制病毒复制的效果(EC50)和对细胞的毒性(CC50)。 3. 作用机制研究方法 酶动力学分析:通过测定在不同化合物浓度下,酶促反应速度随底物(RNA模板或GTP)浓度的变化(米氏曲线),并绘制双倒数图(Lineweaver-Burk图),来推断抑制剂的抑制类型(竞争性、非竞争性、混合型等)。 分子动力学模拟:对化合物-蛋白复合物进行250 ns的分子动力学模拟,分析配体与蛋白的均方根偏差(RMSD),评估结合构象的稳定性,从动态角度验证对接结果。 主要研究结果 1. 虚拟筛选成功富集活性分子 如图1所示,通过对两个庞大化合物库的逐步筛选,最终从超过25万个初始分子中,聚焦到119个高潜力候选化合物进行实验测试(47个来自”安全人用”库,72个来自天然产物库)。这种严格的计算机预筛选,为后续高效率的实验验证奠定了基础。 图1:虚拟筛选流程示意图。展示了从超过25万个化合物到最终119个候选分子的筛选流程,包括三个阶段的逐步过滤:虚拟筛选、基于三个标准的计算筛选(靶点新颖性、对接打分显著性、临床安全性),以及最终的实验验证。 2. 发现高效抑制RdRp酶活性的先导化合物 在119个受试化合物中,42个(占35%)在100 μM浓度下能抑制超过50%的RdRp酶活性。进一步测定这42个化合物的半数抑制浓度(IC50),其中13个IC50值低于20 μM,更有4个化合物显示出低于10 μM的强效抑制能力(表1)。 表1:鉴定出的最强效RdRp抑制剂概览 化合物 来源库 预测结合位点 IC50 (μM) 孟加拉玫瑰红 “安全人用”库 催化活性中心 0.25 ± 0.0036 维奈托克 “安全人用”库 掌状区(Palm) 2.37 ± 0.42 3-O-乙酰基-11-酮-β-乳香酸 天然产物库 催化活性中心 4.98 ± 1.44 化合物4 天然产物库 催化活性中心 8.21 ± 4.87 IC50:抑制50% SARS-CoV-2 RTC酶活性所需的化合物浓度。数据为至少3次独立实验的平均值±标准差。 3. 先导化合物在细胞水平有效抑制病毒复制 最关键的一步验证是,这4个在生化水平表现最佳的化合物,能否在真实的病毒感染模型中发挥作用。细胞实验结果表明,它们在纳摩尔至低微摩尔浓度下就能有效抑制SARS-CoV-2的复制,且在该浓度下对宿主细胞无明显毒性(表2)。例如,孟加拉玫瑰红的抗病毒EC50为0.18 μM,选择性指数(CC50/EC50)大于546,显示出优异的治疗窗口。 表2:先导化合物的抗病毒活性与选择性 化合物 EC50 (μM) * CC50 (μM) † 选择性指数 ‡ 孟加拉玫瑰红 0.18 ± 0.02 >100 >546.5 维奈托克 0.85 ± 0.08 >100 >117.9 3-O-乙酰基-11-酮-β-乳香酸 4.81 ± 2.15 >100 >20.8 化合物4 2.61 ± 0.18 >100 >38.36 GC376 (阳性对照) 0.06 ± 0.03 >100 >5,882 EC50:抑制50% SARS-CoV-2复制所需的化合物浓度。†CC50:使50% Vero E6细胞活力下降的化合物浓度。‡选择性指数 = CC50 / EC50。 4. 阐明两种不同的作用机制 对两个效力最强的化合物(孟加拉玫瑰红和维奈托克)进行了深入的机制研究。 孟加拉玫瑰红:混合型抑制催化位点 分子对接预测其结合在催化活性中心,与关键残基Arg553、Arg555和Lys551相互作用(图4)。酶动力学实验显示,它同时影响酶对底物RNA和GTP的表观Vmax和KM值,双倒数图交点在横轴下方,表明它是一种混合型抑制剂(图6)。这可能意味着它既能干扰底物结合,也能影响酶-底物复合物的催化效率。 图4:孟加拉玫瑰红与SARS-CoV-2 nsp12催化位点的预测结合模式。(A)孟加拉玫瑰红(紫色 sticks)与瑞德西韦单磷酸(绿色 sticks,来自PDB 7BV2)在催化位点的结合模式叠加图,显示两者占据相似的结合位置。(B)预测的孟加拉玫瑰红与催化位点关键氨基酸残基(如Arg553、Arg555、Lys551等)的相互作用二维示意图,展示氢键和疏水相互作用网络。 图6:孟加拉玫瑰红对SARS-CoV-2 RdRp的酶动力学抑制曲线。(A,C)不同孟加拉玫瑰红浓度(0、0.1、0.25、0.5、1 μM)下,RNA底物和GTP底物的Michaelis-Menten动力学曲线,显示随着抑制剂浓度增加,Vmax逐渐降低,KM也逐渐变化。(B,D)相应的Lineweaver-Burk双倒数图,直线交点位于第二象限(横轴下方),这是混合型抑制的典型特征。 维奈托克:非竞争性抑制变构位点 对接预测其结合在掌状区的一个变构位点,与Arg836和His439等残基相互作用(图5)。动力学实验表明,它只降低酶促反应的Vmax,而不改变KM,双倒数图显示一组平行线,这是典型的非竞争性抑制剂特征(图7)。这表明维奈托克不直接与底物竞争结合位点,而是通过结合变构位点来降低酶的催化效率。 图5:维奈托克与SARS-CoV-2 nsp12掌状区变构位点的预测结合模式。(A)维奈托克(橙色 sticks)结合在nsp12掌状区变构位点的结合模式图,该位点远离催化中心。(B)预测的维奈托克与该位点氨基酸(Arg836、His439、Asn838等)的相互作用二维示意图,展示氢键和π-π堆积等非共价相互作用。 图7:维奈托克对SARS-CoV-2 RdRp的酶动力学抑制曲线。(A,C)不同维奈托克浓度(0、1、2.5、5、10 μM)下,RNA底物和GTP底物的Michaelis-Menten动力学曲线,显示随着抑制剂浓度增加,Vmax逐渐降低,但KM保持不变。(B,D)相应的Lineweaver-Burk双倒数图,显示一组平行线,这是非竞争性抑制的典型特征。 分子动力学模拟验证结合稳定性 对四个先导化合物的250 ns分子动力学模拟显示(图8、9),孟加拉玫瑰红和AKBA在催化位点的结合构象非常稳定,配体RMSD值在模拟后期趋于平稳,验证了对接预测的可靠性。而维奈托克在变构位点的结合诱导了蛋白构象的显著变化后趋于稳定,nsp12的RMSD值在初始阶段大幅波动后达到平衡,这与其非竞争性抑制通过构象变化发挥作用的机理相符。 图8:催化位点结合剂的分子动力学模拟。(A,C)孟加拉玫瑰红和AKBA在催化位点的配体RMSD随时间变化图,显示在250 ns模拟过程中配体构象保持稳定,RMSD值在2-3 Å范围内波动。(B,D)蛋白-配体复合物的总RMSD随时间变化,证实复合物整体构象稳定。 图9:维奈托克在变构位点的分子动力学模拟。(A)维奈托克配体RMSD随时间变化,显示在初始20 ns内构象调整后趋于稳定。(B)nsp12蛋白RMSD随时间变化,显示在维奈托克结合后蛋白发生显著构象变化(RMSD在3-5 Å),随后达到新的平衡状态,这与变构抑制的机制一致。 Q&A Q1:为什么选择“安全人用”化合物库进行筛选?这在实际药物开发中有什么优势? A1:选择“安全人用”库(包含已上市或完成临床Ⅰ期试验的化合物)进行药物重定位筛选,具有多重显著优势: 安全性已知:这些化合物已经通过了系统的临床前和(部分)临床安全性评价,其人体毒性、药代动力学等数据相对完善,大大降低了后续开发因安全性问题失败的风险。 研发周期短、成本低:相较于从头开发全新化学实体,重定位现有药物可以省去大量的早期药物化学优化、临床前安全评价等工作,能够加速其进入抗病毒临床试验的进程。 可快速应对疫情:在新发突发传染病(如COVID-19大流行)的背景下,这种策略能为快速寻找可用治疗手段提供一条捷径。 Q2:研究中如何区分和验证化合物是作用于催化位点还是变构位点? A2:研究通过计算与实验相结合的策略进行区分和验证: 计算预测:初始的分子对接模拟即针对三个不同的位点(催化位点、掌状区、拇指区)分别进行,根据化合物的最佳对接位置给出初步预测。 动力学实验验证:这是最关键的一步。通过酶促反应动力学分析: 若化合物表现为竞争性抑制(仅改变KM),通常强烈提示其与底物结合在相同或重叠的位点(即催化位点)。 若表现为非竞争性抑制(仅改变Vmax),则强烈提示其结合在不同于底物的变构位点,通过引起酶构象变化来影响催化功能。本研究中的维奈托克即属于此类。 混合型抑制(同时影响KM和Vmax)可能意味着化合物结合在催化位点附近,既能部分阻碍底物进入,又影响催化构象。孟加拉玫瑰红被归为此类。 分子模拟佐证:分子动力学模拟显示,结合在变构位点的维奈托克引起了蛋白构象的显著弛豫,这与变构调节的机理一致。 Q3:论文中提到的先导化合物(如孟加拉玫瑰红、维奈托克)虽然体外活性不错,但它们的“成药性”如何?存在哪些挑战? A3:论文在讨论部分和ADMET分析(表3)中也客观指出了这些先导分子在走向药物时面临的挑战: 理化性质与口服生物利用度:孟加拉玫瑰红和维奈托克分子量很大(>800 Da),且预测的脂溶性和水溶性不理想,这可能导致其口服吸收差,可能需要静脉给药等替代途径。 分布与代谢:所有化合物均被预测难以透过血脑屏障,这对于治疗可能影响中枢神经系统的病毒感染未必是劣势。值得肯定的是,它们均不是CYP3A4抑制剂,降低了引发严重药物相互作用的风险。 关于孟加拉玫瑰红:它是一种已知的光敏剂和蛋白沉淀剂,历史上曾用作诊断染料和局部治疗。其潜在的脱靶效应和光照下的毒性是需要严格评估的安全问题。其出色的体外活性为优化其类似物、降低不良反应指明了方向。 关于维奈托克:作为一种高效的BCL-2抑制剂,其强效的细胞凋亡诱导作用是其抗癌机制,但也可能带来细胞毒性。在抗病毒应用中,需要仔细评估其治疗窗口,确保在抑制病毒所需的剂量下不会对正常细胞造成不可接受的伤害。 关键结论与批判性总结 核心贡献 方法学贡献:成功实践了一套从超大规模虚拟筛选到多层次实验验证的高效计算机辅助药物发现流程,证明了CADD在快速发现抗病毒先导化合物方面的强大能力。 科学发现:鉴定出4个具有纳摩尔至微摩尔级抗SARS-CoV-2活性的新型先导化合物,并首次明确揭示了其中两个(孟加拉玫瑰红和维奈托克)分别通过作用于催化中心和掌状变构位点来抑制RdRp,拓宽了靶向该关键病毒酶的策略。 资源与线索:为抗冠状病毒药物研发提供了新的化合物骨架和明确的变构结合位点信息,这些发现对于设计更高效、更不易产生耐药性的下一代广谱抗病毒药物具有重要参考价值。 局限性 机制验证深度:研究主要通过计算对接和酶动力学间接推断结合位点,缺乏直接的结构生物学证据(如共晶结构或冷冻电镜结构)来最终确证化合物与预测位点的精确结合模式。 成药性挑战:正如Q&A所讨论的,已发现的最强效先导化合物在溶解性、渗透性等类药性质上存在明显缺陷,距离成为理想的口服药物还有很长的化学优化道路要走。 体内效力未知:所有活性数据均来源于体外实验(酶活和细胞感染模型)。这些化合物在动物模型乃至人体内是否依然有效、其药代动力学和安全性如何,是完全未知的,这是未来转化的关键一步。 选择性未充分评估:研究主要关注了对病毒靶点的抑制,但未系统评估这些化合物(尤其是“老药”)对其他重要人体酶或受体的选择性,潜在的脱靶效应需要后续研究。 未来方向 结构生物学验证:通过X射线晶体学或冷冻电镜解析先导化合物与SARS-CoV-2 RdRp复合物的高分辨率结构,为基于结构的理性优化提供蓝图。 先导化合物优化:以孟加拉玫瑰红或维奈托克为起点,进行药物化学改造,旨在保持或提高其抗病毒效力的同时,显著改善其溶解度、代谢稳定性等成药性质。 临床前与体内研究:在更相关的动物感染模型(如人源化ACE2小鼠或仓鼠模型)中评估优化后化合物的体内药效和安全性,这是推进至临床试验的必要前提。 拓展抗病毒谱:鉴于冠状病毒RdRp的保守性,值得测试这些先导化合物对其他冠状病毒(如MERS-CoV、普通感冒冠状病毒)乃至其他具有类似RdRp的RNA病毒是否具有广谱抑制活性。
Drug Design
· 2026-01-15
计算优化GAD65自身抗原肽段:为1型糖尿病免疫疗法设计疫苗候选物
计算优化GAD65自身抗原肽段:为1型糖尿病免疫疗法设计疫苗候选物 本文信息 标题:In Silico Optimization of GAD65114-122 Autoantigen for Potential Type 1 Diabetes Antigen-Specific Immunotherapy 作者:Lei Fu, Kevin Chun Chan, Qinglu Zhong, Damiano Buratto, Song Wu, Ruhong Zhou 发表时间:2025年7月14日投稿,2025年12月9日在线发表 单位:浙江大学定量生物学中心(中国杭州);深圳大学附属第三医院泌尿研究所(中国深圳);浙江大学上海高等研究院(中国上海);哥伦比亚大学化学系(美国纽约) 引用格式:Fu, L., Chan, K. C., Zhong, Q., Buratto, D., Wu, S., & Zhou, R. (2025). In Silico Optimization of GAD65114-122 Autoantigen for Potential Type 1 Diabetes Antigen-Specific Immunotherapy. J. Phys. Chem. B, 129, 12799−12810. https://doi.org/10.1021/acs.jpcb.5c04875 摘要 1型糖尿病是由针对胰岛β细胞抗原的自身反应性T细胞介导的自身免疫疾病,其中识别胰岛自身抗原的CD8+ T细胞发挥核心作用。在HLA-A*02:01个体中,CD8+ T细胞对谷氨酸脱羧酶65(GAD65)的反应性集中在残基114−122区域(VMNILLQYV)。本研究设计了增强了人类白细胞抗原(HLA)结合能力的GAD65114-122模拟表位,作为潜在的1型糖尿病疫苗候选物。通过全原子分子动力学模拟和自由能微扰计算,评估了HLA-A*02:01−GAD65114-122结合的单突变、双突变和交换突变效应。研究结果确定位置3和位置7是增强亲和力的关键位点。位置3倾向于负电荷残基天冬氨酸(N3D)和谷氨酸(N3E)而非天然的天冬酰胺,表明有利的静电相互作用;位置7则偏好中等大小的疏水残基蛋氨酸(Q7M)和异亮氨酸(Q7I)而非天然的谷氨酰胺,增强了结合稳定性。位置3和7的双突变表现出整体加和甚至协同效应,N3D_Q7M、N3D_Q7I、N3E_Q7M和N3E_Q7I双突变体被鉴定为强候选物,可用于进一步的T细胞激活实验验证。本工作为优化1型糖尿病抗原基础疫苗的设计提供了重要启示。 核心结论 通过丙氨酸扫描和全氨基酸突变筛选,确定GAD65114-122肽段的位置3和位置7是优化HLA结合的关键靶点 位置3突变为带负电荷的天冬氨酸(N3D,ΔΔG = −3.73 ± 0.32 kcal/mol)或谷氨酸(N3E,ΔΔG = −1.99 ± 0.55 kcal/mol)可显著增强HLA-A*02:01结合 位置7突变为疏水性的异亮氨酸(Q7I,ΔΔG = −0.57 ± 0.35 kcal/mol)或蛋氨酸(Q7M,ΔΔG = −0.60 ± 0.48 kcal/mol)适度提升结合亲和力 双突变N3D_Q7M展现协同效应(ΔΔG = −4.62 ± 1.12 kcal/mol),超过两个单突变的简单加和 鉴定出六个优化的自身抗原肽段(M1−M6)作为1型糖尿病免疫疗法的潜在疫苗候选物 背景 1型糖尿病(Type 1 Diabetes,T1D)是一种自身免疫性疾病,其特征是机体免疫系统攻击胰腺β细胞,导致胰岛素分泌功能丧失和血糖调节紊乱。尽管胰岛素替代疗法在过去一个世纪里将T1D从致命疾病转变为慢性病,但它并不能治愈疾病,且可能导致多种并发症。T1D的遗传易感性与人类白细胞抗原(HLA)基因密切相关,这进一步证明其自身免疫疾病的本质。 传统的免疫抑制疗法虽然能减轻自身免疫攻击,但其毒副作用限制了临床应用。近年来,抗原特异性免疫疗法作为一种更具选择性的治疗策略受到广泛关注。这种方法旨在通过特异性靶向自身反应性免疫细胞来诱导免疫耐受,从而抑制免疫系统对自身组织的攻击。然而,尽管已识别出多个触发β细胞破坏的T细胞自身抗原表位,这些自身反应性抗原的具体身份仍不完全清楚。 谷氨酸脱羧酶65(GAD65)是T1D中一个重要的自身抗原。HLA-A*02:01限制性的十肽GAD65114-123(VMNILLQYVV)早已被证实能激活CD8+T细胞,后续研究进一步指出,其内部嵌套的九肽GAD65114-122(VMNILLQYV)在预测工具和结合实验中均表现出更强的HLA-A*02:01亲和力。深入分析GAD65114-122与HLA-A*02:01的相互作用机制,有助于说明T1D的自身免疫识别过程并为抗原疫苗设计提供依据。 创新点 首次对GAD65114-122自身抗原肽段进行系统的计算突变筛选,结合分子动力学模拟和自由能微扰计算,精确评估每个残基对HLA结合的贡献 发现位置3带负电荷突变的静电增强机制:通过与HLA-α链Lys66的新形成氢键和静电相互作用显著提升结合 发现位置7疏水性突变通过vdW和静电双重作用机制增强结合,填补了原本不匹配的疏水口袋 首次发现GAD65自身抗原双突变的协同效应,为多位点优化策略提供了实验依据 提出六个优化的抗原肽段序列(包括两个单突变和四个双突变)作为T1D免疫疗法的候选物,为后续实验验证奠定基础 研究内容 研究设计与工作流程 本研究采用计算生物物理学方法系统优化GAD65114-122自身抗原肽段,整体工作流程如图1所示。研究从T1D的免疫学背景出发,针对T细胞攻击β细胞导致胰岛素释放受损的病理过程,聚焦于HLA-抗原-TCR三元复合物中的HLA-抗原相互作用优化。 图1:GAD65114-122自身抗原计算优化的综合表征流程 左上方示意图展示T细胞攻击β细胞,影响胰岛素释放的过程 HLA以红色插头表示,TCR以蓝色插头表示,自身抗原以红色圆圈表示,设计的新抗原以绿色圆圈表示 研究目标是优化新抗原设计 计算优化步骤包括: 结构建模(Modeling):基于PDB 5FA3构建HLA-A*02:01−GAD65114-122复合物初始结构 分子动力学模拟(Molecular Dynamic Simulation):进行3×500 ns的MD模拟验证结构稳定性 自由能微扰计算(Free Energy Perturbation):系统评估突变对结合自由能的影响,包括结合态和自由态的自由能变化 候选物筛选(Potential Candidates):根据ΔΔG值筛选出优化的抗原肽段序列 研究策略遵循“结构-能量-功能”的逻辑链条,首先通过MD模拟获得复合物的动态结构信息,识别关键相互作用位点;随后利用FEP计算定量评估突变效应;最终筛选出增强了HLA结合能力的优化抗原候选物。 方法详述 分子动力学模拟 研究使用GROMACS软件包和CHARMM36全原子力场进行MD模拟。由于HLA-A*02:01−GAD65114-122复合物晶体结构不可获得,研究团队从蛋白质数据库(PDB ID: 5FA3)获取相关结构,并使用VMD软件将肽段序列突变为GAD65114-122(VMNILLQYV)。 模拟参数设置如下: 水模型:TIP3P 离子浓度:0.15 M NaCl,用于中和系统并模拟生理盐浓度 能量最小化:20000步 平衡阶段:10 ns 生产运行:500 ns,时间步长2 fs 系综:NPT系综,温度310 K(人体生理温度),压力1 atm 温度控制:V-rescale恒温器 压力控制:Parrinello-Rahman恒压器 长程静电:PME(粒子网格Ewald)方法 vdW相互作用:力切换函数,范围1.0−1.2 nm 氢键约束:LINCS算法 所有可滴定残基按生理pH值(约7.0)的标准质子化状态建模,肽段的N端和C端分别建模为带电形式(−NH3+和−COO−)。每个体系进行三次独立的500 ns模拟以确保结果的可重复性。 自由能微扰计算 FEP方法是评估突变对结合自由能影响的金标准。由于直接计算绝对结合自由能在计算上非常昂贵,研究采用热力学循环计算相对结合自由能变化ΔΔG(图3A)。 FEP计算的基本公式为: \[\Delta G_i = -kT \ln \langle \exp(-\beta[V(\lambda + \Delta\lambda) - V(\lambda)]) \rangle_\lambda\\ \Delta G = \sum_i \Delta G_i\] 其中$V(\lambda) = (1-\lambda)V_1 + \lambda V_2$,$V_1$和$V_2$分别代表野生型和突变体的势能。当λ从0变化到1时,系统从野生型转变为突变型。 FEP计算参数:本研究采用60个λ窗口、每个窗口600 ps采样,单次突变的结合态和自由态各需36 ns轨迹,并至少重复5次独立运行;综合计算量约为360 ns(36 ns × 5 replicas × 2 states),并使用软核势避免端点奇点。 为了深入理解突变效应的物理本质,研究还进行了自由能分解分析,将总结合自由能ΔΔG分解为van der Waals(vdW)和静电相互作用两个组分。需要注意的是,由于FEP公式的非线性性质,这种分解可能存在路径依赖性和小的耦合项,但仍能提供有价值的物理洞见。 HLA-A*02:01−GAD65114-122复合物的结构特征 研究首先对HLA-A*02:01−GAD65114-122复合物进行了三次独立的500 ns MD模拟,以表征其结构稳定性和动态行为。 图2:HLA-A*02:01−GAD65114-122结构信息 A:500 ns分子动力学模拟后的HLA-A*02:01−GAD65114-122复合物结构。左图为侧视图,右图为俯视图。GAD65114-122肽段以淡紫红色棒状显示,HLA以军校蓝卡通显示。肽段稳定地嵌入HLA结合沟槽中,呈现典型的延伸构象 B:HLA-A*02:01−GAD65114-122复合物分子动力学模拟后肽段的均方根偏差(RMSD)结果。三次独立模拟(trial1、trial2、trial3)的RMSD值在平衡后稳定在0.3−0.5 nm范围内,表明结构达到稳定状态。由于初始结构是通过手动突变而非晶体结构获得,这个RMSD范围是可接受的 C:500 ns分子动力学模拟后HLA结合肽段残基的埋藏比例。核心表位位置(2、3、5、7和9)与HLA保持广泛接触,埋藏比例较高;而位置4、6和8更多暴露于溶剂或潜在的TCR识别界面,埋藏比例较低 结构分析发现GAD65114-122肽段的关键结合特征:锚定残基定义了肽段的姿态,次锚定残基决定了免疫识别的精细调控。 位置2的蛋氨酸(MET)和位置9的缬氨酸(VAL)作为主要锚定残基,牢固地将肽段固定在HLA分子上。位置3的天冬酰胺(ASN)、位置5的亮氨酸(LEU)和位置7的谷氨酰胺(GLN)与HLA分子上的相应口袋有显著相互作用,被识别为次锚定或核心表位残基。 埋藏表面积分析(图2C)进一步证实,核心表位位置(2、3、5、7和9)与HLA保持广泛接触,而位置4、6和8更多暴露于溶剂或潜在的TCR识别界面。MD模拟发现,位置3、5和7可能是优化自身抗原的关键位点。 值得注意的是,研究还检查了基于IEDB数据库和MHC Motif Atlas的HLA-A*02:01结合9-mer肽段的氨基酸偏好性(图S2),结果显示非锚定位点的氨基酸分布相对均匀。这表明传统的统计数据可能不足以指导这些区域的优化,需要更精细的结构和能量分析。 丙氨酸扫描分析:识别关键优化位点 为了系统评估GAD65114-122表位中每个氨基酸对HLA结合的贡献,研究进行了全面的丙氨酸扫描突变分析。丙氨酸扫描是一种经典的突变策略,通过将每个残基逐一替换为丙氨酸(一种小的非极性氨基酸),可以评估该残基侧链对结合的具体贡献。 图3B展示了九个残基丙氨酸扫描的FEP结果,主要发现包括: 锚定残基的关键作用:将位置2的蛋氨酸和位置9的缬氨酸突变为丙氨酸导致结合亲和力显著降低,ΔΔG值分别为6.81 ± 0.28 kcal/mol和1.12 ± 0.29 kcal/mol。这证实了它们作为主要锚定残基对维持肽段-HLA结合的重要性。 优化靶点的识别:位置3(N3A)和位置7(Q7A)的丙氨酸突变对结合亲和力的影响可忽略不计,ΔΔG值分别为0.04 ± 0.32 kcal/mol和−0.04 ± 0.49 kcal/mol。这些接近零的能量变化表明,这些位置的天然残基并非最优,存在通过突变改善结合的潜力。 位置5的限制:位置5的L5A突变导致显著的结合破坏(ΔΔG = 3.8 ± 0.56 kcal/mol),表明该位置的改变可能不利于肽段-HLA结合,因此不适合作为优化靶点。 图3:丙氨酸扫描与单点相互作用分解 (A) FEP热力学循环设计,结合态与自由态的能量变化构成ΔΔG的来源 (B) GAD65114-122丙氨酸扫描结果,突出M2A、V9A导致的亲和力崩塌及N3A、Q7A的可塑性 (C) 3ASN位点与Lys66、His70、Tyr99、Tyr159形成的正电荷口袋相互作用示意 (D) 7GLN位点与疏水口袋的互动,显示极性侧链与口袋性质不匹配 (E) 位置4/5/6/8的经验性单突变FEP,佐证其他位点突变多为能量罚分 自由能分解分析为理解这些效应提供了更深入的物理图景。对于N3A和Q7A突变: N3A:ΔΔGvdW = −0.78 ± 0.95 kcal/mol, ΔΔGelec = 0.87 ± 0.59 kcal/mol。vdW和静电贡献相互抵消,净效应接近零 Q7A:ΔΔGvdW = 2.93 ± 0.79 kcal/mol, ΔΔGelec = −2.73 ± 0.86 kcal/mol。vdW贡献不利(失去了侧链体积),但被有利的静电贡献部分补偿 这些结果为后续的优化策略提供了明确的指导:位置3和位置7是理想的抗原肽段设计候选位点。 单突变优化策略:位置3和位置7的全氨基酸扫描 基于丙氨酸扫描的洞见,研究对位置3和位置7进行了全氨基酸扫描,系统评估所有可能的天然氨基酸替换效应。 图4:肽段位置3和7的FEP结果及突变后的结构信息 A:位置3全氨基酸扫描的单突变FEP结果。N3D和N3E突变显著增强结合(分别为天冬氨酸和谷氨酸),ΔΔG值分别为−3.73 ± 0.32和−1.99 ± 0.55 kcal/mol。大多数其他突变(如疏水性的N3F、N3M、N3W、N3I、N3Y)导致结合能力下降 B:位置7全氨基酸扫描的单突变FEP结果。Q7M和Q7I突变适度增强结合(分别为蛋氨酸和异亮氨酸),ΔΔG值分别为−0.60 ± 0.48和−0.57 ± 0.35 kcal/mol。其他疏水残基如Q7L、Q7V也显示轻微改善 C:N3D和N3E的正向和反向突变FEP结果验证。正向突变(N→D,N→E)显示负ΔΔG值(增强结合),反向突变(D→N,E→N)显示正ΔΔG值(削弱结合),两者大小相近但符号相反,证实了计算的一致性 D:野生型3ASN残基与HLA-A*02:01的相互作用。天冬酰胺侧链主要与Tyr99形成氢键 E:N3D突变体与HLA-A*02:01的相互作用。天冬氨酸的负电荷侧链更深入地嵌入HLA口袋,与Lys66形成稳定的盐桥和氢键,同时保持与Tyr99的相互作用 F:N3E突变体与HLA-A*02:01的相互作用。谷氨酸的负电荷侧链同样与Lys66形成强相互作用,但由于侧链更长,相互作用模式略有不同 位置3的优化:静电互补性 位置3全氨基酸扫描的结果与结构环境高度一致。位置3的次锚定残基位于由HLA-α残基Lys66、His70、Tyr99和Tyr159形成的带正电荷的芳香疏水口袋中。引入负电荷的ASP或GLU可以与带正电荷的Lys66形成有利的静电相互作用和氢键,从而增强结合。 相反,全氨基酸扫描确认,在位置3引入疏水性或其他极性残基(如PHE、MET、TRP、ILE、TYR)会不利地影响结合亲和力,导致焓罚分。这证明位置3对静电互补性最为有利。 图5:位置3(3ASN、N3D和N3E)与HLA-A*02:01相互作用的详细分析 (A) N3D、N3E、Q7I和Q7M的自由能分解。N3D与N3E的静电项占主导 (B) HLA与肽段位置3残基之间的氢键数量分布。突变后平均氢键数显著增加 (C) HLA残基与肽段位置3残基之间的氢键占有率。野生型ASN主要与Tyr99形成氢键,而ASP可稳定地与Lys66形成氢键,偶尔与Tyr99和Tyr159形成氢键;GLU同样与Lys66形成稳定氢键 (D) HLA中Lys66与肽段位置3残基之间的距离分布。ASN突变为ASP或GLU后距离缩短 (E) HLA中Lys66的NZ原子与肽段位置3残基的O原子之间的距离分布。ASN突变为ASP或GLU后距离缩短 (F) 肽段位置3与HLA-A*02:01相互作用的接触原子数。突变后接触原子数增加 为了更深入地理解这些突变如何增强HLA结合,研究团队对N3D、N3E、Q7I和Q7M突变体进行了自由能分解分析(图5A)。结果表明,位置3的N3D和N3E突变的结合增强主要由静电相互作用驱动。这是因为位置3位于由带正电荷的Lys66形成的口袋中,引入的负电荷ASP或GLU能够与Lys66产生强烈的静电吸引。相比之下,位置7的Q7M和Q7I突变则同时受益于vdW和静电相互作用,尽管静电贡献仍占主导。 氢键网络的重塑是位置3优化的关键机制。图5B显示,突变为ASP或GLU后,位置3与HLA之间形成的平均氢键数显著增加。更重要的是,氢键占有率分析(图5C)揭示了氢键伙伴的转变:野生型ASN在位置3主要与Tyr99形成氢键,而突变为ASP后,能够与Lys66稳定形成氢键,并偶尔与Tyr99和Tyr159形成额外氢键。GLU突变同样能与Lys66形成稳定的氢键网络。MD模拟的氢键时间演化分析(图S4)进一步证实了这些氢键在整个模拟过程中的稳定存在。 这种氢键伙伴的转变伴随着空间距离的显著缩短。图5D和5E展示了Lys66与位置3残基之间的距离分布变化:ASN突变为ASP或GLU后,Lys66与位置3残基的整体距离以及Lys66的NZ原子与位置3残基的O原子之间的距离都明显缩短,使得两者之间的静电和氢键相互作用更加紧密。同时,位置3与HLA接触的原子数也相应增加(图5F),表明突变不仅优化了特定相互作用,还增加了整体界面的紧密程度。 这些指标共同表明,带负电荷的ASP或GLU不仅实现局部静电互补,还重塑氢键网络与界面堆积,使位置3成为全局能量优化的杠杆点。 为了验证这些观察结果,研究进行了反向突变(D3N和E3N)的FEP计算(图4C)。结果显示,反向突变破坏HLA结合的程度与正向突变增强结合的程度相似,进一步证明计算的可靠性(图S3)。 此外,研究对N3D和N3E变体进行了三次独立的500 ns MD模拟验证。野生型GAD65114-122和这些变体模拟后的结构快照(图4D−F)显示,位置3的突变使肽段更接近HLA-α残基Lys66,通过额外的静电相互作用增强了结合。 图6:位置3突变引发的3-5位构象与接触变化 (A) 野生型3ASN(VMNILLQYV)与HLA-A*02:01的结合构象,HLA为蓝色卡通、肽段为粉色卡通并突出3-5位残基 (B) N3D突变体(VMDILLQYV)在HLA-A*02:01中的3-5位局部构象 (C) N3E突变体(VMEILLQYV)在HLA-A*02:01中的3-5位局部构象 (D) 残基及整段肽的埋藏比例,突变后位置3、4、5以及整体肽段更深嵌入HLA结合沟槽 (E) 位置4、5与HLA接触原子数,N3D/N3E相较野生型显著增加 (F) 整段肽与HLA的接触原子数统计,突变体比野生型多出约2-3个接触原子 (G) 野生型3ASN的表面表示,肽段3-5位以球棍显示 (H) N3D的表面表示,展示突变后位置4、5更深嵌入结合口袋 (I) N3E的表面表示,同样显示位置4、5的埋藏度提升 前面的分析主要聚焦于突变位点本身的局部结构变化。然而,研究发现位置3的突变不仅影响该位点,还对邻近的位置4和位置5产生显著的长程构象效应。图6A-C对比了野生型3ASN、N3D和N3E突变体中位置3-5残基的分子结构。从结构叠加可以清晰看出,位置3突变为ASP或GLU后,诱导位置4和位置5的侧链向HLA结合沟槽内部偏折,产生了一种”连锁反应”式的构象调整。 这种构象变化带来了整体埋藏度的显著提升。图6D的埋藏比例统计显示,不仅位置3本身的埋藏度增加,位置4、5乃至整条肽段在突变后都更深地嵌入HLA结合沟槽。相应地,位置4和位置5与HLA的接触原子数也增加约1-3个(图6E,F),整条肽段与HLA的接触数同样提升。这表明单个氨基酸的电荷改变能够通过构象耦合效应重塑邻近残基的堆积模式,从而在更大范围内增加界面接触。 表面可视化对比(图6G-I)进一步证实了这一发现。将野生型3ASN、N3D和N3E突变体的肽段-HLA复合物以表面表示展示时,可以看到突变体中位置4和5的残基比野生型更深地埋入HLA,更加完全地填充结合口袋的空隙,从而增加肽段与HLA之间的接触面积。这些发现解释了为何N3D和N3E的ΔΔG值(分别为−3.73和−1.99 kcal/mol)比单纯的局部静电贡献更大——因为它们不仅优化了位置3的相互作用,还通过构象变化改善了整体的界面堆积。 位置7的优化:疏水口袋填充 位置7的全氨基酸扫描发现,将谷氨酰胺突变为中等大小的疏水残基如异亮氨酸(Q7I,ΔΔG = −0.57 ± 0.35 kcal/mol)和蛋氨酸(Q7M,ΔΔG = −0.60 ± 0.48 kcal/mol)可以适度改善HLA结合。 结构分析表明,位置7的谷氨酰胺侧链与由色氨酸、亮氨酸和缬氨酸等HLA残基组成的疏水口袋相互作用。由于口袋的疏水性质和空间限制,极性的GLN残基可能不是最佳匹配。引入中等大小的疏水残基(如ILE或MET)可以更好地占据这个口袋,通过增强的van der Waals和疏水相互作用提升结合稳定性。 自由能分解分析支持这一解释,显示位置7的Q7I和Q7M突变同时受益于vdW和静电相互作用(图5A),尽管静电贡献仍然占主导地位。 双突变分析:加和与协同效应 在确认位置3和位置7是最具潜力的优化位点后,研究进一步评估了交换突变与双突变策略。 首先,位置3/4、3/5、4/5、4/6之间的交换突变被测试为“保守置换”方案。然而,除I4L_L6I外,其余交换突变均削弱了HLA结合,说明简单互换无法改善亲和力。 基于N3D/N3E与Q7I/Q7M的优势单突变,团队构建出4个双突变组合。这些组合的ΔΔG值展示出显著的额外能量收益: N3D_Q7M(3D7M):ΔΔG = −4.62 ± 1.12 kcal/mol N3D_Q7I(3D7I):ΔΔG = −3.54 ± 0.91 kcal/mol N3E_Q7M(3E7M):ΔΔG = −1.85 ± 1.20 kcal/mol N3E_Q7I(3E7I):ΔΔG = −3.61 ± 0.93 kcal/mol 图7:双突变与交换突变的自由能评估 (A) ΔΔG总览显示,位置3/7双突变显著优于3/4或4/5的交换突变 (B) 3D7M、3D7I、3E7M、3E7I的自由能分解,静电与vdW均有贡献,其中3D7M的静电项最突出 (C) 比较双突变与其单突变ΔΔG之和,3D7M与3E7I表现出正向协同效应 (D) 六个候选肽段(M1-M6)的序列与ΔΔG列表,为实验优先级提供参考 自由能分解结果表明,双突变的增强效应由静电和vdW相互作用共同驱动。与位置3的突变相呼应,3D7M中的静电项占主导;而位置7的疏水填充使vdW贡献更加显著。 值得注意的是,双突变并非纯加和。3D7M的ΔΔG比N3D+Q7M之和更负,3E7I亦呈现相似趋势,说明局部电荷与疏水填充存在协同耦合。然而,若单突变本身不利(如L6V、Q7P),则在位置3引入ASP可以抵消部分罚分,但并不会产生协同增益。 最终,研究筛选出两个单突变(M1、M2)和四个双突变(M3-M6)作为候选抗原肽段,见表1。 表1:源自GAD65114-122的候选抗原肽段 名称 序列 ΔΔG (kcal/mol) GAD65WT VMNILLQYV 0 M1(N3D) VMDILLQYV −3.73 M2(N3E) VMEILLQYV −1.99 M3(N3D_Q7M) VMDILLMYV −4.62 M4(N3D_Q7I) VMDILLIYV −3.54 M5(N3E_Q7M) VMEILLMYV −1.85 M6(N3E_Q7I) VMEILLIYV −3.61 这些序列均以最少的突变实现对HLA-A*02:01的显著亲和力提升,为后续体外结合实验、T细胞激活测定和动物模型验证提供了明确路线。 Q&A Q1:增强HLA亲和力是否会放大免疫激活风险? 增强HLA结合是否必然导致更强的免疫激活,是读者最关心的机制问题。作者提出的策略基于“竞争性阻断”机制,而非简单的免疫抑制: 竞争性阻断机制:在T1D患者体内,天然的GAD65自身抗原被HLA-A*02:01呈递给自身反应性CD8+ T细胞,触发对β细胞的免疫攻击。如果引入具有更高HLA结合亲和力的改良抗原(如M1−M6),这些改良抗原会与天然抗原竞争HLA结合位点。由于改良抗原结合更强,它们会优先占据HLA分子,从而减少天然抗原的呈递。 TCR识别的差异:关键在于,虽然改良抗原与HLA的结合更强,但它们与TCR的相互作用可能发生改变(尤其是位置4、6、8等TCR接触位点未被突变)。这可能导致: 降低的TCR亲和力:如果改良抗原-HLA复合物与TCR的结合较弱,即使HLA上呈递的抗原数量不变,T细胞激活的强度也会降低。 改变的信号强度:中等亲和力的pMHC-TCR相互作用可能诱导T细胞耐受或无反应性(anergy),而非激活。 诱导调节性T细胞:在某些情况下,改良抗原可能选择性激活调节性T细胞(Tregs)而非效应T细胞。 剂量与持久性:增强的HLA结合还意味着改良抗原在细胞表面的展示时间更长,这对于诱导免疫耐受(而非激活)非常重要。长时间、低强度的抗原刺激倾向于诱导T细胞耐受。 虽然所有六个候选物(M1−M6)都显示增强的HLA结合,但它们在实际免疫疗法应用中的前景可能存在差异,需要综合考虑多个因素: 结合亲和力的强度差异:M3(N3D_Q7M)表现出最强的HLA结合增强(ΔΔG = −4.62 kcal/mol)并具有协同效应;M4、M6ΔΔG约为−3.5 kcal/mol;M2、M5增幅适度(约−2.0 kcal/mol)。 中等亲和力假说的启示:近期研究(如Singhaviranon et al. 2025 Nat. Immunol.)指出中低亲和力T细胞在慢性疾病模型中更持久;高亲和力T细胞易耗竭。因此M2、M5可能在诱导耐受方面更有优势,而M3、M4更像“强力阻断剂”。 突变位点的免疫原性风险:单突变M1、M2仅改变位置3,对TCR界面影响较小;双突变M3-M6同时改动位置3与7,可能显著改变TCR识别,存在诱发新免疫反应的风险。 抗原加工的考量:引入天冬氨酸/谷氨酸可能改变抗原加工或蛋白酶切割模式;7位的疏水突变可能影响肽段在内质网的转运或装配效率。 实验验证的优先级建议:可先验证单突变M1、M2,再评估协同效应最强的M3,以及免疫耐受潜力较好的M5、M6。 基于以上分析,建议的实验验证优先级为: M1(N3D)和M2(N3E):作为单突变,它们提供了最简洁的概念验证,且M1显示强HLA结合增强 M3(N3D_Q7M):作为显示协同效应的最强结合候选物,值得探索其是否能实现最有效的竞争性阻断 M5和M6:作为适度增强的双突变,可能在诱导免疫耐受方面有独特优势 最终,只有通过体外肽段-HLA结合实验、T细胞激活测定和体内动物模型才能真正确定这些候选物的治疗潜力。计算预测为实验提供了理性的起点和优先级指导,但不能替代实验验证。 需要强调的是,本研究是纯计算预测,实验验证(尤其是T细胞激活实验)对于确认这些改良抗原的实际免疫学效应非常重要。作者在Discussion中也坦诚指出,HLA结合是T细胞识别的必要但非充分条件,抗原加工、表达水平和T细胞库组成等其他因素也会影响免疫原性。 Q2:自由能分解的非加和性意味着什么? 这种非加和性是FEP自由能分解的固有特征,并不代表计算错误或不可靠,而是反映了分子系统的物理本质: 非线性耦合项的存在:在FEP计算中,总自由能变化$\Delta G$通过以下公式计算: \[\Delta G = -k_B T \ln \langle \exp(-\beta \Delta V) \rangle\] 其中$\Delta V = \Delta V_\text{elec} + \Delta V_\text{vdW}$。由于指数函数的非线性性质,即使$\Delta V$可以分解为电荷和vdW组分,自由能$\Delta G$也不能简单地分解为两个独立的加和项: \[\Delta G \neq -k_B T \ln \langle \exp(-\beta \Delta V_\text{elec}) \rangle - k_B T \ln \langle \exp(-\beta \Delta V_\text{vdW}) \rangle\] 路径依赖性:自由能分解还存在路径依赖性问题。先打开静电相互作用再打开vdW相互作用,与先打开vdW再打开静电,得到的分解结果可能不同。这是因为两种相互作用之间存在交叉耦合(cross-coupling)。 本研究采用的分解方法:作者在Methods部分明确说明,他们采用“在具有完全相互作用的同一系综中分别收集vdW和静电相互作用贡献”的直接分解方法: \[V(\lambda) = V(\lambda)_\text{elec} + V(\lambda)_\text{vdW}\] 这种方法简单直观,但由于FEP公式的非线性性,会产生一个小的耦合项。作者在文中提到:“由于FEP公式的非线性性,这种方法可能存在小的耦合项,因为总结合自由能ΔΔG不能从两个组分简单加和”。 如何正确使用分解结果:尽管存在非加和性,自由能分解仍然提供了有价值的物理洞见: 分解结果的相对大小和符号可以指示哪种相互作用类型(静电vs. vdW)对结合变化的贡献更大 例如,N3D的ΔΔGelec = −2.80 kcal/mol远大于ΔΔGvdW = −0.64 kcal/mol,清楚地表明静电相互作用是主导驱动力 这种定性或半定量的分析对于理解分子机制已经足够 文献中的共识:自由能分解的非加和性是领域内公认的问题,已有多篇文献讨论(如作者引用的Mark & van Gunsteren 1994,Boresch & Karplus 1995,Bren et al. 2007)。尽管如此,分解分析仍然是理解结合热力学的标准方法,只要正确解释结果并意识到其局限性。 关键结论与批判性总结 主要影响 MD+FEP驱动的抗原优化流程被验证:作者用建模、长程MD和FEP组合出一套可复制的T1D抗原理性设计路径,说明即便缺乏晶体结构也能通过计算锁定突变靶点 六个高亲和力候选肽段明确了核心机制:Discussion指出N3D/N3E和Q7I/Q7M的静电与疏水互补是能量改进的根源,最终得到M1−M6六条ΔΔG显著下降的疫苗候选序列 局限性 仅有计算预测:作者在Discussion明确表示尚无实验支撑,HLA结合提升需通过肽段合成、pMHC结合和T细胞功能实验来验证 缺乏TCR与抗原加工层面的分析:当前模型只涉及HLA-肽段,未考虑TCR接触、抗原加工或呈递效率,无法判断改良肽是否会改变免疫识别 未来研究方向 推进实验验证:Discussion强调下一步应进行pMHC结合实验、CD8+T细胞功能测定以及NOD模型验证,以确认候选肽能否诱导耐受或阻断 补充免疫链路建模:作者建议未来要将TCR、抗原加工与呈递过程纳入建模,评估突变是否影响整体免疫识别和临床可行性
Drug Design
· 2026-01-13
SiteMatcher:把蛋白-配体相互作用模板化的结构设计工作台
结构片段一键移植:SiteMatcher如何把相互作用模式转成可设计的配体 本文信息 标题: 用蛋白-配体相互作用模式驱动的结构设计服务器SiteMatcher 作者: Dongliang Ke, Weiyu Zhou, Zhihan Zhang, Chengshan Jin, Yi Wu, Xiaolin Pan, Xingyu Wang, Xudong Xiao, Changge Ji 发表时间: 2025年11月24日 单位: 华东师范大学上海分子治疗与新药开发工程研究中心;纽约大学上海-华师大计算化学联合中心,中国上海 引用格式: Ke, D.; Zhou, W.; Zhang, Z.; Jin, C.; Wu, Y.; Pan, X.; Wang, X.; Xiao, X.; Ji, C. (2025). SiteMatcher: A Web Server for Structure-Based Drug Design Using Protein−Ligand Interaction Patterns. J. Chem. Inf. Model., XXX(XX), 1-9. https://doi.org/10.1021/acs.jcim.5c02173 相关资源: SiteMatcher 服务器 https://sitematcher.xundrug.cn;教程与示例:https://youtu.be/pImbw3rnlbs 摘要 SiteMatcher 将PDB复合物拆解成单相互作用与双相互作用记录,再配以三维连接子库,形成可快速查询的片段-口袋匹配数据库。服务器提供Grow与Replace两种工作模式,自动识别待拓展向量、筛选结构与药效团约束、调用Smina优化新配体,并按p38α、Is-QC、KEAP1等真实案例展示 fragment grafting 与连接子拼接的全过程。平均运行时间可在网页端实时完成结构设计。 SiteMatcher 就是一款有海量真实口袋模板的拼图软件:你把自己的蛋白结构和一个初始小分子上传,它会自动告诉你口袋里还能贴什么片段、什么连接子(linker)合适、需要满足哪些氢键或电荷条件,并且在网页上即时拼出新分子并给出评分,省去了手工比对与反复导入导出的繁琐流程。 核心结论 模式库覆盖五类相互作用环境:基于蛋白原子类型划分,可快速检索单、双相互作用模板。 连接子库预编码出口向量:提前计算CAVEAT描述符,使片段与种子在三维空间自动对齐。 双模式交互串联Grow与Replace:p38α、Is-QC、KEAP1三个案例均可在网页侧复现实验活性。 整体target success rate接近五成,激酶可达72.7%,并能在近九万七千个生成分子中找回176个已知活性体。 背景 结构基础药物设计依赖海量蛋白-配体复合物来推断口袋偏好的作用模式。 PDB累计结构突破24万,氢键、π-π堆叠与离子配对等局域模式已经证明能指导配体优化、执行生物电子同效取代,乃至跨靶点迁移学习。问题在于:这些模式以孤立晶体形式存在,化学家需要逐个复制粘贴,并手动调整坐标、化学键与药效团约束,效率极低。学术界出现sc-PDB-Frag、SubCav、PROLIX、PELIKAN、VAMMPIRE等工具,但它们要么停留在检索相互作用,要么输出需要大量手工编辑的碎片,尚未形成“输入蛋白+种子,输出候选分子”的闭环。 片段生长、骨架替换、连接子设计等常规动作必须在一个界面里完成蛋白定位、向量筛选、片段筛选与结果可视化,否则实时交互无法实现。如果缺乏一体化平台,药化科学家只能在多套软件间切换,交互成本远大于算法本身。 现有流程的另一痛点是上下游脱节:片段检索工具往往与Docking、评分、可视化系统分离,导致研究者需要导出多份文件并在不同软件间维护版本。任何一次参数调整都要重复整个流程,严重拖慢设计-验证迭代。 此外,PDB结构质量参差不齐,口袋中不必要的溶剂或金属离子、缺失的氢原子都会让片段匹配难以成功。一个可复用的平台必须建立严格的预处理规范,同时允许用户快速审阅并补充约束。 SiteMatcher 通过统一预处理、片段模板库与交互式Grow/Replace。 平台把“手工复制粘贴+反复导入导出”的痛点压缩成网页上90秒可完成的流程。 关键科学问题 SiteMatcher 针对的核心难题是如何把PDB模板标准化并兼顾三维拼接,既能按口袋化学环境检索,又能在三维空间中与任意种子分子对接。这要求系统同时解决三件事: 复合物快速解构,抽象出可复用的类似药效团片段。 出口向量自动对齐,让片段的几何与种子可生长键吻合,否则无法合成合理结构。 前后台一体化,在交互式网页中串联上传、选向量、选蛋白位点、设约束、拼接、打分的全流程。 创新点 五类蛋白原子+单/双相互作用模式:把蛋白原子划分为氢键受体A、氢键供体D、芳香Aro、正电P、负电N五类,再组合出15种双相互作用类型(分别对应Acceptor、Donor、Aromatic、Positive、Negative),实现模式化检索。 连接子库预编码出口向量:通过CAVEAT描述出口向量几何关系,可在Grow或Replace过程中自动匹配适配的链长与折角。 可视化约束与多模式工作流:Grow模式高亮所有可延伸向量,Replace模式列出可替换子结构,并允许对片段设置理化、官能团、环结构、必配位点等七大类参数。 真实靶点案例闭环:p38α、Is-QC、KEAP1三个场景展示从模式检索、片段拼接到Smina优化、活性验证的闭环。 数据预处理与质量控制 严格预处理:所有输入的PDB复合物都会先去除结晶剂、重复配体、超过5Å的孤立水分子,并补充缺失氢原子与合理的质子化状态,确保提取到的相互作用具有物理意义。 配体在非环单键处分割时,会检查碎片是否仍能与蛋白保持原相互作用;若拆分后造成配体断裂或失去关键互作,则记录会被丢弃。 几何参数全记录:模式分类不仅依赖蛋白原子身份,还记录几何阈值(距离、角度),因此检索时可以加上允许的距离漂移或必须满足线性氢键角度等条件。 冗余控制:数据库会定期剔除冗余记录(例如高度相似的片段在多个PDB中重复出现),并保留一次实例作为模板,以控制查询结果规模。 研究内容 术语快速索引 Grow 模式:沿种子分子的生长向量添加新片段,系统自动列出可能的出口向量供选择。 Replace 模式:替换种子分子的选定子结构或氢原子,保持主骨架不变,适合在Hinge区域做精细调优。 基原子(base atom):连接键两端的原子(记为$\text{b}_1$和$\text{b}_2$),是要拼接的两个分子片段的接合点。 指向原子(target atom):与基原子相邻的原子(记为$\text{t}_1$和$\text{t}_2$),用于定义基原子的空间方向,从而完整描述出口向量的三维几何。 出口向量(exit vector):片段或连接子可以向外延伸的方向,由基原子和指向原子定义的空间矢量。SiteMatcher借助CAVEAT四参数(基原子间距离、两个键角、一个二面角)判断两个出口向量(种子分子的和片段的)在三维空间中能否正确对接。 生长向量(growth vector):在Grow模式中,种子分子上可以添加新片段的位置和方向,本质上就是种子分子的出口向量。用户在界面看到的可延伸方向就是所有可用的生长向量。 必配位点:用户勾选的蛋白原子集合,算法在搜索时强制片段与这些原子形成指定的距离/角度关系。 SiteMatcher 工作流 图3:SiteMatcher 五步工作流 从上传与模式选择开始,直至生成并打分配体,整合在网页界面中。 方法实现细节 数据库与工作流完全基于Python实现,AA-Score-Tool负责相互作用判定,RDKit用于片段化、坐标提取、合并种子与片段并绘制2D结构。 Smina 负责口袋内的快速几何优化与打分,确保每个候选分子都能在原位评估。 MySQL+Node.js+React+NGL构成数据→服务→可视化的一体化架构,保证检索与展示同时响应。 Grow 与 Replace 双模式覆盖延伸与替换两大工作流,是药化最常用的两种操作。 用户交互与约束系统 四个互联界面串起完整交互:上传文件、挑选Grow/Replace位点、圈定蛋白原子、设定片段约束,每一步都有即时2D/3D提示。 约束面板覆盖七大类参数:理化性质、官能团、杂原子、环信息、连接子、必配位点以及生成数量等,可叠加分子量<250、必须含咪唑、必须连接Met109 NH+CO这类复合条件。 Grow模式列出所有可延伸向量,Replace模式高亮可替换片段,用户在2D骨架上点击即可避免误删关键药效团。 结果页一次性给出结构+Smina得分+片段来源,还可在线检查3D复合物并下载SDF,便于Docking或MD继续验证。 模式数据统计 氢键受体(A)与供体(D)合计约65%,芳香(Aro)约18%,其余来自正电(P)与负电(N)位点,说明氢键仍是PDB复合物中的支配作用模式。 双相互作用中AD、DAro、AroP等氢键叠加芳香/电荷的组合最常见,适合Hinge、芳香盒或π-阳离子口袋设计;PP、NN虽少却能覆盖金属配位/盐桥网络。 约70%的片段含≤12个重原子,意味着数据库主要提供片段级模版而非完整药物,可与Grow/Replace流程天然适配。 数据库定期去冗余只保留代表性模板,既防止重复片段轰炸结果,也确保搜索速度稳定。 连接子库与几何匹配 图1:蛋白-配体相互作用模式数据库的构建流程 包括类型识别、单/双相互作用枚举、片段裁剪以及记录三维坐标与原子属性。 CAVEAT 四参数让出口向量匹配变成数值过滤,兼顾几何与化学属性,筛出的连接子能直接满足氢键或极性需求。 当片段与种子自然对齐时优先不加连接子,只有几何偏差超阈才调用连接子库,避免产生难以合成的冗长结构。 Grow 模式的生长向量本质上就是出口向量:对每一对基原子(连接键两端的原子)$\text{b}_1$、$\text{b}_2$及其指向原子(与基原子相邻、用于定义方向的原子)$\text{t}_1$、$\text{t}_2$,SiteMatcher记录$\lvert \text{b}_1-\text{b}_2 \rvert$(基原子间距离)、$\angle \text{t}_1\text{b}_1\text{b}_2$、$\angle \text{t}_2\text{b}_2\text{b}_1$(两个键角)和$\angle \text{t}_1\text{b}_1\text{b}_2\text{t}_2$(二面角)这四个CAVEAT几何量,从而把沿哪个键生长转化为严格的向量定义。 用户在界面里看到的所有可延伸方向,都是按上述四参量遍历得到的有效出口向量集合;选择其一后,后续的片段摆放、链接子筛选与对齐都会强制遵守同一组几何约束,确保Grow过程与实际化学键方向完全一致。 图2:连接子出口向量的CAVEAT表示 通过两个出口向量之间的距离、两个键角与一个二面角来描述,可快速检索空间兼容的连接子。 连接子种类与拓扑 连接子覆盖纯碳链、含$\ce{O/N/S}$极性链、芳香桥及酰胺/脲/脲烷等多种拓扑类型,长度分布集中在2-3个键,也包含最长4个键的环状桥(例如哌嗪),足以覆盖Is-QC这类远距离对接。 Web界面操作 图S1:输入页面可上传蛋白/配体、挑选设计模式并提交任务 图S2:第二页高亮可替换氢或子结构,便于定位种子上的操作位点 图S3:第三页展示待互作的残基并允许逐一选择 Figure S1-S7 给出上传→选向量→圈定口袋→设约束的全流程截图,让新手按图索骥即可复现作者的参数组合。 结果页提供3Dview、download与任务摘要(包含生成参数、运行时间、服务器打分),方便直接纳入项目记录。 系统支持“片段收藏夹”,用户可以把满意的模板保存下来,在其他靶点任务中直接复用,逐步积累个人化知识库。 图S6:结果页展示新配体、Smina分数、片段来源与下载按钮,便于后续验证 约束实践技巧 图S4:复杂约束面板可同时设定理化、拓扑、官能团与必配位点 图S5:参数设置页可保存模板并批量复用生成数量、过滤策略 多维度官能团约束:要求含咪唑环+芳香环+氢键供体时,可在官能团面板添加desired=咪唑和芳香环≥1,再在理化面板设定氢键供体数≥1;系统会自动筛掉不满足条件的片段。 Grow模式下可用必配位点锁定两个蛋白原子并单独设容忍度,柔性口袋可把距离容忍度放宽到1-1.5Å以防过度收敛。 连接子长度上下限可独立设定,例如只允许2-3键并启用芳香连接子偏好π-π扩展。 生成数量初值建议锁在100-200,先观察趋势再扩大到500+以覆盖更大化学空间。 探索-收敛节奏:若想快速探索化学空间,可先放宽理化参数(如MW<400、TPSA<120),确认口袋可容纳后再逐步收紧,避免生成数量过少。 必配位点建议控制在3-4个以内,数量过多往往几何条件互相冲突;失败时可提高允许距离偏差重新匹配。 Replace模式想锁定核心骨架时启用固定此部分结构并设置最大替换原子数,防止算法替换掉关键片段。 金属配位靶点需在官能团约束里强制包含咪唑/羧酸等配位基团,再通过必配位点把金属附近原子指定出来,才能保留正确几何。 Benchmark 数据集 Benchmark来源广泛:157个靶点来自BindingDB,涵盖GPCR、激酶、核受体、水解酶、离子通道、氧化还原酶六大类,配体共429,231条活性记录。 每个靶点都绑定至少一条PDB结构,确保片段匹配与真实口袋对齐。 生成速度与靶点复杂度强相关:激酶、核受体最顺畅;GPCR、离子通道因构象多变需要结合MD或柔性Docking。 运行性能 图S8:100个任务的运行时间分布 平均耗时约90秒(中位89.6秒),瓶颈在Smina与多姿态摆放;关闭Smina可把总耗时压到40秒左右。 后端默认支持8个并行任务,数据库与工作流基于Python/MySQL,可轻松迁移到企业内网或云端。 输入结构超过5000原子时需提前裁剪口袋区域,否则匹配时间与内存消耗都会飙升。 数据可追溯 每条片段记录都写明PDB版本、链号、残基、原子与拆分位置,输出分子附带片段ID+连接子ID组合便于追溯。 任务摘要与哈希值可让团队一键复现参数,输入任务ID即可重新加载设置。 模式库半年更新一次并保留旧版本镜像,方便在项目中保持版本一致性。 工作流程图示 graph TB subgraph S1[输入与模式] direction LR S1a(上传蛋白/配体) --> S1b(选择Grow或Replace) S1b --> S1c(系统标记可生长向量或可替换片段) end subgraph S2[口袋解析] direction LR S2a(列出候选蛋白位点) --> S2b(设置理化、官能团、环与连接子等约束) end subgraph S3[片段检索] direction LR S3a(利用蛋白原子与距离匹配相互作用模式) --> S3b(多姿态摆放片段并评估出口向量) end subgraph S4[设计输出] direction LR S4a(调用连接子或直接拼接) --> S4b(Smina优化与打分) --> S4c(返回结构、PDB来源与三维视图) end S1 --> S2 --> S3 --> S4 性能评估 表1:SiteMatcher 在六大蛋白家族上的已知活性体回收情况 蛋白家族 靶点数 target success rate(%) 找回活性配体数 生成分子数 数据集中已知活性数 核受体 14 50.0 17 5726 47246 激酶 44 72.7 88 29411 172239 水解酶 35 51.4 44 21128 82452 GPCR 30 16.6 7 18447 67568 离子通道 12 8.3 1 8383 24685 氧化还原酶 22 50.0 19 11588 35041 总计 157 47.1 176 94683 429231 如何量化活性体回收:作者把BindingDB中的429,231条实验活性记录按靶点与共晶结构一一对应,保证每个靶点至少有一个可上传给SiteMatcher的PDB复合物,再在统一参数下生成94,683个候选分子。随后用规范化SMILES把这些候选与BindingDB活性体逐一比对,只要某个靶点的生成列表中出现至少一个已知活性分子,就判定该靶点命中。由此得出的target success rate = 命中靶点数 ÷ 157,反映的是SiteMatcher能否直接找回数据库里真实存在的活性化合物,而不是所谓先挖掉一块再训练的交叉验证流程。 评价指标为target success rate:每个靶点只要找回至少一个BindingDB证实的活性配体即记成功。 激酶最易命中(72.7%),GPCR与离子通道因可用口袋少且柔性大显著偏低。 整体target success rate接近五成(47.1%),共找回176个已知活性配体。 生成的配体中,约12%满足所有自定义约束,提示合理设置筛选条件可以显著降低后续人工筛查的负担。 对未命中的靶点,主要问题在于结构前处理:若口袋内残留水分子/脂质或未补氢,Grow/Replace的几何匹配会失败,用户可先在外部工具中清理结构再上传。 案例一:p38α激酶 Hinge 替换 图4:p38α 案例中,SiteMatcher 找到可替换苯甲酰的片段并重现实验活性 以p38α-Compound 1共晶结构(PDB 3S4Q)为输入,采用Replace模式聚焦于与Met109主链形成双氢键的苯甲酰片段。 服务器识别出22个满足与Met109 NH、CO双氢键约束的片段,自动提供与种子矢量兼容的连接子。 生成的Compound 2与文献中已证实具有强抑制活性的结构完全一致,验证模式加连接子组合可直接回收真实Lead。 所有候选都附带原PDB来源,使研究者可以快速核对片段化学合理性,并据此规划合成路线或二次优化。 案例二:Is-QC 连接子驱动的双点配位 图5:SiteMatcher 在Is-QC案例中通过连接子满足多点氢键约束 输入Is-QC抑制剂PBD (PDB 4MHY),保留与Zn配位的咪唑,选择GLU296主链CO/NH、PHE294主链CO为目标位点,并限定片段需含1-2个环。 因种子出口向量远离目标位点,SiteMatcher 自动挑选长度2-3个键的连接子将片段与种子相连,一次输出101个满足多点约束的方案。 12个代表性新配体显示多样的氢键与π-π堆叠模式,展示连接子库对复杂空间需求的适应性。 与人工策略相比,自动化流程可以穷举所有满足含环+氢键要求的模板,并用颜色高亮氢键供受体位置,帮助药化团队快速达成共识。 案例三:KEAP1 Fragment Grow 策略 图6:针对KEAP1片段S0W的Grow模式可探索多种π-π/氢键组合 以S0W (PDB 5FNQ)为种子,Grow模式识别5个可延伸向量,并选定靠近Tyr334、Ser602、Arg415的向量。 用户指定新配体需与Tyr334芳环形成π-π堆叠,并可与Ser602 OG或Arg415 NE形成氢键。 服务器生成74个配体,代表性的22、23、24展示三种互补的相互作用组合,其中24直接复用了PDB 4Z6I中π-π+氢键双重与Tyr侧链作用的模板,凸显模板复用带来的多样性。 案例延伸:其他靶点 虽然正文重点展示了激酶、酶与PPIs,作者在SI中还给出了GPCR与核受体的示例。由于GPCR口袋柔性大,使用者需要在Grow模式下增加长连接子、芳香堆叠这类约束,并结合多构象结构以提高成功率。 对离子通道等金属依赖靶点,上传结构时应保留关键金属离子并在必配位点中指明其配位原子,让算法可以识别金属-配体-蛋白三者的几何关系。 核受体案例显示SiteMatcher不仅能提供富极性的片段,也能快速搜寻疏水/芳香片段,适合用来替换长链尾部或增加π-π堆叠,从而调节选择性。 Q&A Q1: 为什么要同时保留单相互作用和双相互作用记录? A1: 单相互作用定位单个氢键/离子互补点,而双相互作用保证片段携带协同氢键或芳香+电荷组合,让移植后的片段仍保持正确配向。 Q2: 连接子数据库的CAVEAT描述符如何加速筛选? A2: 预先计算四个CAVEAT几何参数,查询时把种子与片段出口向量转成同一参数空间后做数值过滤,就能跳过大量三维试拼。 Q3: 为什么GPCR与离子通道的成功率偏低? A3: GPCR与离子通道可用晶体结构少且口袋高度柔性,匹配模式有限、配准偏差大,必须引入更严格约束或更长连接子才能提升命中率。 Q4: 生成的分子是否立即可合成? A4: SiteMatcher 只负责结构互补与几何合理性,未集成合成可行性过滤,仍需搭配反应规划或合成可行性打分来筛掉不可合成分子。 Q5: 可以批量运行或脚本调用吗? A5: 当前版本仅提供交互式网页,但因底层完全开源,可下载Zenodo数据与脚本在内网自建批量处理管线。 Q6: 如何在结果中筛选最值得跟进的候选? A6: 用Smina打分+片段来源+自定义理化指标三维排序,并利用服务器导出的CSV快速筛出最值得跟进的候选。 关键结论与批判性总结 潜在影响 SiteMatcher 把寻找相互作用模板→拼接→优化串成短流程,为药化团队提供真实可用的碎片设计平台。 数据库与连接子预处理让Grow/Replace实现网页级实时反馈,项目会上即可验证结构假设。 局限与展望 模式库目前以氢键/π堆/盐桥为主,疏水体积匹配、金属配位等高级相互作用仍待扩展。 柔性口袋与长距离生长仍是短板,需要结合MD或AI生成方法补足构象多样性。 作者计划扩容相互作用类别、加入可合成性过滤并开放API,以便批量脚本化使用。 讨论:成本、可扩展性与实验互证 GPCR与离子通道可结合MD或AlphaFold生成开放态结构,再导入SiteMatcher寻找更契合的模板。 两步Grow/Replace可先做局部片段再迭代扩展,逐轮把满足部分约束的片段当作新种子。 命中率低的靶点可导出失败案例做柔性Docking或MD,再把新的口袋构象回灌,形成SiteMatcher→柔性更新→SiteMatcher的闭环。 与下游流程的衔接 生成的SDF可以无缝导入MD、FEP或ADMET工具链,PDB来源信息也让实验组能迅速查验参考结构。 若考虑可合成性,可把输出对接ASKCOS、Synthia等反应规划/合成可行性工具,形成设计与可合成性联合筛选。 对离子通道等金属依赖靶点,上传前需保留关键水分子/金属并列入必配位点,确保几何约束不会丢失。 拓展应用 片段级筛选:在FBDD流程中,可先用SiteMatcher快速识别能够补足现有片段的互作模板,再将最佳候选送去生物物理实验验证。 交叉靶点再利用:相似口袋往往属于同一家族,SiteMatcher能够一眼看出片段最初来源的PDB靶点,便于挖掘交叉适用的化学骨架。 AI生成模型的过滤器:可将生成式模型候选与SiteMatcher输出对比,只保留能在真实口袋中形成已知互作模式的分子,减少虚假阳性。 教育与培训: 对于初入行的药化/计算学生,服务器提供的可视化界面是学习相互作用模式、理解Grow/Replace逻辑的直观教材。 站在更宏观的角度,SiteMatcher展示了如何把结构数据库、化学知识与现代Web开发结合成面向药化团队的实时工具。它既不是黑箱模型,也不是单一数据仓库,而更像一个可解释的碎片设计助手:每一步都能追溯到原始结构,每个结果都可立即在3D中核实。对想要压缩结构设计反馈周期的团队而言,这类工具将成为日常项目会上的标配。 小编锐评:感觉给药物化学家用比较合适,比较方便,根据经验建库做替换的操作。确实,未来连上ADMET之类的性质计算就更好了。 附录 常见注意事项 上传结构前务必删除非必要配体、补氢并检查质子化状态,否则Grow/Replace在几何匹配时会因为异常原子类型而失败。 若任务久未返回,可在设置里降低生成数量或暂时关闭Smina优化,以排查是否是片段摆放阶段耗时过长。 输出分子若含稀有元素或非标准价态,需要在外部工具重新设定力场参数后再进行Docking或MD。 需遵守知识产权策略的项目应优先使用来源明确的公共片段,并在团队内建立审核流程。 共享任务时务必记录任务ID与参数导出文件,确保不同成员可以复现相同设置。 命名输出分子时建议按靶点-日期-片段来源的方式统一,避免后续实验记录混淆。 实操建议与数据复用 浏览SiteMatcher官方教程(Figure S1-S7所示)以熟悉界面;建议先在Replace模式试运行单个约束,理解片段筛选逻辑后再叠加复杂条件。 服务器允许导出所有候选的CSV与SDF文件,包含片段/连接子来源、Smina打分、满足的约束条目等元数据,可直接导入ELN或数据库。 Benchmark数据集托管在Zenodo,团队可离线复现作者的评估流程或训练自有模型。 若需私有部署,可与作者联系获取数据库读写脚本,在内网重建模式与连接子索引;需遵循PDB与BindingDB的版权条款。 可调参数总览 理化性质(Table S1): 分子量、TPSA、FractionCSP3、重原子计数、氢键受体/供体数、可旋转键数、形式电荷绝对值、总键数。 官能团(Table S2): 采用SMARTS描述的必须/禁止官能团;特定氮、碳基团(芳香氮、三级胺、酰胺、硫酮、烷基卤化物等)的数量约束。 杂原子信息(Table S3): 如$\ce{N/O/S}$/卤素计数、是否包含金属配位原子等。 环组成(Table S4): 限制芳香环数量、环尺寸、是否含桥头位、是否允许稠环等。 连接子(Table S5&S8): 覆盖烷基链、芳香桥、胺/酰胺、脲、杂环、醚等,并提供可多选的长度范围。 必配位点(Table S6): 允许用户指定必需满足的蛋白原子组合,如Met109 NH+CO、Tyr334 phenyl等。 其他参数(Table S7): 包括生成配体数量上限、片段最小/最大原子数、是否强制保留原子电荷、是否执行重复过滤等。 连接子示例(节选自Table S8,按长度排序) 连接子 拓扑长度 典型化学式 备注 $\ce{CH2-CH2}$ 2 $\ce{-CH2-CH2-}$ 最短柔性碳链,用于近距离拼接 $\ce{O-CH2-O}$ 2 $\ce{-O-CH2-O-}$ 适配需要极性桥的场景 $\ce{CONH}$ 2 $\ce{-CO-NH-}$ 提供氢键供体/受体双重角色 $\ce{Ar-CH2-Ar}$ 3 $\ce{Ar-CH2-Ar}$ 支持π-π堆叠拓展 $\ce{N(CH3)-CH2-CO}$ 3 $\ce{N(CH3)-CH2-CO}$ 兼具正电与极性 $\ce{(CH2-CH2-NH)2}$ 4 $\ce{(CH2-CH2-NH)2}$ 提供两个对置出口,常用于跨距链接 Urea 3 $\ce{-NH-CO-NH-}$ 适合双氢键桥接 基准数据集 (Table S9) 每个条目包含PDB ID、配体ID、活性值(Ki/Kd/IC50)、参考文献。 数据在六大蛋白家族的详细分布见表1。 使用建议 对柔性靶点,可在Grow模式中勾选更多蛋白位点并选择较长连接子,以弥补口袋塌陷导致的几何偏差。 如需保持关键配体片段,可用Replace模式、必配位点组合与“固定子结构”选项共同控制。
Drug Design
· 2025-12-14
Visualizing Drug Action Against Amyloid Plaques: MD Simulations Reveal Aβ Protein Inhibitor Mechanisms
“看见”药物如何瓦解”老年斑”:分子动力学模拟揭秘Aβ蛋白抑制剂的微观世界 本文信息 标题: Small-Molecule Inhibitors of Amyloid Beta: Insights from Molecular Dynamics—Part A: Endogenous Compounds and Repurposed Drugs 作者: Mariyana Atanasova 单位: Faculty of Pharmacy, Medical University of Sofia 引用格式: Atanasova, M. (2025). Small-Molecule Inhibitors of Amyloid Beta: Insights from Molecular Dynamics—Part A: Endogenous Compounds and Repurposed Drugs. Pharmaceuticals, 18, 306. 摘要 淀粉样蛋白假说是阿尔茨海默病(AD)发病机制的主流模型,该假说认为β淀粉样蛋白(Aβ)肽是神经毒性和中枢神经系统一系列病理事件的主要驱动因素。Aβ聚集成寡聚体和沉积物会引发多种过程,如血管损伤、炎症诱导的星形胶质细胞和小胶质细胞活化、神经元离子稳态失衡、氧化应激、激酶和磷酸酶活性异常、tau蛋白磷酸化、神经原纤维缠结形成、认知功能障碍、突触丢失、细胞死亡,并最终导致痴呆。分子动力学(MD)是一种强大的基于结构的药物设计(SBDD)方法,有助于理解生物分子的性质、功能以及作用或抑制机制。作为唯一能够模拟原子级内部运动的方法,MD提供了其他技术无法获得的独特见解。将实验数据与MD模拟相结合,可以更全面地理解生物过程和分子相互作用。本综述总结并评估了过去十年中关于抑制β淀粉样蛋白的小分子(包括内源性化合物和重定位药物)的MD研究。此外,它还概述了未来淀粉样蛋白抑制剂MD模拟的关键考虑因素,为旨在阐明小分子抑制β淀粉样蛋白机制的研究提供了一个潜在的框架。 背景 阿尔茨海默病(Alzheimer’s Disease, AD),这个让无数家庭蒙上阴影的疾病,是导致老年人痴呆的最主要原因。其病理学核心特征之一,是在大脑中形成了大量的“老年斑”,即由β淀粉样蛋白(Aβ)肽异常聚集形成的细胞外沉积物。根据主流的“淀粉样蛋白假说”,正是Aβ肽从可溶性单体,一步步错误折叠并聚集成具有神经毒性的寡聚体、原纤维乃至最终的纤维斑块,才启动了导致神经元死亡和认知衰退的“死亡瀑布”——包括神经炎症、氧化应激、tau蛋白过度磷酸化等一系列连锁反应。 因此,阻止或逆转Aβ的聚集过程,一直是AD药物研发的核心策略。科学家们尝试了多种方法,包括减少Aβ的产生、增强其清除,以及直接寻找能够抑制其聚集的小分子。然而,Aβ的聚集是一个高度动态、复杂且涉及多种中间体的过程,传统的实验手段(如X射线晶体学)很难捕捉到这些瞬息万变的结构,也就难以精确地理解小分子抑制剂是如何在原子层面与Aβ肽相互作用,从而发挥“瓦解”作用的。 为了“看清”这个微观世界的动态过程,分子动力学(Molecular Dynamics, MD)模拟应运而生。MD模拟就像一台“计算显微镜”,它遵循牛顿运动定律,能够在计算机中模拟出蛋白质和药物分子中每一个原子的运动轨迹。通过MD,研究人员不仅可以观察到Aβ肽如何一步步“抱团”,还能看到小分子抑制剂是如何“见缝插针”,通过形成氢键、疏水作用、π-π堆积等相互作用,来破坏Aβ的聚集趋势,甚至拆解已经形成的聚集体。这为我们从根本上理解药物的作用机制、并进行更理性的药物设计提供了无与伦比的视角。 关键科学问题 本综述的核心科学问题是:在过去的十年中,分子动力学(MD)模拟是如何帮助我们深入理解不同类型的小分子(特别是人体内源性化合物和“老药新用”的重定位药物)抑制Aβ蛋白聚集的原子水平机制的? 通过系统性地回顾这些计算研究,我们能总结出哪些共性的抑制模式、关键的相互作用位点,以及未来在利用MD模拟进行Aβ抑制剂研究时应遵循的最佳实践和需要克服的挑战? 创新点 这是一篇综述性文章,其创新点在于: 首次系统性地聚焦于利用MD模拟来阐释内源性化合物和重定位药物这两类特殊小分子对Aβ聚集的抑制机制。 深入剖析了MD模拟在该领域的应用挑战,如力场的选择、模拟时间尺度的限制以及增强采样方法的应用,为后续研究提供了宝贵的经验总结。 提炼并总结了小分子抑制Aβ聚集的多种微观机制,例如破坏关键的盐桥、干扰疏水核心的稳定性、阻断π-π堆积等。 为未来的MD研究提出了一个全面的指导框架,包括系统选择、力场与水模型、模拟时长、对照组设置等九大关键考量因素,极具实践指导价值。 研究内容 Aβ的结构特征与聚集的物理化学基础 要理解抑制剂如何工作,首先必须了解Aβ自身是如何从一个无序的单体,变成高度有序的纤维的。 1. Aβ单体、二聚体和寡聚体的结构特征 可溶性Aβ寡聚体的大小从10到100 kDa不等,表现出显著的异质性和动态行为。根据广受认可的蛋白质折叠漏斗模型,一个正在折叠的蛋白质或肽的构象空间是巨大的。未折叠的可溶性单体占据了漏斗宽阔的顶部,拥有最高的能量和采取多种构象的能力。折叠中间体或部分折叠状态,以及寡聚体和单体的天然形式,能量较低,对应于能量景观中的局部最小值。无定形聚集体位于漏斗较窄的底部之一,以深的能量最小值为特征,而全局自由能最小值,在漏斗最窄的部分,则被淀粉样纤维所占据。纤维化始于一个未折叠单体构象的集合,并迅速沿着各种路径朝向全局最小值进行,其中不同的淀粉样多晶型物占据着紧密定位的局部最小值。绝对的自由能最小值与淀粉样晶体相关。从无序单体通过寡聚体到纤维的确切机制和构象转变仍然难以理解,这归因于寡聚体的异质性、亚稳态和动态性质。此外,纤维生成受到温度、浓度和起始单体结构同质性等因素的强烈影响。通过溶液和固态核磁共振以及冷冻电子显微镜,已经识别出多种Aβ寡聚体结构,包括U型、S型、LS型以及具有二重或三重拓扑的结构,其中一些来源于人类。 图2:人类Aβ1–42的一级和二级结构,以及从蛋白质数据库(www.rcsb.org)检索到的已知聚集体形状。 肽链根据一级氨基酸序列中的特定区域进行颜色编码:N-末端(亲水或金属结合区)从D1到Q15为米色;中心疏水核心(CHC)或β1区从K16到A21为青色;环或中心亲水区从E22到K28为黄色;第二个疏水区(β2)从G29到M35为鲑鱼色;C-末端区从V36到A42为绿色。PDB代码标注在相应结构的上方。寡聚体形成的一个可能机制是由疏水相互作用驱动的快速组装,包括涉及C-末端的相互作用。 在结构层面,淀粉样纤维的主要二级结构是交叉β-折叠(cross β-sheet),其中Aβ的主链垂直于纤维轴向排列。在“在途(on-pathway)”的寡聚体混合物中,通常观察到β-折叠结构。在溶液中,Aβ单体通常采取无规卷曲构象,而非任何特定的二级结构。Aβ1–42的一级结构分为五个区域:N-末端,也称为亲水或金属结合区(D1到Q15);中心疏水核心(CHC),跨越残基K16到A21;环或中心亲水区(E22到K28);第二个疏水区(G29到M35);以及C-末端区(V36到A42)。 2. 导致并稳定Aβ聚集的相互作用 在形成Aβ寡聚体的β-发夹结构单体内部,已发现在β-折叠区域之间存在链内氢键,特别是在I31和V36之间。在从β-发夹单体转变为β-折叠二级结构的过程中,这些链内氢键必须被破坏,并在相邻的肽序列之间形成新的链间氢键。这种从链内到链间氢键的转变对于寡聚化过程至关重要,最终导致交叉β-折叠结构的形成。研究还发现,在Aβ缔合过程中,单体主要与极性表面(如云母)相互作用,而疏水表面(如石墨)则会破坏寡聚体结构并充当纤维化的模板。 此外,普遍认为,成熟纤维中负责β-折叠结构的初始相互作用,涉及一个肽的中心疏水核心(CHC)中的F19与另一个单体的第二个疏水区中的L34之间的疏水接触。一个稳定交叉β-结构中转角的关键相互作用是D23和K28之间的盐桥。在寡聚化过程中,据信单体是通过沿纤维延伸轴向的平行堆叠进行寡聚的。然而,已发表的纤维结构表明,由两个S形单体以C2对称的“阴阳”方式排列组成的Aβ1–42二聚体单元参与了纤维的生长。已确定,稳定所有类型四级纤维结构的关键相互作用涉及M35的侧链以及一个单体中的一个或多个残基(如I31, I32和M35)与第二个单体中的G37, G39和V29的相互作用。在U形的Aβ17–42形式中,K28-D23盐桥是关键的稳定相互作用。相比之下,S形的Aβ11–42和LS形的Aβ1–42纤维则由K28侧链带正电的NH3+基团与A42带负电的COO-基团之间的盐桥所稳定。此外,在LS形中,N-末端和C-末端区域被E11-H6/H13氢键所加固,这对纤维稳定性起着至关重要的作用。最近的研究强调了由F4, L34和V36形成的疏水核心,连同K28-A42盐桥,在稳定LS形Aβ纤维中的重要性。 MD模拟揭示的Aβ抑制机制:详细剖析 本综述系统梳理了近十年来,利用MD模拟研究内源性化合物和重定位药物如何抑制Aβ聚集的代表性工作。以下是对原文核心部分的详细翻译和解读。 1. 内源性化合物 这些是人体内天然存在的分子,理论上具有更好的安全性。 图3:通过MD模拟研究的内源性化合物的描绘。 多巴胺(DA)和去甲肾上腺素(NE): DA和NE属于儿茶酚胺家族,作为神经递质和神经调节剂发挥作用。实验研究早已证实,DA能够剂量依赖性地抑制Aβ纤维的形成和延伸,并能破坏已形成的纤维。儿茶酚类衍生物主要抑制的是聚集的“成核”阶段而非“延伸”阶段。 MD模拟的见解: 一项REMD研究揭示,DA优先结合Aβ1–40原纤维的两个位点:一个是位于第二个疏水区的β-折叠片层(IIGLMVG,残基31-37),另一个是结构无序的N-末端区域。这种结合显著影响了寡聚体的双层结构。 由Chen等人进行的一项更全面的研究,通过cMD和REMD模拟,深入探究了DA的破坏机制。他们发现,在低摩尔比(1:1和2:1)下,质子化的DA+分子通过插入到F4-L34-V36核心区域并破坏链内和链间的K28-A42盐桥,从而剂量依赖性地破坏了Aβ原纤维的稳定性。在1:1的体系中,DA+主要结合在第一个转角区(H6-H13);而在2:1的体系中,结合位点扩展到了F4-L34-V36核心区、N-末端(D1-R5)、第二个转角区(F20-D23)以及C-末端(I41和A42)。这些相互作用的物理化学基础非常丰富,包括与D1, E3, H6, D7, E11等残基的氢键;与D7, E11, E22, D23的盐桥;与R5的阳离子-π相互作用;以及与F4, H6, H13, H14, F19, F20的π-π堆积。 有趣的是,在高浓度(10:1摩尔比)下,DA+分子主要结合在原纤维的外表面,限制了其柔性,反而起到了稳定作用。然而,当部分DA+被替换为去质子化的DA0(在生理pH下少量存在)时,DA0分子优先结合到原纤维的内表面,特别是F4-L34-V36疏水核心内部。DA0与DA+之间通过π-π堆积相互作用,增强了它们在内表面的结合,最终对原纤维结构施加了破坏性效应。 对于NE,REMD和cMD模拟分别研究了其对Aβ二聚体聚集的抑制和对纤维的破坏作用。模拟发现,NE能够降低β-折叠含量,同时增加α-螺旋、无规卷曲和转角含量。在五个主要的结合位点中,位于疏水核心的16KLVFFA21和31IIGLMV36是最有利的。NE主要通过与疏水残基(I41, I31, L17)的疏水作用和与芳香族残基(Y10, F4, F20)的堆积作用相结合。此外,与带负电荷的Asp和Glu残基的氢键以及与R5的阳离子-π相互作用也至关重要。在纤维体系中,NE通过与D1, A2, D23和A42残基形成氢键来重塑Aβ纤维结构,最终破坏其稳定性。 血清素(SER)和褪黑素(MEL): 这两种由色氨酸衍生的分子在AD患者中水平均有下降,且实验证明它们能抑制Aβ聚集。 MD模拟的见解: Gong等人的一项研究揭示了这两种吲哚胺衍生物破坏LS-型Aβ纤维的不同机制。SER主要结合在N-末端区域(D1-Y10),通过与F4, H6, Y10和H13的π-π堆积来破坏该区域的β-折叠。这进而干扰了对整个纤维起稳定作用的A2-V36和F4-L34长程接触。 相比之下,MEL的破坏性更强。它在LS-型Aβ原纤维上有两个结合位点:一个在N-末端(包含F4, H6, Y10, H13, H14, Q15, L17, F19),另一个在C-末端(包含N27, I31, I32, L34, V36)。因此,MEL能够同时破坏N-末端和C-末端两个区域的β-折叠结构。它干扰了三个疏水核心的稳定相互作用,并且对L34-A42盐桥的破坏作用也比SER更显著。MEL的相互作用模式主要是与N-末端芳香族氨基酸的π-π堆积以及与C-末端残基的疏水接触。 三磷酸腺苷(ATP): 作为细胞的“能量货币”,实验发现ATP能像生物助溶剂一样阻止和溶解肽聚集体。 MD模拟的见解: Pal和Paul的一项详尽研究使用了三种不同的力场来考察ATP对Aβ16–22片段(疏水核心区)的抑制作用。模拟结果高度一致:ATP在毫摩尔浓度下抑制了Aβ肽的寡聚化。其具体机制包括:1)降低β-折叠含量;2)减少肽-肽氢键;3)减少肽链间的F-F疏水相互作用。与此同时,ATP-F的π-π堆积相互作用和ATP-肽氢键的数量则相应增加。模拟还表明,ATP能抑制二聚体的形成,并能破坏预先形成的纤维,在某些力场下甚至能使其完全解聚。 2. 重定位药物(老药新用) 这些是已经上市、安全性已知的药物,为其寻找新的适应症是一种高效的研发策略。 图4:通过MD模拟研究的重定位药物(普罗帕酮(PPF)、甘珀酸(CBX)和多西环素(DXC))的结构。 普罗帕酮(PPF):一种抗心律失常药物。 MD模拟的见解:cMD模拟显示,PPF位于十二聚体纤维下层的转角附近,主要与疏水残基发生相互作用。在PPF存在下,β-折叠含量降低,这可能导致纤维的降解。 甘珀酸(CBX):一种用于治疗溃疡的甘草衍生物。 MD模拟的见解:cMD模拟分别研究了CBX与Aβ1–42单体和纤维的相互作用。结果发现,CBX对两者都有破坏作用。对于单体,它能减少α-螺旋和β-折叠含量;对于纤维,它能减少β-折叠含量。一个关键的机制是,CBX通过与F19和D23形成氢键,成功破坏了对纤维结构至关重要的D23-K38盐桥。 多西环素(DXC):一种四环素类抗生素。 MD模拟的见解:加速MD(aMD)模拟被用来研究DXC对两种不同Aβ纤维多晶型物(S-型和LS-型)的作用。结果发现,DXC能够破坏两种纤维的稳定性,但其结合位点依赖于纤维的构象。在S-型五聚体纤维中,它主要结合在暴露的疏水核心区域,识别出三个结合位点:一个靠近M35侧链,一个在I32和L34之间,另一个在L17和F19之间。而在LS-型纤维中,由于这些位点被隐藏,DXC则结合在N-末端附近以及由K16, V18和F20组成的第二个结合位点。这表明,针对不同Aβ多晶型物的药物设计可能需要考虑不同的策略。 未来MD模拟研究的指导框架 基于对现有研究的总结,作者提出了一个包含九个关键点的框架,以指导未来更可靠、更具信息量的MD模拟研究: 使用全长Aβ肽:避免使用片段,以获得更真实的模拟结果。 考虑多种纤维构象:应针对已知的U-型、S-型、LS-型等多种纤维多晶型物进行模拟。 使用多种力场:通过比较不同力场的结果来检验结论的稳健性。 谨慎选择水模型:确保水模型与所选力场兼容。 模拟真实的药物浓度:抑制剂与肽的摩尔比应与实验数据或生理浓度相符,并考虑多种浓度。 设置阳性和阴性对照:除了目标抑制剂,还应模拟已知的有效/无效抑制剂作为参照。 保证足够的模拟时长:确保模拟时间足以捕捉到相关的结构变化。 进行全面的轨迹分析:重点分析关键的稳定相互作用(如盐桥、疏水核心)和二级结构变化。 进行多次重复模拟:从不同的初始速度开始进行多次模拟,以获得统计上更可靠的结果。 Q&A Q1: 为什么这篇综述特别关注“内源性化合物”和“重定位药物”? A1: 这两类化合物在药物发现中具有独特的优势。内源性化合物是人体内天然存在的物质(如多巴胺、褪黑素),它们通常具有极好的生物相容性和安全性,副作用风险低。重定位药物是已经通过了临床试验并上市的“老药”,其安全性、药代动力学特性都已有充分的研究,将它们用于新的疾病治疗(“老药新用”)可以极大地缩短研发周期、降低研发成本和风险。因此,研究这两类分子如何抑制Aβ聚集,具有很高的临床转化潜力。 Q2: MD模拟揭示的这些抑制机制,有哪些共通之处? A2: 尽管不同分子的具体作用位点和方式各异,但可以总结出几个共通的抑制策略:1)靶向疏水核心:许多抑制剂(如DA, NE, MEL, DXC)都倾向于结合Aβ的关键疏水区域(如CHC, F4-L34-V36核心),通过空间位阻或破坏疏水堆积来干扰聚集。2)破坏关键盐桥:一些抑制剂(如DA, CBX)能够直接或间接地破坏对Aβ结构至关重要的盐桥(如K28-A42, D23-K38),从而瓦解其折叠结构。3)π-π堆积相互作用:对于含有芳香环的抑制剂(如DA, NE, SER, MEL),与Aβ中的芳香族氨基酸(F4, Y10, F19, F20)发生π-π堆积是一种非常普遍的结合模式。 Q3: 综述中提到了多种MD模拟技术(cMD, REMD, aMD),它们之间有什么区别和联系? A3: cMD(常规MD)是最基础的方法,它模拟系统在恒定温度下的自然演化,能提供真实的动力学信息,但受限于时间尺度,很难观察到稀有事件(如蛋白质折叠)。REMD(副本交换MD)是一种增强采样方法,它同时在多个不同温度下模拟系统的多个“副本”,并允许它们之间交换构象。高温副本可以轻易跨越能垒,然后通过交换将这些“探索性”构象传递给低温副本,从而在保持低温系综分布的同时,极大地加速了构象空间的探索。aMD(加速MD)则是通过修改系统的势能面,降低能垒的高度,使得系统能够更快地从一个能量洼地“跳”到另一个,从而在更短的模拟时间内观察到更多的构象转变。总的来说,cMD追求“真实”,而REMD和aMD等则牺牲部分真实动力学信息以换取“效率”。 Q4: 既然MD模拟如此强大,为什么我们还需要进行实验验证? A4: MD模拟是一个强大的工具,但它本质上是一个基于模型的近似。其准确性受到多个因素的制约:1)力场的精度:力场本身就是对真实量子力学相互作用的简化和参数化,不可能百分之百准确。2)采样完整性:即使使用增强采样方法,也无法保证在有限的模拟时间内遍历了所有重要的构象。3)系统设置的简化:模拟系统通常是对真实生物环境的简化(如有限的水分子、简化的离子浓度等)。因此,MD模拟得出的结论是一种理论预测或机理假设,它必须经过真实的生物或化学实验(如本文中提到的ThT荧光实验、细胞毒性实验等)来验证,才能最终被接受为科学事实。 Q5: 这篇综述对未来的AD药物研发有什么具体的指导意义? A5: 它提供了两方面的指导。在药物设计层面,它总结出的关键作用位点和相互作用模式,为药物化学家提供了明确的优化方向。例如,一个好的抑制剂分子骨架上应该合理地排布疏水基团和能够形成氢键或π-π堆积的芳香环,以同时靶向Aβ的多个关键区域。在计算方法学层面,它提出的九点指导框架,为未来进行此类研究的计算科学家设定了一个更高的标准,有助于提高模拟结果的可靠性和可重复性,避免得出片面或错误的结论。 关键结论与批判性总结 核心结论 MD模拟是揭示Aβ抑制机制的强大工具:本综述系统回顾了过去十年利用MD模拟在原子层面阐明内源性化合物和重定位药物如何抑制Aβ聚集的研究,证明了MD在理解动态、无序系统相互作用中的不可替代性。 总结了多种小分子的共性抑制机制:研究发现,有效的小分子抑制剂通常通过干扰Aβ的关键疏水核心、破坏稳定结构的盐桥、以及与芳香族残基形成π-π堆积等多种协同方式来发挥作用。 强调了方法学的重要性:综述深入讨论了在模拟Aβ这类内在无序蛋白时,选择合适的力场、水模型以及使用增强采样技术(如REMD, aMD)来克服时间尺度限制的关键性。 提出了未来研究的指导框架:文章最后为未来的MD模拟研究提出了一个包含九个关键考量因素的综合性框架,旨在提高研究的严谨性、可靠性和可比性,对该领域具有重要的指导价值。 批判性总结与展望 这篇综述为我们提供了一个极佳的窗口,让我们得以窥见计算模拟如何在对抗阿尔茨海默病这一复杂挑战中扮演日益重要的角色。作者通过对特定两类化合物(内源性和重定位药物)的聚焦,使得综述内容既具有代表性,又具有很强的临床转化启示。其最大的价值在于,它不仅告诉我们“知道了什么”,更重要的是,它系统性地总结了“如何才能知道得更准”,即那九条极具实践意义的模拟指导原则。 一个潜在的局限性在于,综述主要集中在小分子与Aβ肽本身的相互作用上。然而,在真实的生物环境中,Aβ的聚集还受到许多其他因素的影响,如细胞膜、金属离子、伴侣蛋白等。未来的MD研究需要构建更复杂的、更接近生理环境的模拟体系,以探索在这些因素存在下,抑制剂的作用机制是否会发生改变。 展望未来,随着计算能力的飞速发展(如专用计算硬件Anton 3和百亿亿次级超算)和算法的不断进步(如结合AI的增强采样方法),MD模拟的时间和空间尺度将得到前所未有的扩展。我们可以期待,未来的模拟将能够覆盖从单体折叠到寡聚体形成乃至纤维成熟的整个聚集路径,并在接近细胞尺度的复杂环境中,实时观察药物分子如何精准地“拆解”这些致病聚集体。这将把基于结构的AD药物设计,真正带入一个原子精度、动态可视的全新时代。
Drug Design
· 2025-10-07
AI-Assisted Molecular Docking: How Autoparty Transforms Manual Pose Inspection into Transferable Models
AI陪你看靶点:Autoparty如何将”人工看Pose”的”祖传手艺”变成可传承的模型 本文信息 标题: Autoparty: Machine Learning-Guided Visual Inspection of Molecular Docking Results 作者: Laura Shub, Magdalena Korczynska, Duncan F. Muir, Fang-Yu Lin, Brendan W. Hall, Alan M. Mathiowetz, and Michael J. Keiser 单位: University of California, San Francisco; Pfizer Research & Development 引用格式: Shub, L., Korczynska, M., Muir, D. F., Lin, F.-Y., Hall, B. W., Mathiowetz, A. M., & Keiser, M. J. (2025). Autoparty: Machine Learning-Guided Visual Inspection of Molecular Docking Results. Journal of Chemical Information and Modeling, 65, 7817-7826. 摘要 在虚拟药物筛选流程中,由人类专家对潜在药物化合物进行审查是至关重要的一环。然而,鉴于人类能够实际检查的分子数量相对于虚拟筛选的庞大规模而言极为有限,加速这一过程的需求日益迫切。此外,计算药物化学家在评估不同对接姿态时可能存在不一致,并且目前没有标准化的方法来记录这些注释。为了应对这些挑战,我们提出了Autoparty,一个容器化的工具。Autoparty利用本地化的主动学习技术进行药物发现,促进了“人在环路中”的模型训练,从而能够外推出人类的直觉判断。我们利用多种不确定性量化指标来向用户查询信息最丰富的样本进行模型训练,从而限制了所需的人类专家训练标签数量。收集到的注释会填充到一个持久且可导出的本地数据库中,以供广泛的下游应用。在一个真实的案例研究中,纳入Autoparty使得在193个经过实验测试的化合物中,命中率比单独使用形状相似性方法提高了40%。 背景 在计算机辅助药物设计(CADD)的广阔领域中,虚拟筛选(Virtual Screening, VS)是早期药物发现的基石。这个过程就像一个巨大的漏斗,从数十亿甚至更多的分子库开始,通过一系列计算步骤——库的准备、分子对接、打分和排序、聚类和过滤——逐步筛选,最终期望在漏斗的末端得到几十到一百个最有希望的候选分子进入实验验证。 然而,这个看似自动化的流程中存在一个关键的、近乎“手工作坊”式的瓶颈——人工审查(Manual Inspection),也被药物化学家们戏称为“挑分子派对(Hit Picking Parties)”。由于对接程序使用的打分函数存在固有的局限性(源于生物物理的抽象和打分项权重的难题),计算出的高分分子中常常混杂着大量的假阳性。为了去伪存真,经验丰富的计算药物化学家必须亲自上阵,在三维软件中逐一检查排名靠前的分子的对接姿态(pose),评估其与靶点口袋的相互作用是否合理、构象是否稳定等。研究发现,经过专家审查挑选的分子,其后续实验的成功率和活性强度,通常都显著优于仅靠打分函数筛选的结果。 这个“人工审查”环节虽然效果显著,但其弊端也显而易见: 可扩展性极差:一个专家或团队能审查的分子数量极为有限(通常在1000个左右),这与动辄数十亿的分子库规模形成鲜明对比。大量有潜力的、但排名稍靠后的“假阴性”分子因此被永远地埋没。 主观性和不一致性:不同的专家可能会有不同的判断标准和偏好,甚至同一个专家在不同时间也可能做出不一致的评估。 知识无法传承:专家的“火眼金睛”是一种内隐的直觉和经验,很难被量化和记录下来,形成一套标准化的知识体系供他人学习或机器利用。 关键科学问题 本文旨在解决的核心科学问题是:如何规模化、标准化并最终模型化药物发现中至关重要但效率低下的“人工审查”环节?具体而言,能否开发一个工具,它不仅能记录专家的决策,还能通过机器学习主动学习专家的“直觉”,训练出一个能够模拟专家判断的模型,并利用这个模型去赋能更大规模的分子筛选,从而打破人工审查的瓶颈,提高药物发现的效率和成功率? 创新点 提出Autoparty工具:开发了一个基于Python的容器化Web应用,首次将“人在环路中”的主动学习(Active Learning, AL)框架应用于对接结果的人工审查环节。 主动学习与不确定性量化:模型并非被动学习,而是通过多种不确定性量化(Uncertainty Quantification, UQ)方法(如集成学习、Dropout、距离度量),主动挑选出对模型训练“信息量最大”(即模型最“拿不准”)的分子姿态,请求人类专家进行标注,从而用最少的专家标注数据训练出最有效的模型。 专家知识的捕获与复用:所有的人工注释(打分)都被保存在一个持久化、可导出的SQL数据库中。这不仅为项目创建了一个可追溯的决策记录,更重要的是,积累的数据可用于训练一个能模拟专家直觉的机器学习模型,该模型可被应用于筛选更多的分子。 真实世界验证的显著效果:在一个与辉瑞公司合作的前瞻性药物筛选项目中,使用Autoparty辅助决策,使得最终测试的化合物命中率(hit rate)提升了40%。 研究内容 核心方法:Autoparty工作流详解 Autoparty是一个集成了前端交互界面和后端机器学习引擎的完整系统。其核心思想是通过一个主动学习循环,让机器在与人类专家的互动中,逐步学会如何评估一个对接姿态的好坏。 图1:虚拟筛选流程与主动学习概览。 a) 药物发现的“漏斗”展示了标准的筛选步骤以及剩余的分子数量(近似值),这激发了对确保有前景的分子进入实验测试的工具的需求。b) “人在环路中”的主动学习训练范式。起始数据集缺少许多真实标签。“神谕”(人类)最初为模型训练标记一个随机子集。初始模型为未标注的数据预测标签及其不确定性。“神谕”对选定的样本进行标注。此过程重复进行,直到达到标签配额或期望的准确度。 图2:Autoparty工作流与用户交互示意图。 a) 用户与Autoparty的“前端”功能进行交互。这些功能包括上传初始筛选结果,导入可选的预先存在的注释,以及为新分子打分。用户还可以从数据库中导出所有现有的打分和预测。显示的分子是对接到AmpC β-内酰胺酶中的ZINC000000002896 (F)和ZINC000000058902 (A)。b) Autoparty的“后端”功能自动辅助“挑分子”过程。Autoparty在上传时计算每个蛋白-配体复合物的相互作用和LUNA相互作用指纹(IFPs)。Autoparty使用用户选择的架构和置信度评估程序来训练一个机器学习模型。可用选项包括集成学习(ensemble),其中使用各个模型之间的方差作为置信度的度量;dropout,它在随机“丢弃”神经网络权重的同时多次重新预测同一个样本以计算得分分布;以及距离(distance),它使用新样本与训练集中样本的拓扑相似性。后端还保存用户提供的打分,训练模型以预测人类标签,并根据采集函数对化合物进行排序。 graph TD direction LR subgraph "前端 (Front End) - 用户交互" A("1. 上传筛选结果<br/>(蛋白, 对接分子)") --> B("2. 人工评估姿态<br/>(打分 A-F)"); B -- "标注数据 (Grades)" --> C_BE; D_BE -- "待标注分子<br/>(Selected Molecules)" --> B; B --> E("3. 导出最终预测"); end subgraph "后端 (Back End) - 自动处理" direction LR subgraph "输入与特征" A_Molecules -- "分子" --> F("计算相互作用<br/>和IFPs"); end subgraph "主动学习循环" C_BE["训练ML模型"] -- "使用" --> F; C_BE --> G["预测所有分子<br/>(分数 ŷ, 不确定性 σ)"]; G --> D_BE; subgraph "UQ模块" H["集成学习"] I["Dropout"] J["距离度量"] end C_BE -- "选择UQ方法" --> H & I & J; end subgraph "数据与输出" G --> K["保存到数据库"]; K -- "输出" --> E_Final; E_Final[("最终打分和预测")] --> E; end end 1. 输入表示:从3D结构到相互作用指纹 (IFP) 当用户上传对接结果后,Autoparty的后端首先使用LUNA工具包计算每个蛋白-配体复合物的分子间相互作用,如氢键、疏水作用、范德华作用等。 随后,这些三维的相互作用信息被编码成一个固定长度的向量,即相互作用指纹(Interaction Fingerprints, IFPs)。与只编码分子自身化学结构的传统指纹不同,IFPs能够同时捕捉配体和口袋界面的几何与生物物理特性,这对于学习结合模式至关重要。 2. 主动学习循环与模型训练 初始阶段:用户首先需要对少量(默认100个)由对接分数排序的分子进行打分(A-F)。 模型训练:一旦收集到足够的初始标注,Autoparty就会在后端训练一个机器学习模型(默认为一个由3个独立神经网络组成的委员会模型)。该模型学习从IFP到人类专家打分的映射关系。 不确定性量化与分子选择:训练好的模型会对库中所有未标注的分子进行预测,同时给出每个预测的不确定性。Autoparty提供了多种UQ方法: 集成学习 (Ensemble):通过比较委员会中多个独立模型的预测差异来衡量不确定性。分歧越大,不确定性越高。 Dropout:在单个模型中,通过多次预测并随机“丢弃”部分神经元,根据预测结果的分布来计算不确定性。 距离度量 (Distance):新样本与训练集中最近邻样本的距离被用作不确定性的代理。 “人在环路”:系统根据采集函数(acquisition function)(例如,默认选择不确定性最高的分子)将新的、信息量最大的分子推送给用户进行标注。这个“标注-训练-预测-选择”的过程不断循环,直到达到预设的标注数量或模型收敛。 3. 界面与功能 Autoparty提供了一个简洁的Web界面。用户可以在浏览器中直观地看到3D的蛋白-配体相互作用图,并给出A(非常好)、B(好)、C(一般)、D(差)、F(非常差)的评分。 模型仪表盘可以实时监控训练过程中的损失函数曲线和模型性能。 图3:Autoparty网页界面。 a, 筛选上传界面。除了必需的蛋白质和单独的分子文件外,用户可以指定一个属性来对初始注释的分子进行排序。用户还可以为相互作用计算提供特定的LUNA配置。b, “挑分子”界面,用于人在环路的主动学习训练。当前分子及其计算出的蛋白质位点相互作用(钙依赖性蛋白激酶CDPK1,PDB ID: 3T3U)显示在可能分配的等级之上。右上角显示当前模式(注释 vs. 审查)和排序方法(分数、不确定性、分歧、随机),以及到其他操作(例如,筛选数据集选项)和模型训练面板的下拉菜单。c, 模型仪表盘,显示训练曲线(左)和模型在训练迭代中的准确率历史(右)。 实验结果与分析 1. 回顾性案例研究:在UCSF公开数据集上的验证 作者在两个公开的、包含大量对接结果和实验活性数据的大规模筛选项目(靶点为AmpC β-内酰胺酶和多巴胺D4受体)上,对Autoparty进行了回顾性验证。 为了模拟真实场景,他们故意从训练集中排除了所有已知的活性分子及其结构类似物。 结果(AmpC靶点): 使用Autoparty预测的A或B等级作为额外过滤器,可以将人工审查的命中率从21.7%提升到33.8%。 如果完全依赖Autoparty的预测(A或B级),在所有实验测试过的分子上,命中率达到了37.4%,高于任何其他筛选方法。 结果(D4靶点): Autoparty的表现不如人工审查,但其命中率(18.9%)仍高于随机筛选(14.5%)。 值得注意的是,对于对接分数很差的分子,Autoparty预测为A级的化合物仍然达到了22%的命中率,远高于该分数段的整体命中率(7.6%)。这有力地证明了Autoparty有潜力从被传统方法忽略的低分区域“挖掘”出被埋没的活性分子。 图4:UCSF回顾性案例研究。 a,c AmpC和b,d D4靶点上,用户打分(蓝色)与Autoparty对实验测试分子的预测打分(粉色)的分布统计和混淆矩阵。e,f 化学空间的PCA可视化,显示了所有分子(灰色)、用户打分的分子(粉色)、高分分子(蓝色)和实验确认的活性分子(橙色)的分布。活性分子(橙色)及其结构相似的分子被主动地从Autoparty训练中排除。 2. 前瞻性案例研究:与辉瑞公司的真实药物筛选项目合作 这是对Autoparty最有力的验证。辉瑞的团队使用Autoparty辅助一个针对未公开靶点的虚拟筛选项目。 团队首先对72个化合物进行了人工标注,然后训练了一个Autoparty模型。 结果: 他们最终测试了193个由“其他方法”(高对接分数+形状互补性)筛选出的分子。 在这193个分子中,如果只看“其他方法”的筛选结果,命中率(IC₅₀ < 30 μM)为7.4%。 而如果只看Autoparty预测为A或B级的分子,命中率则达到了10.4%,相比之下提升了40%。 更重要的是,在两种方法都推荐的分子中,命中率达到了10.8%,而Autoparty不推荐但其他方法推荐的分子,命中率仅为5.3%。这表明Autoparty成功地扮演了“过滤器”的角色,剔除了大量假阳性。 图5:Autoparty前瞻性案例研究。 a) 用户分配的等级(蓝色)和Autoparty分配的等级(粉色)的计数。两种分布相似,尽管Autoparty将更高比例的化合物分配为C级,这可能对应于与获得注释的那些IFP不相似的IFP。值得注意的是,Autoparty没有分配F级,这表明模型无法从单个注释中学习到人类分配等级的模式。两种方法分配A级的比例相似,占人类注释的43%和预测等级的32%。b) Autoparty与其他方法选择的化合物和命中率的维恩图。两种方法都选择的分子,其命中率超过了任一单独选择方法的命中率。 Q&A Q1: Autoparty是如何处理不同专家之间可能存在的打分不一致问题的? A1: Autoparty本身的设计并没有直接解决专家间的分歧,但它提供了一个框架来缓解这个问题。首先,所有的打分都被记录在数据库中,这使得团队可以追溯和讨论有争议的分子。其次,“Review”模式下的“Disagreement”排序功能会高亮出那些模型高置信度预测与人类专家先前标注不符的分子,促使专家重新审视和思考,有助于达成共识。长远来看,通过收集不同专家的标注,甚至可以训练能够反映特定专家偏好或团队共识的模型。 Q2: 为什么选择相互作用指纹(IFPs)作为模型的输入,而不是更复杂的3D图神经网络? A2: 这是一个在模型复杂度和数据量之间的权衡。论文中提到,在小数据集的情况下,基于指纹的表示与更复杂的消息传递神经网络(如图神经网络)的性能相当。考虑到“人工审查”环节能产生的标注数据量非常有限(通常几百到一千个),使用计算高效且性能稳健的IFPs是一个非常务实和明智的选择。它能快速训练模型,并为主动学习循环提供及时的反馈。 Q3: 主动学习中的“不确定性量化(UQ)”具体是如何帮助模型更快地学习的? A3: UQ的核心思想是让模型知道自己“不知道什么”。一个刚开始训练的模型可能对某些类型的分子(比如化学结构新颖或相互作用模式罕见)的打分非常“不确定”或“纠结”。主动学习策略正是利用这一点,优先将这些模型最“困惑”的分子推送给专家。专家对这些信息量最大的样本进行标注,能最高效地帮助模型填补知识盲区、修正错误认知,从而用最少的标注数据达到最好的学习效果,避免了在模型已经很“自信”的区域浪费专家宝贵的时间。 Q4: Autoparty这个工具是否可以用于虚拟筛选之外的其他任务? A4: 是的,论文结尾提到了这一点。虽然Autoparty是为虚拟筛选的“人工审查”设计的,但其核心框架——捕获人类对三维结构化数据的直觉判断——具有更广泛的应用潜力。例如,用户可以不基于主观的“好坏”来打分,而是基于实验测得的活性值(如IC₅₀)进行分箱打分。这样,Autoparty就可以被用来训练一个定量的结构-活性关系(QSAR)模型,直接从对接姿态预测分子的活性区间。 Q5: 这个工具是否能完全取代计算药物化学家? A5: 完全不能。恰恰相反,Autoparty的设计理念是增强而非取代人类专家。它是“人在环路中”的工具,其性能的上限取决于输入的人类专家知识的质量。专家的角色从一个重复性的体力劳动者(审查成百上千个分子),转变为一个模型训练师和决策者。专家通过标注少量关键分子来“教会”AI自己的判断逻辑,然后让AI去完成大规模的初步筛选,最后专家再对AI筛选出的精华进行最终定夺。它将专家从繁重的工作中解放出来,使其能专注于更具创造性的策略思考。 关键结论与批判性总结 核心结论 成功开发了Autoparty,一个创新的、容器化的Web工具,通过“人在环路中”的主动学习,高效地训练机器学习模型来模拟和扩展计算药物化学家的专业直觉。 实现了对专家审查过程的规模化,通过主动学习和不确定性量化,用最少的专家标注(几百个)训练出能有效筛选数千乃至数万个分子的模型。 建立了标准化的注释数据库,将专家的隐性知识转化为持久、可复用的数字资产,为模型迭代和团队知识传承提供了基础。 在真实世界的前瞻性药物发现项目中得到验证,与辉瑞公司合作的案例表明,使用Autoparty辅助筛选,可将命中率有效提升40%,并成功富集了高活性化合物。 批判性总结与展望 Autoparty是连接人类专家直觉与机器计算规模之间鸿沟的一次非常成功和巧妙的尝试。它没有试图用一个通用的、端到端的模型去解决复杂的药物发现问题,而是精准地切入了“人工审查”这个长期存在且公认的痛点,并提供了一个极为务实的解决方案。其最大的贡献在于,它不仅是一个提效工具,更是一个知识捕获和传承的平台,使得宝贵的专家经验不再是“一次性”的消耗品,而是可以被累积、学习和放大的数字资产。 潜在的局限性在于,模型的性能高度依赖于初始标注专家的水平和一致性。如果专家的判断本身存在偏差,模型也只会放大这种偏差。此外,目前使用的IFP虽然高效,但在捕捉复杂的变构效应或长程相互作用方面可能不如3D图神经网络等更前沿的模型。 未来的发展方向将非常广阔。首先,可以将更先进的表示学习方法(如等变图神经网络)整合到后端,以期在拥有更多数据后获得更高的预测精度。其次,可以将Autoparty的框架从对接后的筛选,扩展到药物设计的更多环节,例如基于生成模型产生分子的筛选、ADMET性质的预测等。最终,这类“人机协作”的工具将成为未来药物研发的标准配置,让科学家能够站在AI的肩膀上,更快、更准地发现新药。
Drug Design
· 2025-10-07
AI-Driven Drug Discovery: Iterative Machine Learning for Discovering Potent Parkinson's α-Synuclein Inhibitors
AI炼丹新范式:用迭代式机器学习发现帕金森病α-突触核蛋白的高效抑制剂 本文信息 标题: Discovery of potent inhibitors of a-synuclein aggregation using structure-based iterative learning 作者: Robert I. Horne, Ewa A. Andrzejewska, Parvez Alam, Z. Faidon Brotzakis, Ankit Srivastava, et al. 单位: University of Cambridge, National Institutes of Health (NIH), Indiana University School of Medicine, etc. 引用格式: Horne, R. I., Andrzejewska, E. A., Alam, P., Brotzakis, Z. F., Srivastava, A., Aubert, A., … & Vendruscolo, M. (2024). Discovery of potent inhibitors of α-synuclein aggregation using structure-based iterative learning. Nature Chemical Biology, 20, 634-645. 摘要 机器学习方法有望降低传统药物发现流程的成本和失败率。对于神经退行性疾病而言,这个问题尤为紧迫,因为开发能够改变病程的药物一直极具挑战性。为了解决这个问题,我们在此描述了一种机器学习方法,用于识别α-突触核蛋白(α-synuclein)聚集的抑制剂,该过程与帕金森病及其他突触核蛋白病相关。由于α-突触核蛋白聚集体的增殖是通过自催化的二级成核过程发生的,我们的目标是识别能够结合聚集体表面催化位点的化合物。为实现这一目标,我们以迭代的方式使用基于结构的机器学习,首先识别,然后逐步优化二级成核抑制剂。我们的研究结果表明,这种方法能够轻松地识别出比以往报道的化合物效力高出两个数量级的抑制剂。 背景 帕金森病(PD)是最常见的神经退行性运动障碍,影响着全球超过65岁人群中2-3%的人口。这场旷日持久的“健康”与“衰老”的战争,其核心病理特征之一是α-突触核蛋白(αS)的异常聚集。正常情况下,αS蛋白在神经元中发挥着重要生理功能;然而,一旦它错误折叠并聚集形成纤维状的“团块”,就会产生神经毒性,最终导致神经元的死亡,尤其是在大脑的黑质区域。当运动症状出现时,神经系统的损伤往往已相当严重。因此,开发能够有效抑制αS聚集的化合物,被认为是治疗帕金森病最具前景的策略之一。 然而,神经退行性疾病的药物研发之路异常艰难,至今仍缺乏能够根治或显著延缓病程的药物。传统的药物发现方法,如高通量筛选,不仅成本高昂,而且成功率极低(通常低于1%)。近年来,对αS聚集过程的动力学研究揭示了一个关键环节:二级成核(secondary nucleation)。在这个过程中,已形成的αS纤维聚集体会催化游离的单体蛋白在其表面错误折叠和聚集,形成新的聚集体核心,从而实现聚集过程的“指数级”扩增。这就像滚雪球一样,是导致αS病理迅速扩散的主要机制。因此,靶向并抑制二级成核过程,成为一个极具吸引力的药物设计策略。 关键科学问题 本文旨在解决的核心科学问题是:在药物研发早期阶段普遍存在实验数据稀疏的困境下,如何利用机器学习方法,建立一个高效、可靠且能够自我优化的闭环系统,用于从庞大的化学空间中快速发现并迭代优化出能够特异性抑制αS蛋白二级成核过程的新型、高效小分子抑制剂? 创新点 提出迭代式主动学习策略:构建了一个“预测-测试-再学习”的闭环工作流。模型根据少量初始数据进行预测,实验验证后将新数据反馈给模型进行再训练,从而在数据稀疏的场景下逐步提升模型的预测能力和发现效率。 精准靶向二级成核:整个药物发现策略从始至终都聚焦于抑制αS聚集的二级成核步骤,这是一个基于深刻病理机制理解的精准打击策略。 高效的机器学习模型组合:采用随机森林回归器(RFR)与高斯过程回归器(GPR)的组合模型。RFR提供了强大的预测性能,而GPR则能评估预测的不确定性,使得在选择化合物时可以平衡“高预测效力”和“高信息量”(即探索未知化学空间),有效避免模型陷入局部最优。 惊人的效力提升:通过该方法发现的苗头化合物,其抑制效力比本领域已知的、甚至已进入临床试验的分子(如Anle-138b)高出两个数量级。 研究内容 核心方法:三阶段迭代学习工作流 作者设计了一个分三步走的策略来探索化学空间,并最终锁定高效抑制剂。 图1:本文所述化学空间探索三个阶段的示意图。a, 通过对接模拟预测具有良好结合能力的68个分子中,我们最初通过实验测试确定了4个活性分子(“对接组”)。这四个分子增加了αS聚集的t₁/₂。b, 然后,我们在化学空间中围绕这四个母体化合物进行了近程Tanimoto相似性搜索。我们选择了Tanimoto相似性截断值>0.5的分子(“近程相似性对接组”),随后进行了Tanimoto相似性截断值>0.4的远程相似性搜索(“远程相似性对接组”)。然后应用机器学习方法,使用观察到的数据从一个源自ZINC数据库、与母体结构Tanimoto相似性>0.3的化合物库(“评估集”)中预测有效的分子。c, 预测和实验测试的连续迭代产生了更高的优化率(定义为使标准化的聚集半衰期增加到2倍以上的分子百分比),并且平均而言,分子的效力高于先前相似性搜索中识别出的分子。对识别出的有效分子也进行了验证实验。 graph TD direction LR subgraph "药物发现流程" subgraph "阶段一" direction LR D["~200万个CNS MPO优化的<br/>分子虚拟对接"] --> E["68个分子<br/>实验测试"] --> F[("4个初始命中<br/>(Hits)")] end subgraph "阶段二" direction LR G[("4个初始命中<br/>作为母核")] --> H["近程相似性搜索<br/>(Tanimoto > 0.5)"] --> I["远程相似性搜索<br/>(Tanimoto > 0.4)"] end F -- "作为起点" --> G subgraph "阶段三" direction LR J[("所有实验数据<br/>(161个分子)作为训练集")] --> K["1.告知(Inform)<br/>训练ML模型"] --> L["2.预测(Predict)<br/>从~9000个分子库中<br/>预测高分分子"] --> M["3.测试(Test)<br/>实验验证预测分子"] --> J end H -- "产生数据" --> J I -- "产生数据" --> J end 阶段一:对接策略 (Docking Strategy) 目标:从海量分子库中找到最初的“种子”分子。 过程:研究人员首先在先前研究中使用的αS纤维聚集体结构(PDB: 6CU7)上,使用软件(Fpocket, CamSol)识别出一个位于纤维侧面的潜在结合口袋。该口袋由His50-Lys58和Thr72-Val77残基构成,具有较低的溶解性和易于结合的特性。然后,他们从一个包含约200万个经过中枢神经系统多参数优化(CNS MPO)的分子库中,使用两种不同的对接软件(AutoDock Vina, FRED)进行虚拟筛选。 结果:通过筛选和Tanimoto相似性聚类(阈值为0.75),最终得到了79个代表性分子(centroids),即每个簇的代表。其中68个可供购买并进行了体外实验测试。实验发现,有4个分子(48, 52, 68, 69)能够有效抑制αS聚集,它们构成了后续研究的“母核”或“父代结构”。 阶段二:相似性搜索策略 (Search Strategy) 目标:在初始命中的分子周围快速扩展化学空间,找到更多活性分子。 过程:以4个母核分子为起点,在ZINC15数据库中进行两轮相似性搜索。 近程搜索:使用较高的Tanimoto相似性阈值(>0.5),寻找与母核结构非常相似的分子。 远程搜索:使用较低的相似性阈值(>0.4),寻找与母核结构有一定差异的分子。 结果:近程搜索的命中率(optimization rate)较高,而远程搜索的命中率急剧下降到仅4%,且测试了三倍多的化合物。命中率的计算方式为:在一个集合中,能够将聚集反应的半衰期(t₁/₂)延长至对照组两倍以上的分子所占的百分比。这表明,仅靠传统的结构-活性关系和相似性搜索,很难在远离初始母核的化学空间中高效地发现新分子。 阶段三:主动学习策略 (Active Learning Strategy) 目标:利用机器学习,在更广阔但相关的化学空间中智能地寻找高效抑制剂。 过程:这是一个“设计-测试-学习”的闭环。 告知 (Inform):将前两个阶段获得的所有161个分子的实验数据(包括活性和非活性分子)作为初始训练集。 预测 (Predict):训练一个机器学习模型,用它来预测一个包含约9000个分子的“评估库”(该库由与4个母核有Tanimoto相似性>0.3的分子构成)中分子的抑制活性。 测试 (Test):购买并实验验证模型预测排名最高的约60个分子。 迭代:将新测试的数据加入训练集,重复步骤1-3,共进行了四轮迭代。 机器学习模型细节 分子表示:使用连接树变分自编码器 (Junction Tree Variational Autoencoder) 将分子的SMILES字符串转换为低维度的连续向量(潜在向量),这是模型能够“理解”分子结构的基础。 预测模型:采用随机森林回归器(RFR)和高斯过程回归器(GPR)的堆叠模型。RFR负责主要的活性预测,而GPR则对RFR的残差进行拟合,并提供一个关键的预测不确定性度量。这使得模型在选择下一个要测试的分子时,不仅会选择那些预测活性高的,也会适当选择那些模型“不确定”但可能带来新信息的分子。 模型性能:在训练集上,该组合模型在R²得分、平均绝对误差和均方根误差方面均优于其他模型组合(如多层感知器、线性回归器等)。具体的性能参数展示在补充图1和补充表1中。当用该模型拟合聚集实验数据时,获得的R²值在0.2到0.3之间。 实验结果与分析 本文核心Result部分的思路图 graph TD A("起点:<br/>传统药物发现策略") --> B; subgraph "1. 初始策略与瓶颈" direction LR B["对接策略 (Docking)<br/>- 200万分子库<br/>- 获得4个活性母核"] --> C["相似性搜索 (Similarity Search)<br/>- 近程搜索: 命中率尚可<br/>- 远程搜索: 命中率骤降至**4%**"] --> D{("瓶颈:<br/>传统方法难以<br/>拓展新化学空间")} end D --> E; subgraph "2. 机器学习迭代策略的成功" direction LR E["主动学习闭环<br/>(Active Learning Loop)<br/>- ‘预测-测试-再学习’<br/>- RFR+GPR模型 (含不确定性)"] --> F["性能提升<br/>- 命中率: 4% -> **21.4%**<br/>- 平均效力持续增强 (图3a)"] --> G{("突破:<br/>成功探索新化学空间<br/>并持续优化")} end G --> H; subgraph "3. 发现超高效分子 (I4.05)" direction LR H["效力对比 (图2)<br/>- KIC₅₀ = 0.52 μM<br/>- **比Anle-138b强约70倍**"] --> I["作用机制分析<br/>- 不影响纤维延伸 (图2c)<br/>- **显著减少寡聚体** (图2d)"] --> J{("成果:<br/>发现全新、高效且<br/>机制明确的抑制剂")} end J --> K; subgraph "4. 作用机制验证" direction LR K["靶点结合验证 (SPR, 图4)<br/>- 与αS纤维**高亲和力结合**<br/>- KD值达**纳摩尔级别 (13-68 nM)**"] --> L["特异性验证<br/>- **对Aβ42无活性** (图4d)"] --> M{("确认:<br/>分子通过结合纤维<br/>特异性抑制二级成核")} end M --> N; subgraph "5. 生物学相关性验证" direction LR N["病理种子抑制实验 (RT-QuIC, 图5)<br/>- **有效抑制帕金森病(DLB)<br/>脑源性种子的聚集**"] --> O["寡聚体直接量化 (µFFE, 图6)<br/>- **显著减少寡聚体的<br/>数量和大小**"] --> P{("关键验证:<br/>分子对真实病理<br/>聚集体有效")} end P --> Q(("最终结论:<br/>迭代式ML成功发现高效、新颖且<br/>具生物学相关性的αS二级成核抑制剂")); 机器学习迭代的成功 命中率和效力持续提升:随着机器学习的迭代(从第1轮到第3轮),发现的有效分子的平均效力(以标准化的聚集半衰期t₁/₂表示)和命中率都在稳步提高。第1、2、3轮的命中率分别为12.5%、17.2%和21.4%,这比传统高通量筛选(<1%)的效率高出一个数量级,并且显著优于远程相似性搜索(4%)。 探索新化学空间:图3:机器学习药物发现方法的迭代结果。a, 不同阶段(远程搜索,迭代1,迭代2和迭代3)在25μM浓度下有效先导化合物的标准化的t₁/₂(n=2次重复;中心度量为平均值;误差为标准差)。水平虚线表示有效先导化合物分类的界限,即标准化的t₁/₂=2。对于远程搜索,测试了69个分子,而对于迭代1、2和3,测试的分子数分别为64、64和56。请注意,最有效的分子在观察的时间尺度内完全抑制了聚集,因此标准化的t₁/₂表示为实验的整个持续时间。b, 项目中从近程搜索(CS)开始,到远程搜索(LS),再到迭代1、2和3(I1, I2和I3),有效分子(+)和无效分子(-)的流向。每个分支都标有分子来源(例如,p48)。在远程搜索阶段,损耗达到最高点,之后随着每次迭代逐渐改善。 发现超高效抑制剂 效力碾压:在低浓度下,通过第四轮迭代发现的明星分子14.05展现出惊人的抑制效果。研究人员计算了半数抑制动力学常数(KIC₅₀),即能将聚集半衰期延长50%所需的浓度。分子14.05的KIC₅₀值为0.52 μM,而母核分子69和Anle-138b的该值分别为18.2 μM和36.4 μM。这意味着14.05的效力比这些参照物高出约35-70倍。 特异性作用机制:实验表明,这些新发现的抑制剂不影响αS纤维的延伸过程,这非常重要,因为抑制延伸可能会导致毒性更强的寡聚体累积。计算表明,这些分子能够有效延迟和减少寡聚体峰值的出现。图2:迭代学习发现的分子(I4.05)与一种目前处于临床试验阶段的αS聚集抑制剂(Anle-138b)的性能比较。a, 在有分子或1% DMSO存在下,10μM的αS溶液与25nM种子的动力学曲线(pH 4.8, 37°C)(n=3次重复;中心度量为平均值;误差为标准差(s.d.))。在初始筛选中,除第4次迭代外,所有分子均在2.5摩尔当量(25μM)下进行筛选,然后将有效分子在更低浓度下进行进一步验证:0.4μM(蓝色)、0.8μM(蓝绿色)、1.6μM(橙色),并以25μM的Anle-138b作为比较(红色圆圈)。1% DMSO阴性对照以紫色显示。以分子I4.05为例。实验结束时,通过Pierce BCA蛋白检测试剂盒在t=125小时检测到的αS单体浓度对终点进行归一化。b, 三种不同分子Anle-138b(紫色)、母体结构69(淡紫色)和I4.05(蓝色)存在下的近似反应速率(取为1/t₁/₂,在0和100之间归一化;中心度量为平均值)。I4.05的KIC₅₀由拟合曲线(蓝色)与水平虚线的交点指示。c, 还进行了高浓度种子实验(5μM种子,所有其他条件与a相同,n=3次重复;中心度量为平均值;误差为s.d.),以观察对延伸速率的任何影响,并结合从a中得到的二级成核速率来计算寡聚体通量。d, 使用从a和c中得到的速率,计算I4.05与临床试验分子Anle-138b的寡聚体通量。 生物学验证:结合亲和力与靶向病理聚集体 直接结合证据:使用表面等离子共振(SPR)技术,作者证实了分子14.05能够以纳摩尔级别的亲和力(在pH 4.8时K_D=68 nM,pH 8时K_D=13 nM)直接结合到αS纤维上。相比之下,Anle-138b在pH 4.8下未检测到结合,在pH 8下的亲和力也仅为微摩尔级别(K_Dapprox8.1 μM)。这两个数量级的亲和力差异与观察到的效力差异完美匹配。 靶点特异性:分子14.05对阿尔茨海默病相关的Aβ42蛋白的聚集和纤维结合均无明显效果,表明其并非泛泛的淀粉样蛋白抑制剂,而是对αS具有高度特异性。图4:分子与αS纤维的结合。a, 小分子与αS纤维上目标结合口袋结合的示意图。b, 在pH 4.8和pH 8下,不同浓度的I4.05与通过种子法生成的αS纤维结合的SPR响应曲线,并附有相应的分子结构。显示了每个分子浓度的原始数据(点)和相应的拟合曲线(实线)(n=2次重复)。y轴显示响应单位(RU)。αS纤维以2000 pg mm⁻²的浓度固定在CM5 Cytivia芯片上。拟合对应于1:1动力学结合模型,在pH 4.8时得到KD为68 nM,在pH 8时为13 nM。误差为平均值的标准误差(s.e.m.)。c, 不同浓度Anle-138b的SPR响应曲线。显示了每个分子浓度的原始数据(点)(n=2次重复)。在pH 4.8时无法获得准确的拟合。在pH 8时,1:1动力学结合模型得出的近似KD为8.1μM。误差为s.e.m.。d, 在1% DMSO或不同浓度I4.05存在下,2μM Aβ42的种子诱导动力学(40nM种子,n=2次重复;中心度量为平均值;误差为标准差)和SPR响应曲线(n=2次重复)。I4.05不能有效抑制Aβ42的二级成核或与Aβ42纤维结合。Aβ42纤维以2000 pg mm⁻²的浓度固定在CM5 Cytivia芯片上。 抑制病理相关聚集体:最关键的验证来自使用路易体痴呆(DLB)患者脑组织提取物作为“种子”的RT-QuIC实验。DLB中的αS纤维结构与帕金森病中的一致。结果显示,所有通过机器学习发现的苗头分子,都能有效抑制由真实病人脑源性病理种子诱导的αS聚集,并且效果优于母核分子。而Anle-138b在此实验条件下反而加速了聚集。图5:RT-QuIC脑源性种子扩增实验。a, RT-QuIC实验的示意图。使用来自患有DLB的患者脑组织的聚集体诱导αS聚集。来自患有CBD的患者脑部样本作为阴性对照。b, 在CBD种子存在下,7μM αS溶液的动力学曲线(pH 8, 42°C,以1分钟为间隔摇晃400 rpm,n=4次重复;中心度量为平均值;误差为标准差(s.d.))。CBD样本为1% DMSO(蓝色),7μM Anle-138b(蓝绿色),母体分子(橙色),I1.01(紫色),I3.02(红色),I3.08(青绿色)和I4.05(浅蓝色)。在此条件下,蓝绿色的Anle-138b诱导了聚集。c, 在DLB种子存在下,7μM αS溶液的动力学曲线(n=4次重复;误差为s.d.;所有其他条件与b相同)。DLB样本为1% DMSO(紫色),3.5μM分子(蓝色),7μM分子(蓝绿色)和25μM分子(橙色)。Anle-138b再次表现出加速而非抑制聚集。 对MSA病理种子同样有效:该分子对另一种突触核蛋白病——多系统萎缩症(MSA)患者的脑源性种子也表现出抑制活性。 直接测量寡聚体:通过微流控自由流电泳(µFFE)技术,研究人员能够直接分离并量化反应体系中的寡聚体。结果显示,在DMSO对照组中存在大量寡聚体,而加入分子13.02后,寡聚体的数量和大小均显著减少,而Anle-138b处理组的寡聚体数量甚至比对照组还多。图6:使用μFFE技术量化αS寡聚体。右上角:用AlexaFluor 488标记的αS(100μM, pH 7.4, 37°C,200rpm摇晃5分钟和静置1分钟的循环,n=4次重复;误差为标准差)补充了0.5μM种子和1% DMSO(紫色)或50μM Anle-138b(蓝绿色)或13.02(蓝色)在1% DMSO中。在这些条件下,Anle-138b轻微加速聚集,其中由于摇晃,断裂机制可能再次起作用,而13.02则减缓了聚集。在聚集时间进程的9小时处提取样品,并离心以从混合物中去除纤维,仅留下αS单体和可溶性寡聚体物种用于μFFE分析。左下角:μFFE方法的示意图,显示了经过AlexaFluor 488标记的αS寡聚体混合物进行μFFE。流体流动方向由箭头显示。电场的差异偏转使得在分析过程中能够将单体群体与寡聚体群体分离开。中下和右下角:对每个样品中检测到的聚集体群体的分析。条形图的y轴绘制了每个样品发出的平均光子数,该数值与颗粒数量和大小成正比。插图中标明了每个颗粒发出的平均光子数。 Q&A Q1: 本文得到的分子是抑制聚集还是结合αS纤维? A1: 两者都是,而且是因果关系。分子的作用机制是首先结合到αS纤维上,通过占据纤维表面的催化位点,从而抑制了二级成核过程,最终达到了抑制整个聚集反应的效果。SPR实验(图4)直接证明了分子与纤维的高亲和力结合,而动力学实验(图2)则证明了其对聚集的抑制效果。因此,可以说“结合αS纤维”是手段,“抑制聚集”是最终目的和结果。 Q2: 为什么这项研究一开始要用虚拟对接,而不是直接从机器学习开始? A2: 这是一个非常好的策略性问题。机器学习,尤其是在药物发现这样的复杂领域,需要一个合理的起点。在没有任何实验数据的情况下,模型无法知道应该学习什么样的分子特征。虚拟对接在这里扮演了“先锋”的角色,它基于蛋白质的3D结构,从数百万个分子中初步筛选出几十个最有可能与目标口袋结合的候选者。尽管对接的准确性有限,但它成功地提供了4个具有初步活性的“火种”(母核分子),为后续的相似性搜索和更关键的机器学习迭代提供了宝贵的初始训练数据和探索方向。 Q3: 为什么模型选择随机森林(RFR)和高斯过程(GPR)的组合,而不是更“时髦”的深度学习模型? A2: 这体现了在数据稀疏场景下建模的智慧。深度学习模型通常需要大量的训练数据才能表现良好。而本研究的初始训练集只有161个分子,对于深度学习来说太少了,很容易过拟合。随机森林是一种集成模型,对小数据集有很好的鲁棒性。更重要的是,与GPR的组合引入了不确定性量化的能力。GPR不仅能预测一个值,还能告诉我们这个预测有多“自信”。这使得主动学习策略可以更智能地选择下一个要测试的分子:既要“利用”已知的知识(选择预测活性高的),也要“探索”未知的领域(选择模型不确定,但可能带来新信息的分子)。 Q4: 实验中发现的抑制剂对体外重组蛋白纤维和病人脑源性纤维都有效,这是否说明两者结构很相似? A4: 这是一个非常深刻的观察。作者指出,他们最初用于对接和筛选的重组αS纤维结构(PDB: 6CU7)与后来从病人大脑中解析出的病理纤维结构(PDB: 8A9L)其实是不一样的。然而,他们在补充图S16中对比发现,这两种不同的纤维多晶型物在目标结合口袋区域存在一定的结构相似性。作者认为,这种口袋的相似性可能是“侥幸的”,但也正是因为这种相似性,使得基于重组蛋白发现的抑制剂,也能够幸运地对病理相关的聚集体起作用。这提示我们,即使体外模型与体内病理结构不完全一致,但如果能靶向一个保守的关键功能位点,仍然可能开发出有效的药物。 Q5: 为什么在RT-QuIC实验中,Anle-138b反而加速了αS的聚集? A5: 作者也注意到了这个“反常”现象。他们推测这可能与Anle-138b据报道的低溶解度有关。RT-QuIC实验条件(pH 8,剧烈振荡)与最初的筛选条件(pH 4.8,静置)有很大不同。在这些条件下,低溶解度的Anle-138b可能自身形成微小的聚集体或胶束,这些颗粒反而可能作为新的成核表面,异构地诱导了αS的聚集,从而表现出加速效应。这凸显了在不同实验条件下评估化合物活性的重要性。 Q6: 聚类时使用的“代表性分子”是如何定义的? A6: 在这项研究中,“代表性分子”(centroids)是通过Tanimoto相似性聚类产生的。具体来说,他们将对接分数最高的10,000个化合物,使用基于Morgan指纹的Tanimoto相似性度量进行聚类,相似性截断值为0.75。每个形成的簇(cluster)中,会选出一个分子作为该簇的代表,这个分子就是“代表性分子”或“质心”。这么做的目的是为了在保证化学多样性的前提下,减少需要进行实验测试的化合物数量。 Q7: 机器学习模型的训练效果具体如何?R²值是多少? A7: 论文中提到,研究团队测试了多种机器学习模型的组合,最终发现RFR-GPR堆叠模型在预测对接分数时表现最好。虽然在预测实际的、数据量较小的聚集实验数据时,QSAR模型的R²值表现“一般”(modest),但这主要是由于训练数据稀疏造成的。当模型用于预测数据量稍大的对接分数时,其R²值是前者的三倍,达到了约0.6-0.7。具体的R²值和其他性能指标在补充图S1和补充图S6中有详细展示。 补充信息(SI)中的亮点 模型选择的严谨性(图S1):SI详细展示了多种机器学习模型(线性回归、多层感知器、随机森林、高斯过程及其组合)的学习曲线。这表明作者经过了严谨的模型比较和选择,最终确定RFR-GPR组合是针对该问题的最优解,而不是随意选择了一个模型。 化学空间的演化(图S2, S14):SI中的图表直观地展示了从最初的母核分子到经过多轮迭代后发现的高效抑制剂,其化学结构是如何一步步演变的。可以看出,模型保留了母核69中的一些关键药效团(如吡唑烷二酮环),同时对其他部分进行了大胆的修饰,实现了“探索式优化”。 模型可解释性的尝试(图S15):作者利用SHAP(Shapley Additive Explanations)技术,尝试打开机器学习的“黑箱”。他们通过分析SHAP值,将潜在空间中的维度与分子中的特定化学亚结构(如吡唑烷二酮、色原酮等)关联起来。这表明,模型不仅仅是在进行无意义的拟合,而是在学习和识别与活性相关的、具有化学意义的结构特征。 病理结构口袋的相似性(图S116):这是解释为什么药物有效的一个关键证据。SI中直接对比了体外重组纤维和病人脑源性纤维的冷冻电镜结构,并指出了两者在目标结合口袋区域的相似性,为药物的广谱有效性提供了结构基础。 关键结论与批判性总结 核心结论 成功建立并验证了一个迭代式、基于结构的机器学习药物发现流程,能够高效地识别和优化靶向α-突触核蛋白二级成核过程的抑制剂。 该方法在数据稀疏的早期药物发现阶段表现出色,其命中率(最终达到21.4%)比传统高通量筛选高出一个数量级,并且显著优于传统的相似性搜索策略。 发现了多个新型、高效的αS聚集抑制剂,其中最优秀的分子(14.05)在体外实验中的抑制效力(KIC₅₀ = 0.52 μM)和与αS纤维的结合亲和力(Kᴅ = 13-68 nM)方面,均比已进入临床试验的参照分子Anle-138b高出约两个数量级。 验证了抑制剂的生物学相关性,证明其不仅对体外重组αS纤维有效,还能抑制从帕金森病(DLB)和多系统萎缩症(MSA)患者脑组织中提取的病理相关聚集体的扩增,并且对Aβ42蛋白无交叉反应,显示出高度特异性。 批判性总结与展望 这项研究是机器学习赋能神经退行性疾病药物发现的一次精彩示范。它巧妙地将基于病理机制的深刻理解(靶向二级成核)与前沿的主动学习策略相结合,为在数据稀疏这一普遍困境下如何高效“炼丹”提供了一个极具操作性的范例。其发现的化合物效力之高,令人印象深刻,不仅为帕金森病的治疗提供了新的候选分子,也强有力地证明了该方法的巨大潜力。 该方法最值得称道的智慧在于其“迭代”和“不确定性导向”的核心思想。它不是试图一步到位地找到“神药”,而是通过快速的“预测-验证”循环,让模型在与实验的“对话”中不断学习和进化,最终逼近最优解。 尽管如此,该方法仍存在局限性,最主要的是其依赖于一个预设的化合物筛选库,这限制了其探索全新化学结构的能力。正如作者所言,结合生成式人工智能(Generative AI)和强化学习,实现从头分子设计,将是该领域的下一个突破口。此外,将药代动力学、毒性等多重参数纳入优化目标,将使其更贴近真实的药物研发需求。总而言之,这项工作为蛋白质错误折叠疾病的药物发现开辟了一条充满希望的新路径,也预示着AI驱动的闭环式药物研发将成为未来的主流。
Drug Design
· 2025-10-07
When Physics Meets AI: How Deep-CovBoost Precisely Targets COVID-19's Weak Spots
当物理模拟遇见AI:Deep-CovBoost如何精准狙击新冠病毒”软肋”? 本文基本信息 标题:整合基于物理的模拟与数据驱动的深度学习是开发靶向主蛋白酶抑制剂的稳健策略 (Integrating Physics-Based Simulations with Data-Driven Deep Learning Represents a Robust Strategy for Developing Inhibitors Targeting the Main Protease) 团队:浙江大学周如鸿(Ruhong Zhou)团队 作者:Yanqing Yang, Yangwei Jiang, Dong Zhang, Leili Zhang, Ruhong Zhou 期刊:Journal of Chemical Information and Modeling (化学信息与建模杂志) 发表日期:2025年7月28日 (Accepted) DOI:10.1021/acs.jcim.5c01307 摘要 冠状病毒主蛋白酶(main protease)对病毒复制至关重要,是一个经过充分验证的抗病毒靶点。在此,我们提出了一个名为 Deep-CovBoost 的计算流程,该流程整合了深度学习与自由能微扰(FEP)模拟,以指导针对冠状病毒主蛋白酶的基于结构的抑制剂优化。从一个已报道的非共价抑制剂出发,该流程通过预测模型生成并优先排序了新的类似物,随后通过FEP和分子动力学模拟进行了严格的验证。这一方法成功鉴定出了一系列优化的化合物(例如,I3C-1, I3C-2, I3C-35),它们通过与先前未被充分利用的S4和S5亚口袋结合,增强了与靶点的亲和力。这些结果凸显了将基于物理的方法与AI驱动的方法相结合,在加速先导化合物优化和抗病毒药物设计方面的巨大潜力。 背景 自21世纪以来,β-冠状病毒已三次对全球公共卫生构成严重威胁,包括2003年的SARS、2012年的MERS,以及由SARS-CoV-2引发的COVID-19大流行。尽管疫苗和口服抗病毒药物的开发取得了巨大成功,但病毒的持续变异和免疫逃逸能力,意味着开发新型、广谱的抗冠状病毒药物,以应对未来潜在的疫情,仍然是一项紧迫的全球性任务。 在众多抗病毒靶点中,冠状病毒的主蛋白酶(Mpro)因其在病毒复制中的核心作用以及在多种冠状病毒间的高度保守性,成为了一个极具吸引力的药物设计靶点。它像一把“分子剪刀”,负责将病毒的蛋白前体切割成多个功能性蛋白单元,是病毒生命周期中不可或缺的一环。 关键科学问题 目前已获批的抑制剂,如Paxlovid中的奈玛特韦,虽然临床有效,但存在一些局限性。首先,它是一种共价抑制剂,通过与靶蛋白形成不可逆的化学键来发挥作用,这虽然强效,但也带来了潜在的脱靶效应和安全性风险。其次,它需要与另一种药物“利托那韦”联用以减缓其在体内的代谢,而利托那韦可能干扰其他药物的代谢,导致复杂的药物-药物相互作用(DDI),限制了其在合并用药患者中的使用。 因此,开发高效、安全、无需增强剂的非共价抑制剂成为了一个重要的研究方向。COVID Moonshot 正是一个旨在应对这一挑战的全球性、开放科学的药物发现项目。该项目筛选并公开了大量靶向主蛋白酶的非共价抑制剂片段及其活性数据,为后续研究提供了宝贵的起点。然而,从这些初步的“先导化合物”到一个真正有效的药物分子,需要经历漫长而昂贵的“先导化合物优化”过程。核心的科学问题是:如何才能在由先导化合物衍生出的、数以万计甚至百万计的广阔化学空间中,快速、准确地预测出哪种结构修饰能够最大程度地提升药物活性,从而精准指导化学合成,避免资源浪费? 创新点 为了应对这一挑战,本文的研究团队创造性地提出了一个名为 Deep-CovBoost 的计算框架。其核心创新点在于将两种强大的计算方法无缝整合,形成“AI海选”与“物理精算”的协同策略: 数据驱动的深度学习:利用AI模型,从海量的现有抑制剂数据中学习“构效关系”,从而能够对数以万计的新分子进行快速、大规模的活性预测和虚拟筛选,高效探索化学空间。 基于物理的自由能微扰(FEP):利用精确的物理学原理,对AI筛选出的少数精英候选分子进行高精度的结合自由能计算,从而对它们的活性进行可靠的验证和排序。 这种策略结合了AI的速度和广度与物理模拟的深度和准度,旨在极大地加速先导化合物的优化进程。 研究内容 方法:Deep-CovBoost 框架详解 研究团队以COVID Moonshot项目公开的非共价抑制剂 I3C-0 ($IC_{50} = 19.73 \mathrm{nM}$)作为优化的起点,其整体技术路线可以通过下面的流程图清晰地展示: 阶段一:确定优化“热点” (结合图1) 研究首先通过500 ns的分子动力学(MD)模拟评估了 I3C-0 在口袋中的稳定性。结果显示,其核心骨架非常稳定,而 C’R’+R2 基团则表现出较大的波动性,表明该区域的相互作用较弱,是进行结构改造以提升活性的关键“热点”。随后,团队利用来自ChEMBL数据库和COVID Moonshot项目的分子片段,通过合理的化学反应规则替换了I3C-0的C’R’+R2部分,构建了一个包含12万个新分子的内部化合物库。 图1:(A) SARS2、SARS和MERS主蛋白酶的序列比对,突出显示了活性位点中的关键残基(红框)。 (B) 主蛋白酶二聚体及其催化机制的卡通表示。 (C) I3C-0与主蛋白酶形成的复合物的晶体结构(PDBid: 7GLB)。 (D) Deep-CovBoost框架中整合基于物理的FEP与数据驱动的深度学习的示意工作流程。 (E) I3C-0与主蛋白酶的结合模式及活性位点中亚口袋的分布。 (F) I3C-0在MD模拟中的RMSD曲线,显示了整个分子、核心原子(蓝色)和C’R’+R2基团原子(红色)的均方根偏差。 阶段二:深度学习模型海选 (结合图2) 此阶段的核心是构建一个精准的AI预测模型。团队构建了一个基于消息传递神经网络(Message Passing Neural Network, MPNN)的深度学习模型。该模型的巧妙之处在于,它不直接预测单个分子的绝对活性,而是以分子对作为输入,直接预测这两个分子因结构差异导致的相对结合自由能变化($\Delta\Delta G$)。模型在包含707个Moonshot化合物的数据集上进行了训练,学习了分子结构的微小差异如何导致活性的变化。训练完成后,这个AI模型被用来快速预测内部化合物库中12万个分子相对于起点分子I3C-0的活性变化,并筛选出最优的候选者进入下一轮。 图2:构建用于评估靶向主蛋白酶小分子活性的模型的工作流程。它包括五个关键步骤:数据整理(A)、模型构建(B)、5折交叉验证(C)、外部测试(D)和模型预测(E)。 阶段三:FEP精确验证 对于AI筛选出的精英分子,团队采用了计算成本高昂但极为精确的自由能微扰(FEP)方法进行最终验证。FEP基于严格的统计力学原理,能够高精度地计算一个分子被“炼金术”式地转变为另一个分子时的自由能变化($\Delta\Delta G$),从而准确预测活性的提升或下降。 结果与讨论 1. 成功发现活性显著提升的新抑制剂 通过上述流程,团队成功发现了一系列活性优于起点分子I3C-0的新抑制剂。其中,I3C-1 ($\Delta\Delta G = -3.69 \mathrm{kcal/mol}$) 和 I3C-2 ($\Delta\Delta G = -3.71 \mathrm{kcal/mol}$) 的结合亲和力得到了数量级的提升。 图3:(A) 展示深度学习与FEP结合用于先导化合物优化的流程图。 (B) C’R’基团优化的FEP结果,新生成的类似物表示为I3C-1到I3C-13。 2. 揭示S4/S5亚口袋的关键作用 机理分析揭示了这些新分子活性提升的结构基础。起点分子I3C-0主要占据S1, S2, S3亚口袋,而其不稳定的C’R’基团附近存在着未被充分利用的S4和S5亚口袋。研究发现,将I3C-0中的六元内酰胺环(C’基团)修改为五元环,能够改变其连接的R’基团的空间朝向,使其正好可以延伸并占据S4和S5亚口袋。这种新的结合模式与FDA批准的药物奈玛特韦(Nirmatrelvir)在该区域的结合模式表现出惊人的相似性,从而带来了显著的亲和力增强。这完美解释了为何结构上的微小改变能带来活性的巨大飞跃。 图4:(A) 使用Deep-CovBoost框架对I3C-0的C’R’基团进行优化。 (B)和(C) 成功发现了活性显著增强的I3C-1和I3C-2。 (D)和(E) I3C-1、I3C-2与奈玛特韦同主蛋白酶的结合模式比较。 3. 多轮、多位点迭代优化 第一轮优化大获成功后,团队并未止步。他们以活性最高的分子之一 I3C-2 作为新的起点,再次启动了完整的Deep-CovBoost流程,针对S4和S5亚口袋中的R5基团进行第二轮优化。这一轮迭代同样成果斐然,再次发现了一系列活性更强的分子,如 I3C-34 ($\Delta\Delta G = -1.36 \mathrm{kcal/mol}$) 和 I3C-35 ($\Delta\Delta G = -1.01 \mathrm{kcal/mol}$)。MD模拟证实,这些新分子能更好地嵌入S4和S5亚口袋,并与关键残基形成更稳定的氢键网络。 图5:I3C-34 (A)、I3C-35 (B)和I3C-36 (C)与主蛋白酶的分子动力学结果及相互作用分析。 4. 广谱性潜力分析 为了评估新发现抑制剂对抗不同冠状病毒的潜力,团队还测试了I3C-1和I3C-34与SARS和MERS主蛋白酶的结合。MD模拟结果显示,这两种化合物在三种不同的冠状病毒主蛋白酶活性口袋中都表现出稳定的结合构象。这表明,通过Deep-CovBoost发现的抑制剂具有成为广谱抗冠状病毒药物的潜力,为应对未来可能出现的新型冠状病毒储备了宝贵的技术和候选药物。 图6:I3C-1 (A)和I3C-34 (B)与SARS2、SARS和MERS主蛋白酶的MD模拟RMSD曲线,以及与关键活性位点残基的接触频率。 技术细节 Q&A Q1:本文的核心策略是“AI预测”和“FEP计算”的结合,两者之间的相关性如何?AI预测的结果足够可靠吗? A:这是一个非常关键的问题。研究发现,AI模型预测的$\Delta\Delta G$值与FEP计算的$\Delta\Delta G$值之间存在中等但显著的正相关(皮尔逊相关系数PCC在0.5到0.54之间)。这意味着AI的预测趋势是基本正确的,能够有效地从海量分子中富集出高活性候选者。然而,相关性并非完美,也说明了AI预测存在一定的“噪音”和不确定性。因此,AI的角色是高效的“漏斗”,用于大规模地排除劣质分子;而FEP则是必不可少的“精密天平”,用于对AI筛选出的少数精英分子进行最终的、高精度的验证。两者结合,实现了效率与准确性的最佳平衡。 Q2:研究中提到S4和S5亚口袋“未被充分利用”,这在药物设计中意味着什么? A:在基于结构的药物设计中,靶蛋白的活性口袋通常被划分为不同的亚口袋。一个理想的药物分子应该能像拼图一样完美地填满这些口袋,并与关键残基形成有利的相互作用。“未被充分利用”意味着先导化合物I3C-0未能有效地占据S4和S5这两个空间,导致其与蛋白的结合存在“缺口”,这是其亲和力未能达到最优的主要原因。因此,这些未被利用的亚口袋就成为了药物优化的“机会窗口”。本研究的成功之处就在于,通过结构修饰,让新的分子成功地“长”进了这个机会窗口,从而获得了额外的结合亲和力。 Q3:为什么MD模拟在确定优化“热点”时如此重要? A:静态的晶体结构只能提供一个瞬时的“快照”,而分子在生理环境中是动态的。通过长时间的MD模拟,研究者可以观察到配体在口袋中的动态行为。在本研究中,MD模拟发现I3C-0的核心骨架部分RMSD很小(蓝色曲线,图1F),表明其结合非常稳定,不应轻易改动;而C’R’+R2基团的RMSD则非常大(红色曲线),说明它在口袋中“摇摆不定”,与蛋白的相互作用很弱。这种动态的不稳定性,恰恰暴露了分子中最需要被优化、且最有可能通过改造来提升亲和力的“软肋”或“热点”。 Q4:多轮优化(例如从I3C-2到I3C-34)是纯靠FEP计算吗? A:不是的。多轮优化同样遵循了完整的Deep-CovBoost流程。研究者以第一轮优化得到的高活性分子I3C-2为新的起点,再次利用分子片段库对其R5基团进行修饰,生成了新一批的候选分子库。然后,同样先用深度学习模型进行快速海选,筛选出最有潜力的分子,最后再用FEP进行高精度验证。这体现了该框架的迭代优化能力。 Q5:FEP计算的准确性如何保证? A:为了确保FEP计算的可靠性,研究者采取了多重措施。首先,他们在正式筛选前,用4个已知活性数据的分子对FEP方法进行了基准测试,计算结果与实验值的相关性非常高,证明了该方法在此体系中的准确性。其次,对于每一个FEP计算,他们都进行了三次独立的重复模拟,并确保总模拟时间足够长(每个任务总计超过348 ns),以获得充分的采样和收敛的自由能结果。 关键结论与批判性总结 关键结论 本研究成功开发并验证了一个名为 Deep-CovBoost 的计算药物设计框架,该框架巧妙地结合了深度学习的速度与广度和自由能微扰(FEP)的精度与深度。通过应用该框架,研究团队以一个公开的先导化合物为起点,成功设计并(在计算中)验证了一系列具有更高活性、且具备广谱抗冠状病毒潜力的新型非共价抑制剂。这项工作为应对未来可能出现的新型冠状病毒疫情,提供了一个高效的虚拟筛选和药物发现流程。 批判性总结 优势 (Strengths): 方法论创新:将AI快速筛选与物理精确计算相结合的范式,是现代计算药物设计领域的一个优秀范例,有效平衡了计算效率与准确性。 结果可靠性高:研究不仅依赖于AI的预测,更使用严谨的FEP方法对关键候选分子进行了验证,并通过长时间MD模拟深入分析了作用机理,使结论具有较高的可信度。 潜在应用价值广:所发现的新分子表现出对多种冠状病毒主蛋白酶的抑制潜力,具有开发为广谱药物的前景。 局限性与未来展望 (Limitations & Future Directions): 缺乏实验验证:本研究的所有活性评估均在计算层面完成。尽管FEP被认为是“黄金标准”的计算方法,但最终的活性仍需通过真实的化合物合成与体外/体内生物实验来最终确认。这是从计算到现实最关键的一步。 模型泛化性:深度学习模型是在与I3C-0骨架相似的化合物上训练的,其对于全新化学骨架的预测能力(泛化性)可能有限。 反馈循环的缺失:作者在讨论中提到,将FEP计算出的高精度数据反哺给AI模型进行再训练,是一个极具潜力的优化方向,但这并未在当前工作中实现。建立这样一个“AI预测 -> FEP验证 -> AI再训练”的主动学习闭环,将是未来进一步提升该框架效率和智能性的关键。
Drug Design
· 2025-10-07
<
>
Touch background to close