当物理模拟遇见AI:Deep-CovBoost如何精准狙击新冠病毒”软肋”?
本文基本信息
- 标题:整合基于物理的模拟与数据驱动的深度学习是开发靶向主蛋白酶抑制剂的稳健策略 (Integrating Physics-Based Simulations with Data-Driven Deep Learning Represents a Robust Strategy for Developing Inhibitors Targeting the Main Protease)
- 团队:浙江大学周如鸿(Ruhong Zhou)团队
- 作者:Yanqing Yang, Yangwei Jiang, Dong Zhang, Leili Zhang, Ruhong Zhou
- 期刊:Journal of Chemical Information and Modeling (化学信息与建模杂志)
- 发表日期:2025年7月28日 (Accepted)
- DOI:10.1021/acs.jcim.5c01307
摘要
冠状病毒主蛋白酶(main protease)对病毒复制至关重要,是一个经过充分验证的抗病毒靶点。在此,我们提出了一个名为 Deep-CovBoost 的计算流程,该流程整合了深度学习与自由能微扰(FEP)模拟,以指导针对冠状病毒主蛋白酶的基于结构的抑制剂优化。从一个已报道的非共价抑制剂出发,该流程通过预测模型生成并优先排序了新的类似物,随后通过FEP和分子动力学模拟进行了严格的验证。这一方法成功鉴定出了一系列优化的化合物(例如,I3C-1, I3C-2, I3C-35),它们通过与先前未被充分利用的S4和S5亚口袋结合,增强了与靶点的亲和力。这些结果凸显了将基于物理的方法与AI驱动的方法相结合,在加速先导化合物优化和抗病毒药物设计方面的巨大潜力。
背景
自21世纪以来,β-冠状病毒已三次对全球公共卫生构成严重威胁,包括2003年的SARS、2012年的MERS,以及由SARS-CoV-2引发的COVID-19大流行。尽管疫苗和口服抗病毒药物的开发取得了巨大成功,但病毒的持续变异和免疫逃逸能力,意味着开发新型、广谱的抗冠状病毒药物,以应对未来潜在的疫情,仍然是一项紧迫的全球性任务。
在众多抗病毒靶点中,冠状病毒的主蛋白酶(Mpro)因其在病毒复制中的核心作用以及在多种冠状病毒间的高度保守性,成为了一个极具吸引力的药物设计靶点。它像一把“分子剪刀”,负责将病毒的蛋白前体切割成多个功能性蛋白单元,是病毒生命周期中不可或缺的一环。
关键科学问题
目前已获批的抑制剂,如Paxlovid中的奈玛特韦,虽然临床有效,但存在一些局限性。首先,它是一种共价抑制剂,通过与靶蛋白形成不可逆的化学键来发挥作用,这虽然强效,但也带来了潜在的脱靶效应和安全性风险。其次,它需要与另一种药物“利托那韦”联用以减缓其在体内的代谢,而利托那韦可能干扰其他药物的代谢,导致复杂的药物-药物相互作用(DDI),限制了其在合并用药患者中的使用。
因此,开发高效、安全、无需增强剂的非共价抑制剂成为了一个重要的研究方向。COVID Moonshot
正是一个旨在应对这一挑战的全球性、开放科学的药物发现项目。该项目筛选并公开了大量靶向主蛋白酶的非共价抑制剂片段及其活性数据,为后续研究提供了宝贵的起点。然而,从这些初步的“先导化合物”到一个真正有效的药物分子,需要经历漫长而昂贵的“先导化合物优化”过程。核心的科学问题是:如何才能在由先导化合物衍生出的、数以万计甚至百万计的广阔化学空间中,快速、准确地预测出哪种结构修饰能够最大程度地提升药物活性,从而精准指导化学合成,避免资源浪费?
创新点
为了应对这一挑战,本文的研究团队创造性地提出了一个名为 Deep-CovBoost 的计算框架。其核心创新点在于将两种强大的计算方法无缝整合,形成“AI海选”与“物理精算”的协同策略:
- 数据驱动的深度学习:利用AI模型,从海量的现有抑制剂数据中学习“构效关系”,从而能够对数以万计的新分子进行快速、大规模的活性预测和虚拟筛选,高效探索化学空间。
- 基于物理的自由能微扰(FEP):利用精确的物理学原理,对AI筛选出的少数精英候选分子进行高精度的结合自由能计算,从而对它们的活性进行可靠的验证和排序。
这种策略结合了AI的速度和广度与物理模拟的深度和准度,旨在极大地加速先导化合物的优化进程。
研究内容
方法:Deep-CovBoost 框架详解
研究团队以COVID Moonshot
项目公开的非共价抑制剂 I3C-0 ($IC_{50} = 19.73 \mathrm{nM}$)作为优化的起点,其整体技术路线可以通过下面的流程图清晰地展示:
-
阶段一:确定优化“热点” (结合图1) 研究首先通过500 ns的分子动力学(MD)模拟评估了 I3C-0 在口袋中的稳定性。结果显示,其核心骨架非常稳定,而 C’R’+R2 基团则表现出较大的波动性,表明该区域的相互作用较弱,是进行结构改造以提升活性的关键“热点”。随后,团队利用来自ChEMBL数据库和COVID Moonshot项目的分子片段,通过合理的化学反应规则替换了I3C-0的C’R’+R2部分,构建了一个包含12万个新分子的内部化合物库。
图1:(A) SARS2、SARS和MERS主蛋白酶的序列比对,突出显示了活性位点中的关键残基(红框)。 (B) 主蛋白酶二聚体及其催化机制的卡通表示。 (C) I3C-0与主蛋白酶形成的复合物的晶体结构(PDBid: 7GLB)。 (D) Deep-CovBoost框架中整合基于物理的FEP与数据驱动的深度学习的示意工作流程。 (E) I3C-0与主蛋白酶的结合模式及活性位点中亚口袋的分布。 (F) I3C-0在MD模拟中的RMSD曲线,显示了整个分子、核心原子(蓝色)和C’R’+R2基团原子(红色)的均方根偏差。
-
阶段二:深度学习模型海选 (结合图2) 此阶段的核心是构建一个精准的AI预测模型。团队构建了一个基于消息传递神经网络(Message Passing Neural Network, MPNN)的深度学习模型。该模型的巧妙之处在于,它不直接预测单个分子的绝对活性,而是以分子对作为输入,直接预测这两个分子因结构差异导致的相对结合自由能变化($\Delta\Delta G$)。模型在包含707个Moonshot化合物的数据集上进行了训练,学习了分子结构的微小差异如何导致活性的变化。训练完成后,这个AI模型被用来快速预测内部化合物库中12万个分子相对于起点分子I3C-0的活性变化,并筛选出最优的候选者进入下一轮。
图2:构建用于评估靶向主蛋白酶小分子活性的模型的工作流程。它包括五个关键步骤:数据整理(A)、模型构建(B)、5折交叉验证(C)、外部测试(D)和模型预测(E)。
-
阶段三:FEP精确验证 对于AI筛选出的精英分子,团队采用了计算成本高昂但极为精确的自由能微扰(FEP)方法进行最终验证。FEP基于严格的统计力学原理,能够高精度地计算一个分子被“炼金术”式地转变为另一个分子时的自由能变化($\Delta\Delta G$),从而准确预测活性的提升或下降。
结果与讨论
1. 成功发现活性显著提升的新抑制剂 通过上述流程,团队成功发现了一系列活性优于起点分子I3C-0的新抑制剂。其中,I3C-1 ($\Delta\Delta G = -3.69 \mathrm{kcal/mol}$) 和 I3C-2 ($\Delta\Delta G = -3.71 \mathrm{kcal/mol}$) 的结合亲和力得到了数量级的提升。
图3:(A) 展示深度学习与FEP结合用于先导化合物优化的流程图。 (B) C’R’基团优化的FEP结果,新生成的类似物表示为I3C-1到I3C-13。
2. 揭示S4/S5亚口袋的关键作用 机理分析揭示了这些新分子活性提升的结构基础。起点分子I3C-0主要占据S1, S2, S3亚口袋,而其不稳定的C’R’基团附近存在着未被充分利用的S4和S5亚口袋。研究发现,将I3C-0中的六元内酰胺环(C’基团)修改为五元环,能够改变其连接的R’基团的空间朝向,使其正好可以延伸并占据S4和S5亚口袋。这种新的结合模式与FDA批准的药物奈玛特韦(Nirmatrelvir)在该区域的结合模式表现出惊人的相似性,从而带来了显著的亲和力增强。这完美解释了为何结构上的微小改变能带来活性的巨大飞跃。
图4:(A) 使用Deep-CovBoost框架对I3C-0的C’R’基团进行优化。 (B)和(C) 成功发现了活性显著增强的I3C-1和I3C-2。 (D)和(E) I3C-1、I3C-2与奈玛特韦同主蛋白酶的结合模式比较。
3. 多轮、多位点迭代优化 第一轮优化大获成功后,团队并未止步。他们以活性最高的分子之一 I3C-2 作为新的起点,再次启动了完整的Deep-CovBoost流程,针对S4和S5亚口袋中的R5基团进行第二轮优化。这一轮迭代同样成果斐然,再次发现了一系列活性更强的分子,如 I3C-34 ($\Delta\Delta G = -1.36 \mathrm{kcal/mol}$) 和 I3C-35 ($\Delta\Delta G = -1.01 \mathrm{kcal/mol}$)。MD模拟证实,这些新分子能更好地嵌入S4和S5亚口袋,并与关键残基形成更稳定的氢键网络。
图5:I3C-34 (A)、I3C-35 (B)和I3C-36 (C)与主蛋白酶的分子动力学结果及相互作用分析。
4. 广谱性潜力分析 为了评估新发现抑制剂对抗不同冠状病毒的潜力,团队还测试了I3C-1和I3C-34与SARS和MERS主蛋白酶的结合。MD模拟结果显示,这两种化合物在三种不同的冠状病毒主蛋白酶活性口袋中都表现出稳定的结合构象。这表明,通过Deep-CovBoost发现的抑制剂具有成为广谱抗冠状病毒药物的潜力,为应对未来可能出现的新型冠状病毒储备了宝贵的技术和候选药物。
图6:I3C-1 (A)和I3C-34 (B)与SARS2、SARS和MERS主蛋白酶的MD模拟RMSD曲线,以及与关键活性位点残基的接触频率。
技术细节 Q\&A
-
Q1:本文的核心策略是“AI预测”和“FEP计算”的结合,两者之间的相关性如何?AI预测的结果足够可靠吗? A:这是一个非常关键的问题。研究发现,AI模型预测的$\Delta\Delta G$值与FEP计算的$\Delta\Delta G$值之间存在中等但显著的正相关(皮尔逊相关系数PCC在0.5到0.54之间)。这意味着AI的预测趋势是基本正确的,能够有效地从海量分子中富集出高活性候选者。然而,相关性并非完美,也说明了AI预测存在一定的“噪音”和不确定性。因此,AI的角色是高效的“漏斗”,用于大规模地排除劣质分子;而FEP则是必不可少的“精密天平”,用于对AI筛选出的少数精英分子进行最终的、高精度的验证。两者结合,实现了效率与准确性的最佳平衡。
-
Q2:研究中提到S4和S5亚口袋“未被充分利用”,这在药物设计中意味着什么? A:在基于结构的药物设计中,靶蛋白的活性口袋通常被划分为不同的亚口袋。一个理想的药物分子应该能像拼图一样完美地填满这些口袋,并与关键残基形成有利的相互作用。“未被充分利用”意味着先导化合物I3C-0未能有效地占据S4和S5这两个空间,导致其与蛋白的结合存在“缺口”,这是其亲和力未能达到最优的主要原因。因此,这些未被利用的亚口袋就成为了药物优化的“机会窗口”。本研究的成功之处就在于,通过结构修饰,让新的分子成功地“长”进了这个机会窗口,从而获得了额外的结合亲和力。
-
Q3:为什么MD模拟在确定优化“热点”时如此重要? A:静态的晶体结构只能提供一个瞬时的“快照”,而分子在生理环境中是动态的。通过长时间的MD模拟,研究者可以观察到配体在口袋中的动态行为。在本研究中,MD模拟发现I3C-0的核心骨架部分RMSD很小(蓝色曲线,图1F),表明其结合非常稳定,不应轻易改动;而C’R’+R2基团的RMSD则非常大(红色曲线),说明它在口袋中“摇摆不定”,与蛋白的相互作用很弱。这种动态的不稳定性,恰恰暴露了分子中最需要被优化、且最有可能通过改造来提升亲和力的“软肋”或“热点”。
-
Q4:多轮优化(例如从I3C-2到I3C-34)是纯靠FEP计算吗? A:不是的。多轮优化同样遵循了完整的Deep-CovBoost流程。研究者以第一轮优化得到的高活性分子I3C-2为新的起点,再次利用分子片段库对其R5基团进行修饰,生成了新一批的候选分子库。然后,同样先用深度学习模型进行快速海选,筛选出最有潜力的分子,最后再用FEP进行高精度验证。这体现了该框架的迭代优化能力。
-
Q5:FEP计算的准确性如何保证? A:为了确保FEP计算的可靠性,研究者采取了多重措施。首先,他们在正式筛选前,用4个已知活性数据的分子对FEP方法进行了基准测试,计算结果与实验值的相关性非常高,证明了该方法在此体系中的准确性。其次,对于每一个FEP计算,他们都进行了三次独立的重复模拟,并确保总模拟时间足够长(每个任务总计超过348 ns),以获得充分的采样和收敛的自由能结果。
关键结论与批判性总结
关键结论
本研究成功开发并验证了一个名为 Deep-CovBoost 的计算药物设计框架,该框架巧妙地结合了深度学习的速度与广度和自由能微扰(FEP)的精度与深度。通过应用该框架,研究团队以一个公开的先导化合物为起点,成功设计并(在计算中)验证了一系列具有更高活性、且具备广谱抗冠状病毒潜力的新型非共价抑制剂。这项工作为应对未来可能出现的新型冠状病毒疫情,提供了一个高效的虚拟筛选和药物发现流程。
批判性总结
-
优势 (Strengths):
- 方法论创新:将AI快速筛选与物理精确计算相结合的范式,是现代计算药物设计领域的一个优秀范例,有效平衡了计算效率与准确性。
- 结果可靠性高:研究不仅依赖于AI的预测,更使用严谨的FEP方法对关键候选分子进行了验证,并通过长时间MD模拟深入分析了作用机理,使结论具有较高的可信度。
- 潜在应用价值广:所发现的新分子表现出对多种冠状病毒主蛋白酶的抑制潜力,具有开发为广谱药物的前景。
-
局限性与未来展望 (Limitations & Future Directions):
- 缺乏实验验证:本研究的所有活性评估均在计算层面完成。尽管FEP被认为是“黄金标准”的计算方法,但最终的活性仍需通过真实的化合物合成与体外/体内生物实验来最终确认。这是从计算到现实最关键的一步。
- 模型泛化性:深度学习模型是在与I3C-0骨架相似的化合物上训练的,其对于全新化学骨架的预测能力(泛化性)可能有限。
- 反馈循环的缺失:作者在讨论中提到,将FEP计算出的高精度数据反哺给AI模型进行再训练,是一个极具潜力的优化方向,但这并未在当前工作中实现。建立这样一个“AI预测 -> FEP验证 -> AI再训练”的主动学习闭环,将是未来进一步提升该框架效率和智能性的关键。