Mendelevium
Drug Design
Field Knowledge
Biology
Physics
Machine Learning & AI
Active Learning
Boltz-2
Interpretability
Mol2Image
Representations
Molecular Dynamics
Free Energy Calculation
Modeling Tools
QM
Nano Polymers
Software & Tools
Techniques
about
Home
Contact
Copyright © 2025 Xufan Gao | Academic Research Blog
Home
> Drug Design
A Bunch of Biophysics is Loading ...
Drug Design
Visualizing Drug Action Against Amyloid Plaques: MD Simulations Reveal Aβ Protein Inhibitor Mechanisms
“看见”药物如何瓦解”老年斑”:分子动力学模拟揭秘Aβ蛋白抑制剂的微观世界 本文信息 标题: Small-Molecule Inhibitors of Amyloid Beta: Insights from Molecular Dynamics—Part A: Endogenous Compounds and Repurposed Drugs 作者: Mariyana Atanasova 单位: Faculty of Pharmacy, Medical University of Sofia 引用格式: Atanasova, M. (2025). Small-Molecule Inhibitors of Amyloid Beta: Insights from Molecular Dynamics—Part A: Endogenous Compounds and Repurposed Drugs. Pharmaceuticals, 18, 306. 摘要 淀粉样蛋白假说是阿尔茨海默病(AD)发病机制的主流模型,该假说认为β淀粉样蛋白(Aβ)肽是神经毒性和中枢神经系统一系列病理事件的主要驱动因素。Aβ聚集成寡聚体和沉积物会引发多种过程,如血管损伤、炎症诱导的星形胶质细胞和小胶质细胞活化、神经元离子稳态失衡、氧化应激、激酶和磷酸酶活性异常、tau蛋白磷酸化、神经原纤维缠结形成、认知功能障碍、突触丢失、细胞死亡,并最终导致痴呆。分子动力学(MD)是一种强大的基于结构的药物设计(SBDD)方法,有助于理解生物分子的性质、功能以及作用或抑制机制。作为唯一能够模拟原子级内部运动的方法,MD提供了其他技术无法获得的独特见解。将实验数据与MD模拟相结合,可以更全面地理解生物过程和分子相互作用。本综述总结并评估了过去十年中关于抑制β淀粉样蛋白的小分子(包括内源性化合物和重定位药物)的MD研究。此外,它还概述了未来淀粉样蛋白抑制剂MD模拟的关键考虑因素,为旨在阐明小分子抑制β淀粉样蛋白机制的研究提供了一个潜在的框架。 背景 阿尔茨海默病(Alzheimer’s Disease, AD),这个让无数家庭蒙上阴影的疾病,是导致老年人痴呆的最主要原因。其病理学核心特征之一,是在大脑中形成了大量的“老年斑”,即由β淀粉样蛋白(Aβ)肽异常聚集形成的细胞外沉积物。根据主流的“淀粉样蛋白假说”,正是Aβ肽从可溶性单体,一步步错误折叠并聚集成具有神经毒性的寡聚体、原纤维乃至最终的纤维斑块,才启动了导致神经元死亡和认知衰退的“死亡瀑布”——包括神经炎症、氧化应激、tau蛋白过度磷酸化等一系列连锁反应。 因此,阻止或逆转Aβ的聚集过程,一直是AD药物研发的核心策略。科学家们尝试了多种方法,包括减少Aβ的产生、增强其清除,以及直接寻找能够抑制其聚集的小分子。然而,Aβ的聚集是一个高度动态、复杂且涉及多种中间体的过程,传统的实验手段(如X射线晶体学)很难捕捉到这些瞬息万变的结构,也就难以精确地理解小分子抑制剂是如何在原子层面与Aβ肽相互作用,从而发挥“瓦解”作用的。 为了“看清”这个微观世界的动态过程,分子动力学(Molecular Dynamics, MD)模拟应运而生。MD模拟就像一台“计算显微镜”,它遵循牛顿运动定律,能够在计算机中模拟出蛋白质和药物分子中每一个原子的运动轨迹。通过MD,研究人员不仅可以观察到Aβ肽如何一步步“抱团”,还能看到小分子抑制剂是如何“见缝插针”,通过形成氢键、疏水作用、π-π堆积等相互作用,来破坏Aβ的聚集趋势,甚至拆解已经形成的聚集体。这为我们从根本上理解药物的作用机制、并进行更理性的药物设计提供了无与伦比的视角。 关键科学问题 本综述的核心科学问题是:在过去的十年中,分子动力学(MD)模拟是如何帮助我们深入理解不同类型的小分子(特别是人体内源性化合物和“老药新用”的重定位药物)抑制Aβ蛋白聚集的原子水平机制的? 通过系统性地回顾这些计算研究,我们能总结出哪些共性的抑制模式、关键的相互作用位点,以及未来在利用MD模拟进行Aβ抑制剂研究时应遵循的最佳实践和需要克服的挑战? 创新点 这是一篇综述性文章,其创新点在于: 首次系统性地聚焦于利用MD模拟来阐释内源性化合物和重定位药物这两类特殊小分子对Aβ聚集的抑制机制。 深入剖析了MD模拟在该领域的应用挑战,如力场的选择、模拟时间尺度的限制以及增强采样方法的应用,为后续研究提供了宝贵的经验总结。 提炼并总结了小分子抑制Aβ聚集的多种微观机制,例如破坏关键的盐桥、干扰疏水核心的稳定性、阻断π-π堆积等。 为未来的MD研究提出了一个全面的指导框架,包括系统选择、力场与水模型、模拟时长、对照组设置等九大关键考量因素,极具实践指导价值。 研究内容 Aβ的结构特征与聚集的物理化学基础 要理解抑制剂如何工作,首先必须了解Aβ自身是如何从一个无序的单体,变成高度有序的纤维的。 1. Aβ单体、二聚体和寡聚体的结构特征 可溶性Aβ寡聚体的大小从10到100 kDa不等,表现出显著的异质性和动态行为。根据广受认可的蛋白质折叠漏斗模型,一个正在折叠的蛋白质或肽的构象空间是巨大的。未折叠的可溶性单体占据了漏斗宽阔的顶部,拥有最高的能量和采取多种构象的能力。折叠中间体或部分折叠状态,以及寡聚体和单体的天然形式,能量较低,对应于能量景观中的局部最小值。无定形聚集体位于漏斗较窄的底部之一,以深的能量最小值为特征,而全局自由能最小值,在漏斗最窄的部分,则被淀粉样纤维所占据。纤维化始于一个未折叠单体构象的集合,并迅速沿着各种路径朝向全局最小值进行,其中不同的淀粉样多晶型物占据着紧密定位的局部最小值。绝对的自由能最小值与淀粉样晶体相关。从无序单体通过寡聚体到纤维的确切机制和构象转变仍然难以理解,这归因于寡聚体的异质性、亚稳态和动态性质。此外,纤维生成受到温度、浓度和起始单体结构同质性等因素的强烈影响。通过溶液和固态核磁共振以及冷冻电子显微镜,已经识别出多种Aβ寡聚体结构,包括U型、S型、LS型以及具有二重或三重拓扑的结构,其中一些来源于人类。 图2:人类Aβ1–42的一级和二级结构,以及从蛋白质数据库(www.rcsb.org)检索到的已知聚集体形状。 肽链根据一级氨基酸序列中的特定区域进行颜色编码:N-末端(亲水或金属结合区)从D1到Q15为米色;中心疏水核心(CHC)或β1区从K16到A21为青色;环或中心亲水区从E22到K28为黄色;第二个疏水区(β2)从G29到M35为鲑鱼色;C-末端区从V36到A42为绿色。PDB代码标注在相应结构的上方。寡聚体形成的一个可能机制是由疏水相互作用驱动的快速组装,包括涉及C-末端的相互作用。 在结构层面,淀粉样纤维的主要二级结构是交叉β-折叠(cross β-sheet),其中Aβ的主链垂直于纤维轴向排列。在“在途(on-pathway)”的寡聚体混合物中,通常观察到β-折叠结构。在溶液中,Aβ单体通常采取无规卷曲构象,而非任何特定的二级结构。Aβ1–42的一级结构分为五个区域:N-末端,也称为亲水或金属结合区(D1到Q15);中心疏水核心(CHC),跨越残基K16到A21;环或中心亲水区(E22到K28);第二个疏水区(G29到M35);以及C-末端区(V36到A42)。 2. 导致并稳定Aβ聚集的相互作用 在形成Aβ寡聚体的β-发夹结构单体内部,已发现在β-折叠区域之间存在链内氢键,特别是在I31和V36之间。在从β-发夹单体转变为β-折叠二级结构的过程中,这些链内氢键必须被破坏,并在相邻的肽序列之间形成新的链间氢键。这种从链内到链间氢键的转变对于寡聚化过程至关重要,最终导致交叉β-折叠结构的形成。研究还发现,在Aβ缔合过程中,单体主要与极性表面(如云母)相互作用,而疏水表面(如石墨)则会破坏寡聚体结构并充当纤维化的模板。 此外,普遍认为,成熟纤维中负责β-折叠结构的初始相互作用,涉及一个肽的中心疏水核心(CHC)中的F19与另一个单体的第二个疏水区中的L34之间的疏水接触。一个稳定交叉β-结构中转角的关键相互作用是D23和K28之间的盐桥。在寡聚化过程中,据信单体是通过沿纤维延伸轴向的平行堆叠进行寡聚的。然而,已发表的纤维结构表明,由两个S形单体以C2对称的“阴阳”方式排列组成的Aβ1–42二聚体单元参与了纤维的生长。已确定,稳定所有类型四级纤维结构的关键相互作用涉及M35的侧链以及一个单体中的一个或多个残基(如I31, I32和M35)与第二个单体中的G37, G39和V29的相互作用。在U形的Aβ17–42形式中,K28-D23盐桥是关键的稳定相互作用。相比之下,S形的Aβ11–42和LS形的Aβ1–42纤维则由K28侧链带正电的NH3+基团与A42带负电的COO-基团之间的盐桥所稳定。此外,在LS形中,N-末端和C-末端区域被E11-H6/H13氢键所加固,这对纤维稳定性起着至关重要的作用。最近的研究强调了由F4, L34和V36形成的疏水核心,连同K28-A42盐桥,在稳定LS形Aβ纤维中的重要性。 MD模拟揭示的Aβ抑制机制:详细剖析 本综述系统梳理了近十年来,利用MD模拟研究内源性化合物和重定位药物如何抑制Aβ聚集的代表性工作。以下是对原文核心部分的详细翻译和解读。 1. 内源性化合物 这些是人体内天然存在的分子,理论上具有更好的安全性。 图3:通过MD模拟研究的内源性化合物的描绘。 多巴胺(DA)和去甲肾上腺素(NE): DA和NE属于儿茶酚胺家族,作为神经递质和神经调节剂发挥作用。实验研究早已证实,DA能够剂量依赖性地抑制Aβ纤维的形成和延伸,并能破坏已形成的纤维。儿茶酚类衍生物主要抑制的是聚集的“成核”阶段而非“延伸”阶段。 MD模拟的见解: 一项REMD研究揭示,DA优先结合Aβ1–40原纤维的两个位点:一个是位于第二个疏水区的β-折叠片层(IIGLMVG,残基31-37),另一个是结构无序的N-末端区域。这种结合显著影响了寡聚体的双层结构。 由Chen等人进行的一项更全面的研究,通过cMD和REMD模拟,深入探究了DA的破坏机制。他们发现,在低摩尔比(1:1和2:1)下,质子化的DA+分子通过插入到F4-L34-V36核心区域并破坏链内和链间的K28-A42盐桥,从而剂量依赖性地破坏了Aβ原纤维的稳定性。在1:1的体系中,DA+主要结合在第一个转角区(H6-H13);而在2:1的体系中,结合位点扩展到了F4-L34-V36核心区、N-末端(D1-R5)、第二个转角区(F20-D23)以及C-末端(I41和A42)。这些相互作用的物理化学基础非常丰富,包括与D1, E3, H6, D7, E11等残基的氢键;与D7, E11, E22, D23的盐桥;与R5的阳离子-π相互作用;以及与F4, H6, H13, H14, F19, F20的π-π堆积。 有趣的是,在高浓度(10:1摩尔比)下,DA+分子主要结合在原纤维的外表面,限制了其柔性,反而起到了稳定作用。然而,当部分DA+被替换为去质子化的DA0(在生理pH下少量存在)时,DA0分子优先结合到原纤维的内表面,特别是F4-L34-V36疏水核心内部。DA0与DA+之间通过π-π堆积相互作用,增强了它们在内表面的结合,最终对原纤维结构施加了破坏性效应。 对于NE,REMD和cMD模拟分别研究了其对Aβ二聚体聚集的抑制和对纤维的破坏作用。模拟发现,NE能够降低β-折叠含量,同时增加α-螺旋、无规卷曲和转角含量。在五个主要的结合位点中,位于疏水核心的16KLVFFA21和31IIGLMV36是最有利的。NE主要通过与疏水残基(I41, I31, L17)的疏水作用和与芳香族残基(Y10, F4, F20)的堆积作用相结合。此外,与带负电荷的Asp和Glu残基的氢键以及与R5的阳离子-π相互作用也至关重要。在纤维体系中,NE通过与D1, A2, D23和A42残基形成氢键来重塑Aβ纤维结构,最终破坏其稳定性。 血清素(SER)和褪黑素(MEL): 这两种由色氨酸衍生的分子在AD患者中水平均有下降,且实验证明它们能抑制Aβ聚集。 MD模拟的见解: Gong等人的一项研究揭示了这两种吲哚胺衍生物破坏LS-型Aβ纤维的不同机制。SER主要结合在N-末端区域(D1-Y10),通过与F4, H6, Y10和H13的π-π堆积来破坏该区域的β-折叠。这进而干扰了对整个纤维起稳定作用的A2-V36和F4-L34长程接触。 相比之下,MEL的破坏性更强。它在LS-型Aβ原纤维上有两个结合位点:一个在N-末端(包含F4, H6, Y10, H13, H14, Q15, L17, F19),另一个在C-末端(包含N27, I31, I32, L34, V36)。因此,MEL能够同时破坏N-末端和C-末端两个区域的β-折叠结构。它干扰了三个疏水核心的稳定相互作用,并且对L34-A42盐桥的破坏作用也比SER更显著。MEL的相互作用模式主要是与N-末端芳香族氨基酸的π-π堆积以及与C-末端残基的疏水接触。 三磷酸腺苷(ATP): 作为细胞的“能量货币”,实验发现ATP能像生物助溶剂一样阻止和溶解肽聚集体。 MD模拟的见解: Pal和Paul的一项详尽研究使用了三种不同的力场来考察ATP对Aβ16–22片段(疏水核心区)的抑制作用。模拟结果高度一致:ATP在毫摩尔浓度下抑制了Aβ肽的寡聚化。其具体机制包括:1)降低β-折叠含量;2)减少肽-肽氢键;3)减少肽链间的F-F疏水相互作用。与此同时,ATP-F的π-π堆积相互作用和ATP-肽氢键的数量则相应增加。模拟还表明,ATP能抑制二聚体的形成,并能破坏预先形成的纤维,在某些力场下甚至能使其完全解聚。 2. 重定位药物(老药新用) 这些是已经上市、安全性已知的药物,为其寻找新的适应症是一种高效的研发策略。 图4:通过MD模拟研究的重定位药物(普罗帕酮(PPF)、甘珀酸(CBX)和多西环素(DXC))的结构。 普罗帕酮(PPF):一种抗心律失常药物。 MD模拟的见解:cMD模拟显示,PPF位于十二聚体纤维下层的转角附近,主要与疏水残基发生相互作用。在PPF存在下,β-折叠含量降低,这可能导致纤维的降解。 甘珀酸(CBX):一种用于治疗溃疡的甘草衍生物。 MD模拟的见解:cMD模拟分别研究了CBX与Aβ1–42单体和纤维的相互作用。结果发现,CBX对两者都有破坏作用。对于单体,它能减少α-螺旋和β-折叠含量;对于纤维,它能减少β-折叠含量。一个关键的机制是,CBX通过与F19和D23形成氢键,成功破坏了对纤维结构至关重要的D23-K38盐桥。 多西环素(DXC):一种四环素类抗生素。 MD模拟的见解:加速MD(aMD)模拟被用来研究DXC对两种不同Aβ纤维多晶型物(S-型和LS-型)的作用。结果发现,DXC能够破坏两种纤维的稳定性,但其结合位点依赖于纤维的构象。在S-型五聚体纤维中,它主要结合在暴露的疏水核心区域,识别出三个结合位点:一个靠近M35侧链,一个在I32和L34之间,另一个在L17和F19之间。而在LS-型纤维中,由于这些位点被隐藏,DXC则结合在N-末端附近以及由K16, V18和F20组成的第二个结合位点。这表明,针对不同Aβ多晶型物的药物设计可能需要考虑不同的策略。 未来MD模拟研究的指导框架 基于对现有研究的总结,作者提出了一个包含九个关键点的框架,以指导未来更可靠、更具信息量的MD模拟研究: 使用全长Aβ肽:避免使用片段,以获得更真实的模拟结果。 考虑多种纤维构象:应针对已知的U-型、S-型、LS-型等多种纤维多晶型物进行模拟。 使用多种力场:通过比较不同力场的结果来检验结论的稳健性。 谨慎选择水模型:确保水模型与所选力场兼容。 模拟真实的药物浓度:抑制剂与肽的摩尔比应与实验数据或生理浓度相符,并考虑多种浓度。 设置阳性和阴性对照:除了目标抑制剂,还应模拟已知的有效/无效抑制剂作为参照。 保证足够的模拟时长:确保模拟时间足以捕捉到相关的结构变化。 进行全面的轨迹分析:重点分析关键的稳定相互作用(如盐桥、疏水核心)和二级结构变化。 进行多次重复模拟:从不同的初始速度开始进行多次模拟,以获得统计上更可靠的结果。 Q\&A Q1: 为什么这篇综述特别关注“内源性化合物”和“重定位药物”? A1: 这两类化合物在药物发现中具有独特的优势。内源性化合物是人体内天然存在的物质(如多巴胺、褪黑素),它们通常具有极好的生物相容性和安全性,副作用风险低。重定位药物是已经通过了临床试验并上市的“老药”,其安全性、药代动力学特性都已有充分的研究,将它们用于新的疾病治疗(“老药新用”)可以极大地缩短研发周期、降低研发成本和风险。因此,研究这两类分子如何抑制Aβ聚集,具有很高的临床转化潜力。 Q2: MD模拟揭示的这些抑制机制,有哪些共通之处? A2: 尽管不同分子的具体作用位点和方式各异,但可以总结出几个共通的抑制策略:1)靶向疏水核心:许多抑制剂(如DA, NE, MEL, DXC)都倾向于结合Aβ的关键疏水区域(如CHC, F4-L34-V36核心),通过空间位阻或破坏疏水堆积来干扰聚集。2)破坏关键盐桥:一些抑制剂(如DA, CBX)能够直接或间接地破坏对Aβ结构至关重要的盐桥(如K28-A42, D23-K38),从而瓦解其折叠结构。3)π-π堆积相互作用:对于含有芳香环的抑制剂(如DA, NE, SER, MEL),与Aβ中的芳香族氨基酸(F4, Y10, F19, F20)发生π-π堆积是一种非常普遍的结合模式。 Q3: 综述中提到了多种MD模拟技术(cMD, REMD, aMD),它们之间有什么区别和联系? A3: cMD(常规MD)是最基础的方法,它模拟系统在恒定温度下的自然演化,能提供真实的动力学信息,但受限于时间尺度,很难观察到稀有事件(如蛋白质折叠)。REMD(副本交换MD)是一种增强采样方法,它同时在多个不同温度下模拟系统的多个“副本”,并允许它们之间交换构象。高温副本可以轻易跨越能垒,然后通过交换将这些“探索性”构象传递给低温副本,从而在保持低温系综分布的同时,极大地加速了构象空间的探索。aMD(加速MD)则是通过修改系统的势能面,降低能垒的高度,使得系统能够更快地从一个能量洼地“跳”到另一个,从而在更短的模拟时间内观察到更多的构象转变。总的来说,cMD追求“真实”,而REMD和aMD等则牺牲部分真实动力学信息以换取“效率”。 Q4: 既然MD模拟如此强大,为什么我们还需要进行实验验证? A4: MD模拟是一个强大的工具,但它本质上是一个基于模型的近似。其准确性受到多个因素的制约:1)力场的精度:力场本身就是对真实量子力学相互作用的简化和参数化,不可能百分之百准确。2)采样完整性:即使使用增强采样方法,也无法保证在有限的模拟时间内遍历了所有重要的构象。3)系统设置的简化:模拟系统通常是对真实生物环境的简化(如有限的水分子、简化的离子浓度等)。因此,MD模拟得出的结论是一种理论预测或机理假设,它必须经过真实的生物或化学实验(如本文中提到的ThT荧光实验、细胞毒性实验等)来验证,才能最终被接受为科学事实。 Q5: 这篇综述对未来的AD药物研发有什么具体的指导意义? A5: 它提供了两方面的指导。在药物设计层面,它总结出的关键作用位点和相互作用模式,为药物化学家提供了明确的优化方向。例如,一个好的抑制剂分子骨架上应该合理地排布疏水基团和能够形成氢键或π-π堆积的芳香环,以同时靶向Aβ的多个关键区域。在计算方法学层面,它提出的九点指导框架,为未来进行此类研究的计算科学家设定了一个更高的标准,有助于提高模拟结果的可靠性和可重复性,避免得出片面或错误的结论。 关键结论与批判性总结 核心结论 MD模拟是揭示Aβ抑制机制的强大工具:本综述系统回顾了过去十年利用MD模拟在原子层面阐明内源性化合物和重定位药物如何抑制Aβ聚集的研究,证明了MD在理解动态、无序系统相互作用中的不可替代性。 总结了多种小分子的共性抑制机制:研究发现,有效的小分子抑制剂通常通过干扰Aβ的关键疏水核心、破坏稳定结构的盐桥、以及与芳香族残基形成π-π堆积等多种协同方式来发挥作用。 强调了方法学的重要性:综述深入讨论了在模拟Aβ这类内在无序蛋白时,选择合适的力场、水模型以及使用增强采样技术(如REMD, aMD)来克服时间尺度限制的关键性。 提出了未来研究的指导框架:文章最后为未来的MD模拟研究提出了一个包含九个关键考量因素的综合性框架,旨在提高研究的严谨性、可靠性和可比性,对该领域具有重要的指导价值。 批判性总结与展望 这篇综述为我们提供了一个极佳的窗口,让我们得以窥见计算模拟如何在对抗阿尔茨海默病这一复杂挑战中扮演日益重要的角色。作者通过对特定两类化合物(内源性和重定位药物)的聚焦,使得综述内容既具有代表性,又具有很强的临床转化启示。其最大的价值在于,它不仅告诉我们“知道了什么”,更重要的是,它系统性地总结了“如何才能知道得更准”,即那九条极具实践意义的模拟指导原则。 一个潜在的局限性在于,综述主要集中在小分子与Aβ肽本身的相互作用上。然而,在真实的生物环境中,Aβ的聚集还受到许多其他因素的影响,如细胞膜、金属离子、伴侣蛋白等。未来的MD研究需要构建更复杂的、更接近生理环境的模拟体系,以探索在这些因素存在下,抑制剂的作用机制是否会发生改变。 展望未来,随着计算能力的飞速发展(如专用计算硬件Anton 3和百亿亿次级超算)和算法的不断进步(如结合AI的增强采样方法),MD模拟的时间和空间尺度将得到前所未有的扩展。我们可以期待,未来的模拟将能够覆盖从单体折叠到寡聚体形成乃至纤维成熟的整个聚集路径,并在接近细胞尺度的复杂环境中,实时观察药物分子如何精准地“拆解”这些致病聚集体。这将把基于结构的AD药物设计,真正带入一个原子精度、动态可视的全新时代。
Drug Design
· 2025-08-20
AI-Assisted Molecular Docking: How Autoparty Transforms Manual Pose Inspection into Transferable Models
AI陪你看靶点:Autoparty如何将”人工看Pose”的”祖传手艺”变成可传承的模型 本文信息 标题: Autoparty: Machine Learning-Guided Visual Inspection of Molecular Docking Results 作者: Laura Shub, Magdalena Korczynska, Duncan F. Muir, Fang-Yu Lin, Brendan W. Hall, Alan M. Mathiowetz, and Michael J. Keiser 单位: University of California, San Francisco; Pfizer Research & Development 引用格式: Shub, L., Korczynska, M., Muir, D. F., Lin, F.-Y., Hall, B. W., Mathiowetz, A. M., & Keiser, M. J. (2025). Autoparty: Machine Learning-Guided Visual Inspection of Molecular Docking Results. Journal of Chemical Information and Modeling, 65, 7817-7826. 摘要 在虚拟药物筛选流程中,由人类专家对潜在药物化合物进行审查是至关重要的一环。然而,鉴于人类能够实际检查的分子数量相对于虚拟筛选的庞大规模而言极为有限,加速这一过程的需求日益迫切。此外,计算药物化学家在评估不同对接姿态时可能存在不一致,并且目前没有标准化的方法来记录这些注释。为了应对这些挑战,我们提出了Autoparty,一个容器化的工具。Autoparty利用本地化的主动学习技术进行药物发现,促进了“人在环路中”的模型训练,从而能够外推出人类的直觉判断。我们利用多种不确定性量化指标来向用户查询信息最丰富的样本进行模型训练,从而限制了所需的人类专家训练标签数量。收集到的注释会填充到一个持久且可导出的本地数据库中,以供广泛的下游应用。在一个真实的案例研究中,纳入Autoparty使得在193个经过实验测试的化合物中,命中率比单独使用形状相似性方法提高了40%。 背景 在计算机辅助药物设计(CADD)的广阔领域中,虚拟筛选(Virtual Screening, VS)是早期药物发现的基石。这个过程就像一个巨大的漏斗,从数十亿甚至更多的分子库开始,通过一系列计算步骤——库的准备、分子对接、打分和排序、聚类和过滤——逐步筛选,最终期望在漏斗的末端得到几十到一百个最有希望的候选分子进入实验验证。 然而,这个看似自动化的流程中存在一个关键的、近乎“手工作坊”式的瓶颈——人工审查(Manual Inspection),也被药物化学家们戏称为“挑分子派对(Hit Picking Parties)”。由于对接程序使用的打分函数存在固有的局限性(源于生物物理的抽象和打分项权重的难题),计算出的高分分子中常常混杂着大量的假阳性。为了去伪存真,经验丰富的计算药物化学家必须亲自上阵,在三维软件中逐一检查排名靠前的分子的对接姿态(pose),评估其与靶点口袋的相互作用是否合理、构象是否稳定等。研究发现,经过专家审查挑选的分子,其后续实验的成功率和活性强度,通常都显著优于仅靠打分函数筛选的结果。 这个“人工审查”环节虽然效果显著,但其弊端也显而易见: 可扩展性极差:一个专家或团队能审查的分子数量极为有限(通常在1000个左右),这与动辄数十亿的分子库规模形成鲜明对比。大量有潜力的、但排名稍靠后的“假阴性”分子因此被永远地埋没。 主观性和不一致性:不同的专家可能会有不同的判断标准和偏好,甚至同一个专家在不同时间也可能做出不一致的评估。 知识无法传承:专家的“火眼金睛”是一种内隐的直觉和经验,很难被量化和记录下来,形成一套标准化的知识体系供他人学习或机器利用。 关键科学问题 本文旨在解决的核心科学问题是:如何规模化、标准化并最终模型化药物发现中至关重要但效率低下的“人工审查”环节?具体而言,能否开发一个工具,它不仅能记录专家的决策,还能通过机器学习主动学习专家的“直觉”,训练出一个能够模拟专家判断的模型,并利用这个模型去赋能更大规模的分子筛选,从而打破人工审查的瓶颈,提高药物发现的效率和成功率? 创新点 提出Autoparty工具:开发了一个基于Python的容器化Web应用,首次将“人在环路中”的主动学习(Active Learning, AL)框架应用于对接结果的人工审查环节。 主动学习与不确定性量化:模型并非被动学习,而是通过多种不确定性量化(Uncertainty Quantification, UQ)方法(如集成学习、Dropout、距离度量),主动挑选出对模型训练“信息量最大”(即模型最“拿不准”)的分子姿态,请求人类专家进行标注,从而用最少的专家标注数据训练出最有效的模型。 专家知识的捕获与复用:所有的人工注释(打分)都被保存在一个持久化、可导出的SQL数据库中。这不仅为项目创建了一个可追溯的决策记录,更重要的是,积累的数据可用于训练一个能模拟专家直觉的机器学习模型,该模型可被应用于筛选更多的分子。 真实世界验证的显著效果:在一个与辉瑞公司合作的前瞻性药物筛选项目中,使用Autoparty辅助决策,使得最终测试的化合物命中率(hit rate)提升了40%。 研究内容 核心方法:Autoparty工作流详解 Autoparty是一个集成了前端交互界面和后端机器学习引擎的完整系统。其核心思想是通过一个主动学习循环,让机器在与人类专家的互动中,逐步学会如何评估一个对接姿态的好坏。 图1:虚拟筛选流程与主动学习概览。 a) 药物发现的“漏斗”展示了标准的筛选步骤以及剩余的分子数量(近似值),这激发了对确保有前景的分子进入实验测试的工具的需求。b) “人在环路中”的主动学习训练范式。起始数据集缺少许多真实标签。“神谕”(人类)最初为模型训练标记一个随机子集。初始模型为未标注的数据预测标签及其不确定性。“神谕”对选定的样本进行标注。此过程重复进行,直到达到标签配额或期望的准确度。 图2:Autoparty工作流与用户交互示意图。 a) 用户与Autoparty的“前端”功能进行交互。这些功能包括上传初始筛选结果,导入可选的预先存在的注释,以及为新分子打分。用户还可以从数据库中导出所有现有的打分和预测。显示的分子是对接到AmpC β-内酰胺酶中的ZINC000000002896 (F)和ZINC000000058902 (A)。b) Autoparty的“后端”功能自动辅助“挑分子”过程。Autoparty在上传时计算每个蛋白-配体复合物的相互作用和LUNA相互作用指纹(IFPs)。Autoparty使用用户选择的架构和置信度评估程序来训练一个机器学习模型。可用选项包括集成学习(ensemble),其中使用各个模型之间的方差作为置信度的度量;dropout,它在随机“丢弃”神经网络权重的同时多次重新预测同一个样本以计算得分分布;以及距离(distance),它使用新样本与训练集中样本的拓扑相似性。后端还保存用户提供的打分,训练模型以预测人类标签,并根据采集函数对化合物进行排序。 graph TD direction LR subgraph "前端 (Front End) - 用户交互" A("1. 上传筛选结果<br/>(蛋白, 对接分子)") --> B("2. 人工评估姿态<br/>(打分 A-F)"); B -- "标注数据 (Grades)" --> C_BE; D_BE -- "待标注分子<br/>(Selected Molecules)" --> B; B --> E("3. 导出最终预测"); end subgraph "后端 (Back End) - 自动处理" direction LR subgraph "输入与特征" A_Molecules -- "分子" --> F("计算相互作用<br/>和IFPs"); end subgraph "主动学习循环" C_BE["训练ML模型"] -- "使用" --> F; C_BE --> G["预测所有分子<br/>(分数 ŷ, 不确定性 σ)"]; G --> D_BE; subgraph "UQ模块" H["集成学习"] I["Dropout"] J["距离度量"] end C_BE -- "选择UQ方法" --> H & I & J; end subgraph "数据与输出" G --> K["保存到数据库"]; K -- "输出" --> E_Final; E_Final[("最终打分和预测")] --> E; end end 1. 输入表示:从3D结构到相互作用指纹 (IFP) 当用户上传对接结果后,Autoparty的后端首先使用LUNA工具包计算每个蛋白-配体复合物的分子间相互作用,如氢键、疏水作用、范德华作用等。 随后,这些三维的相互作用信息被编码成一个固定长度的向量,即相互作用指纹(Interaction Fingerprints, IFPs)。与只编码分子自身化学结构的传统指纹不同,IFPs能够同时捕捉配体和口袋界面的几何与生物物理特性,这对于学习结合模式至关重要。 2. 主动学习循环与模型训练 初始阶段:用户首先需要对少量(默认100个)由对接分数排序的分子进行打分(A-F)。 模型训练:一旦收集到足够的初始标注,Autoparty就会在后端训练一个机器学习模型(默认为一个由3个独立神经网络组成的委员会模型)。该模型学习从IFP到人类专家打分的映射关系。 不确定性量化与分子选择:训练好的模型会对库中所有未标注的分子进行预测,同时给出每个预测的不确定性。Autoparty提供了多种UQ方法: 集成学习 (Ensemble):通过比较委员会中多个独立模型的预测差异来衡量不确定性。分歧越大,不确定性越高。 Dropout:在单个模型中,通过多次预测并随机“丢弃”部分神经元,根据预测结果的分布来计算不确定性。 距离度量 (Distance):新样本与训练集中最近邻样本的距离被用作不确定性的代理。 “人在环路”:系统根据采集函数(acquisition function)(例如,默认选择不确定性最高的分子)将新的、信息量最大的分子推送给用户进行标注。这个“标注-训练-预测-选择”的过程不断循环,直到达到预设的标注数量或模型收敛。 3. 界面与功能 Autoparty提供了一个简洁的Web界面。用户可以在浏览器中直观地看到3D的蛋白-配体相互作用图,并给出A(非常好)、B(好)、C(一般)、D(差)、F(非常差)的评分。 模型仪表盘可以实时监控训练过程中的损失函数曲线和模型性能。 图3:Autoparty网页界面。 a, 筛选上传界面。除了必需的蛋白质和单独的分子文件外,用户可以指定一个属性来对初始注释的分子进行排序。用户还可以为相互作用计算提供特定的LUNA配置。b, “挑分子”界面,用于人在环路的主动学习训练。当前分子及其计算出的蛋白质位点相互作用(钙依赖性蛋白激酶CDPK1,PDB ID: 3T3U)显示在可能分配的等级之上。右上角显示当前模式(注释 vs. 审查)和排序方法(分数、不确定性、分歧、随机),以及到其他操作(例如,筛选数据集选项)和模型训练面板的下拉菜单。c, 模型仪表盘,显示训练曲线(左)和模型在训练迭代中的准确率历史(右)。 实验结果与分析 1. 回顾性案例研究:在UCSF公开数据集上的验证 作者在两个公开的、包含大量对接结果和实验活性数据的大规模筛选项目(靶点为AmpC β-内酰胺酶和多巴胺D4受体)上,对Autoparty进行了回顾性验证。 为了模拟真实场景,他们故意从训练集中排除了所有已知的活性分子及其结构类似物。 结果(AmpC靶点): 使用Autoparty预测的A或B等级作为额外过滤器,可以将人工审查的命中率从21.7%提升到33.8%。 如果完全依赖Autoparty的预测(A或B级),在所有实验测试过的分子上,命中率达到了37.4%,高于任何其他筛选方法。 结果(D4靶点): Autoparty的表现不如人工审查,但其命中率(18.9%)仍高于随机筛选(14.5%)。 值得注意的是,对于对接分数很差的分子,Autoparty预测为A级的化合物仍然达到了22%的命中率,远高于该分数段的整体命中率(7.6%)。这有力地证明了Autoparty有潜力从被传统方法忽略的低分区域“挖掘”出被埋没的活性分子。 图4:UCSF回顾性案例研究。 a,c AmpC和b,d D4靶点上,用户打分(蓝色)与Autoparty对实验测试分子的预测打分(粉色)的分布统计和混淆矩阵。e,f 化学空间的PCA可视化,显示了所有分子(灰色)、用户打分的分子(粉色)、高分分子(蓝色)和实验确认的活性分子(橙色)的分布。活性分子(橙色)及其结构相似的分子被主动地从Autoparty训练中排除。 2. 前瞻性案例研究:与辉瑞公司的真实药物筛选项目合作 这是对Autoparty最有力的验证。辉瑞的团队使用Autoparty辅助一个针对未公开靶点的虚拟筛选项目。 团队首先对72个化合物进行了人工标注,然后训练了一个Autoparty模型。 结果: 他们最终测试了193个由“其他方法”(高对接分数+形状互补性)筛选出的分子。 在这193个分子中,如果只看“其他方法”的筛选结果,命中率(IC₅₀ < 30 μM)为7.4%。 而如果只看Autoparty预测为A或B级的分子,命中率则达到了10.4%,相比之下提升了40%。 更重要的是,在两种方法都推荐的分子中,命中率达到了10.8%,而Autoparty不推荐但其他方法推荐的分子,命中率仅为5.3%。这表明Autoparty成功地扮演了“过滤器”的角色,剔除了大量假阳性。 图5:Autoparty前瞻性案例研究。 a) 用户分配的等级(蓝色)和Autoparty分配的等级(粉色)的计数。两种分布相似,尽管Autoparty将更高比例的化合物分配为C级,这可能对应于与获得注释的那些IFP不相似的IFP。值得注意的是,Autoparty没有分配F级,这表明模型无法从单个注释中学习到人类分配等级的模式。两种方法分配A级的比例相似,占人类注释的43%和预测等级的32%。b) Autoparty与其他方法选择的化合物和命中率的维恩图。两种方法都选择的分子,其命中率超过了任一单独选择方法的命中率。 Q&A Q1: Autoparty是如何处理不同专家之间可能存在的打分不一致问题的? A1: Autoparty本身的设计并没有直接解决专家间的分歧,但它提供了一个框架来缓解这个问题。首先,所有的打分都被记录在数据库中,这使得团队可以追溯和讨论有争议的分子。其次,“Review”模式下的“Disagreement”排序功能会高亮出那些模型高置信度预测与人类专家先前标注不符的分子,促使专家重新审视和思考,有助于达成共识。长远来看,通过收集不同专家的标注,甚至可以训练能够反映特定专家偏好或团队共识的模型。 Q2: 为什么选择相互作用指纹(IFPs)作为模型的输入,而不是更复杂的3D图神经网络? A2: 这是一个在模型复杂度和数据量之间的权衡。论文中提到,在小数据集的情况下,基于指纹的表示与更复杂的消息传递神经网络(如图神经网络)的性能相当。考虑到“人工审查”环节能产生的标注数据量非常有限(通常几百到一千个),使用计算高效且性能稳健的IFPs是一个非常务实和明智的选择。它能快速训练模型,并为主动学习循环提供及时的反馈。 Q3: 主动学习中的“不确定性量化(UQ)”具体是如何帮助模型更快地学习的? A3: UQ的核心思想是让模型知道自己“不知道什么”。一个刚开始训练的模型可能对某些类型的分子(比如化学结构新颖或相互作用模式罕见)的打分非常“不确定”或“纠结”。主动学习策略正是利用这一点,优先将这些模型最“困惑”的分子推送给专家。专家对这些信息量最大的样本进行标注,能最高效地帮助模型填补知识盲区、修正错误认知,从而用最少的标注数据达到最好的学习效果,避免了在模型已经很“自信”的区域浪费专家宝贵的时间。 Q4: Autoparty这个工具是否可以用于虚拟筛选之外的其他任务? A4: 是的,论文结尾提到了这一点。虽然Autoparty是为虚拟筛选的“人工审查”设计的,但其核心框架——捕获人类对三维结构化数据的直觉判断——具有更广泛的应用潜力。例如,用户可以不基于主观的“好坏”来打分,而是基于实验测得的活性值(如IC₅₀)进行分箱打分。这样,Autoparty就可以被用来训练一个定量的结构-活性关系(QSAR)模型,直接从对接姿态预测分子的活性区间。 Q5: 这个工具是否能完全取代计算药物化学家? A5: 完全不能。恰恰相反,Autoparty的设计理念是增强而非取代人类专家。它是“人在环路中”的工具,其性能的上限取决于输入的人类专家知识的质量。专家的角色从一个重复性的体力劳动者(审查成百上千个分子),转变为一个模型训练师和决策者。专家通过标注少量关键分子来“教会”AI自己的判断逻辑,然后让AI去完成大规模的初步筛选,最后专家再对AI筛选出的精华进行最终定夺。它将专家从繁重的工作中解放出来,使其能专注于更具创造性的策略思考。 关键结论与批判性总结 核心结论 成功开发了Autoparty,一个创新的、容器化的Web工具,通过“人在环路中”的主动学习,高效地训练机器学习模型来模拟和扩展计算药物化学家的专业直觉。 实现了对专家审查过程的规模化,通过主动学习和不确定性量化,用最少的专家标注(几百个)训练出能有效筛选数千乃至数万个分子的模型。 建立了标准化的注释数据库,将专家的隐性知识转化为持久、可复用的数字资产,为模型迭代和团队知识传承提供了基础。 在真实世界的前瞻性药物发现项目中得到验证,与辉瑞公司合作的案例表明,使用Autoparty辅助筛选,可将命中率有效提升40%,并成功富集了高活性化合物。 批判性总结与展望 Autoparty是连接人类专家直觉与机器计算规模之间鸿沟的一次非常成功和巧妙的尝试。它没有试图用一个通用的、端到端的模型去解决复杂的药物发现问题,而是精准地切入了“人工审查”这个长期存在且公认的痛点,并提供了一个极为务实的解决方案。其最大的贡献在于,它不仅是一个提效工具,更是一个知识捕获和传承的平台,使得宝贵的专家经验不再是“一次性”的消耗品,而是可以被累积、学习和放大的数字资产。 潜在的局限性在于,模型的性能高度依赖于初始标注专家的水平和一致性。如果专家的判断本身存在偏差,模型也只会放大这种偏差。此外,目前使用的IFP虽然高效,但在捕捉复杂的变构效应或长程相互作用方面可能不如3D图神经网络等更前沿的模型。 未来的发展方向将非常广阔。首先,可以将更先进的表示学习方法(如等变图神经网络)整合到后端,以期在拥有更多数据后获得更高的预测精度。其次,可以将Autoparty的框架从对接后的筛选,扩展到药物设计的更多环节,例如基于生成模型产生分子的筛选、ADMET性质的预测等。最终,这类“人机协作”的工具将成为未来药物研发的标准配置,让科学家能够站在AI的肩膀上,更快、更准地发现新药。
Drug Design
· 2025-08-18
AI-Driven Drug Discovery: Iterative Machine Learning for Discovering Potent Parkinson's α-Synuclein Inhibitors
AI炼丹新范式:用迭代式机器学习发现帕金森病α-突触核蛋白的高效抑制剂 本文信息 标题: Discovery of potent inhibitors of a-synuclein aggregation using structure-based iterative learning 作者: Robert I. Horne, Ewa A. Andrzejewska, Parvez Alam, Z. Faidon Brotzakis, Ankit Srivastava, et al. 单位: University of Cambridge, National Institutes of Health (NIH), Indiana University School of Medicine, etc. 引用格式: Horne, R. I., Andrzejewska, E. A., Alam, P., Brotzakis, Z. F., Srivastava, A., Aubert, A., … & Vendruscolo, M. (2024). Discovery of potent inhibitors of α-synuclein aggregation using structure-based iterative learning. Nature Chemical Biology, 20, 634-645. 摘要 机器学习方法有望降低传统药物发现流程的成本和失败率。对于神经退行性疾病而言,这个问题尤为紧迫,因为开发能够改变病程的药物一直极具挑战性。为了解决这个问题,我们在此描述了一种机器学习方法,用于识别α-突触核蛋白(α-synuclein)聚集的抑制剂,该过程与帕金森病及其他突触核蛋白病相关。由于α-突触核蛋白聚集体的增殖是通过自催化的二级成核过程发生的,我们的目标是识别能够结合聚集体表面催化位点的化合物。为实现这一目标,我们以迭代的方式使用基于结构的机器学习,首先识别,然后逐步优化二级成核抑制剂。我们的研究结果表明,这种方法能够轻松地识别出比以往报道的化合物效力高出两个数量级的抑制剂。 背景 帕金森病(PD)是最常见的神经退行性运动障碍,影响着全球超过65岁人群中2-3%的人口。这场旷日持久的“健康”与“衰老”的战争,其核心病理特征之一是α-突触核蛋白(αS)的异常聚集。正常情况下,αS蛋白在神经元中发挥着重要生理功能;然而,一旦它错误折叠并聚集形成纤维状的“团块”,就会产生神经毒性,最终导致神经元的死亡,尤其是在大脑的黑质区域。当运动症状出现时,神经系统的损伤往往已相当严重。因此,开发能够有效抑制αS聚集的化合物,被认为是治疗帕金森病最具前景的策略之一。 然而,神经退行性疾病的药物研发之路异常艰难,至今仍缺乏能够根治或显著延缓病程的药物。传统的药物发现方法,如高通量筛选,不仅成本高昂,而且成功率极低(通常低于1%)。近年来,对αS聚集过程的动力学研究揭示了一个关键环节:二级成核(secondary nucleation)。在这个过程中,已形成的αS纤维聚集体会催化游离的单体蛋白在其表面错误折叠和聚集,形成新的聚集体核心,从而实现聚集过程的“指数级”扩增。这就像滚雪球一样,是导致αS病理迅速扩散的主要机制。因此,靶向并抑制二级成核过程,成为一个极具吸引力的药物设计策略。 关键科学问题 本文旨在解决的核心科学问题是:在药物研发早期阶段普遍存在实验数据稀疏的困境下,如何利用机器学习方法,建立一个高效、可靠且能够自我优化的闭环系统,用于从庞大的化学空间中快速发现并迭代优化出能够特异性抑制αS蛋白二级成核过程的新型、高效小分子抑制剂? 创新点 提出迭代式主动学习策略:构建了一个“预测-测试-再学习”的闭环工作流。模型根据少量初始数据进行预测,实验验证后将新数据反馈给模型进行再训练,从而在数据稀疏的场景下逐步提升模型的预测能力和发现效率。 精准靶向二级成核:整个药物发现策略从始至终都聚焦于抑制αS聚集的二级成核步骤,这是一个基于深刻病理机制理解的精准打击策略。 高效的机器学习模型组合:采用随机森林回归器(RFR)与高斯过程回归器(GPR)的组合模型。RFR提供了强大的预测性能,而GPR则能评估预测的不确定性,使得在选择化合物时可以平衡“高预测效力”和“高信息量”(即探索未知化学空间),有效避免模型陷入局部最优。 惊人的效力提升:通过该方法发现的苗头化合物,其抑制效力比本领域已知的、甚至已进入临床试验的分子(如Anle-138b)高出两个数量级。 研究内容 核心方法:三阶段迭代学习工作流 作者设计了一个分三步走的策略来探索化学空间,并最终锁定高效抑制剂。 图1:本文所述化学空间探索三个阶段的示意图。a, 通过对接模拟预测具有良好结合能力的68个分子中,我们最初通过实验测试确定了4个活性分子(“对接组”)。这四个分子增加了αS聚集的t₁/₂。b, 然后,我们在化学空间中围绕这四个母体化合物进行了近程Tanimoto相似性搜索。我们选择了Tanimoto相似性截断值>0.5的分子(“近程相似性对接组”),随后进行了Tanimoto相似性截断值>0.4的远程相似性搜索(“远程相似性对接组”)。然后应用机器学习方法,使用观察到的数据从一个源自ZINC数据库、与母体结构Tanimoto相似性>0.3的化合物库(“评估集”)中预测有效的分子。c, 预测和实验测试的连续迭代产生了更高的优化率(定义为使标准化的聚集半衰期增加到2倍以上的分子百分比),并且平均而言,分子的效力高于先前相似性搜索中识别出的分子。对识别出的有效分子也进行了验证实验。 graph TD direction LR subgraph "药物发现流程" subgraph "阶段一" direction LR D["~200万个CNS MPO优化的<br/>分子虚拟对接"] --> E["68个分子<br/>实验测试"] --> F[("4个初始命中<br/>(Hits)")] end subgraph "阶段二" direction LR G[("4个初始命中<br/>作为母核")] --> H["近程相似性搜索<br/>(Tanimoto > 0.5)"] --> I["远程相似性搜索<br/>(Tanimoto > 0.4)"] end F -- "作为起点" --> G subgraph "阶段三" direction LR J[("所有实验数据<br/>(161个分子)作为训练集")] --> K["1.告知(Inform)<br/>训练ML模型"] --> L["2.预测(Predict)<br/>从~9000个分子库中<br/>预测高分分子"] --> M["3.测试(Test)<br/>实验验证预测分子"] --> J end H -- "产生数据" --> J I -- "产生数据" --> J end 阶段一:对接策略 (Docking Strategy) 目标:从海量分子库中找到最初的“种子”分子。 过程:研究人员首先在先前研究中使用的αS纤维聚集体结构(PDB: 6CU7)上,使用软件(Fpocket, CamSol)识别出一个位于纤维侧面的潜在结合口袋。该口袋由His50-Lys58和Thr72-Val77残基构成,具有较低的溶解性和易于结合的特性。然后,他们从一个包含约200万个经过中枢神经系统多参数优化(CNS MPO)的分子库中,使用两种不同的对接软件(AutoDock Vina, FRED)进行虚拟筛选。 结果:通过筛选和Tanimoto相似性聚类(阈值为0.75),最终得到了79个代表性分子(centroids),即每个簇的代表。其中68个可供购买并进行了体外实验测试。实验发现,有4个分子(48, 52, 68, 69)能够有效抑制αS聚集,它们构成了后续研究的“母核”或“父代结构”。 阶段二:相似性搜索策略 (Search Strategy) 目标:在初始命中的分子周围快速扩展化学空间,找到更多活性分子。 过程:以4个母核分子为起点,在ZINC15数据库中进行两轮相似性搜索。 近程搜索:使用较高的Tanimoto相似性阈值(>0.5),寻找与母核结构非常相似的分子。 远程搜索:使用较低的相似性阈值(>0.4),寻找与母核结构有一定差异的分子。 结果:近程搜索的命中率(optimization rate)较高,而远程搜索的命中率急剧下降到仅4%,且测试了三倍多的化合物。命中率的计算方式为:在一个集合中,能够将聚集反应的半衰期(t₁/₂)延长至对照组两倍以上的分子所占的百分比。这表明,仅靠传统的结构-活性关系和相似性搜索,很难在远离初始母核的化学空间中高效地发现新分子。 阶段三:主动学习策略 (Active Learning Strategy) 目标:利用机器学习,在更广阔但相关的化学空间中智能地寻找高效抑制剂。 过程:这是一个“设计-测试-学习”的闭环。 告知 (Inform):将前两个阶段获得的所有161个分子的实验数据(包括活性和非活性分子)作为初始训练集。 预测 (Predict):训练一个机器学习模型,用它来预测一个包含约9000个分子的“评估库”(该库由与4个母核有Tanimoto相似性>0.3的分子构成)中分子的抑制活性。 测试 (Test):购买并实验验证模型预测排名最高的约60个分子。 迭代:将新测试的数据加入训练集,重复步骤1-3,共进行了四轮迭代。 机器学习模型细节 分子表示:使用连接树变分自编码器 (Junction Tree Variational Autoencoder) 将分子的SMILES字符串转换为低维度的连续向量(潜在向量),这是模型能够“理解”分子结构的基础。 预测模型:采用随机森林回归器(RFR)和高斯过程回归器(GPR)的堆叠模型。RFR负责主要的活性预测,而GPR则对RFR的残差进行拟合,并提供一个关键的预测不确定性度量。这使得模型在选择下一个要测试的分子时,不仅会选择那些预测活性高的,也会适当选择那些模型“不确定”但可能带来新信息的分子。 模型性能:在训练集上,该组合模型在R²得分、平均绝对误差和均方根误差方面均优于其他模型组合(如多层感知器、线性回归器等)。具体的性能参数展示在补充图1和补充表1中。当用该模型拟合聚集实验数据时,获得的R²值在0.2到0.3之间。 实验结果与分析 本文核心Result部分的思路图 graph TD A("起点:<br/>传统药物发现策略") --> B; subgraph "1. 初始策略与瓶颈" direction LR B["对接策略 (Docking)<br/>- 200万分子库<br/>- 获得4个活性母核"] --> C["相似性搜索 (Similarity Search)<br/>- 近程搜索: 命中率尚可<br/>- 远程搜索: 命中率骤降至**4%**"] --> D{("瓶颈:<br/>传统方法难以<br/>拓展新化学空间")} end D --> E; subgraph "2. 机器学习迭代策略的成功" direction LR E["主动学习闭环<br/>(Active Learning Loop)<br/>- ‘预测-测试-再学习’<br/>- RFR+GPR模型 (含不确定性)"] --> F["性能提升<br/>- 命中率: 4% -> **21.4%**<br/>- 平均效力持续增强 (图3a)"] --> G{("突破:<br/>成功探索新化学空间<br/>并持续优化")} end G --> H; subgraph "3. 发现超高效分子 (I4.05)" direction LR H["效力对比 (图2)<br/>- KIC₅₀ = 0.52 μM<br/>- **比Anle-138b强约70倍**"] --> I["作用机制分析<br/>- 不影响纤维延伸 (图2c)<br/>- **显著减少寡聚体** (图2d)"] --> J{("成果:<br/>发现全新、高效且<br/>机制明确的抑制剂")} end J --> K; subgraph "4. 作用机制验证" direction LR K["靶点结合验证 (SPR, 图4)<br/>- 与αS纤维**高亲和力结合**<br/>- KD值达**纳摩尔级别 (13-68 nM)**"] --> L["特异性验证<br/>- **对Aβ42无活性** (图4d)"] --> M{("确认:<br/>分子通过结合纤维<br/>特异性抑制二级成核")} end M --> N; subgraph "5. 生物学相关性验证" direction LR N["病理种子抑制实验 (RT-QuIC, 图5)<br/>- **有效抑制帕金森病(DLB)<br/>脑源性种子的聚集**"] --> O["寡聚体直接量化 (µFFE, 图6)<br/>- **显著减少寡聚体的<br/>数量和大小**"] --> P{("关键验证:<br/>分子对真实病理<br/>聚集体有效")} end P --> Q(("最终结论:<br/>迭代式ML成功发现高效、新颖且<br/>具生物学相关性的αS二级成核抑制剂")); 机器学习迭代的成功 命中率和效力持续提升:随着机器学习的迭代(从第1轮到第3轮),发现的有效分子的平均效力(以标准化的聚集半衰期t₁/₂表示)和命中率都在稳步提高。第1、2、3轮的命中率分别为12.5%、17.2%和21.4%,这比传统高通量筛选(<1%)的效率高出一个数量级,并且显著优于远程相似性搜索(4%)。 探索新化学空间:图3:机器学习药物发现方法的迭代结果。a, 不同阶段(远程搜索,迭代1,迭代2和迭代3)在25μM浓度下有效先导化合物的标准化的t₁/₂(n=2次重复;中心度量为平均值;误差为标准差)。水平虚线表示有效先导化合物分类的界限,即标准化的t₁/₂=2。对于远程搜索,测试了69个分子,而对于迭代1、2和3,测试的分子数分别为64、64和56。请注意,最有效的分子在观察的时间尺度内完全抑制了聚集,因此标准化的t₁/₂表示为实验的整个持续时间。b, 项目中从近程搜索(CS)开始,到远程搜索(LS),再到迭代1、2和3(I1, I2和I3),有效分子(+)和无效分子(-)的流向。每个分支都标有分子来源(例如,p48)。在远程搜索阶段,损耗达到最高点,之后随着每次迭代逐渐改善。 发现超高效抑制剂 效力碾压:在低浓度下,通过第四轮迭代发现的明星分子14.05展现出惊人的抑制效果。研究人员计算了半数抑制动力学常数(KIC₅₀),即能将聚集半衰期延长50%所需的浓度。分子14.05的KIC₅₀值为0.52 μM,而母核分子69和Anle-138b的该值分别为18.2 μM和36.4 μM。这意味着14.05的效力比这些参照物高出约35-70倍。 特异性作用机制:实验表明,这些新发现的抑制剂不影响αS纤维的延伸过程,这非常重要,因为抑制延伸可能会导致毒性更强的寡聚体累积。计算表明,这些分子能够有效延迟和减少寡聚体峰值的出现。图2:迭代学习发现的分子(I4.05)与一种目前处于临床试验阶段的αS聚集抑制剂(Anle-138b)的性能比较。a, 在有分子或1% DMSO存在下,10μM的αS溶液与25nM种子的动力学曲线(pH 4.8, 37°C)(n=3次重复;中心度量为平均值;误差为标准差(s.d.))。在初始筛选中,除第4次迭代外,所有分子均在2.5摩尔当量(25μM)下进行筛选,然后将有效分子在更低浓度下进行进一步验证:0.4μM(蓝色)、0.8μM(蓝绿色)、1.6μM(橙色),并以25μM的Anle-138b作为比较(红色圆圈)。1% DMSO阴性对照以紫色显示。以分子I4.05为例。实验结束时,通过Pierce BCA蛋白检测试剂盒在t=125小时检测到的αS单体浓度对终点进行归一化。b, 三种不同分子Anle-138b(紫色)、母体结构69(淡紫色)和I4.05(蓝色)存在下的近似反应速率(取为1/t₁/₂,在0和100之间归一化;中心度量为平均值)。I4.05的KIC₅₀由拟合曲线(蓝色)与水平虚线的交点指示。c, 还进行了高浓度种子实验(5μM种子,所有其他条件与a相同,n=3次重复;中心度量为平均值;误差为s.d.),以观察对延伸速率的任何影响,并结合从a中得到的二级成核速率来计算寡聚体通量。d, 使用从a和c中得到的速率,计算I4.05与临床试验分子Anle-138b的寡聚体通量。 生物学验证:结合亲和力与靶向病理聚集体 直接结合证据:使用表面等离子共振(SPR)技术,作者证实了分子14.05能够以纳摩尔级别的亲和力(在pH 4.8时K_D=68 nM,pH 8时K_D=13 nM)直接结合到αS纤维上。相比之下,Anle-138b在pH 4.8下未检测到结合,在pH 8下的亲和力也仅为微摩尔级别(K_Dapprox8.1 μM)。这两个数量级的亲和力差异与观察到的效力差异完美匹配。 靶点特异性:分子14.05对阿尔茨海默病相关的Aβ42蛋白的聚集和纤维结合均无明显效果,表明其并非泛泛的淀粉样蛋白抑制剂,而是对αS具有高度特异性。图4:分子与αS纤维的结合。a, 小分子与αS纤维上目标结合口袋结合的示意图。b, 在pH 4.8和pH 8下,不同浓度的I4.05与通过种子法生成的αS纤维结合的SPR响应曲线,并附有相应的分子结构。显示了每个分子浓度的原始数据(点)和相应的拟合曲线(实线)(n=2次重复)。y轴显示响应单位(RU)。αS纤维以2000 pg mm⁻²的浓度固定在CM5 Cytivia芯片上。拟合对应于1:1动力学结合模型,在pH 4.8时得到KD为68 nM,在pH 8时为13 nM。误差为平均值的标准误差(s.e.m.)。c, 不同浓度Anle-138b的SPR响应曲线。显示了每个分子浓度的原始数据(点)(n=2次重复)。在pH 4.8时无法获得准确的拟合。在pH 8时,1:1动力学结合模型得出的近似KD为8.1μM。误差为s.e.m.。d, 在1% DMSO或不同浓度I4.05存在下,2μM Aβ42的种子诱导动力学(40nM种子,n=2次重复;中心度量为平均值;误差为标准差)和SPR响应曲线(n=2次重复)。I4.05不能有效抑制Aβ42的二级成核或与Aβ42纤维结合。Aβ42纤维以2000 pg mm⁻²的浓度固定在CM5 Cytivia芯片上。 抑制病理相关聚集体:最关键的验证来自使用路易体痴呆(DLB)患者脑组织提取物作为“种子”的RT-QuIC实验。DLB中的αS纤维结构与帕金森病中的一致。结果显示,所有通过机器学习发现的苗头分子,都能有效抑制由真实病人脑源性病理种子诱导的αS聚集,并且效果优于母核分子。而Anle-138b在此实验条件下反而加速了聚集。图5:RT-QuIC脑源性种子扩增实验。a, RT-QuIC实验的示意图。使用来自患有DLB的患者脑组织的聚集体诱导αS聚集。来自患有CBD的患者脑部样本作为阴性对照。b, 在CBD种子存在下,7μM αS溶液的动力学曲线(pH 8, 42°C,以1分钟为间隔摇晃400 rpm,n=4次重复;中心度量为平均值;误差为标准差(s.d.))。CBD样本为1% DMSO(蓝色),7μM Anle-138b(蓝绿色),母体分子(橙色),I1.01(紫色),I3.02(红色),I3.08(青绿色)和I4.05(浅蓝色)。在此条件下,蓝绿色的Anle-138b诱导了聚集。c, 在DLB种子存在下,7μM αS溶液的动力学曲线(n=4次重复;误差为s.d.;所有其他条件与b相同)。DLB样本为1% DMSO(紫色),3.5μM分子(蓝色),7μM分子(蓝绿色)和25μM分子(橙色)。Anle-138b再次表现出加速而非抑制聚集。 对MSA病理种子同样有效:该分子对另一种突触核蛋白病——多系统萎缩症(MSA)患者的脑源性种子也表现出抑制活性。 直接测量寡聚体:通过微流控自由流电泳(µFFE)技术,研究人员能够直接分离并量化反应体系中的寡聚体。结果显示,在DMSO对照组中存在大量寡聚体,而加入分子13.02后,寡聚体的数量和大小均显著减少,而Anle-138b处理组的寡聚体数量甚至比对照组还多。图6:使用μFFE技术量化αS寡聚体。右上角:用AlexaFluor 488标记的αS(100μM, pH 7.4, 37°C,200rpm摇晃5分钟和静置1分钟的循环,n=4次重复;误差为标准差)补充了0.5μM种子和1% DMSO(紫色)或50μM Anle-138b(蓝绿色)或13.02(蓝色)在1% DMSO中。在这些条件下,Anle-138b轻微加速聚集,其中由于摇晃,断裂机制可能再次起作用,而13.02则减缓了聚集。在聚集时间进程的9小时处提取样品,并离心以从混合物中去除纤维,仅留下αS单体和可溶性寡聚体物种用于μFFE分析。左下角:μFFE方法的示意图,显示了经过AlexaFluor 488标记的αS寡聚体混合物进行μFFE。流体流动方向由箭头显示。电场的差异偏转使得在分析过程中能够将单体群体与寡聚体群体分离开。中下和右下角:对每个样品中检测到的聚集体群体的分析。条形图的y轴绘制了每个样品发出的平均光子数,该数值与颗粒数量和大小成正比。插图中标明了每个颗粒发出的平均光子数。 Q&A Q1: 本文得到的分子是抑制聚集还是结合αS纤维? A1: 两者都是,而且是因果关系。分子的作用机制是首先结合到αS纤维上,通过占据纤维表面的催化位点,从而抑制了二级成核过程,最终达到了抑制整个聚集反应的效果。SPR实验(图4)直接证明了分子与纤维的高亲和力结合,而动力学实验(图2)则证明了其对聚集的抑制效果。因此,可以说“结合αS纤维”是手段,“抑制聚集”是最终目的和结果。 Q2: 为什么这项研究一开始要用虚拟对接,而不是直接从机器学习开始? A2: 这是一个非常好的策略性问题。机器学习,尤其是在药物发现这样的复杂领域,需要一个合理的起点。在没有任何实验数据的情况下,模型无法知道应该学习什么样的分子特征。虚拟对接在这里扮演了“先锋”的角色,它基于蛋白质的3D结构,从数百万个分子中初步筛选出几十个最有可能与目标口袋结合的候选者。尽管对接的准确性有限,但它成功地提供了4个具有初步活性的“火种”(母核分子),为后续的相似性搜索和更关键的机器学习迭代提供了宝贵的初始训练数据和探索方向。 Q3: 为什么模型选择随机森林(RFR)和高斯过程(GPR)的组合,而不是更“时髦”的深度学习模型? A2: 这体现了在数据稀疏场景下建模的智慧。深度学习模型通常需要大量的训练数据才能表现良好。而本研究的初始训练集只有161个分子,对于深度学习来说太少了,很容易过拟合。随机森林是一种集成模型,对小数据集有很好的鲁棒性。更重要的是,与GPR的组合引入了不确定性量化的能力。GPR不仅能预测一个值,还能告诉我们这个预测有多“自信”。这使得主动学习策略可以更智能地选择下一个要测试的分子:既要“利用”已知的知识(选择预测活性高的),也要“探索”未知的领域(选择模型不确定,但可能带来新信息的分子)。 Q4: 实验中发现的抑制剂对体外重组蛋白纤维和病人脑源性纤维都有效,这是否说明两者结构很相似? A4: 这是一个非常深刻的观察。作者指出,他们最初用于对接和筛选的重组αS纤维结构(PDB: 6CU7)与后来从病人大脑中解析出的病理纤维结构(PDB: 8A9L)其实是不一样的。然而,他们在补充图S16中对比发现,这两种不同的纤维多晶型物在目标结合口袋区域存在一定的结构相似性。作者认为,这种口袋的相似性可能是“侥幸的”,但也正是因为这种相似性,使得基于重组蛋白发现的抑制剂,也能够幸运地对病理相关的聚集体起作用。这提示我们,即使体外模型与体内病理结构不完全一致,但如果能靶向一个保守的关键功能位点,仍然可能开发出有效的药物。 Q5: 为什么在RT-QuIC实验中,Anle-138b反而加速了αS的聚集? A5: 作者也注意到了这个“反常”现象。他们推测这可能与Anle-138b据报道的低溶解度有关。RT-QuIC实验条件(pH 8,剧烈振荡)与最初的筛选条件(pH 4.8,静置)有很大不同。在这些条件下,低溶解度的Anle-138b可能自身形成微小的聚集体或胶束,这些颗粒反而可能作为新的成核表面,异构地诱导了αS的聚集,从而表现出加速效应。这凸显了在不同实验条件下评估化合物活性的重要性。 Q6: 聚类时使用的“代表性分子”是如何定义的? A6: 在这项研究中,“代表性分子”(centroids)是通过Tanimoto相似性聚类产生的。具体来说,他们将对接分数最高的10,000个化合物,使用基于Morgan指纹的Tanimoto相似性度量进行聚类,相似性截断值为0.75。每个形成的簇(cluster)中,会选出一个分子作为该簇的代表,这个分子就是“代表性分子”或“质心”。这么做的目的是为了在保证化学多样性的前提下,减少需要进行实验测试的化合物数量。 Q7: 机器学习模型的训练效果具体如何?R²值是多少? A7: 论文中提到,研究团队测试了多种机器学习模型的组合,最终发现RFR-GPR堆叠模型在预测对接分数时表现最好。虽然在预测实际的、数据量较小的聚集实验数据时,QSAR模型的R²值表现“一般”(modest),但这主要是由于训练数据稀疏造成的。当模型用于预测数据量稍大的对接分数时,其R²值是前者的三倍,达到了约0.6-0.7。具体的R²值和其他性能指标在补充图S1和补充图S6中有详细展示。 补充信息(SI)中的亮点 模型选择的严谨性(图S1):SI详细展示了多种机器学习模型(线性回归、多层感知器、随机森林、高斯过程及其组合)的学习曲线。这表明作者经过了严谨的模型比较和选择,最终确定RFR-GPR组合是针对该问题的最优解,而不是随意选择了一个模型。 化学空间的演化(图S2, S14):SI中的图表直观地展示了从最初的母核分子到经过多轮迭代后发现的高效抑制剂,其化学结构是如何一步步演变的。可以看出,模型保留了母核69中的一些关键药效团(如吡唑烷二酮环),同时对其他部分进行了大胆的修饰,实现了“探索式优化”。 模型可解释性的尝试(图S15):作者利用SHAP(Shapley Additive Explanations)技术,尝试打开机器学习的“黑箱”。他们通过分析SHAP值,将潜在空间中的维度与分子中的特定化学亚结构(如吡唑烷二酮、色原酮等)关联起来。这表明,模型不仅仅是在进行无意义的拟合,而是在学习和识别与活性相关的、具有化学意义的结构特征。 病理结构口袋的相似性(图S116):这是解释为什么药物有效的一个关键证据。SI中直接对比了体外重组纤维和病人脑源性纤维的冷冻电镜结构,并指出了两者在目标结合口袋区域的相似性,为药物的广谱有效性提供了结构基础。 关键结论与批判性总结 核心结论 成功建立并验证了一个迭代式、基于结构的机器学习药物发现流程,能够高效地识别和优化靶向α-突触核蛋白二级成核过程的抑制剂。 该方法在数据稀疏的早期药物发现阶段表现出色,其命中率(最终达到21.4%)比传统高通量筛选高出一个数量级,并且显著优于传统的相似性搜索策略。 发现了多个新型、高效的αS聚集抑制剂,其中最优秀的分子(14.05)在体外实验中的抑制效力(KIC₅₀ = 0.52 μM)和与αS纤维的结合亲和力(Kᴅ = 13-68 nM)方面,均比已进入临床试验的参照分子Anle-138b高出约两个数量级。 验证了抑制剂的生物学相关性,证明其不仅对体外重组αS纤维有效,还能抑制从帕金森病(DLB)和多系统萎缩症(MSA)患者脑组织中提取的病理相关聚集体的扩增,并且对Aβ42蛋白无交叉反应,显示出高度特异性。 批判性总结与展望 这项研究是机器学习赋能神经退行性疾病药物发现的一次精彩示范。它巧妙地将基于病理机制的深刻理解(靶向二级成核)与前沿的主动学习策略相结合,为在数据稀疏这一普遍困境下如何高效“炼丹”提供了一个极具操作性的范例。其发现的化合物效力之高,令人印象深刻,不仅为帕金森病的治疗提供了新的候选分子,也强有力地证明了该方法的巨大潜力。 该方法最值得称道的智慧在于其“迭代”和“不确定性导向”的核心思想。它不是试图一步到位地找到“神药”,而是通过快速的“预测-验证”循环,让模型在与实验的“对话”中不断学习和进化,最终逼近最优解。 尽管如此,该方法仍存在局限性,最主要的是其依赖于一个预设的化合物筛选库,这限制了其探索全新化学结构的能力。正如作者所言,结合生成式人工智能(Generative AI)和强化学习,实现从头分子设计,将是该领域的下一个突破口。此外,将药代动力学、毒性等多重参数纳入优化目标,将使其更贴近真实的药物研发需求。总而言之,这项工作为蛋白质错误折叠疾病的药物发现开辟了一条充满希望的新路径,也预示着AI驱动的闭环式药物研发将成为未来的主流。
Drug Design
· 2025-08-16
When Physics Meets AI: How Deep-CovBoost Precisely Targets COVID-19's Weak Spots
当物理模拟遇见AI:Deep-CovBoost如何精准狙击新冠病毒”软肋”? 本文基本信息 标题:整合基于物理的模拟与数据驱动的深度学习是开发靶向主蛋白酶抑制剂的稳健策略 (Integrating Physics-Based Simulations with Data-Driven Deep Learning Represents a Robust Strategy for Developing Inhibitors Targeting the Main Protease) 团队:浙江大学周如鸿(Ruhong Zhou)团队 作者:Yanqing Yang, Yangwei Jiang, Dong Zhang, Leili Zhang, Ruhong Zhou 期刊:Journal of Chemical Information and Modeling (化学信息与建模杂志) 发表日期:2025年7月28日 (Accepted) DOI:10.1021/acs.jcim.5c01307 摘要 冠状病毒主蛋白酶(main protease)对病毒复制至关重要,是一个经过充分验证的抗病毒靶点。在此,我们提出了一个名为 Deep-CovBoost 的计算流程,该流程整合了深度学习与自由能微扰(FEP)模拟,以指导针对冠状病毒主蛋白酶的基于结构的抑制剂优化。从一个已报道的非共价抑制剂出发,该流程通过预测模型生成并优先排序了新的类似物,随后通过FEP和分子动力学模拟进行了严格的验证。这一方法成功鉴定出了一系列优化的化合物(例如,I3C-1, I3C-2, I3C-35),它们通过与先前未被充分利用的S4和S5亚口袋结合,增强了与靶点的亲和力。这些结果凸显了将基于物理的方法与AI驱动的方法相结合,在加速先导化合物优化和抗病毒药物设计方面的巨大潜力。 背景 自21世纪以来,β-冠状病毒已三次对全球公共卫生构成严重威胁,包括2003年的SARS、2012年的MERS,以及由SARS-CoV-2引发的COVID-19大流行。尽管疫苗和口服抗病毒药物的开发取得了巨大成功,但病毒的持续变异和免疫逃逸能力,意味着开发新型、广谱的抗冠状病毒药物,以应对未来潜在的疫情,仍然是一项紧迫的全球性任务。 在众多抗病毒靶点中,冠状病毒的主蛋白酶(Mpro)因其在病毒复制中的核心作用以及在多种冠状病毒间的高度保守性,成为了一个极具吸引力的药物设计靶点。它像一把“分子剪刀”,负责将病毒的蛋白前体切割成多个功能性蛋白单元,是病毒生命周期中不可或缺的一环。 关键科学问题 目前已获批的抑制剂,如Paxlovid中的奈玛特韦,虽然临床有效,但存在一些局限性。首先,它是一种共价抑制剂,通过与靶蛋白形成不可逆的化学键来发挥作用,这虽然强效,但也带来了潜在的脱靶效应和安全性风险。其次,它需要与另一种药物“利托那韦”联用以减缓其在体内的代谢,而利托那韦可能干扰其他药物的代谢,导致复杂的药物-药物相互作用(DDI),限制了其在合并用药患者中的使用。 因此,开发高效、安全、无需增强剂的非共价抑制剂成为了一个重要的研究方向。COVID Moonshot 正是一个旨在应对这一挑战的全球性、开放科学的药物发现项目。该项目筛选并公开了大量靶向主蛋白酶的非共价抑制剂片段及其活性数据,为后续研究提供了宝贵的起点。然而,从这些初步的“先导化合物”到一个真正有效的药物分子,需要经历漫长而昂贵的“先导化合物优化”过程。核心的科学问题是:如何才能在由先导化合物衍生出的、数以万计甚至百万计的广阔化学空间中,快速、准确地预测出哪种结构修饰能够最大程度地提升药物活性,从而精准指导化学合成,避免资源浪费? 创新点 为了应对这一挑战,本文的研究团队创造性地提出了一个名为 Deep-CovBoost 的计算框架。其核心创新点在于将两种强大的计算方法无缝整合,形成“AI海选”与“物理精算”的协同策略: 数据驱动的深度学习:利用AI模型,从海量的现有抑制剂数据中学习“构效关系”,从而能够对数以万计的新分子进行快速、大规模的活性预测和虚拟筛选,高效探索化学空间。 基于物理的自由能微扰(FEP):利用精确的物理学原理,对AI筛选出的少数精英候选分子进行高精度的结合自由能计算,从而对它们的活性进行可靠的验证和排序。 这种策略结合了AI的速度和广度与物理模拟的深度和准度,旨在极大地加速先导化合物的优化进程。 研究内容 方法:Deep-CovBoost 框架详解 研究团队以COVID Moonshot项目公开的非共价抑制剂 I3C-0 ($IC_{50} = 19.73 \mathrm{nM}$)作为优化的起点,其整体技术路线可以通过下面的流程图清晰地展示: 阶段一:确定优化“热点” (结合图1) 研究首先通过500 ns的分子动力学(MD)模拟评估了 I3C-0 在口袋中的稳定性。结果显示,其核心骨架非常稳定,而 C’R’+R2 基团则表现出较大的波动性,表明该区域的相互作用较弱,是进行结构改造以提升活性的关键“热点”。随后,团队利用来自ChEMBL数据库和COVID Moonshot项目的分子片段,通过合理的化学反应规则替换了I3C-0的C’R’+R2部分,构建了一个包含12万个新分子的内部化合物库。 图1:(A) SARS2、SARS和MERS主蛋白酶的序列比对,突出显示了活性位点中的关键残基(红框)。 (B) 主蛋白酶二聚体及其催化机制的卡通表示。 (C) I3C-0与主蛋白酶形成的复合物的晶体结构(PDBid: 7GLB)。 (D) Deep-CovBoost框架中整合基于物理的FEP与数据驱动的深度学习的示意工作流程。 (E) I3C-0与主蛋白酶的结合模式及活性位点中亚口袋的分布。 (F) I3C-0在MD模拟中的RMSD曲线,显示了整个分子、核心原子(蓝色)和C’R’+R2基团原子(红色)的均方根偏差。 阶段二:深度学习模型海选 (结合图2) 此阶段的核心是构建一个精准的AI预测模型。团队构建了一个基于消息传递神经网络(Message Passing Neural Network, MPNN)的深度学习模型。该模型的巧妙之处在于,它不直接预测单个分子的绝对活性,而是以分子对作为输入,直接预测这两个分子因结构差异导致的相对结合自由能变化($\Delta\Delta G$)。模型在包含707个Moonshot化合物的数据集上进行了训练,学习了分子结构的微小差异如何导致活性的变化。训练完成后,这个AI模型被用来快速预测内部化合物库中12万个分子相对于起点分子I3C-0的活性变化,并筛选出最优的候选者进入下一轮。 图2:构建用于评估靶向主蛋白酶小分子活性的模型的工作流程。它包括五个关键步骤:数据整理(A)、模型构建(B)、5折交叉验证(C)、外部测试(D)和模型预测(E)。 阶段三:FEP精确验证 对于AI筛选出的精英分子,团队采用了计算成本高昂但极为精确的自由能微扰(FEP)方法进行最终验证。FEP基于严格的统计力学原理,能够高精度地计算一个分子被“炼金术”式地转变为另一个分子时的自由能变化($\Delta\Delta G$),从而准确预测活性的提升或下降。 结果与讨论 1. 成功发现活性显著提升的新抑制剂 通过上述流程,团队成功发现了一系列活性优于起点分子I3C-0的新抑制剂。其中,I3C-1 ($\Delta\Delta G = -3.69 \mathrm{kcal/mol}$) 和 I3C-2 ($\Delta\Delta G = -3.71 \mathrm{kcal/mol}$) 的结合亲和力得到了数量级的提升。 图3:(A) 展示深度学习与FEP结合用于先导化合物优化的流程图。 (B) C’R’基团优化的FEP结果,新生成的类似物表示为I3C-1到I3C-13。 2. 揭示S4/S5亚口袋的关键作用 机理分析揭示了这些新分子活性提升的结构基础。起点分子I3C-0主要占据S1, S2, S3亚口袋,而其不稳定的C’R’基团附近存在着未被充分利用的S4和S5亚口袋。研究发现,将I3C-0中的六元内酰胺环(C’基团)修改为五元环,能够改变其连接的R’基团的空间朝向,使其正好可以延伸并占据S4和S5亚口袋。这种新的结合模式与FDA批准的药物奈玛特韦(Nirmatrelvir)在该区域的结合模式表现出惊人的相似性,从而带来了显著的亲和力增强。这完美解释了为何结构上的微小改变能带来活性的巨大飞跃。 图4:(A) 使用Deep-CovBoost框架对I3C-0的C’R’基团进行优化。 (B)和(C) 成功发现了活性显著增强的I3C-1和I3C-2。 (D)和(E) I3C-1、I3C-2与奈玛特韦同主蛋白酶的结合模式比较。 3. 多轮、多位点迭代优化 第一轮优化大获成功后,团队并未止步。他们以活性最高的分子之一 I3C-2 作为新的起点,再次启动了完整的Deep-CovBoost流程,针对S4和S5亚口袋中的R5基团进行第二轮优化。这一轮迭代同样成果斐然,再次发现了一系列活性更强的分子,如 I3C-34 ($\Delta\Delta G = -1.36 \mathrm{kcal/mol}$) 和 I3C-35 ($\Delta\Delta G = -1.01 \mathrm{kcal/mol}$)。MD模拟证实,这些新分子能更好地嵌入S4和S5亚口袋,并与关键残基形成更稳定的氢键网络。 图5:I3C-34 (A)、I3C-35 (B)和I3C-36 (C)与主蛋白酶的分子动力学结果及相互作用分析。 4. 广谱性潜力分析 为了评估新发现抑制剂对抗不同冠状病毒的潜力,团队还测试了I3C-1和I3C-34与SARS和MERS主蛋白酶的结合。MD模拟结果显示,这两种化合物在三种不同的冠状病毒主蛋白酶活性口袋中都表现出稳定的结合构象。这表明,通过Deep-CovBoost发现的抑制剂具有成为广谱抗冠状病毒药物的潜力,为应对未来可能出现的新型冠状病毒储备了宝贵的技术和候选药物。 图6:I3C-1 (A)和I3C-34 (B)与SARS2、SARS和MERS主蛋白酶的MD模拟RMSD曲线,以及与关键活性位点残基的接触频率。 技术细节 Q\&A Q1:本文的核心策略是“AI预测”和“FEP计算”的结合,两者之间的相关性如何?AI预测的结果足够可靠吗? A:这是一个非常关键的问题。研究发现,AI模型预测的$\Delta\Delta G$值与FEP计算的$\Delta\Delta G$值之间存在中等但显著的正相关(皮尔逊相关系数PCC在0.5到0.54之间)。这意味着AI的预测趋势是基本正确的,能够有效地从海量分子中富集出高活性候选者。然而,相关性并非完美,也说明了AI预测存在一定的“噪音”和不确定性。因此,AI的角色是高效的“漏斗”,用于大规模地排除劣质分子;而FEP则是必不可少的“精密天平”,用于对AI筛选出的少数精英分子进行最终的、高精度的验证。两者结合,实现了效率与准确性的最佳平衡。 Q2:研究中提到S4和S5亚口袋“未被充分利用”,这在药物设计中意味着什么? A:在基于结构的药物设计中,靶蛋白的活性口袋通常被划分为不同的亚口袋。一个理想的药物分子应该能像拼图一样完美地填满这些口袋,并与关键残基形成有利的相互作用。“未被充分利用”意味着先导化合物I3C-0未能有效地占据S4和S5这两个空间,导致其与蛋白的结合存在“缺口”,这是其亲和力未能达到最优的主要原因。因此,这些未被利用的亚口袋就成为了药物优化的“机会窗口”。本研究的成功之处就在于,通过结构修饰,让新的分子成功地“长”进了这个机会窗口,从而获得了额外的结合亲和力。 Q3:为什么MD模拟在确定优化“热点”时如此重要? A:静态的晶体结构只能提供一个瞬时的“快照”,而分子在生理环境中是动态的。通过长时间的MD模拟,研究者可以观察到配体在口袋中的动态行为。在本研究中,MD模拟发现I3C-0的核心骨架部分RMSD很小(蓝色曲线,图1F),表明其结合非常稳定,不应轻易改动;而C’R’+R2基团的RMSD则非常大(红色曲线),说明它在口袋中“摇摆不定”,与蛋白的相互作用很弱。这种动态的不稳定性,恰恰暴露了分子中最需要被优化、且最有可能通过改造来提升亲和力的“软肋”或“热点”。 Q4:多轮优化(例如从I3C-2到I3C-34)是纯靠FEP计算吗? A:不是的。多轮优化同样遵循了完整的Deep-CovBoost流程。研究者以第一轮优化得到的高活性分子I3C-2为新的起点,再次利用分子片段库对其R5基团进行修饰,生成了新一批的候选分子库。然后,同样先用深度学习模型进行快速海选,筛选出最有潜力的分子,最后再用FEP进行高精度验证。这体现了该框架的迭代优化能力。 Q5:FEP计算的准确性如何保证? A:为了确保FEP计算的可靠性,研究者采取了多重措施。首先,他们在正式筛选前,用4个已知活性数据的分子对FEP方法进行了基准测试,计算结果与实验值的相关性非常高,证明了该方法在此体系中的准确性。其次,对于每一个FEP计算,他们都进行了三次独立的重复模拟,并确保总模拟时间足够长(每个任务总计超过348 ns),以获得充分的采样和收敛的自由能结果。 关键结论与批判性总结 关键结论 本研究成功开发并验证了一个名为 Deep-CovBoost 的计算药物设计框架,该框架巧妙地结合了深度学习的速度与广度和自由能微扰(FEP)的精度与深度。通过应用该框架,研究团队以一个公开的先导化合物为起点,成功设计并(在计算中)验证了一系列具有更高活性、且具备广谱抗冠状病毒潜力的新型非共价抑制剂。这项工作为应对未来可能出现的新型冠状病毒疫情,提供了一个高效的虚拟筛选和药物发现流程。 批判性总结 优势 (Strengths): 方法论创新:将AI快速筛选与物理精确计算相结合的范式,是现代计算药物设计领域的一个优秀范例,有效平衡了计算效率与准确性。 结果可靠性高:研究不仅依赖于AI的预测,更使用严谨的FEP方法对关键候选分子进行了验证,并通过长时间MD模拟深入分析了作用机理,使结论具有较高的可信度。 潜在应用价值广:所发现的新分子表现出对多种冠状病毒主蛋白酶的抑制潜力,具有开发为广谱药物的前景。 局限性与未来展望 (Limitations & Future Directions): 缺乏实验验证:本研究的所有活性评估均在计算层面完成。尽管FEP被认为是“黄金标准”的计算方法,但最终的活性仍需通过真实的化合物合成与体外/体内生物实验来最终确认。这是从计算到现实最关键的一步。 模型泛化性:深度学习模型是在与I3C-0骨架相似的化合物上训练的,其对于全新化学骨架的预测能力(泛化性)可能有限。 反馈循环的缺失:作者在讨论中提到,将FEP计算出的高精度数据反哺给AI模型进行再训练,是一个极具潜力的优化方向,但这并未在当前工作中实现。建立这样一个“AI预测 -> FEP验证 -> AI再训练”的主动学习闭环,将是未来进一步提升该框架效率和智能性的关键。
Drug Design
· 2025-08-13
<
>
Touch background to close