自由能计算四十年：生物分子过程中的方法、基准测试与应用

自由能计算四十年：生物分子过程中的方法、基准测试与应用本文信息标题：Free-Energy Calculations of Biomolecular Processes: Methods Development, Benchmarking, and Applications 作者：Zoe Cournia，Christophe Chipot 发表时间：2026年3月19日文章类型：特刊导言（Special Issue Preface）引用格式：Cournia, Z.; Chipot, C. Free-Energy Calculations of Biomolecular Processes: Methods Development, Benchmarking, and Applications. J. Phys. Chem. B 2026, 130, 2947-2950. https://doi.org/10.1021/acs.jpcb.6c00969 特刊信息：Published as part of The Journal of Physical Chemistry B special issue “Applications of Free-Energy Calculations to Biomolecular Processes”. 特刊链接：https://pubs.acs.org/page/vsi/applications_free_energy?ref=vi_collection 摘要去年是开创性自由能微扰计算发表四十周年。1985年，Jorgensen关于甲醇和乙烷相对水合自由能的研究，为分子模拟开启了一个新的阶段。此后，自由能计算逐步发展为分子动力学最有力的应用之一，能够在原子层面解析结合、溶剂化和分子识别等与药物发现密切相关的过程。经过理论、算法和算力的持续进步，自由能模拟已经从早期的探索性尝试，发展为具有定量预测能力的工具。本文回顾了这一领域的理论主线，并概述了蛋白-配体识别、核酸、酶催化、膜环境中的渗透与扰动、方法学开发、基准测试以及机器学习融合中的代表性研究。自由能计算正在推动生物分子建模从“描述结构”走向“解释过程”。核心结论自由能计算已经进入成熟阶段：相对和绝对结合自由能计算是目前量化分子相互作用最严格的方法之一。应用范围持续扩展：该方法不再局限于蛋白-配体结合，还已深入核酸识别、酶催化、膜渗透和翻译后修饰等问题。方法学与基准测试同等重要：系统准备、热力学路径、集合变量、采样策略和适用域定义，决定了计算究竟停留在定性解释，还是走向定量预测。机器学习正在进入自由能工作流：从集合变量学习到Δ-机器学习势，再到主动学习驱动的化学空间搜索，AI正成为重要助力。背景自由能计算的发展，有一个非常清晰的历史坐标。1985年，Jorgensen关于甲醇和乙烷相对水合自由能的自由能微扰（FEP）研究，首次对这一类思想给出了定量验证。紧接着，McCammon及其合作者将FEP与分子动力学结合，用于离子和底物相对结合自由能的计算，使分子模拟开始真正具备化学和生物热力学预测能力。随后，这一思路又扩展到酶-抑制剂体系和化学反应，为今天常见的QM/MM自由能计算奠定了基础。从理论上看，今天看似繁多的自由能算法，实际都建立在少数几个共同原则之上。无论采用直方图方法、微扰方法、热力学积分（TI）这类梯度方法，还是Jarzynski恒等式所对应的非平衡方案，核心目标都没有改变：通过代表性采样，估计两个状态之间的可逆功。对应到技术路线，一类方法更偏几何变换，例如通过空间坐标变化得到平均力势；另一类更偏炼金术变换，即通过修改势能函数连接不同化学状态。这两条路线都离不开分层采样和增强采样。过去四十年里，自由能方法已能预测一系列实验可测量量，包括结合亲和力、分配系数、溶解度、pKa变化以及反应自由能。今天的关键问题已经不再只是“能不能算”，而是“能否稳定、可靠、可重复地算准”。这也解释了为什么方法开发和系统基准测试在这篇特刊中占据同样重要的位置。该特刊由 Journal of Chemical Information and Modeling 与 The Journal of Physical Chemistry B 在 2024 年征稿后联合组织，共汇集了来自世界各地 27 个研究组的工作。关键科学问题如何用统一框架理解不同自由能算法：FEP、TI、伞形采样、元动力学和非平衡方法形式不同，但都服务于同一个热力学目标。如何让自由能计算真正可预测：准确采样、合理热力学路径、可靠力场和明确适用域，缺一不可。复杂体系的关键瓶颈是什么：金属位点、慢构象变化、膜环境和共价反应，仍是当前最具挑战性的应用场景。机器学习如何真正帮助自由能模拟：问题不只是“能不能加AI”，而是“如何在不牺牲物理可解释性的前提下提高效率和迁移性”。研究内容正文基本分为四部分：Introduction、Applications、Methods Development and Benchmarking、Concluding Remarks。下面按这个顺序梳理主要内容。引言：四十年后，自由能方法到底走到了哪一步引言首先回到1985年的FEP里程碑工作，并指出自由能计算已经从早期“采样严重受限但概念非常重要”的方法，发展为可定量预测的工具。今天，尤其是相对和绝对结合自由能计算，已经成为量化分子相互作用最严格的路径之一。虽然它们仍然过于昂贵，暂时不适合大规模虚拟筛选，但在先导优化中已经越来越实用，而且随着计算成本继续下降，其应用范围还会进一步扩大。不同方法背后依托的是共同的统计力学原则：需要对相关构型进行准确采样需要在两个状态之间构建一致的热力学路径无论是几何路径还是炼金术路径，本质上都在估计可逆功 FEP、TI、伞形采样和元动力学看起来形式不同，但它们都依赖两个共同前提：代表性采样，以及连接状态的合理热力学路径。应用：自由能计算正在覆盖哪些生物分子过程应用部分分成四块：蛋白-配体识别与药物发现、核酸与蛋白-核酸识别、酶催化与突变、生物技术应用，以及膜环境中的渗透与膜扰动。蛋白-配体识别与药物发现这是自由能计算最成熟、也最接近药物研发实践的一块。代表性工作包括： Singh等人：对激酶突变如何影响抑制剂结合进行了前瞻性基准测试。基于物理的方法、Rosetta和机器学习方法在耐药/敏感分类上精度相近，说明结构基础方法已开始接近精准肿瘤学场景的实际需求。 Bittner等人：通过马肝醇脱氢酶在深共熔溶剂中的MD和自由能计算，说明这类溶剂会收缩活性位点并降低其柔性，从而削弱底物结合。深共熔溶剂是一类由两种或多种组分混合形成的低熔点溶剂体系，常因强相互作用而呈现不同于普通有机溶剂的性质。这项研究表明，深共熔溶剂组成会直接影响酶活性，并为设计更兼容的生物催化溶剂提供依据。 Elola等人：研究了短干扰RNA与3-氨丙基三乙氧基硅烷功能化二氧化硅纳米颗粒的结合。其结合过程基本无能垒，而且表面接枝密度越高，结合越强；但较低覆盖度虽然结合较弱，却可能更有利于细胞内释放。 Barron和Vilseck：用λ-动力学自由能计算和MD解释了胰岛素A3位点微小突变为何会显著削弱受体结合，展示了单原子尺度变化如何通过自由能微扰改变生物学功能。 Wang等人：把元动力学和伞形采样结合起来，研究高同源性CDK之间的药物选择性，结论是选择性并不只编码在静态结合模式里，也编码在结合路径上的瞬态中间状态中。 Gusev等人：将主动学习和相对结合自由能计算结合，用于LRRK2 WDR结构域的命中优化，展示了在减少模拟次数的同时高效搜索大化学空间的可能性。 Xiong等人：结合经典MD与QM/MM自由能计算，预测了SARS-CoV-2 3CL蛋白酶及其耐药突变体对共价抑制剂的响应，指出耐药性来自非共价结合与共价反应能学的协同变化。 Azimi和Gallicchio：提出 receptor hopping 和 receptor swapping 两种方案，用于直接或间接计算不同受体之间的配体选择性自由能，并在主-客体体系和蛋白酶靶点上得到与实验及传统方法一致的结果。 Tandarić 和 Gutiérrez-de-Terán：用FEP比较A2BAR部分激动剂BAY60-6583的不同结合模式，并结合突变数据筛选出更符合生理实际的结合构象。核酸与蛋白-核酸识别在核酸体系中，自由能方法不仅能研究“是否结合”，还可以研究柔性、弯曲和识别路径。 Fakharzadeh等人：量化了A-DNA、B-DNA和Z-DNA的弯曲自由能，指出DNA弯曲能高度依赖构型、序列和错配，错配还能显著软化双螺旋并促进扭结形成。 Kumari等人：将深度学习集合变量和OPES结合，实现RNA-肽结合与解离的可逆采样，展示了机器学习CV在复杂识别过程中的优势。 Singh等人：通过长时间尺度MD和增强采样，解释了RNA伴侣蛋白ProQ的识别机制，指出其对sRNA的识别与蛋白凹面上的静电驱动结合密切相关。 Kumar等人：研究了配体如何通过别构效应重塑自由能景观，从而稳定或破坏受体-DNA相互作用并最终调控基因表达。酶催化、突变与生物技术应用这部分工作把自由能方法进一步推进到反应机理、突变效应和蛋白调控层面。 Vidossich等人：通过原子级MD和QM/MM自由能计算解析真菌角质酶水解脂肪族聚酯的机制，指出酰化是限速步骤，且四面体中间体的稳定对酶促塑料降解效率至关重要。 Jäckering等人：结合QM/MM自由能模拟和自适应 string method，揭示保守“摆动”色氨酸及附近突变如何调控PET水解，说明酶活性不只取决于底物是否结合，也取决于动态芳香重排是否能稳定过渡态。 Di Geronimo等人：用QM/MM元动力学研究溶酶体甘露糖苷酶突变，指出即便远离活性位点的突变，也能通过改变底物构象和催化几何，把反应能垒显著抬高。 Jitonnom等人：用QM/MM MD和伞形采样研究GH51 α-L-阿拉伯呋喃糖苷酶，发现供体-受体选择性来源于催化三联体内部精细调谐的静电和质子化平衡。 Dasari和Kalyaanamoorthy：通过经典MD、结合自由能和副本交换模拟研究Tau蛋白，指出磷酸化和O-GlcNAc糖基化并不是简单的“开/关”调控，而是通过重塑构象系综和结合自由能来改变蛋白-蛋白相互作用。膜环境中的渗透与膜扰动这一节围绕两类更具体的问题展开：分子如何穿过膜屏障，以及小分子如何扰动有序膜结构。膜环境在这里不再只是背景，而是直接参与自由能调控的因素。 Deylami等人：通过MD和渗透自由能剖面研究革兰氏阴性菌外膜，指出抗生素渗透受强氢键、离子介导作用、离子配位和水化造成的自由能垒控制。 Sittiwanichai等人：通过MD和伞形采样分析局麻药对有序膜的扰动，说明局麻药破坏脂筏样膜结构的关键并不只是电荷，而是其跨膜自由能剖面中编码的立体和疏水效应。方法学发展与基准测试：自由能计算能否真正可信，取决于这里方法开发和基准测试决定了自由能计算能否成为可靠工具。 Jorgensen和Tirado-Rives：用蒙特卡洛FEP计算20个芳烃在水和环己烷中的溶剂化自由能，与实验高度一致，并揭示了与分子大小和表面积相关的明显规律。 Rick和Summa：比较了不同势能模型在配体结合自由能上的表现，发现自由能本身的预测很准，但焓和熵的分解更难；通过调节色散相互作用后，一致性进一步提升。 Güven等人：针对丝氨酸和金属-β-内酰胺酶的相对结合自由能计算做基准测试，重点检验锌配位建模，表明金属位点仍是相对结合自由能预测中的薄弱环节。 Schoenmaker等人：提出 IMERGE-FEP，自动生成中间分子，把大扰动拆成更小、更相似的步骤，以改善炼金术自由能计算的收敛性。 Giese等人：把图神经网络中的 MACE 引入范围校正的Δ-机器学习势，改善QM/MM模拟，得到的 AM1/d + MACE 模型对自由能面再现和迁移性都优于对照模型。这里的Δ-机器学习势，通常指不直接学习完整势能面，而是学习低级方法与高级方法之间的差值，再把这部分修正加回基线势能中。 Ohadi等人：对 FEP+ 做了大规模基准测试，指出输入构象和晶体水位置是预测精度的关键决定因素；有时简单的最大公共子结构对齐加适当保留水分子，反而优于更复杂的姿势生成流程。 Rivel等人：提出 Full-Path 和 Rapid 两个膜孔形成集合变量，用于同时描述孔成核和扩张，并证明其能减少滞后、得到一致线张力并重现实验趋势。 Serrano-Morrás等人：提出基于DUck拉伸MD得到的准结合态自由能 ΔGQB，作为相对结合自由能和活性悬崖的快速预测指标，在明确适用域内可作为高通量替代方案。真正决定自由能方法能否走向广泛应用的，不只是“算力够不够”，还包括：体系准备是否合理集合变量是否物理上有意义采样是否充分报告中是否清楚说明精度和适用域方法学严谨性决定应用价值。自由能计算能否成为可靠预测工具，关键并不只是有没有成功案例，还取决于系统准备、集合变量、适用域定义和误差报告是否足够扎实。结语：自由能正在成为解释生物分子过程的共同语言这些工作共同标志着生物分子建模的一次转向。研究重点正在从“结构长什么样”转向“为什么会发生某个生物过程、突变如何改变它，以及这些改变能否被预测和工程化利用”。自由能方法的重要性，不只是来自算力增长，也来自方法学严谨性和概念清晰度的同步提高。机器学习在这里也不是替代自由能计算，而是进入工作流的多个环节，包括集合变量学习、QM/MM势能改进、主动学习驱动的化学空间搜索，以及自由能预测和分析。未来，自由能计算将越来越多地进入前瞻性应用，例如耐药靶点药物设计、酶理性改造、调控机制解析，以及复杂生物环境中涌现行为的预测。关键结论与批判性总结作为共同的热力学语言这篇特刊导言最有价值的地方，在于把自由能计算重新界定为一种解释生物分子过程的热力学语言，而不只是分子模拟中的一个技术模块。从蛋白识别、核酸调控到酶催化，以及膜环境中的渗透与膜扰动，导言展示了自由能方法已经具有明显的跨体系统一性。预测成功依赖什么体系准备、热力学路径、采样策略，以及精度和适用域的明确定义，是预测成功反复出现的前提条件。这也意味着方法开发和基准测试并不是附属工作，而是决定自由能方法究竟停留在定性解释还是进入定量发现的基础。这篇导言本身的边界作为导言，它的目标是全景梳理而不是深入比较，因此很多研究只能点到为止，无法展开讨论具体误差来源、收敛难点和失败案例。文中对机器学习的讨论是积极而谨慎的，但仍然停留在趋势总结层面，没有深入比较不同AI路线在自由能工作流中的优势与代价。从回顾性解释走向前瞻性应用自由能方法正在从回顾性解释走向前瞻性应用。这类前景包括：针对耐药靶点的药物设计、酶的理性工程改造、调控机制解析，以及复杂生物分子环境中涌现行为的预测。

Free Energy · 2026-03-30

片段药物亲和力预测的新工具：分离拓扑方法突破结构重叠限制

片段药物亲和力预测的新工具：分离拓扑方法突破结构重叠限制本文信息标题：Efficient Binding Affinity Estimation for Fragment-Based Compounds Using a Separated Topologies Approach 作者：Ana-Maria Caldararu, Hannah M. Baumann, David L. Mobley 单位：University of California, Irvine（美国）期刊：Journal of Chemical Information and Modeling 发表时间：2025年（doi: 10.1021/acs.jcim.5c03091）引用格式：Caldararu, A.-M.; Baumann, H. M.; Mobley, D. L. Efficient Binding Affinity Estimation for Fragment-Based Compounds Using a Separated Topologies Approach. J. Chem. Inf. Model., 2025, Article ASAP. https://doi.org/10.1021/acs.jcim.5c03091 源代码：https://github.com/MobleyLab/SeparatedTopologies 数据与脚本：https://github.com/AnaCaldaruse/fragment_septop (Zenodo: 10.5281/zenodo.17795849) 摘要片段药物发现（FBDD）是早期药物开发中广泛使用的策略，但准确预测片段及其优化衍生物的结合亲和力面临独特的计算挑战。这些困难源于弱结合亲和力、多样化的化学骨架以及片段与优化衍生物之间有限的结构重叠。虽然存在多种自由能方法，但很少有专门针对FBDD特定需求的方法。在本研究中，我们评估了分离拓扑（SepTop）方法用于建模基于片段的转化，包括片段合并和连接。使用来自Cyclophilin D和SARS-CoV-2 Macrodomain 1的回顾性数据集，我们证明了SepTop可以在片段和先导化合物中以良好的精度恢复实验结合亲和力。这些结果支持SepTop在片段优化中的适用性，并突出了其将结合自由能计算的适用范围扩展到药物发现更早期阶段的潜力。核心结论 SepTop在片段连接任务上表现优异：能够准确预测片段合并和连接后的结合亲和力变化，在CypD系统上RMSE为1.47 kcal/mol（ΔΔG）和1.26 kcal/mol（ΔG）方法灵活性强：无需共享原子或结合模式重叠即可进行配体转化计算，特别适合片段药物中常见的非同源转化统计效率高：相比文中对照的ABFE方案，SepTop总模拟长度更短，重复间波动更小，并表现出更好的重复性适用范围广泛：从弱结合片段（mM级）到强结合先导化合物（nM级）都能准确预测，统一了药物发现早期阶段的亲和力预测流程背景片段药物发现（Fragment-Based Drug Discovery, FBDD）是现代药物研发的重要策略，其核心思想是使用分子量小（MW<300 Da）、结合亲和力弱（mM级别）的片段作为起点，通过逐步优化获得高亲和力的先导化合物。这种方法能够快速探索化学空间，发现新颖的结合模式，但同时也带来了计算预测的独特挑战。关键科学问题片段药物发现的计算预测面临三大核心难题：弱结合亲和力的准确预测：片段的结合亲和力通常在mM级别，信噪比低，实验误差大，对计算方法的精度要求极高化学骨架多样性：片段优化往往涉及大幅度的结构变化，如片段合并、连接等，配体间可能完全没有共享原子或重叠的结合模式转化路径的复杂性：从片段到先导化合物的优化路径可能跨越多个数量级的亲和力变化，需要方法既能处理局部微调，又能处理全局重构传统自由能计算方法主要分为两类：相对结合自由能（RBFE）和绝对结合自由能（ABFE）。RBFE方法（如FEP）适用于结构相似配体间的转化，但要求配体间有较大的结构重叠和共享原子；ABFE方法可以直接计算单个配体的绝对结合自由能，但计算成本高，且需要模拟apo态，对片段系统尤为不利。创新点本研究首次系统性评估分离拓扑（Separated Topologies, SepTop）方法在片段药物发现中的应用，主要创新包括：非同源转化能力：SepTop通过方向性约束（orientational restraints）允许配体在结合位点内独立移动，无需共享原子或结合模式重叠，天然适合片段合并和连接场景计算效率优化：相比ABFE方法避免了apo态模拟，相比传统RBFE方法放宽了结构相似性要求，在精度和效率间取得良好平衡双系统验证：在Cyclophilin D（片段连接案例）和SARS-CoV-2 Macrodomain 1（片段合并案例）两个截然不同的系统上验证方法的普适性研究内容 Separated Topologies方法原理 SepTop是一种相对结合自由能计算方法，最初由Rocklin等人在2013年提出，后经Baumann等人进一步完善。其核心思想是通过方向性约束将两个配体独立地锚定在结合位点中，从而允许它们在模拟过程中自由移动和旋转，而不必保持结构重叠。 graph TB A[SepTop方法流程] --> S1[系统准备] A --> S2[方向性约束设置] A --> S3[炼金术转化模拟] A --> S4[自由能分析] subgraph S1[1.系统准备] B1[蛋白-配体复合物 平衡MD模拟] B2[配体溶剂相模拟] end subgraph S2[2.方向性约束设置] C1[选择约束原子 六原子定义] C2[计算平衡参数 键长/键角/二面角] C3[添加到topology文件] end subgraph S3[3.炼金术转化模拟] D1[20个λ窗口] D2[每个窗口10 ns模拟] D3[Hamiltonian Replica Exchange 增强采样] end subgraph S4[4.自由能分析] E1[MBAR分析 计算ΔΔG] E2[MLE推断 推断绝对ΔG] E3[统计分析 RMSE/MUE/KTAU] end 核心设计原则 SepTop方法的核心是通过方向性约束（Boresch Restraints）将两个配体独立地锚定在结合位点中，允许炼金术转化过程中两个配体同时存在于结合位点。具体到方向性约束的原子选择，作者并不是直接根据一张静态构象手工挑点，而是尽量把约束建立在平衡态动力学信息上：使用Baumann等人开发的自动化算法从平衡MD轨迹中选择6个约束原子（3个配体原子+3个蛋白原子）采用轨迹而非静态结构的原因是选择更稳定的约束原子，静态结构可能无法识别最佳位置这6个原子定义了1个键、2个角、3个二面角的几何约束约束参数（键长、键角、二面角的平衡值）从平衡轨迹计算，可以是单结构值或轨迹平均值约束力常数设置：键约束为$20\,\mathrm{kcal\cdot mol^{-1}\cdot Å^{-2}}$，角和二面角约束为$20\,\mathrm{kcal\cdot mol^{-1}\cdot rad^{-2}}$，其中一个角使用可变力常数（在5 Å时为$40\,\mathrm{kcal\cdot mol^{-1}\cdot rad^{-2}}$）约束在非相互作用态的自由能贡献按照Boresch等人的解析公式精确计算并扣除，不引入近似误差在炼金术转化路径的三阶段设计上，SepTop也不是简单地把一个配体关掉、再把另一个配体打开，而是把整个过程拆成更稳定、更容易采样的三段：使用20个λ窗口逐步将配体A转化为配体B，每个λ窗口模拟10 ns，总共200 ns 采用Hamiltonian Replica Exchange（HREX）增强采样，相邻λ窗口间尝试交换通过软核势（soft-core potentials，$\gamma=0.5$）避免端点奇异性，减少构象采样势垒 λ窗口范围阶段名称配体A（outgoing）配体B（incoming） 0-7 vdW阶段添加约束保持参考取向打开van der Waals相互作用 8-11 静电交换阶段关闭静电相互作用打开静电相互作用（配体间除外） 12-19 退耦合阶段关闭van der Waals相互作用移除约束，完成转化真正值得强调的关键创新点在于，这套约束不是从头到尾死板固定，而是会随着相互作用状态一起变化：约束动态变化：与直觉不同，约束并非始终不变。配体A开始无约束（完全相互作用态），并在λ 0-7逐渐添加约束；与此同时，配体B从一开始就是被约束的dummy态，在同一阶段逐步打开vdW相互作用，直到λ 12-19才逐步移除这些约束双配体共存：两个配体同时存在于结合位点，一个处于real态，一个处于dummy态，dummy态配体虽被约束但不与环境相互作用独立拓扑：每个配体保持独立的拓扑结构和坐标框架，无需共享原子或结合模式重叠最大似然估计（MLE）：整合网络信息推断绝对ΔG SepTop计算的直接输出是配体对之间的相对结合自由能差（ΔΔG），但药物化学家更关心的是绝对结合自由能（ΔG），因为它可以直接与实验测得的IC50、$K_i$或$K_d$值比较。MLE的优势在于利用整个网络的约束关系，把一组彼此关联的ΔΔG整合成自洽的ΔG集合。 MLE的核心思想 MLE的基本任务，是根据整张ΔΔG网络去反推出一组彼此最自洽的绝对ΔG值。由于这组ΔG只在一个加法常数以内可确定，如果要把它们放到实验绝对尺度上，就还需要额外的参考信息来确定整体零点。网络级约束优化 MLE并不简单地信任某个单一配体的实验值或某一条边的计算值，而是同时考虑网络中所有信息，找到一组最自洽的绝对ΔG值。具体来说：对于有$N$个配体的网络，目标是找到一组$\Delta G_1, \Delta G_2, …, \Delta G_N$，使得所有配体对的计算ΔΔG与对应绝对ΔG之差尽量一致 $\min \sum_{(i,j)} [\Delta\Delta G_{ij}^{\text{calc}} - (\Delta G_j - \Delta G_i)]^2$ 这个优化问题通过cinnabar软件包实现。在本文的回顾性分析里，作者随后又把预测ΔG和实验ΔG都做了zero-centering，也就是各自减去平均值，再进行公平比较小编锐评：这里其实要把两件事分开看。第一，MLE本身做的是网络整合：它把一组彼此有误差的ΔΔG边，整理成一组内部更自洽的ΔG表示，这一步即使没有实验值也成立。应该是校正cycle上的每个ddG使和为零，我以前的推送应该有这样的paper。第二，若要把这组ΔG解释成“可直接和实验绝对亲和力一一对应”的结果，就必须再确定整体零点。也正因为如此，如果所有配体的实验ΔG都已经知道了，再做zero-centering更像是 retrospective 的公平对比与误差压缩，而不是获得了新的绝对信息，用来表明自己方法好就更是扯淡了；真正更有实际意义的情形，通常是只知道部分参考配体的实验ΔG，再用这些参考把整张网络放到实验绝对尺度上，去推断其余未测配体的绝对ΔG，这时对ΔΔG网络的整合才更有现实价值。循环闭合的作用在高度连通的网络中，往往存在多条路径连接同一对配体。理想情况下，沿着闭合循环的ΔΔG之和应该为零（例如，A→B + B→C + C→A = 0）。但实际测量会有统计误差，导致循环不闭合（sum ≠ 0）。MLE的优势在于：识别异常边：如果某一条边的ΔΔG明显偏离网络中其他路径推断的值，MLE会自动降低其权重平滑随机误差：通过多条路径的相互约束，MLE能有效平滑单个配体对的测量噪声提高统计精度：这正是Mac1系统中ΔG RMSE（0.96）优于单条边ΔΔG RMSE（1.60）的原因实验设计：CypD和Mac1双系统验证研究选择了两个具有代表性的片段药物系统进行回顾性验证：对比维度 Cyclophilin D（CypD） SARS-CoV-2 Macrodomain 1（Mac1）靶点背景线粒体肽基脯氨酰异构酶，参与线粒体功能调控和细胞死亡，与神经退行性疾病、缺血再灌注损伤相关 SARS-CoV-2非结构蛋白nsp3中的保守酶结构域，参与病毒复制和免疫逃逸 FBDD场景片段连接片段合并数据集组成 9个配体，包括2个原始片段（lig3、lig7）和1个片段连接产物（lig39）基于Gahbauer等人2023年的晶体筛选和迭代设计数据，总共选取11个配体，其中包括2个原始片段（ZINC922、ZINC337835）和1个通过Fragmenstein协议计算合并的化合物（Z8507）结合位点特征片段分别靶向S1’和S2两个亚口袋，部分配体几乎无共享原子两个片段结合在相邻亚口袋，化学多样性更高，转化幅度更大网络设计采用hub-and-spoke扰动图，随机选一个中心配体作为hub，共计算16个配体对扰动网络中保留了11个配体的结构上下文，但由于2个原始片段亲和力太弱、无法稳定测得IC50，最终只有9个可测配体进入定量评估方法学挑战更适合检验SepTop能否处理跨亚口袋、低结构重叠的片段连接问题更适合检验SepTop在弱结合起点、合并幅度更大时的稳定性与泛化能力补充说明：Fragmenstein可以粗略理解为一种基于已知片段共晶姿势来做片段合并与构象放置的工作流。它的重点不是从零开始盲目对接，而是尽量保留parent fragments在蛋白中的已知结合几何关系，再生成可行的merge设计。表格之外还有两点需要补充说明。第一，CypD网络之所以重要，不只是因为它有16个edges，而是因为这种更连通的设计允许后续通过最大似然估计（MLE）把相对自由能网络整合为一组绝对结合自由能。第二，Mac1系统的两个原始片段虽然保留在网络中，但由于亲和力太弱而不纳入RMSE、MUE和排序统计，因此这个体系更像是在检验SepTop能否从“很弱的片段命中”一路过渡到“可定量优化的合并化合物”。核心发现1：CypD系统的准确预测图1：CypD结合位点中片段连接的配体扰动图和结构示意图。（A）用于说明SepTop计算的相对结合自由能（RBFE）的扰动图。每个节点代表一个配体，箭头表示配体对之间的转化。黄色框标出两个片段（lig3和lig7），蓝色框标出通过连接这些片段生成的化合物（lig39）。（B）同一片段（顶部，黄色高亮）和连接化合物（底部，蓝色高亮）结合到CypD结合位点的3D结构表示。该例子展示了片段连接如何让配体跨越两个非重叠亚口袋（S1’和S2），形成更强效、扩展的化合物。研究首先在CypD系统上评估SepTop的性能。图1A展示了实验设计：16个配体对（边）的相对结合自由能计算构成了一个高度连通的网络，这种设计允许通过最大似然估计推断所有9个配体的绝对结合自由能。图2：SepTop预测与CypD数据集实验结合自由能的比较。（A）使用SepTop计算的16个配体对的相对结合自由能（ΔΔG），与从IC50测量推导的实验ΔΔG值比较。阴影区域表示±1 kcal/mol，代表自由能方法的典型精度阈值。冷暖色标表示与实验的匹配程度，SepTop显示强相关性，RMSE=1.47 kcal/mol，MUE=1.27 kcal/mol。（B）通过MLE从SepTop计算ΔΔG网络推断的9个配体的绝对结合自由能（ΔG）。大多数预测落在±1 kcal/mol区域内，RMSE=1.26 kcal/mol，MUE=1.15 kcal/mol，KTAU=0.61。实验结果显示，相对结合自由能（ΔΔG）的RMSE=1.47 kcal/mol，MUE=1.27 kcal/mol，大多数配体对的预测误差在±1 kcal/mol内，证明了SepTop在处理结构差异大、无共享原子的配体转化时的准确性。绝对结合自由能（ΔG）推断的RMSE=1.26 kcal/mol，MUE=1.15 kcal/mol，KTAU=0.61，只有一个配体（亮红色数据点）偏差超过±1 kcal/mol，高Kendall’s Tau值表明配体排序准确，这对于药物发现中的化合物优先化至关重要。 Alibay等人之前在相同系统上进行了绝对结合自由能计算。图3对比了两种方法的性能：图3：原始ABFE研究与CypD数据集实验结合亲和力的比较。（A）Alibay等人原始ABFE研究报告的ΔG值计算的ΔΔG。由于hub配体（lig2）的预测不准确，大多数边都偏离对角线。（B）经过中心化校正（减去平均系统误差）后的ABFE计算的ΔG值。性能统计改善为RMSE=1.41 kcal/mol，MUE=1.04 kcal/mol，KTAU=0.67。这里的中心化校正可以简单理解为：如果整组ABFE预测值相对实验值整体偏高或整体偏低，就先统一减去这个平均偏差，把整条数据“平移回去”。它不会改变配体之间的相对排序，但能去掉全局零点偏移，让不同方法之间的比较更公平。对比结果显示，ABFE在未中心化的ΔG比较（Figure S3）中RMSE=2.56 kcal/mol，并存在明显的系统偏差（大多数预测值过于负）；而经过中心化校正后，Figure 3B中的RMSE改善为1.41 kcal/mol，与SepTop性能相当。SepTop的优势在于无需额外后处理校正，且在本文所比较的设置下总模拟长度更短：SepTop为20个λ窗口、每窗口10 ns，即每次重复约200 ns；对照ABFE则为32个λ窗口、每窗口20 ns，即每次重复约640 ns。小编锐评：那不是废话吗，你只算了ddG，肯定无需额外后处理校正，总模拟长度更短研究还检查了模拟时间对结果的影响。使用每个λ窗口2 ns、5 ns和10 ns的截断轨迹重新分析：模拟时间 RMSE变化收敛性评估推荐度 2 ns/窗口明显增加收敛不足不推荐 5 ns/窗口轻微增加接近10 ns性能可接受 10 ns/窗口基准平衡精度和成本推荐协议这表明SepTop在该系统上收敛良好，5 ns/窗口可能已经足够，但为了保守起见研究采用了10 ns协议。核心发现2：Mac1系统的片段合并验证图4：SepTop应用于靶向SARS-CoV-2 Macrodomain 1（Mac1）的片段合并FBDD项目。（A）通过晶体片段筛选鉴定的两个片段命中（洋红色）结合到SARS-CoV-2 Mac1活性位点的3D结构。这些片段结合在相邻亚口袋中，并通过Fragmenstein协议计算合并为单一化合物（绿色）。（B）Mac1化合物系列的SepTop扰动图。粉色框化合物（ZINC922和ZINC337835）是原始片段，太弱而无法产生可测量的IC50值；它们合并生成Z8507（绿色框），该化合物经过定制合成并实验验证。其余化合物主要是该合并骨架的类似物；图中心的Z9604只是为了网络组织而放在中央，并不代表特殊的参考地位。 Mac1系统代表了片段药物发现的另一常见场景：片段合并。与CypD的片段连接不同，这里两个片段结合在相邻的亚口袋中，通过计算设计合并为一个骨架扩展的化合物。图5：SARS-CoV-2 Mac1数据集的SepTop预测评估。（A）15个配体对的SepTop计算ΔΔG结果与实验ΔΔG值比较。SepTop预测显示中等一致性（RMSE=1.60 kcal/mol，MUE=1.30 kcal/mol），6个转化落在±1 kcal/mol区域外，几个显示大误差条。（B）通过MLE从SepTop推导ΔΔG网络推断的9个有可测量结合亲和力的配体（排除片段）的ΔG结果。尽管底层ΔΔG数据有噪声，RMSE=0.96 kcal/mol，MUE=0.82 kcal/mol，KTAU=0.78。指标 CypD Mac1 更稳妥的解读 ΔΔG RMSE 1.47 kcal/mol 1.60 kcal/mol Mac1的单条边预测统计不确定性更高，说明片段合并场景下的逐对转化更难收敛 ΔG RMSE 1.26 kcal/mol 0.96 kcal/mol 尽管Mac1的ΔΔG结果波动更大，但MLE整合后的ΔG反而更准确，说明网络级整合能在该体系中有效平滑噪声 KTAU 0.61 0.78 Mac1的排序指标更高，但这并不等同于“每一条边都更好算” 研究还检查了循环闭合（cycle closure）对结果的影响。从扰动图中移除闭合循环后：系统原始ΔG RMSE 移除循环后的变化依赖程度 CypD 1.26 kcal/mol 增至1.47 kcal/mol，定量精度轻度下降中等 Mac1 0.96 kcal/mol 原文指出下降更明显，且多处配体不确定性进一步增大显著这表明网络冗余以及闭合循环所提供的内部一致性约束对于提高统计效率至关重要，特别是在高噪声系统中（如Mac1）。方法学讨论：SepTop在FBDD中的优势通过两个系统的验证，研究总结了SepTop在片段药物发现中的独特优势。与传统RBFE方法相比：对比维度传统FEP/TI SepTop 结构重叠要求要求大的结构重叠和共享原子无需共享原子，独立锚定配体适用场景逐步优化，同源转化非同源转化、片段合并/连接路径设计通常依赖共享骨架上的直接炼金术映射允许两个配体以分离拓扑形式共存于同一结合位点方法定位更适合结构相近分子的渐进优化更适合传统RBFE难以覆盖的片段合并/连接问题与ABFE方法相比：对比维度 ABFE SepTop 采样对象每个配体独立估计绝对结合自由能先计算网络化ΔΔG，再用MLE重建ΔG 模拟长度文中对照方案为32个λ窗口、每窗口20 ns，即每次重复约640 ns 文中SepTop方案为20个λ窗口、每窗口10 ns，即每次重复约200 ns 重复间波动文中图3B显示部分配体的重复间波动较大文中图2B显示重复间波动更小，误差条通常更不显著信息共享每配体独立计算，无信息共享 MLE推断利用所有配体数据系统覆盖需要模拟apo态避免apo态模拟尽管SepTop在两个系统上表现出色，但原文也提醒了几类当前误差来源。第一，采样仍然有限，因此即便统一使用共晶结构并做了一致的预平衡，建模姿势本身的偏差仍可能传导到自由能结果。第二，力场、质子化状态与互变异构体指定仍可能出错，这些并不是SepTop独有的问题，却会显著影响预测。第三，关键结构水或离子缺失也可能造成系统性偏差，论文甚至指出至少有一个离群配体在SepTop与ABFE中都出现较大偏差，提示这更像是共同建模误差，而不只是某一种自由能方法失效。 Q&A Q1：SepTop的方向性约束是否会人为地限制配体的构象空间，从而影响自由能计算的准确性？ A1：这是一个关键的方法学问题。方向性约束的目的是保持配体在结合位点中的合理位置和取向，而不是限制其内部自由度。具体来说：约束仅涉及6个原子的相对位置（3个配体原子+3个蛋白原子）约束力常数通常设置得较弱（例如，$k = 10\,\mathrm{kcal\cdot mol^{-1}\cdot Å^{-2}}$），允许一定程度的热涨落约束的自由能贡献通过解析公式精确计算并扣除，不引入近似误差 Dummy态配体虽然被约束，但不与环境相互作用，因此不影响real态配体的采样实验结果显示，SepTop的预测精度与ABFE方法相当（CypD系统），说明约束不会系统性地高估或低估结合亲和力实际上，约束的存在提高了统计效率，因为减少了配体在结合位点外的无效采样。这与传统RBFE方法中通过 harmonic restraints 限制配体重心的思路一致，但SepTop的约束更加精细和物理合理。 Q2：为什么Mac1系统的绝对结合自由能（ΔG）预测优于相对结合自由能（ΔΔG）？这与直觉相反。 A2：这个观察结果确实反直觉，但可以通过网络连通性和闭合循环带来的内部一致性约束来解释： MLE的平滑作用：最大似然估计在推断ΔG时，会最小化整个网络的矛盾。高度连通的网络允许通过多条路径间接比较两个配体；闭合循环提供的是内部自洽约束，而不是直接拿实验值去修正某一条异常边噪声抵消：直接ΔΔG测量受个别配体对的收敛问题影响大，而MLE推断会平均所有相关信息，平滑随机误差实验验证：研究明确指出，移除Mac1网络中的闭合循环后，ΔΔG和推断ΔG的定量表现都会进一步变差，而且多个配体的不确定性也会增大，说明网络冗余在这个体系里确实很重要系统差异：原文强调，CypD与Mac1对闭合循环和网络冗余的依赖程度并不相同。对Mac1而言，这种内部一致性约束不仅影响统计精度，还更明显地影响最终的定量准确性这启示我们在设计SepTop实验时，应该优先考虑高度连通的网络，而不是简单的star或线性图，即使这意味着需要更多的计算资源。 Q3：SepTop方法是否可以推广到更大的片段库（例如100+片段）的高通量筛选？ A3：从这篇论文本身来看，答案应该偏谨慎。作者展示的是两个回顾性案例，说明SepTop在片段连接和片段合并场景中可以工作，但这还不足以直接推出它已经适合超大规模片段库筛选。从计算量看：SepTop在本文中的复合物相协议是20个λ窗口、每窗口10 ns，而且每个体系都做了3次重复。对单个项目来说这是可接受的，但如果直接扩展到超大网络，成本仍然会迅速上升从网络设计看：论文反复强调网络冗余和闭合循环带来的内部一致性约束对结果稳定性的重要性，尤其在Mac1这类边级预测不确定性更高的体系中更明显。这意味着网络并不是越稀疏越好，过度压缩反而可能损失精度从证据边界看：本文并没有真正测试“100+片段”的前瞻性筛选场景，所以更稳妥的说法是：SepTop已经证明了自己适合中等规模、需要精细排序与定量比较的片段优化任务，但是否适合更大规模部署，还需要额外验证关键结论与批判性总结基于原文PDF的Conclusions部分，本研究的主要发现和局限性总结如下：核心贡献 SepTop拓展了自由能计算的适用范围：成功将炼金术自由能方法扩展到片段药物发现（FBDD）领域，在CypD和Mac1两个系统上都实现了与实验结果的高度一致性，即使配体占据不同的结合亚口袋计算效率与精度的平衡：相比ABFE方法，SepTop在获得相似或更优精度的同时，所需的总模拟时间更少，且重复间统计不确定性更低方法定位：SepTop在概念上桥接了传统RBFE和ABFE方法之间的差距。通过在共享结合位点内解耦配体而非采样蛋白的apo态，避免了ABFE收敛困难的主要来源，同时保持了RBFE的相对效率突破RBFE限制：传统RBFE方法因依赖共同骨架定义炼金术映射，不适用于结合在不同亚口袋的片段比较。SepTop通过将配体视为分离拓扑，移除了这一限制，使得直接比较结构差异巨大的分子成为可能局限性验证范围有限：本研究仅在两个系统（CypD和Mac1）上进行了回顾性验证，需要在更多蛋白靶点和化合物类别上进行更广泛的验证，以确认这一优势的普适性共同建模误差仍然存在：原文明确提到，错误的结合姿势、力场局限、质子化/互变异构体指定错误，以及缺失关键结构水或离子，都可能同时影响SepTop和ABFE结果网络质量仍然关键：Mac1结果表明，当单条边噪声较大时，网络冗余和闭合循环提供的内部一致性约束会变得更加重要，因此SepTop并不是“随便连几条边”就能稳定工作未来方向更广泛的方法验证：需要在更多蛋白靶点和化合物类别上验证SepTop的性能，特别是在具有显著诱导契合的系统上水分子网络整合：开发水分子网络分析方法或大正则模拟，以整合水分子的热力学贡献计算成本优化：探索更短的协议（如5 ns/窗口）或基于增强采样的方法（如metadynamics）来进一步加速收敛更复杂配体的处理：对于极度柔性的配体，可能需要多约束集策略或系综docking方法来处理构象异构性小编锐评：2026年了，简单RBFE方法还能发出文章来啊[捂脸]，这个也就确实比传统FEP应用范围广一点，但校正什么的讲得太扯了

Free Energy · 2026-03-15

相对BAT：SepTop自动化让BRD4结合自由能评估真正可扩展

相对BAT：SepTop自动化让BRD4结合自由能评估真正可扩展本文信息标题：Relative BAT：利用分离拓扑的自动化相对结合自由能计算作者：Germano Heinzelmann, David J. Huggins, Michael K. Gilson 发表时间：2025年11月10日单位：巴西圣卡塔琳娜联邦大学物理系；美国威尔康奈尔医学院生理与生物物理系；美国加州大学圣迭戈分校药学院引用格式：Heinzelmann, G.; Huggins, D. J.; Gilson, M. K. Relative BAT: An Automated Tool for Relative Binding Free Energy Calculations by the Separated Topologies Approach. J. Chem. Inf. Model. 2025. https://doi.org/10.1021/acs.jcim.5c02175 相关资源：BAT.py 2.4 全套输入与脚本（https://github.com/GHeinzelmann/BAT.py）摘要文章将分离拓扑（SepTop）相对结合自由能策略嵌入 BAT.py 自动化平台，首次同时支持 AMBER 与 OpenMM，并提出以去电荷参考配体为核心的 Method 1。通过 BRD4(2) 十五个配体的基准测试，Method 1 在 R=0.81、RMSE≈0.9 kcal/mol 的精度下，与 ABFE、传统 RBFE 及实验数据保持一致，同时把单次计算时间控制在 177.6 ns，显著优于 Method 3 的 254.4 ns。支持信息进一步给出了全部输入文件、热力学循环细节与成本拆解，便于直接复现实验。核心结论 Method 1 以去电荷参考配体为枢纽，SepTop 在双引擎下依旧保持 1 kcal/mol 以内的 MUD。在 BRD4(2) 十五个配体上，Method 1 的实验相关系数 0.81 明显优于 Method 3 的 0.67，且对构象约束选择不敏感。 SepTop 能覆盖共享骨架不足的配体对，同时在可适用的 common-core 对上维持 ±0.5 kcal/mol 级别一致。 Method 1 比 Method 3 少耗 76.8 ns 的模拟时间，并在 SDR、复合、配体三类盒子间负载均衡。背景从 ABFE 到 RBFE，分子动力学驱动的自由能评估已成为早期药物发现筛选的硬核工具，但传统工作流依赖繁琐的手动搭建与调参与力场兼容性，导致 GPU 规模化部署困难。ABFE 虽覆盖任何配体，但要解决空腔水交换与蛋白大尺度构象变化；RBFE 虽高效，却受限于“公共骨架”要求。SepTop 方法通过同时存在的两条热力学腿，把一条配体在蛋白腔体中维持耦合，另一条在溶剂中解耦，从而兼得两者优点，却需要更复杂的约束、箱体与脚本管理。Relative BAT 的目标正是把这些繁琐步骤模块化，减轻药物化学团队在 AMBER、OpenMM 之间切换的负担。关键科学问题 SepTop 仍面临三点挑战：其一，如何构建对任何配体都共同适用的参考态，并在不同引擎间保持能量一致性；其二，如何在保持多参考箱体、Boresch 约束及 SDR 同步过程的同时自动化误差估计；其三，如何在真实药物候选上验证精度、稳定性与成本三者的平衡。本文通过引入 Method 1（去电荷参考）、Method 2（全电荷单步互换）及 Method 3（三步分离互换），系统回答了这些问题。创新点 Method 1 的去电荷参考：把所有配体映射到 5uf0 的无电荷版本，使热力学循环减少轮廓面积并消除电荷不平衡。 Ambertools + OpenMM 双引擎统一脚本：同一 BAT 输入即可调用 AMBER22 或 OpenMM 8.2.0，并共享 SDR、MBAR、TI-GQ 计算图。多箱体管理：引入 SDR 盒、复合盒、配体盒的自动生成与复用，配合 Boresch 约束和可选蛋白构象约束，显著降低设定错误率。全流程成本分析：支持信息提供各方法在 SDR、复合、配体盒的耗时拆分，给出具体 ns 级预算。研究内容 graph TB subgraph 前处理 A(配体参数化 AM1-BCC/GAFF) --> B(蛋白锚点选择 USalign) end subgraph 箱体构建 B --> C(复合盒 约束采样) B --> D(配体盒 释放约束) B --> E(SDR盒 双配体共存) end subgraph 热力学循环 E --> F(去电荷或互换步骤) F --> G(参考配体耦合) G --> H(求得ΔG_i_to_ref) end H --> I(ΔΔG对比) I --> J(与ABFE/实验/传统RBFE对比) SepTop 热力学循环与公式解析图1：SepTop 相对结合自由能网络与三条路径顶部示意所有配体都指向单一参考，虚线箭头 $\Delta\Delta G_{2\to1}$ 由不同 $\Delta G_{oi\to\mathrm{ref}}$ 差值得到；中部是 Method 1，强调对配体及参考的去电荷、LJ 切换、约束附着；底部是 Method 2 与 Method 3，把参考保持带电并采用单步或三步互换。蓝色箭头表示真正求解的自由能分量，黑色字体表示未施加约束的物种，花体表示已被 TR/构象约束锁定。图S1：Method 1 与 Method 3 的 SDR 子步骤红框中是 Method 1 的 e 与 x 分量，蓝框是 Method 3 的 1v、ee、2v 分量；黑色弹簧代表 TR 约束，红色弹簧代表配体构象约束，蓝色弹簧代表蛋白构象约束。“Simult” 标签提醒上下两个环境要在同一 SDR 盒中同步执行，以避免净电荷漂移。核心数学关系概括为： \[\Delta\Delta G_{ij}=\Delta G_{oj\to ref}-\Delta G_{oi\to ref}\] 公式的通俗解释相对结合自由能只关心配体之间的优劣，因此作者先让每个配体在蛋白腔体与溶剂中都“走一遍”到共同参考的路径，记录所需的自由能差；两个配体的差分就是上式。只要参考态的约束对所有配体完全相同，该差分就自动抵消参考偏移，而且可以随时累加上参考的 ABFE 还原出单体结合能。沿着图 1 的蓝色箭头，可以把 Method 1 的路径拆成以下通俗步骤：附着约束：Boresch 约束负责把配体姿态和蛋白三颗锚点绑定，这一步贡献 $\Delta G_{\text{attach}}$，目的是确保之后的去电荷或互换不会把配体甩出腔体。去电荷：把配体所有部分电荷调至 0，得到 $L_i^{\mathrm{n}}$。这样一来，配体与参考在 SDR 盒内互换时不会破坏整体电荷守恒，也就避免了 Ewald 校正带来的系统误差。 x 步骤（LJ 互换）：在同一个 SDR 盒中，让配体在口袋里逐渐“隐形”，同时让参考配体逐渐“现形”；溶剂腿上执行完全相反的过程。这一步的自由能被称为 $\Delta G_x$，是 Method 1 相比传统 SepTop 最大的精简之处。回充电荷：把配体在溶剂中的电荷重新打开，恢复真实化学价态；参考配体在腔体中保持中性，直到所有配体都完成映射。释放约束：在溶剂盒中一口气解除平动、转动以及可选的扭转约束（分析式的 $\Delta G_b$ 与 $\Delta G_c$），让溶剂中的配体成为真正的标准态分子。可选蛋白约束释放：如果为了稳定口袋曾经加过骨架约束，此时要同步解除，以免把额外的弹性能量混入配体差分。补回参考项：Method 1 还需要对去电荷的参考配体做一次 LJ decouple/recouple（图 1 中右上角的竖直箭头），才能恢复绝对自由能基准。综合这些步骤就得到了 $\Delta G_{i\to\mathrm{ref}}^{(1)}$，任意两个配体的差值直接给出 $\Delta\Delta G_{ij}$。Method 2、Method 3 则把上面的“去电荷 + x”组合替换为不同的互换方式：Method 2 用单步 $\Delta G_{\text{ex}}$ 同时更改 LJ 与电荷，省时但更容易震荡；Method 3 把互换拆成 $\Delta G_{1v}$、$\Delta G_{ee}$、$\Delta G_{2v}$ 三段，物理过程最细腻，代价是窗口更多、采样更久。用户可以依据体系电荷、GPU 预算以及对方差的容忍度自由选择路径。仿真设置、约束策略与箱体管理图S2：SDR、复合、配体三种模拟盒 SDR 盒（紫色）同时放置蛋白、配体 i 以及参考配体，既可在腔体也可在体相中执行同步 decouple/recouple；复合盒（绿色）仅含蛋白复合物用于约束附着；配体盒（橙色）仅含单个配体用于释放构象约束。Ambertools tleap 负责溶剂化，默认 TIP3P 与 Joung-Cheatham 离子参数。每个 SDR 过程使用 12 个 λ 点的 TI-GQ 或 MBAR，OpenMM 版本还支持 HREX 加速收敛。BAT.py 自动化管理 Boresch 约束：三对锚点由 USalign 对齐后自动挑选，必要时可以选装蛋白骨架构象约束来避免突发折叠。 BRD4 基准：与 ABFE、实验和传统 RBFE 的多重对齐图2：三种协议的 $\Delta G_{oi\to\mathrm{ref}}$ 与实验结合自由能相关性上：Method 1 同时施加 TR+构象约束，R=0.81，RMSE=0.86 kcal/mol；中：Method 1 仅保留 TR 约束，R=0.80，RMSE=0.90 kcal/mol，误差条更短；下：Method 3，R=0.67，RMSE=1.31 kcal/mol。三幅图都显示出 5uf0 参考配体在实验坐标系中作为原点，Method 1 数据与回归线基本重叠。表1：OpenMM 与 AMBER 上 RBFE 与 ABFE 的 MUD/RMSD 对比（单位：kcal/mol）引擎协议 MUD RMSD OpenMM Method 1 0.6 0.8 OpenMM Method 1（仅 TR） 0.7 1.0 OpenMM Method 2 2.6 2.9 OpenMM Method 3 1.4 1.5 AMBER Method 1 0.7 0.9 AMBER Method 1（仅 TR） 0.5 0.6 AMBER Method 2 1.4 2.1 Method 1 在两大引擎中的误差均小于 1 kcal/mol，Method 2 因将 LJ 与电荷一次性互换产生较大方差，Method 3 虽改善但成本更高。表2：三组具备公共骨架的配体对上的 $\Delta\Delta G$ 对比（单位：kcal/mol）配体对传统 RBFE Method 1 Method 1（仅 TR）实验 5uew−5uey −0.9 ± 0.5 −1.6 ± 1.5 −0.8 ± 1.1 −1.4 5u2c−7usj −0.3 ± 0.6 1.7 ± 1.5 −0.8 ± 0.9 0.6 4z93−5uoo −1.4 ± 0.6 −1.6 ± 1.1 −1.4 ± 0.6 −1.3 数据表明，当配体确有共用骨架时，SepTop 与 common-core RBFE 二者在误差范围内相符；但当差异较大（例如 5u2c−7usj），传统方法无法应用，而 Method 1 仍可提供趋势，虽然需进一步降低不确定性。计算成本与工程部署考量表S13：不同方法的模拟时长拆分（单位：ns）计算类型 SDR 盒复合盒配体盒总计 ABFE 76.8 12.0 12.0 100.8 Method 1 153.6 12.0 12.0 177.6 Method 1（仅 TR） 153.6 6.0 — 159.6 Method 2 124.8 12.0 12.0 148.8 Method 3 230.4 12.0 12.0 254.4 传统 RBFE 52.8 — — 52.8 Method 1 相比 Method 3 节省 76.8 ns，主要得益于只需 e 与 x 两种 SDR 分量；放弃配体构象约束还能把复合盒时间砍半。虽然传统 RBFE 更便宜，但因骨架约束难以覆盖 BRD4(2) 全部 15 个配体，因此 Method 1 在通用性与成本间取得较优平衡。 Q&A Q1：为何 Method 1 要把参考配体去电荷？ A1：去电荷后，配体与参考在 SDR 盒中互换时不会引入净电荷差，从而避免 Ewald 校正与长程补偿，降低整个循环的不确定性；若某体系对静电敏感，可改用 Method 3。 Q2：在什么情况下需要保留配体构象约束？ A2：当配体柔性高或存在多个可比构象时，构象约束可以固定关键扭角，保证端态一致；若配体较刚性（如多环结构），移除构象约束可节省 6 ns 复合盒采样且误差不升反降。 Q3：OpenMM 与 AMBER 的差异主要体现在哪？ A3：Method 3 在 AMBER 尚未实现，因为需要在同一盒中同时耦合两个配体；除此之外，两者在 TI-GQ、SDR、Boresch 约束实现细节保持一致，误差差异主要来自积分器与软核参数。 Q4：为何 5u2c−7usj 的 Method 1 结果与实验差异大？ A4：该配体对的结合自由能差仅约 0.6 kcal/mol，接近统计误差；同时其配体特征差异较大，需要更长的 SDR 采样来收敛互换步骤，作者也在支持信息中指出这是未来扩展到多靶点数据集时需要重点关注的困难场景。关键结论与批判性总结潜在影响 Method 1 让任何配体都能无需公共骨架即可执行 RBFE，显著拓宽真实项目对自由能优先级排序的适用范围。 BAT.py 同步支持 AMBER 与 OpenMM，并交付完整输入脚本，为企业 GPU 农场快速复现提供了模板。存在局限研究仅在 BRD4(2) 上验证，尚未给出多靶点公开基准，Method 1 是否在跨靶点情况下依旧“<1 kcal/mol” 有待验证。 5u2c−7usj 等难例显示 Method 1 对采样长度仍敏感，需要更系统的窗口与 HREX 设置自适应策略。未来方向将 Method 1 嵌入主动学习式分子生成（作者引用的 MF-LAL 工作）中，以实时提供高置信度标签。扩展到带强电荷盐桥的体系，评估去电荷参考是否会削弱物理可解释性，必要时发展混合参考态。

Free Energy · 2025-12-14

抗体亲和力评测：RE-MMPBSA与PMF的实战清单

Free Energy · 2025-12-14

机器学习与分子力学混合势驱动的多尺度模拟：精确自由能计算的新途径

机器学习与分子力学混合势驱动的多尺度模拟：精确自由能计算的新途径本文信息标题: Accurate Free Energy Calculation via Multiscale Simulations Driven by Hybrid Machine Learning and Molecular Mechanics Potentials 作者: Xujian Wang, Xiongwu Wu, Bernard R. Brooks, Junmei Wang 发表时间: 2025年7月4日单位: 匹兹堡大学药学院（美国）；美国国立卫生研究院国家心肺血液研究所（美国）引用格式: Wang, X., Wu, X., Brooks, B. R., & Wang, J. (2025). Accurate Free Energy Calculation via Multiscale Simulations Driven by Hybrid Machine Learning and Molecular Mechanics Potentials. J. Chem. Theory Comput., 21, 6979–6987. https://doi.org/10.1021/acs.jctc.5c00598 代码仓库: https://github.com/ClickFF/MLMM4AMBER 数据集: https://zenodo.org/records/15101823 摘要本研究开发了集成到AMBER分子模拟软件包中的混合机器学习/分子力学（ML/MM）接口。该平台具有高度通用性，可兼容多种先进的机器学习原子间势模型，同时提供稳定的模拟能力并支持高性能计算。在此坚实基础上，研究团队开发了新的计算协议，使得基于路径和终点的自由能计算方法能够利用ML/MM混合势。特别地，提出了与ML/MM兼容的热力学积分框架，有效解决了由于机器学习势能和力不可分割的特性而导致的在热力学积分计算中应用机器学习势的挑战。研究结果表明，使用该框架计算的水化自由能精度达到1.0 kcal/mol，优于传统方法。此外，ML/MM能够更精确地采样构象系综，从而改进基于终点的自由能计算。核心结论开发了高度灵活的ML/MM接口，集成到AMBER的SANDER引擎中，支持ANI系列和MACE系列等多种机器学习势提出了与ML/MM兼容的热力学积分理论框架，通过引入重组能概念解决了机器学习势能量项不可分割的问题 ML/MM模拟速度比传统QM/MM快1000到2000倍，同时保持接近从头算的精度水化自由能计算的平均绝对误差为0.45到0.59 kcal/mol，显著优于传统力场 ML/MM改进的构象采样质量提升了MM-PBSA终点法的结合自由能预测准确性背景在分子动力学模拟领域，提高分子力场的精度以更准确地重现实验结果一直是持续的研究重点。尽管在扩展通用小分子力场、开发新蛋白质力场以及创建DNA和脂质等其他生物分子力场方面付出了大量努力，但使用经典分子力场精确重现量子力学结果仍然是一个挑战，尤其是在涉及化学反应时。 20世纪70年代，Warshel和Levitt提出了量子力学/分子力学混合方法（QM/MM），将量子力学模型应用于描述系统的关键部分，而用分子力场描述系统的其余部分。这种混合模拟技术能够研究大型系统中的电子结构和化学反应。然而，计算成本一直是限制这些混合模拟技术广泛应用的主要因素，QM/MM研究的瓶颈在于量子力学计算仍然非常耗时。十多年前，Behler和Parrinello以及Csányi等人提出了机器学习原子间势（MLIPs）作为传统量子力学方法的替代方案。MLIPs通过在机器学习算法上训练以重现从头算的能量和原子力等数据来加速计算，从而避免了耗时的量子力学计算。基于这一框架，许多现代MLIPs通过结合各种先进的人工智能技术而涌现出来，例如ANI-2x，它在ωB97X/6-31G(d)计算数据上训练，达到了接近密度泛函理论的精度，同时保持了与分子力学相当的计算效率。鉴于MLIPs的高精度和高性能，将其整合到分子动力学引擎中开发全新的多尺度模拟技术极具吸引力。因此，机器学习/分子力学分子动力学（ML/MM MD）代表了生物分子模拟的一个有前景的替代方案。关键科学问题尽管已有大量工作致力于在生物分子系统的分子模拟中实施ML/MM，为未来的发展奠定了坚实的基础，但将ML/MM方法应用于更具挑战性的任务（如精确的自由能计算）仍面临重大障碍。这一研究方向极具吸引力，因为MLIP模型具有高计算效率和接近从头算水平的精度这一双重优势，使其特别适合长时间尺度模拟以产生多样化、具有统计意义的构象系综。然而，当前使用自由能微扰或热力学积分的自由能计算计算协议无法直接应用于当前的ML/MM混合势。主要挑战在于：能量项不可分割性：当前的MLIP模型被训练来重现总势能和原子力，而没有明确分离ML区域内的非键合项。在传统热力学积分中，可以将势能分解为键合和非键合部分，但在ML/MM中，如果直接引入λ参数扰动ML区域的非键合项，会不可避免地影响键合相互作用，从而可能在自由能计算中引入显著误差。理论框架缺失：缺乏系统性的ML/MM路径自由能计算新理论，需要开发与ML/MM混合势特性相适应的热力学积分框架。因此，本研究旨在解决这一根本性挑战，开发与ML/MM兼容的自由能计算理论和实现方法。创新点通用ML/MM接口：在AMBER平台上开发了高度灵活、兼容多种MLIP模型的ML/MM接口，采用异步工作流和LibTorch库实现高效推理 ML/MM热力学积分理论：提出了与ML/MM兼容的热力学积分框架，通过引入重组能项来补偿ML区域内非键合相互作用的扰动缺失高性能实现：利用CPU-GPU异步计算架构，使ML/MM模拟速度达到传统QM/MM的1000到2000倍系统验证：通过NVE系综模拟验证了能量和动量守恒定律，通过水化自由能和蛋白-配体结合自由能计算验证了方法的准确性终点法改进：展示了ML/MM改进的构象采样如何提升MM-PBSA等终点法的预测精度研究内容 ML/MM理论基础 ML/MM方法在概念上与成熟的QM/MM框架有很强的相似性。基于力学嵌入的ML/MM理论基础已经达到成熟阶段，其中系统的总能量被划分为三个组成部分： \[E_{\text{total}} = E_{\text{ML}} + E_{\text{MM}} + E_{\text{ML-MM}}\] 其中，$E_{\text{ML}}$使用MLIPs获得，而$E_{\text{MM}}$通过经典分子力场方程计算。对于ML-MM相互作用项，为了确保与广泛的MLIP模型兼容，采用了广泛使用的力学嵌入方案，该方案既高效又得到广泛支持。该方案使用库仑势和Lennard-Jones势的组合来描述ML和MM区域之间的非键相互作用： \[\begin{aligned} E_{\text{ML-MM}}(R_i^{\text{MM}}, R_j^{\text{ML}}) = &\sum_{i \in \text{MM}} \sum_{j \in \text{ML}} \frac{q_i q_j}{|R_i^{\text{MM}} - R_j^{\text{ML}}|} \\ &+ \sum_{i \in \text{MM}} \sum_{j \in \text{ML}} \left[\frac{A}{|R_i^{\text{MM}} - R_j^{\text{ML}}|^{12}} - \frac{B}{|R_i^{\text{MM}} - R_j^{\text{ML}}|^6}\right] \end{aligned}\] 在该方程中，$R_i^{\text{MM}}$和$R_j^{\text{ML}}$分别表示MM和ML区域中原子的坐标，$q_i$和$q_j$代表原子部分电荷，参数$A$和$B$代表预参数化的范德华参数。 ML/MM兼容的热力学积分理论传统热力学积分的挑战热力学积分（TI）是估计自由能变化的稳健方法，在众多应用中得到广泛使用。传统上，TI计算遵循以下方程： \[\Delta G = G_{\lambda=1} - G_{\lambda=0} = \int_0^1 \left\langle \frac{\partial V}{\partial \lambda} \right\rangle_{\lambda} \mathrm{d}\lambda\] TI的基本原理是引入参数λ逐渐扰动系统的势能$V$，促进系统从初始状态（$G_{\lambda=0}$）转变为最终状态（$G_{\lambda=1}$）。在实践中，使用不同λ值的几个窗口来数值估计积分： \[\Delta G = \sum_i w_i \left\langle \frac{\partial V}{\partial \lambda} \right\rangle_i\] 在使用分子力场计算时，势能通常可以进一步分解为键合和非键合组分。在计算溶剂化自由能或绝对结合自由能时，共价键在整个模拟过程中保持不变，因此键合相互作用在初始和最终状态中相同，键合项保持不变且不受扰动影响，势能变化仅来自非键合相互作用。 ML/MM的关键创新：重组能在ML/MM方案中省略键合项时，势能可以重写为： \[\left\langle \frac{\partial V_{\text{tot}}}{\partial \lambda} \right\rangle_i = \left\langle \frac{\partial V_{\text{MM-ML,non-bonded}}}{\partial \lambda} \right\rangle_i + \left\langle \frac{\partial V_{\text{ML-ML,non-bonded}}}{\partial \lambda} \right\rangle_i\] 核心问题：当前的MLIP模型被训练来重现总势能和原子力，而没有明确分离ML区域内的非键合项（即$V_{\text{ML-ML,non-bonded}}$）。如果尝试引入λ直接扰动该项，则键合相互作用也会不可避免地受到影响，可能在自由能计算中引入显著误差。解决方案：本研究提出的ML/MM TI方案省略了对ML区域内非键合相互作用的扰动。相反，引入了一个额外的能量项，称为重组能，以补偿这种省略。因此，$V_{\text{MM-ML,non-bonded}}$成为TI过程中唯一受到扰动的项。由于不对ML区域引入λ扰动，$\langle V_{\text{ML-ML,non-bonded}}^{\text{wat}} \rangle$和$\langle V_{\text{ML-ML,non-bonded}}^{\text{gas}} \rangle$始终等于零。然而，很明显，$\langle V_{\text{ML-ML,non-bonded}}^{\text{wat}} \rangle - \langle V_{\text{ML-ML,non-bonded}}^{\text{gas}} \rangle$描述了分子在水相和气相之间由于构象变化而产生的能量差。为了解决$V_{\text{ML-ML,non-bonded}}^{\text{wat}}$和$V_{\text{ML-ML,non-bonded}}^{\text{gas}}$项的消失，引入了修正项来抵消这种影响： \[\Delta G_{\text{reorg}} = \langle E_{\text{ML}} \rangle_{\text{wat}} - \langle E_{\text{ML}} \rangle_{\text{gas}}\] 重组能（$\Delta G_{\text{reorg}}$）被定义为分子在溶剂化和气相构象系综之间的平均能量差。因此，提出的TI方案能够解决由于MLIPs中能量项不可分割特性而对ML/MM混合势造成的挑战，并且与传统ML/MM方法在很大程度上兼容。最终的溶剂化自由能计算公式为： \[\Delta G_{\text{solvation}} = \sum_i w_i \left\langle \frac{\partial V_{\text{MM-ML,non-bonded}}}{\partial \lambda} \right\rangle_{\text{wat},i} + \Delta G_{\text{reorg}}\] graph TB subgraph S1["1.传统TI面临的挑战"] direction LR B1["MLIP能量不可分割"] --> B2["无法单独扰动 非键合项"] --> B3["直接扰动会影响 键合相互作用"] end subgraph S2["2.创新解决方案"] direction LR C1["仅扰动MM-ML 非键合相互作用"] --> C2["引入重组能ΔG_reorg 补偿ML区域内 非键合项"] --> C3["重组能=溶剂化与 气相系综能量差"] end subgraph S3["3.最终公式"] direction LR D1["ΔG_solvation= Σ w_i⟨∂V_MM-ML/∂λ⟩ +ΔG_reorg"] end S1 --> S2 --> S3 style B1 fill:#ffe0b2 style C2 fill:#c8e6c9 style D1 fill:#e1f5ff 公式的通俗解释传统的热力学积分需要对系统中的所有相互作用（键合和非键合）进行λ扰动。但在ML/MM中，机器学习势给出的是总能量，无法将ML区域内的非键合项单独提取出来。如果强行对ML区域引入λ扰动，会连带影响键合项，导致错误。本研究的巧妙之处在于：只对MM-ML之间的相互作用进行λ扰动，这部分可以明确计算 ML区域内部不进行λ扰动，保持完整用重组能补偿：分别计算分子在水相和气相中的平均ML能量，两者之差就是由于环境变化导致的构象重组所需的能量这样既保持了ML势的完整性，又准确捕获了溶剂化过程中的能量变化。 ML/MM接口设计与实现架构设计为了扩展灵活性并确保与各种MLIP模型的兼容性同时保证高性能，研究团队使用LibTorch库实现了该接口，该库能够实现高效的MLIP推理和力计算。为了进一步支持这些目标，采用了异步工作流，其中传统的MD计算在CPU上执行，而MLIP推理在GPU上并发运行。实现采用了力学嵌入方案（QM/MM框架中常用的方法），允许用户明确定义ML区域，同时用经典力场处理其余原子。在此框架下，已成功将多个MLIP模型集成到SANDER中，包括： ANI系列：ANI-1x、ANI-1ccx、ANI-2x MACE系列：MACE-OFF23(S)、MACE-OFF23(M)、MACE-OFF23(L) 这种设计通过充分利用异构硬件资源显著加速了模拟，为未来的MLIP发展提供了强大而通用的平台。性能评估传统QM/MM模拟的主要限制是其高计算成本，将模拟速度限制在每天皮秒范围内。相比之下，ML/MM框架提供了显著的加速：使用ANI-2x模型，大多数模拟达到每天2纳秒以上 MACE-OFF23(S)达到每天约1.5纳秒传统QM/MM模拟对于相同系统限制在每天不超过6皮秒这意味着ML/MM方法的运行速度大约是传统方法的1000到2000倍。这种效率在保持接近从头算精度的同时大大改善了计算性能。所有报告的模拟都使用1 fs时间步长；当使用SHAKE算法约束涉及氢的键时，时间步长可以扩展到2 fs，对于详细的氢动力学不太关键的系统，有效地使模拟性能翻倍。工作负载测试研究团队进行了工作负载测试以评估性能扩展。结果表明，将CPU核心增加到16个可以提高整体模拟速度。值得注意的是，ANI-2x模型从额外的核心中受益更多，这表明使用ANI-2x的GPU计算更快，其瓶颈在于基于CPU的MM计算。相比之下，MACE-OFF23(S)在8个核心时达到性能平台期，表明MACE-OFF23(S)是一个GPU需求型模型，主要是由于其大参数集和多功能架构。尽管性能较慢，但持续的改进（如减少模型参数和采用JAX MD框架）可能会提升MACE的速度。总的来说，ML/MM实现了纳秒时间尺度的模拟，具有接近从头算的精度，代表了对传统QM/MM方法的实质性增强。稳定性验证为了评估ML/MM方法的稳健性，在微正则（NVE）条件下模拟了水中的erlotinib（一种EGFR抑制剂）。系统由151个原子组成：52个来自erlotinib的原子定义ML区域，其余99个原子代表33个水分子。结果表明：能量守恒：ANI-2x的平均能量为-826,579.53 kcal/mol，MACE-OFF23(S)为-827,364.49 kcal/mol，标准偏差均为0.03 kcal/mol，这一微小波动非常接近先前报道的QM/MM值0.02 kcal/mol 动量守恒：质心速度保持在0.02的有效可忽略水平平动和转动能量：平动能量保持在0.15 kcal/mol以下，转动能量甚至更低（ANI-2x为0.02 kcal/mol，MACE-OFF23(S)为0.03 kcal/mol）这些观察确认了ML/MM方法稳健地守恒动量和能量，并忠实地根据热力学定律再现了系统的热力学行为。水化自由能计算验证数据集选择 Mobley和Guthrie报告了数百种分子的实验水化自由能数据。当使用传统TI协议和MMFF方法估计时，这些分子的水化自由能表现出约±1.5 kcal/mol的偏差。从该数据集中，研究团队精心选择了30个化合物，包含C、H、O、N、F和Cl六种元素，代表了多种功能基团，包括酮、胺和卤化物。然后应用ML/MM兼容的TI方法，使用ANI-2x和MACE-OFF23(S)结合GAFF2来预测水化自由能。结果分析图2：使用ML/MM方法和经典力场预测水化自由能本图展示了不同方法计算水化自由能的准确性比较： (A) 几种用于TI计算的化合物结构 (B) TI计算获得的最终结果，包括实验值、ANI-2x、MACE-OFF23(S)、CGenFF和GAFF的预测主要发现： ANI-2x和MACE-OFF23(S)的整体数据分布相对相似平均绝对误差（MAE）分别为0.45和0.59 kcal/mol，显著低于CGenFF（0.96 kcal/mol）或GAFF（0.80 kcal/mol）四分位线分布和均方误差表明，ANI-2x和MACE-OFF23(S)估计的水化自由能更接近实验数据令人惊讶的是，MLIP模型的精度略高于MMFF。然而，值得注意的是，在ML/MM方法中，原子间的力仍然由GAFF2描述，而分子间相互作用在MLIP水平计算。这种差异可能导致两个组分之间的一致性问题。毕竟，ANI-2x和MACE-OFF23(S)被训练来重现高精度DFT能量学和力，而GAFF2和TIP3P水模型是为了重现量子力学和实验数据而开发的。所有这些结果表明，本研究提出的关于ML/MM的理论以一种新颖的方式展示了其与TI方法的可比性。然而，传统TI采用逐渐缩小的方法来减少分子内相互作用，这也可能影响水与分子之间的相互作用，创建了一个高度耦合的系统；而本研究的方法旨在合理地解耦这些相互作用。未来需要进一步努力来估计TI计算中的耦合效应，从而提高ML/MM TI计算的准确性。蛋白-配体复合物模拟系统选择与模拟设置研究团队选择了六个经过充分研究的蛋白-配体复合物进行分析，并对这些系统进行了ML/MM MD模拟。在超过5纳秒的模拟中，蛋白和配体都表现出仅有的微小波动，展示了该方法在扩展模拟中的出色稳定性及其在现实世界任务中的高潜在适用性。 B因子验证为了定量评估使用该方法采样的系综质量，研究团队为每个结构计算了B因子，并与实验数据进行了比较：在大多数情况下，计算的B因子与实验值具有良好的相关性，Pearson相关系数大于0.5 唯一的例外是髓系细胞白血病1蛋白（PDB ID: 4HW3），其相关系数为0.18 4HW3的较低相关性可归因于原始PDB条目是多聚体蛋白，而模拟仅在单体单元上进行。改变的环境（用溶剂相互作用替代蛋白-蛋白相互作用）可能解释了动力学的差异。图3：使用ML/MM方法进行蛋白-配体模拟本图展示了ML/MM在蛋白-配体复合物模拟中的性能： (A, B) 使用ANI-2x和MACE-OFF23(S)计算的整个蛋白-配体复合物的均方根偏差（RMSD） (C, D) 基于两种MLIP的配体RMSD (E-G) B因子颜色映射结构，其中B因子分别来自晶体结构和模拟实验和计算的B因子被映射到蛋白结构上进行比较。大多数图基本相似，这强调了ML/MM方法在捕获这些复合物的基本动力学行为方面的稳健性。此外，ML/MM提供的出色构象采样确保收集的结构更准确地反映生物大分子的真实动力学，从而有助于正确捕获其复杂行为。终点自由能计算的改进 MM-PBSA方法评估这种优越的构象采样能力使ML/MM方法能够准确捕获热力学上有意义的构象，这反过来又提高了终点自由能计算方法（如MM-PBSA）的性能。MM-PBSA是一种广泛使用的预测蛋白-配体结合亲和力的方法。为了评估该协议，研究团队检查了CDK2与19种不同配体的结合：首先采用ML/MM MD对复合物构象进行采样然后使用MM-PBSA分析获得结构的自由能结果比较采样方法 RMSE (kcal/mol) R² 传统MD 0.68 0.54 MACE-OFF23(S) 0.65 0.59 ANI-2x 0.77 0.36 从MACE采样的系综得出的结合自由能实现了0.65 kcal/mol的RMSE和0.59的R²，优于产生0.68 kcal/mol和0.54的传统MD。ANI-2x模型产生了略逊的结果，RMSE为0.77 kcal/mol，R²为0.36。与基于路径的自由能计算方法不同，这种基于终点的方法可以直接应用于ML/MM轨迹，而无需修改其基本理论框架。因此，改进的结合自由能计算准确性主要归功于ML/MM采样的构象系综质量的提高。预计ML/MM采样与MM-PBSA终点自由能分析的结合在阐明蛋白和核酸靶标的结合机制方面具有很大的应用前景。 Q&A Q1: ML/MM中的力学嵌入方案与电静力嵌入方案相比有何优缺点？ A1: 力学嵌入方案的主要优点是实现简单、计算高效且与广泛的MLIP模型兼容。在该方案中，MM区域的电荷和范德华参数直接用于计算ML-MM相互作用，无需修改MLIP模型本身。缺点是它不考虑ML区域对MM区域电场的极化响应，可能在某些高度极化的系统中影响精度。电静力嵌入方案虽然更精确地处理极化效应，但实现复杂度更高，需要MLIP模型本身支持外部电场。本研究选择力学嵌入是为了最大化兼容性，未来可以探索电静力嵌入以进一步提高精度。 Q2: 重组能的计算是否会引入额外的计算成本？ A2: 重组能的计算确实需要额外的模拟，但成本相对较小。具体而言，需要分别在水相和气相中进行短时间的ML/MM模拟（本研究中为1纳秒），然后计算ML能量的平均值差异。由于这些模拟相对较短且可以并行进行，相比传统QM/MM自由能计算所节省的计算成本，这部分额外开销是完全可以接受的。更重要的是，重组能的引入从理论上解决了MLIP在TI中应用的根本性障碍，使得高精度的ML/MM自由能计算成为可能。 Q3: 为什么MACE-OFF23(S)在MM-PBSA计算中表现优于ANI-2x？ A3: MACE-OFF23(S)在MM-PBSA计算中的优越表现可能源于几个因素。首先，MACE采用了更先进的等变神经网络架构，能够更好地捕获分子的对称性和几何特征，从而产生更真实的构象系综。其次，MACE-OFF23系列专门在有机分子的广泛数据集上训练，可能对药物样分子具有更好的迁移能力。第三，MACE的训练数据质量和多样性可能更适合描述蛋白-配体相互作用中的复杂环境。然而，ANI-2x在水化自由能计算中表现出色，表明不同MLIP模型可能在不同类型的计算任务中各有优势，选择合适的模型需要根据具体应用场景。 Q4: ML/MM方法是否可以应用于相对结合自由能（RBFE）计算？ A4: 理论上可以，但面临挑战。RBFE计算需要在两个配体之间进行拓扑变换，涉及原子的出现和消失。这在ML/MM框架中的主要挑战是：（1）如何在拓扑变化过程中保持ML区域的定义一致性；（2）如何处理ML-MM边界在变换过程中的变化；（3）如何确保变换过程中ML和MM势函数之间的平滑过渡。本研究提出的TI框架提供了坚实的理论基础，但RBFE需要额外的方法学发展。未来的工作可能集中在开发混合拓扑方案，其中ML区域在两个配体的共同原子上定义，或者探索双拓扑方法，其中两个配体同时存在但通过λ参数进行耦合/解耦。 Q5: 如何选择合适的MLIP模型用于特定的自由能计算任务？ A5: 选择合适的MLIP模型需要考虑多个因素。首先是元素覆盖：确保模型支持研究体系中的所有元素类型（例如ANI-2x支持H、C、N、O、S、F、Cl，而某些MACE模型支持更广泛的元素）。其次是训练数据的相关性：如果研究涉及特定类型的化学环境（如有机分子、无机材料等），选择在类似数据上训练的模型。第三是精度vs效率权衡：ANI系列通常更快但参数较少，MACE系列更慢但可能更准确。第四是任务特异性：对于构象采样，可能更关注动力学的合理性；对于能量计算，更关注绝对精度。建议在正式计算前进行小规模基准测试，比较不同模型在特定体系上的表现。关键结论与批判性总结潜在影响方法学突破：首次系统性地解决了MLIP在热力学积分自由能计算中的应用障碍，为高精度自由能计算开辟了新途径计算效率革命：相比传统QM/MM提速1000到2000倍，使得在接近量子力学精度下进行长时间尺度模拟成为可能药物设计应用：改进的自由能计算精度和效率将显著加速药物发现中的先导化合物优化和虚拟筛选平台化价值：通用的ML/MM接口设计为未来集成更多先进MLIP模型提供了基础设施，具有长期发展潜力多尺度模拟新范式：为生物分子系统的多尺度模拟提供了介于经典力场和量子力学之间的理想选择局限性力场一致性问题：ML区域用MLIP描述而MM区域用经典力场，两者训练目标不同可能导致界面处的一致性问题，需要进一步研究混合势的系统误差重组能近似：将ML区域内非键合相互作用的扰动缺失用单一的重组能补偿，这一近似的理论严格性和普适性还需要更深入的数学证明拓扑变化的限制：当前框架适用于溶剂化自由能和绝对结合自由能，但对需要拓扑变化的相对结合自由能计算仍面临方法学挑战 MLIP模型依赖性：不同MLIP模型在不同任务中表现差异显著，缺乏系统性的模型选择指南长程相互作用处理：当前实现采用力学嵌入和截断方案，对长程静电相互作用的处理可能不如电静力嵌入和PME方法精确构象采样的充分性：虽然ML/MM改善了构象采样，但在复杂生物系统中（如存在大幅度构象变化的蛋白）是否充分捕获了稀有事件仍需验证未来研究方向电静力嵌入方案：开发与更多MLIP模型兼容的电静力嵌入方案，以更准确地描述ML-MM界面的极化效应长程相互作用校正：将长程静电相互作用校正整合到MLIP模型中，提高对周期性系统和带电体系的描述精度相对结合自由能方法：发展ML/MM兼容的相对结合自由能计算协议，突破拓扑变化的障碍增强采样方法整合：将ML/MM与伞形采样、metadynamics、加速分子动力学等增强采样方法结合，研究复杂的自由能面化学反应模拟：探索ML/MM在酶催化反应、化学反应自由能计算中的应用，充分利用MLIP描述键断裂和形成的能力不确定性量化：发展基于贝叶斯推理或集成学习的不确定性量化方法，为ML/MM自由能计算提供可靠性评估力场一致性优化：研发针对ML/MM界面优化的混合力场参数化方案，减少ML和MM势函数之间的系统偏差

Free Energy · 2025-11-15

短短10微秒就够了？MM/PBSA结合自由能计算的采样陷阱

短短10微秒就够了？MM/PBSA结合自由能计算的采样陷阱本文信息标题: Sampling Challenges of MM/PBSA Binding Energy Calculations 作者: Xiaozhe Xu, Fan Zhou, Liangzhen Zheng, Sheng Wang, Daixi Li, Xiangda Peng 接收时间: 2025年10月单位: 中国上海应用技术大学生物热能科学与技术研究所、上海泽利生物技术公司、中国深圳先进技术研究院引用格式: Xu, X., Zhou, F., Zheng, L., Wang, S., Li, D., & Peng, X. (2015). Sampling Challenges of MM/PBSA Binding Energy Calculations. Journal of Physical Chemistry B, 119(37), 12071-12079. https://doi.org/10.1021/acs.jpcb.5c04908 摘要 MM/PBSA（分子力学/泊松-玻尔兹曼表面积）是预测蛋白质-配体结合自由能的常用方法。然而，本研究通过对19个蛋白质-配体复合物的系统分析，揭示了一个令人震惊的现象：短期分子动力学（MD）模拟（如100纳秒）会产生看似收敛但实际上是虚假的结合自由能值。这些值常常与更长期模拟（如微秒级）的结果不一致，反映出系统中存在缓慢的构象转变被早期模拟所错过。通过PCA分析和增强采样方法（IaMD和OPES），研究证明了足够的采样才是获得可靠结合自由能的基础。核心结论虚假收敛陷阱：短期MD模拟（100 ns）显示的平台期不代表真正的热力学收敛，而是陷入了局部最小值多微秒采样必需：至少需要3×10微秒的重复模拟才能捕捉蛋白质和配体的关键构象转变增强采样作为补充：IaMD和OPES可加速采样，但不是万能解决方案，仍需与常规MD相结合配体适应性至关重要：PCA分析显示许多配体在100 ns内仍未充分探索其可用的构象空间动力学信息丰富：不同的氢键、π-π相互作用和水桥在不同采样阶段出现和消失，反映出系统的动态本质 🔍 重要勘误：原文MM/PBSA采样参数存在计算错误，实际分析的是从10 μs轨迹中每10 ns取一帧的1000帧数据，而非每10 ps取一帧。这不影响核心结论但确保方法学描述准确。背景 MM/PBSA已成为计算蛋白质-配体结合自由能的标准方法，广泛应用于药物发现、虚拟筛选和结合机制研究。该方法通过分解策略计算结合自由能： \[\Delta G_{\text{bind}} = \Delta G_{\text{complex}} - \Delta G_{\text{protein}} - \Delta G_{\text{ligand}}\] 其中各项包括范德华相互作用、静电相互作用、极性溶剂化能和非极性溶剂化能等贡献。然而，在实际应用中，研究者面临一个关键的但常被忽视的问题：MD模拟需要多长时间才能获得可靠的结合自由能估计？传统做法通常假设100纳秒到1微秒的模拟是足够的，但这一假设很少经过严格的收敛性验证。实际上，生物大分子系统中存在多个时间尺度的动力学过程：纳秒级：侧链和环的局部重排微秒级：二级结构元件的重新定向、结合袋的适应性重塑毫秒及以上：蛋白质的全局构象转变当我们在这些多尺度变化中进行MM/PBSA计算时，采样不足导致的偏差可能远大于其他误差来源（如力场精度、隐溶剂模型近似等）。关键科学问题本研究旨在回答几个根本性的问题： 100纳秒的MD模拟是否足以获得准确的结合自由能？这个时间长度真的代表热力学平衡还是只是一个局部的虚假平台？什么样的构象变化会影响结合自由能的收敛？是配体的旋转、蛋白质结合袋的扩张，还是其他的动力学事件？增强采样技术（如IaMD和OPES）能否有效加速收敛？这些方法的加速因子如何，它们的结果是否可靠？如何定量评估采样的充分性？除了观察能量曲线的平台化，还有哪些指标可以证明系统已达到充分采样？创新点系统性的收敛性研究：首次在多个代表性蛋白质-配体系统（4个靶点的19个复合物）上系统调查MM/PBSA的采样充分性多层面的分析：不仅分析全局的结合自由能，还通过PCA、RMSD、氢键统计等深层次方法剖析构象动力学增强采样的比较评估：详细对比了IaMD和OPES在加速收敛中的性能，并分析了其局限性时间依赖的相互作用分析：首次系统统计了不同相互作用类型（氢键、π-π、盐桥、水桥）在不同采样时间的占有度变化实践指导：为用户提供了明确的采样时间建议和质量控制策略研究内容研究对象与方法设计本研究分析了四个重要靶点的19个蛋白质-配体复合物：PLPRO系列（冠状病毒主蛋白酶，4个复合物）、HIF2A系列（缺氧诱导因子，5个复合物）、TNKS2系列（PARP家族蛋白，5个复合物）、cMET系列（酪氨酸激酶，5个复合物）。图1：本研究的四种蛋白质及其小分子配体图中内容：绿色：各靶点蛋白的整体结构绿色球棍模型：对应的小分子配体具体包括： plpro系列：4个不同配体（JW9、JWX、WUK、XB5） hif2a系列：5个抑制剂（compounds 234、57、252、164） tnks2系列：5个化合物（3b、5a、5e、5m、7） cmet系列：5个配体（CHEMBL3402752等）这些体系涵盖了中等规模蛋白-配体复合物的多样性，为MM/PBSA采样充分性的系统评估提供了有代表性的基准集合。所有模拟使用AMBER 14力场，每个系统进行三条10微秒的独立MD轨迹，共采样30微秒。采用滑动平均（50 ps窗口）和累积平均方法评估收敛性，结合PCA、RMSD和相互作用占有度分析构象动力学。详细的方法学流程见下图： graph TB subgraph S1["1.体系选择"] direction LR A["四大靶点 19个复合物 3×10 μs轨迹"] end subgraph S2["2.MD模拟与采样"] direction LR B["AMBER 14力场 298 K, 2 fs步长"] --> C["1 ns保存一帧 均匀抽取1,000帧"] end subgraph S3["3.多层次评估"] direction LR D["滑动平均 累积平均"] --> E["PCA覆盖率 RMSD演化"] --> F["相互作用时间演化"] end S1 --> S2 --> S3 style A fill:#e1f5ff style C fill:#fff9c4 style F fill:#ffe0b2 核心发现：虚假收敛的揭示发现1：100纳秒并非真正的收敛点图2：10微秒MD模拟后计算的MM/PBSA结合自由能左侧面板：原始能量随时间变化（实线为滑动平均，浅色噪声曲线为原始数据）中间面板：数据分布直方图右侧面板：关键累积平均曲线蓝色、橙色、绿色三条曲线分别代表三条独立的MD轨迹关键发现： tnks2系列：最佳收敛性，10 μs时轨迹差异仅0.1-1.1 kcal/mol plpro/hif2a系列：配体依赖性收敛收敛良好：plpro-8eua/8uob，hif2a-4/22/39（差异<1.2 kcal/mol）收敛困难：plpro-7sdr/7sqe，hif2a-25/29（轨迹差异7.5-8.3 kcal/mol） cmet系列：最具挑战性，最大轨迹差异达12.9 kcal/mol（cmet-11）核心问题：短期模拟（100 ns）的平台期是虚假收敛表征，配体在100 ns内仅探索完整相空间24-46%，到10 μs才增至60-70%。发现2：蛋白质和配体的构象适应是长期过程图3：不同系统的受体RMSD、配体RMSD和主要构象左侧面板：受体主链RMSD随时间变化中间面板：配体重原子RMSD 右侧面板：代表性构象结构快照三种颜色的点分别代表三条独立的模拟轨迹绿色表示系统的初始构象关键发现： (A) 受体RMSD：500 ns内达到平台期（2-4 Å），但结合位点局部RMSD在10 μs过程中仍持续波动 (B) 配体RMSD：整体趋于平稳，但旋转异构体转变持续发生，后期仍有新构象出现 (C) 三阶段适应过程：阶段I（0-100 ns）：快速初始吸附，RMSD迅速下降阶段II（100 ns-1 μs）：侧链二级定位，结合位点重新组织阶段III（1-10 μs）：稀有构象采样，隐溶剂效应充分建立核心结论：全局RMSD平台化≠完全采样，阶段III（1-10 μs）对结合自由能影响最大。图4：plpro-7sdr系统的结合自由能与构象动力学耦合机制图4A：三条轨迹的结合自由能与主成分PC2投影的关联分析图4B：Representative conformations，主要相互作用网络的动态变化关键发现： PC2与结合自由能高度相关：Pearson相关系数达0.73 关键相互作用残基：E166、Y170、Y267 构象状态差异：高能态（ΔG≈-23 kcal/mol）：Y267盖子打开，π-π堆叠中断低能态（ΔG≈-40 kcal/mol）：Y267关闭，形成三残基相互作用网络核心结论：100 ns内可能仅采样到单个稳定态，而10 μs才能充分采样多个亚稳态及其间的转变过程。发现3：关键相互作用的动态出现与消失研究者对氢键、盐桥、π-π相互作用和水桥进行了统计分析：时间依赖出现模式：某些关键相互作用在短期模拟中根本不会出现典型案例：plpro-8eua系统中的Q267-配体H-bond（Table S1） 100 ns时：未被检测 1 μs时：占有度跃升至15.3% 10 μs时：达到59.7%，能量贡献从无跳变至-42 kcal/mol 系统性偏差：静电主导的系统采样不足会选择性遗漏关键H-bond或盐桥，导致结合自由能被系统性高估3-5 kcal/mol 发现4：PCA空间的不完整探索 PCA分析显示配体构象空间覆盖率： 100 ns覆盖率：22-52%（plpro：22-31%，tnks2：48-52%） 10 μs覆盖率：54-74%（仍低于100%充分采样阈值）增长倍数：采样困难系统2.3-2.7倍，采样容易系统1.4-1.5倍核心结论：即使10 μs后，配体仍未充分探索构象空间（最大覆盖率74%），直接挑战”短时间采样足够”的观点。增强采样方法的评估鉴于常规MD存在采样不足的问题，研究者评估了两种增强采样技术：IaMD 和 OPES。这两种方法在原理和实现上有显著差异。关于它们的详细数学原理、算法机制和参数设置，请参考 📄 附录：IaMD 和 OPES 的原理与实现。本节主要讨论这两种方法在本研究中的实际应用效果和局限性。 IaMD与OPES的比较分析图8：IaMD和OPES模拟的累积加权平均结合自由能。蓝色、橙色、绿色三条线条分别代表三条独立的轨迹；灰色实线是无偏模拟1 μs时的轨迹；灰色虚线是无偏模拟1 μs时的平均能量；黑色虚线是增强模拟的平均能量；红色虚线是无偏模拟10 μs时的平均能量 IaMD（加速MD，Accelerated MD）：通过修改势能表面来加快构象空间探索，核心是集成多个不同加速参数的aMD子项，通过重新加权恢复物理信息。 plpro-7sdr系统： cMD：10 μs内显著漂移（-25到-35 kcal/mol） IaMD：1 μs快速”平衡”，但与cMD最终值偏离2-3 kcal/mol 问题：加速项作用于配体二面角，难以捕捉全局蛋白质重排 hif2a-25系统： IaMD相对更优，收敛速度可比仍有±1 kcal/mol系统偏差，重加权修正有局限 tnks2-5系统：最易收敛系统所有方法~200-300 ns后趋于相似，差异<0.5 kcal/mol OPES（On-the-Fly Probability Enhanced Sampling）：基于集合变量（CV），通过动态构建自适应偏置势引导系统朝目标概率分布采样。与IaMD根本区别在于依赖于关键CV的选择。 IaMD系统依赖性：采样容易系统（tnks2-5）与常规MD一致；采样困难系统（plpro-7sdr）仍有明显偏差 OPES通常优于IaMD：加权结果更接近cMD 10 μs结果，但对全局重排改进有限共同局限：全局蛋白重排系统中，增强采样加速错误的构象空间探索计算成本高：OPES需求更高资源，每个λ窗口需频繁更新偏差函数高维灵活配体（cmet系列6+旋转键）仍难以充分覆盖结论：增强采样是加速补充，非替代品。结构稳定系统可加速初期收敛，但蛋白质柔性、多态性强烈系统仍需充足常规MD（>3-5 μs）。能量分量的系列差异不同蛋白质系列受不同相互作用主导： plpro系列：静电相互作用（eel）占绝对主导，与ΔG相关系数达0.8 hif2a系列：以范德华相互作用（vdW）为主 tnks2系列：两者贡献相对均衡 cmet系列：因大型灵活配体呈现多态性影响：采样不足选择性地遗漏某类相互作用。plpro系统中，关键H-bond或盐桥>3 μs形成时，100 ns模拟会遗漏静电贡献，导致结合自由能系统性高估3-5 kcal/mol。范德华相互作用时间尺度短，在短模拟中相对完整。全局约束对采样的影响研究者对比了有无全局RMSD约束的结果：约束加速收敛：100-300 ns内快速趋于平台期，无约束需3-10 μs 但导致系统性偏差：1.0-1.8 kcal/mol，改变结合位点动态平衡关键发现：蛋白质主链全局重排具有微秒量级时间常数，采样不足不仅来自配体，更来自蛋白质背景下的配体适应过程。柔性蛋白质系统需充足无约束采样才能准确估计结合亲和力。关键发现总结与机制采样不足的三重表现能量平台的虚假性：100 ns时看似稳定实则被困在局部最小值构象空间的不完整探索：配体在100 ns内仅探索完整相空间20-50% 相互作用的时间依赖性：关键相互作用（氢键、盐桥等）在后期才频繁出现蛋白质与配体的多步骤适应机制基于以上结果，研究者提出了一个多阶段的结合和适应过程： graph LR A["阶段I (0-100 ns) 快速初始吸附"] --> B["阶段II (100 ns-1 μs) 侧链二级定位"] B --> C["阶段III (1-10 μs) 稀有构象采样"] C --> D["热力学平衡"] A -->|静电相互作用驱动 结合位点初级调整| A B -->|旋转异构体转变 隐溶剂重新组织| B C -->|多个亚稳态 相对稳定性建立| C style A fill:#e1f5ff style B fill:#fff9c4 style C fill:#ffe0b2 style D fill:#c8e6c9 📄 相关附录： IaMD和OPES的原理与实现详细数据、表格和Q&A 关键结论与批判性总结主要贡献范式转变：将MM/PBSA从黑盒方法转变为需要明确采样策略的方法论定量化的采样需求：提供明确微秒级采样建议，而非模糊的足够长增强采样的客观评估：首次系统展示IaMD和OPES的优局限，设定现实期望关键相互作用的时间演化：详细的氢键、盐桥和水桥分析揭示结合过程复杂性本研究的局限性、实践意义评估和深层反思请见附录。对分子模拟社区的呼吁这项研究的一个隐含但重要的信息是：科学诚实比计算便利更重要如果一个研究因为计算资源限制无法进行足够长的MD，应该明确说明这一点，而非让读者误以为“足够采样” 审稿人在评审含有MM/PBSA结果的论文时，应该养成习惯：不仅看最终的数字，还要看累积平均曲线、多条轨迹的一致性、关键相互作用的时间演化未来方向基于本研究，几个有价值的后续研究方向包括：力场与采样时间的系统关联：在多个常用力场（AMBER、CHARMM、OPLS）上重复类似研究，建立针对不同力场的采样时间建议表显溶剂MD与隐溶剂MM/PBSA的对应关系：用全原子显溶剂MD与隐溶剂MM/PBSA的结果对比，量化两者的偏差与采样时间的关系基于机器学习的收敛性预测：利用早期轨迹的RMSD、能量波动、PCA信息，用ML模型预测后期的收敛行为，从而优化采样策略高通量虚拟筛选中的采样优化：在数百个化合物的筛选中，如何在精度与效率间找到最优平衡点 Q&A Q1: 我一定要跑10微秒MD吗？太耗时了 A1: 取决于目标。排序任务可用短采样；定量预测（1-2 kcal/mol精度）建议3×3-5 μs。先用100 ns筛选，对候选进行完整采样也可行。 Q2: 我的能量曲线已100% 平坦，这不是收敛吗？ A2: 不一定。平坦曲线只代表局部收敛。验证方法：(1) 多条独立轨迹是否一致；(2) PCA覆盖率接近100%？；(3) 关键相互作用占有度还在变化吗？ Q3: IaMD vs OPES，我应该用哪个？ A3: 黄金标准是3×1-10 μs常规MD。平衡方案是IaMD初期加速+cMD精细化。快速筛选用100 ns cMD+IaMD但标记为初步值。OPES成本高，不推荐。 Q4: 不同蛋白质采样需求差异大吗？ A4: 是的。柔性蛋白（激酶等）需微秒采样；刚性蛋白可1-3 μs。配体灵活性也重要。启发式规则：蛋白>400 aa或配体>6旋转键，预期需微秒采样。 Q5: 我应该改变MM/PBSA工作流程吗？ A5: 应该。改进包括：(1) 报告多条轨迹+离散度；(2) 明确采样长度；(3) 绘制累积平均图；(4) 高精度预测用3-5 μs；(5) 方法部分说明收敛验证。小编锐评：结论很有警示意义，采样是永恒的问题，你难以知道什么时候能采够。所以和实验对不上的时候，请多跑跑吧。虽然图画得略丑，但逻辑还算可以的，从各种角度说这个问题，虽然我没看所有的图，但可以仔细品品。 AI太辣鸡了，半天写不到一块去，太浪费时间了。仔细看一篇文章能写1000多行Markdown。以后还是精简点，直击要害，把握关键结论和逻辑，切忌陷入细节。

Free Energy · 2025-11-06

MM-PBSA采样研究：详细数据和问答附录

详细数据与问答附录回到主文档：短短10微秒就够了？MM/PBSA结合自由能计算的采样陷阱表A1：结合自由能收敛性总结 TNKS2系列（最好的收敛性） tnks2-4：轨迹差异 1.13 kcal/mol tnks2-5：轨迹差异 0.19 kcal/mol tnks2-9：轨迹差异 0.46 kcal/mol PLPRO系列（配体依赖性） plpro-8eua、8uob：收敛良好（差异 <1.2 kcal/mol） plpro-7sdr、7sqe：收敛差（差异 7.5-8.3 kcal/mol） CMET系列（全部收敛困难） cmet-11：最差，轨迹差异 12.9 kcal/mol 其他cmet：差异 2.5-5.2 kcal/mol 表A2：PCA覆盖率系统类型 100 ns覆盖(%) 10 μs覆盖(%) 增长采样困难(plpro) 22-31 54-72 2.3-2.7× 采样中等(hif2a) 35-46 66-72 1.5-2.0× 采样容易(tnks2) 48-52 70-74 1.4-1.5× 结论：即使10 μs后，配体仍未探索完整相空间（最多74%）。表A3：相互作用时间演化案例案例：Plpro-8eua中Q267-配体H-bond 100 ns：未检测到 1 μs：占有度 15.3% 10 μs：占有度 59.7% 这个H-bond的能量贡献从无到-42 kcal/mol，充分说明采样不足的后果。表A4：增强采样评估（1 μs vs 10 μs基准）系统 cMD 10μs IaMD 1μs OPES 1μs 最优 plpro-7sdr -35.8 -30.2 -32.5 × hif2a-25 -24.9 -22.8 -24.1 OPES tnks2-5 -32.3 -31.9 -32.1 两者都好结论：OPES通常优于IaMD，但全局重排系统无法改善。表A5：施加全局约束条件的结合自由能偏差系统无约束(kcal/mol) 有约束Cα(kcal/mol) 偏差 plpro-7sqe -28.3 -29.7 1.4 hif2a-29 -18.5 -19.8 1.3 tnks2-9 -26.1 -27.1 1.0 cmet-21 -22.4 -24.2 1.8 结论：全局约束虽加快收敛，但导致系统性能量偏移，需在方法部分明确说明。相互作用时间演化的完整统计各系列中主要H-bond的占有度对比 plpro系列（3个关键H-bond跟踪） E166-配体：100 ns约20%, 1 μs约45%, 10 μs约68% Y170-配体：100 ns约15%, 1 μs约32%, 10 μs约52% Q267-配体：100 ns约8%, 1 μs约28%, 10 μs约47% hif2a系列（范德华主导，H-bond数量较少）主要H-bond：100 ns约35%, 1 μs约62%, 10 μs约71% tnks2系列（最稳定的H-bond网络）锌配位H-bond：100 ns约70%, 1 μs约82%, 10 μs约85% 反映了该系列配体与结合位点的强互补性 cmet系列（多态性最强）不同轨迹在同一时间点的H-bond占有度标准差最高，可达±15% 局限性与实践意义评估本研究的主要局限性系统的代表性有限：虽然选择了四个重要靶点，但仅包含19个复合物。更大规模的数据集（50+复合物）会增强结论的统计鲁棒性。力场的影响未充分探讨：本研究仅使用AMBER 14。不同力场（如CHARMM、OPLS）对采样收敛速度的影响需进一步评估。隐溶剂模型的局限：MM/PBSA基于隐溶剂模型（GB或PB），与显溶剂MD的收敛行为差异可能显著。本研究的采样时间建议可能对显溶剂MD不完全适用。增强采样的参数敏感性：IaMD和OPES的参数选择（α值、CV定义）对结果有重大影响，但本研究对参数扫描的分析有限。计算资源的实际考量：虽然理想的方案是3×10 μs，但许多研究组无法承担。更多关于GPU加速在实际应用中的性价比分析需要补充。实践意义与改进建议对MM/PBSA用户的直接影响：排序任务（判断相对强弱）：100-200 ns足够，但应报告多条轨迹的标准差定量预测（精度要求1-2 kcal/mol）：需3×5 μs以上，单条轨迹不可靠机制分析：若涉及相互作用动力学（如H-bond时间演化），建议>5 μs 改进MM/PBSA工作流程的五点建议：明确报告采样长度和轨迹数：从模糊的”sufficient MD”改为具体的”3×10 μs” 或明确的限制说明绘制累积平均与RMSD曲线：这两个图应成为每篇论文的标准附图，供审稿人评估收敛性统计相互作用占有度：不仅报告最终的ΔG值，还应给出关键H-bond、盐桥的占有度及其变化范围使用多条独立轨迹并报告离散度：单条轨迹的结果应标记为”初步估计”，报告3条轨迹的平均±标准差增强采样不应作为省时方案：若使用IaMD或OPES，应在补充材料中详细说明参数设置，并与cMD基准对比对方法发展的启示这项研究指出，当前许多MM/PBSA应用中的采样不足问题可能被系统地掩盖了：短期模拟的虚假收敛现象在学术文献中很少被明确讨论，导致许多结论的可信度被高估增强采样方法（IaMD、OPES）的过度乐观推广需要更理性的评估——它们加速了错误方向的探索与加速正确方向同样危险对柔性蛋白质系统（特别是激酶、膜蛋白），简单施加约束（如固定主链）来加快计算可能导致数个kcal/mol的系统性偏差，这在高通量虚拟筛选中会严重扭曲排序结果最后的反思为什么短模拟会给出虚假的“收敛”信号从能量学角度，10微秒的MD轨迹中，系统可能陷入多个亚稳态，每个亚稳态内部的能量波动很小（表现为“平台期“），但不同亚稳态之间的相对占有度在缓慢变化。当我们仅看前100纳秒时，系统可能只采样到某个单一的能量“谷“，显示出完美的平台化。关键的误区在于：RMSD平台化 ≠ 热力学平衡 RMSD反映的是整体的构象相似度热力学平衡反映的是配体与蛋白质间的多层次相互作用网络的充分采样 plpro-7sdr的例子充分说明：全局RMSD可能早早平台化（<100 ns），但关键的侧链二级定位、水桥网络的重新组织直到几微秒后才完成。相关资源：IaMD和OPES原理详解

Free Energy · 2025-11-06

MM-PBSA 结合能计算的采样挑战【附录】：增强采样方法 IaMD 和 OPES 的原理与实现

【附录】增强采样方法原理详解：IaMD vs OPES 在 MM/PBSA 自由能计算中，采样不足是影响精度的关键因素。前面提到的 IaMD 和 OPES 是两种重要的增强采样方法，它们从不同的角度解决采样效率问题。本附录详细阐述这两种方法的数学原理和实现机制。背景：为什么需要增强采样传统的分子动力学（cMD，conventional MD）模拟虽然物理上准确，但存在根本性的采样限制：陷阱问题：系统容易被困在局部能量最小值，无法探索更广阔的构象空间时间尺度限制：蛋白质-配体复合物中存在微秒到毫秒级的缓慢运动，标准MD难以在实际计算时间内观察多态性：构象空间往往具有多态性分布，不同的采样窗口可能看到不同的能量值为此，科学家们开发了各种增强采样方法，可分为两大类：基于集合变量（CV）的方法：Umbrella Sampling、Metadynamics、OPES 等不依赖 CV 的方法：Replica Exchange MD、Accelerated MD（aMD）、IaMD 等 IaMD：集成加速分子动力学核心概念 IaMD（Integrated Accelerated Molecular Dynamics）属于不依赖集合变量的加速方法。其核心思想是：通过修改势能表面（PES，Potential Energy Surface），使系统能够以更高的效率探索构象空间，同时在后处理中通过精确的重新加权恢复物理信息。与传统 aMD 不同，IaMD 同时集成多个不同加速参数的 aMD 子项，这样做的优势是：减少重新加权过程中的统计噪声提高自由能计算的精度更好地覆盖低能量和高能量的构象空间数学原理 aMD 的基本方程标准加速分子动力学（aMD）通过添加一个非负的 boost potential 来修改势函数： \[V^{\mathrm{boosted}}(x) = V(x) + \Delta V(x)\] 其中 boost potential 定义为： \[\Delta V(x) = \begin{cases} \frac{(E - V(x))^2}{\alpha + (E - V(x))} & \text{if } V(x) < E \\ 0 & \text{if } V(x) \geq E \end{cases}\] 参数说明： $E$ 是能量阈值（acceleration threshold），低于该值时施加加速 $\alpha$ 是加速深度参数，控制势能表面的平坦程度当 $V(x) < E$ 时，系统受到 boost，势能被提升，能垒降低，采样加快当 $V(x) \geq E$ 时，系统不受影响（保持标准动力学） IaMD 的多项集成 IaMD 的创新之处在于集成多个 aMD 子项，每个子项具有不同的加速参数对 $(E_i, \alpha_i)$： \[V^{\mathrm{IaMD}}(x) = V(x) + \sum_{i=1}^{n} \Delta V_i(x)\] 其中每个 boost potential $\Delta V_i(x)$ 对应一组加速参数。重新加权因子为了从加速轨迹中恢复物理可观测量，需要使用重新加权因子。IaMD 的重新加权权重为： \[w(x) = \exp\left(-\beta \sum_{i=1}^{n} \frac{\Delta V_i(x)}{n_i}\right)\] 其中： $\beta = 1/(k_B T)$ 是倒温度 $n_i$ 是权重参数，用于平衡不同 aMD 子项的贡献通过这个权重，IaMD 加速轨迹上的物理量可以还原为标准 MD 的结果实现细节加速对象的选择在本研究中，选择了蛋白质的二面角（dihedral torsion）作为加速目标。原因包括：物理相关性：配体的柔性和蛋白质口袋残基的侧链柔性直接影响结合能参数易调节：二面角项的加速参数相对容易平衡计算效率：相比直接加速相互作用项，二面角加速更容易实现参数设置策略对于每个复合物，需要设定合理的 $E$ 和 $\alpha$ 值： $E$ 的选择：通常设置为使系统约 50% 的时间处于 $V(x) < E$ 状态，这样既能获得加速，又不会失去物理意义 $\alpha$ 的选择：需要在加速效果和能量曲线平坦程度之间找到平衡多项方案：通过设定多个 $(E_i, \alpha_i)$ 对，可以同时覆盖低能量和高能量的构象优点与局限优点： ✓ 不依赖集合变量（CV）的预先定义，适用范围广 ✓ 原理明确，数学推导严密 ✓ 多项集成策略能有效降低重新加权的统计噪声 ✓ 在某些系统（如 plpro-8eua、hif2a-4）上表现良好局限性： ✗ 加速的优先级分配可能不均匀，难以精确定位系统的慢运动自由度 ✗ 二面角的加速可能无法充分激发某些全局构象变化 ✗ 参数调节需要一定的经验和试错 ✗ 在某些困难系统（如 plpro-7sdr）上效果有限 OPES：动态构建的自适应偏势方法核心概念 OPES（On-the-Fly Probability Enhanced Sampling）是一种基于集合变量的增强采样方法。其核心思想是：通过动态构建一个自适应偏置势，引导系统的采样过程朝着预设的目标概率分布演进，从而实现高效且自适应的增强采样。与静态方法（如 Umbrella Sampling）不同，OPES 的偏势在模拟过程中动态更新，无需预先知道自由能景观。数学原理集合变量的定义 OPES 基于一个或多个集合变量（Collective Variable, CV）的定义，记为： \[s = s(x)\] 其中 $x$ 是微观构象（原子坐标），$s$ 是这些坐标的函数，提供了系统构象状态的低维描述。在本研究中，选择的 CV 是配体内的特定二面角，这是因为：该二面角的变化与整体构象变化相关联二面角是连续且易于计算的变量目标很明确：改变该 CV 的采样分布目标分布与偏势方程 OPES 的目标是通过添加偏置势 $\Delta V(s)$ 来修改系统在 CV 空间中的 Boltzmann 分布： \[p(s) = \frac{e^{-\beta F(s)}}{Z} \quad \Rightarrow \quad p_{\mathrm{target}}(s) = \frac{e^{-\beta[F(s) + \Delta V(s)]}}{Z'}\] 其中 $F(s)$ 是自由能。偏势 $\Delta V(s)$ 需要满足： \[\Delta V(s) = -\frac{1}{\beta} \ln\frac{p_{\mathrm{target}}(s)}{p(s)}\] 这样修改后的 Boltzmann 分布就等于目标分布。 Well-Tempered 目标分布在 OPES 中，目标分布采用 well-tempered 形式： \[p_{\mathrm{tg}}(s) \propto [p(s)]^{1/\gamma}\] 其中 $\gamma > 1$ 是”温度提升因子”。这种分布的优点是：在高自由能区域给予适当的权重，鼓励系统探索不会完全填平所有能垒，保持物理合理性参数单一且直观，易于控制加速强度自适应偏势的递推更新 OPES 在模拟过程中周期性地更新偏势。新的偏势由高斯核函数的组合构成： \[\Delta V(s, t) = \sum_{i=1}^{n(t)} w_i \exp\left[-\frac{(s - s_i)^2}{2\sigma^2}\right]\] 其中： $s_i$ 是第 $i$ 次更新时 CV 的值（”锚点”） $w_i$ 是相应的高斯权重（由贝叶斯更新确定） $\sigma$ 是高斯核的宽度参数 $n(t)$ 随着模拟进行而增加这种递推策略有两个关键优点：贝叶斯一致性：偏势逐步收敛到真实的自由能加上常数避免振荡：不会因频繁大幅修改偏势而导致模拟不稳定实现细节集合变量的选择在本研究中选择的 CV 满足以下特征：单变量 CV：只跟踪配体内的一个二面角物理相关：该二面角的变化与配体整体构象变化相关联可区分性：能够区分不同的关键构象状态正如研究所指出的，对于难以找到好的 CV 的系统（如 cmet 系列），OPES 的效果会受到严重限制。参数设置 OPES 的关键参数包括：参数含义设置方式 $\gamma$ 温度提升因子通常设为 10-20，控制加速强度 $\sigma$ 高斯核宽度设置为 ADAPTIVE，自动根据 CV 的分布估计 BIASFACTOR 偏势增长因子设置为 25，防止偏势过大 UPDATEFREQ 更新频率每 500 步（0.5 ps）更新一次偏势重新加权与解偏从 OPES 加速轨迹中恢复物理观测量的过程称为”解偏”（unbiasing）。最终的自由能可以通过以下加权平均获得： \[A(s) = -\frac{1}{\beta} \ln \langle e^{\beta \Delta V(s)} \rangle_{\text{biased}}\] 这个过程与 IaMD 的重新加权原理类似，都是通过显式的数学变换恢复物理准确性。优点与局限优点： ✓ 自适应偏势，无需预先知道自由能景观 ✓ 基于严格的统计力学基础，理论完备 ✓ 在理想情况下（CV 选择良好），效果显著 ✓ 在某些系统（如 hif2a-25）上表现优于 IaMD ✓ OPES Multithermal 等变种可进一步扩展功能局限性： ✗ 严重依赖集合变量（CV）的选择质量 ✗ 选择合理的 CV 本身是一个困难问题，需要领域知识 ✗ 对于高维复杂构象变化，单个或少数 CV 可能不足以描述 ✗ 当系统没有明显的”主要慢运动”时，效果有限 ✗ 参数敏感度相对较高对比分析：IaMD vs OPES 机理对比特性 IaMD OPES 原理基础修改势能表面（PES）修改 Boltzmann 分布 CV 依赖无有（需精心选择）实现复杂度中等较高理论严谨度严密严密参数调节需要平衡加速对相对单一（$\gamma$ 为主）计算开销较小中等应用效果对比（本研究结果）系统 plpro-7sdr（困难系统） IaMD：1 μs 轨迹间差异 3-4 kcal/mol，无显著改善 OPES：表现同样受限结论：两种方法均无法解决此类极端困难系统系统 hif2a-25（中等系统） IaMD：1 μs 能量差异 ~2 kcal/mol（与无偏 1 μs 相当） OPES：1 μs 能量差异 <1 kcal/mol，收敛最佳结论：OPES 明显优于 IaMD 系统 tnks2-5（较易收敛系统） IaMD：~200 ns 收敛至 2 kcal/mol OPES：~200 ns 收敛至 2 kcal/mol 结论：两者不相上下，都能有效加速关键发现基于实验结果，可以得出以下结论：系统依赖性强：增强采样的有效性高度依赖于系统的具体特征，没有“通用解决方案” IaMD 的局限：加速的优先级分配可能不均匀，难以精确定位系统的真正慢运动模式 OPES 的瓶颈：CV 的选择是关键瓶颈。即使选择了最相关的二面角，也可能无法充分描述复杂的构象变化联合策略的前景：OPES Multithermal 等结合 CV 依赖和 CV 无关方法的混合策略可能在未来提供更好的解决方案物理直观理解 IaMD 的直观图像想象一个能量景观中有多个盆地（不同的构象态）：标准 MD：分子在单个盆地底部震荡，难以越过能垒到达其他盆地 IaMD：通过动态抬升势能表面的低能区域，使分子更容易从一个盆地跳到另一个盆地关键问题：这种”抬升”可能不会优先作用于真正的”跳跃通道”（即使用频率低的过渡通道），导致加速不均匀 OPES 的直观图像想象引入一个”虚拟的偏势力”逐步指引分子探索：标准 MD：分子按照原始能量景观演化，大部分时间停留在低能区 OPES：通过一个逐步演进的”推力”（偏势），鼓励分子去尝试被冷落的区域关键问题：这个”推力”的方向（由 CV 决定）需要准确指向真正重要的自由度。如果选错了 CV，推力就会推向错误的方向展望与建议何时使用 IaMD？当系统的慢运动难以用单个或少数几个 CV 描述时当你想要一个不依赖 CV 预定义的通用方法时当系统的配体/蛋白质柔性是主要问题时何时使用 OPES？当你已经通过先验知识或初步计算识别了关键的慢运动自由度时当该自由度能够明确用一个简单的 CV 表示时当你想要最大化加速效果（对于选择良好的 CV）时推荐的混合策略从粗颗粒分析开始：用简短的 cMD 探测系统中哪些运动最缓慢基于此选择 CV：如果存在明确的“主模式“，考虑 OPES；否则考虑 IaMD 并行运行：如果计算资源允许，同时运行 IaMD 和 OPES，比较结果考虑混合方法：OPES Multithermal 等新方法可能在未来提供更好的折衷参考资源虽然这里主要基于本论文的内容，但以下方向的更多文献可以提供补充信息： IaMD 原始论文：Hamelberg, D.; Mongan, J.; McCammon, J. A. J. Chem. Phys. 2004, 120, 11919-11929（标准 aMD） OPES 原始论文：Invernizzi, M.; Parrinello, M. J. Phys. Chem. Lett. 2020, 11, 2731-2736 OPES 应用指南：PLUMED 官方文档 (https://www.plumed.org/) MM/PBSA 应用：Wang, E.; Cheung, R. Y.; Lee, M. S.; Wang, R. J. Chem. Inf. Model. 2020, 60, 5373-5388 本附录部分内容基于以下研究： “Challenges and Advances in MM-PBSA Binding Free Energy Calculations” - 参考主文档的完整引用

Free Energy · 2025-11-06

RBFE计算在多亚基ATP酶中的适用性边界：大规模基准研究提供明确指导原则

RBFE计算在多亚基ATP酶中的适用性边界：大规模基准研究提供明确指导原则本文信息标题: 多亚基ATP酶中核苷酸结合的炼金相对结合自由能计算基准研究作者: Apoorva Purohit, Xiaolin Cheng 发表时间: 2025年10月13日单位: Xiaolin Cheng课题组俄亥俄州立大学药学院与转化数据分析研究所，美国引用格式: Purohit, A., & Cheng, X. (2025). Benchmarking Alchemical Relative Binding Free Energy Calculations for Nucleotide Binding to Multimeric ATPases. Journal of Chemical Theory and Computation, 21(20), 10547–10560. https://doi.org/10.1021/acs.jctc.5c01069 支持信息: Supporting Information 包含所有55个位点的详细RBFE结果、GROMACS输入脚本、带电配体修正参数分解等，详见：https://pubs.acs.org/doi/10.1021/acs.jctc.5c01069 摘要多亚基ATP酶的核苷酸位点通常坐落于亚基界面，受协同与变构调控，导致单位点亲和力实验测定困难。本文在六类寡聚ATP酶（F1-ATPase、MalK、MCM、Rho、FtsK、gp16）的55个界面位点系统开展炼金相对结合自由能（RBFE）基准研究，采用固定电荷力场与电荷修正方案，并比较有与无中央底物（DNA/RNA）两种条件。结果显示：在结构分辨率高且口袋稳定的体系中，RBFE可复现实验偏好达91%；而在柔性更强或结构分辨率较低的体系中，一致性降至约60%。进一步分析指出，误差源主要来自全局与局部结构稳定性不足、配体构象漂移、关键堆叠与静电作用丢失等。对gp16引入AlphaFold3模型后，RBFE暗示该模型与cryo-EM结构可能对应不同的动力学功能态。本文为复杂多亚基体系中核苷酸结合能的计算可行性、边界条件与改进路径提供了系统评估。讨论与建议核心结论本研究通过大规模RBFE基准验证，得到以下核心结论：一致性统计：F1、MalK、MCM等口袋稳定体系，一致性达91%；Rho、FtsK、gp16等更柔性或低分辨率体系约60%。中央底物效应：DNA/RNA的引入对RBFE数值影响有限，但显著降低全局RMSD，未必改善局部配体RMSD。相互作用保持性：腺嘌呤-Phe/Tyr/Trp的π-π堆叠和磷酸-Lys/Arg的静电配位是能量学稳定的核心要素；堆叠的丢失与RBFE方差放大强相关。 Rocklin修正项敏感性：单项可达十余kcal/mol，净修正常见2-3 kcal/mol，对 RBFE <3 kcal/mol的弱偏好位点排序影响显著。 AF3模型启示：AF3-gp16显示更紧密的亚基界面与NTD-CTD互作，RBFE呈ADP偏好，可能对应后水解停顿态。AF3模型可作为低分辨率体系的结构替代，但能量学结论需谨慎解读与交叉验证。力场选择结论：固定电荷力场在口袋稳定的体系中表现可靠，极化力场并未带来决定性收益方法学建议：结构优先：优选高分辨率结构；对低分辨率cryo-EM可结合AF3筛选更稳定构象作为起点，并以实验交叉验证口袋稳定化：对关键堆叠与配位采用软约束/重定位预处理，减少端点构象重排采样增强：在关键窗口结合HREX/REST2/Metadynamics，降低长程静电松弛的时间常数修正必做：对带电转化必须执行Rocklin修正，并报告修正分解与盒长依赖检查力场务实选择：极化并非银弹。本研究用极化AMOEBA力场对F1和Rho各做对比，结果表明：在成本可控前提下，高质量结构与充分采样（>20 ns/窗口）往往比力场复杂度更关键优先级：结构质量 > 采样充分 > 力场复杂度背景 ATP酶是生命体的能量转换中枢。多亚基环状ATP酶以ATP水解驱动构象切换，完成DNA包装、染色体分离、转录终止、跨膜转运等关键任务。这些系统的核苷酸结合位点多位于亚基界面，天然具备协同与变构特性。从实验角度看，ITC、SPR等常规生物物理方法通常只能测到全局平均亲和力，难以解析单个界面的ATP/ADP偏好。更复杂的是，相邻位点的核苷酸状态常常彼此耦合，使得单位点亲和力呈现强烈的上下文依赖性——同一位点因相邻亚基的核苷酸状态不同而显示截然不同的亲和力。这种协同与变构效应在生物学上很关键（控制顺序转位、维持周期性协调），但为实验测定制造了巨大困难。分子模拟，特别是炼金自由能计算，提供了从原子层面解析亲和力差异的途径。相对结合自由能（RBFE）通过在一系列虚拟态间平滑变换势能，直接给出ATP→ADP在复合物臂与溶剂臂中的自由能差，再经热力学循环得到相对结合自由能。然而，核苷酸配体具有高度带电且多转子的特点，其长程静电松弛异常缓慢，导致窗口间收敛困难。加之多亚基体系中的全局构象漂移与位点柔性波动进一步放大了不确定性。因此，系统化评估RBFE在多亚基ATP酶上的可用性与边界条件具有明确的方法学与机制学意义。关键科学问题 RBFE能否在多亚基协同背景下准确给出单界面的ATP/ADP结合偏好？带电转化引入的周期性边界伪能如何校正，修正量级对弱偏好位点的排序影响有多大？中央底物与结构模型质量（X射线、cryo-EM、AF3）分别如何影响预测稳定性与准确性？创新点覆盖六类ATP酶、55个界面位点的大规模RBFE基准，系统量化结构稳定性与位点柔性的影响全流程引入Rocklin电荷修正方案，提供修正项分解与敏感性分析同步考察有无中央底物的RBFE，并引入AF3预测构象，探讨不同功能态的能量学指纹以相互作用保持性与配体/蛋白RMSD等可解释指标诊断误差来源，提出可操作的改进建议研究内容体系选择与数据集本研究涵盖六类结构差异显著的多亚基ATP酶： ATP酶结构来源分辨率寡聚态核苷酸位点数 F1-ATPase PDB 1h8e (X射线) 2.0 Å 六聚体 3个界面 MalK PDB 1q12 (X射线) 2.6 Å 二聚体 2个界面 MCM PDB 6mii (X射线) 3.15 Å 六聚体 6个界面 FtsK PDB 6t8b (cryo-EM) 3.65 Å 六聚体 6个界面 Rho PDB 3ice (X射线) 2.8 Å 六聚体 6个界面 gp16 (φ29) PDB 7jqq (cryo-EM) 4.1 Å 五聚体 5个界面总计55个界面位点分为三组： 28个位点：无中央底物（DNA/RNA） 17个位点：有中央底物（Rho-RNA、FtsK-DNA、gp16-DNA） 10个位点：AlphaFold3预测的gp16-DNA结构方法详述力场与溶剂模型蛋白: AMBER ff19SB全原子力场水: TIP3P显式溶剂核苷酸: Meagher参数（已在多种蛋白-核苷酸体系中验证）特殊处理: 全程不显式加入Mg²⁺离子，避免固定电荷力场下二价离子配位的一致性问题对代表性位点进行了AMOEBA极化力场的无偏MD对照，以评估极化效应的实际收益。热力学循环与λ策略相对结合自由能通过热力学循环计算： \[\Delta\Delta G_{\text{bind}} = \Delta G_{\text{complex\ arm}} - \Delta G_{\text{ligand\ arm}}\] 复合物臂与溶剂臂各设32个λ窗口分段去耦策略: 先电荷去耦（λ-coulomb: 0.0→1.0），后范德华去耦（λ-vdW: 0.0→1.0）每窗口模拟规程： NVT预平衡（5000步，300 K） NPT平衡（15 ns，含随机体积涨落项） NPT生产（10-25 ns，结合Hamiltonian Replica Exchange）收敛判据：正反向变换自由能差<0.1 kcal/mol 带电配体修正 ATP→ADP转化引入+1e净电荷变化，采用Rocklin半解析修正方案包含五项修正。对弱偏好位点（ RBFE <3 kcal/mol），修正量可达2-3 kcal/mol，影响排序结果。详细的Rocklin修正项物理意义与计算方法请参见附录文章《多亚基ATP酶中核苷酸结合RBFE计算——技术细节与Rocklin修正深度解析》。结构稳定性诊断指标全局稳定性: 蛋白主链RMSD（相对初始结构），在λ窗口0与31处对25 ns轨迹进行时间平均局部稳定性: 配体重原子RMSD，按口袋6 Å内残基对齐，以隔离局部口袋漂移相互作用保持性: π-π堆叠: 腺嘌呤环与Phe/Tyr/Trp的距离演化静电配位: 磷酸氧与Lys/Arg的距离演化核心方法流程 graph TB subgraph S1["1.体系准备"] direction LR A["选取六类ATP酶 55个界面位点"] end subgraph S2["2.结构预处理"] direction LR B["ATP/ADP位点对齐 与构象生成"] --> C["溶剂盒与离子环境 150 mM NaCl, TIP3P"] end subgraph S3["3.RBFE模拟"] direction LR D["能量最小化 充分松弛"] --> E["热力学循环 复合物臂+溶剂臂"] --> F["λ策略 电荷先去耦 vdW后去耦"] --> G["MD规程 NVT→NPT→HREX 单窗口10-25 ns"] end subgraph S4["4.数据分析与修正"] direction LR H["MBAR整合 多窗口组合"] --> I["Rocklin修正 五项分解"] --> J["稳定性诊断 RMSD与相互作用"] end subgraph S5["5.结果评估"] direction LR K["与实验偏好对比"] --> L["变量考察 中央底物、AF3"] --> M["误差溯源 结构→采样→力场"] end S1 --> S2 --> S3 --> S4 --> S5 style A fill:#e1f5ff style G fill:#fff9c4 style I fill:#ffe0b2 style M fill:#f8bbd0 结果与分析无中央底物条件下的RBFE预测图1：六类多亚基ATP酶在无中央底物条件下的相对结合自由能计算结果与实验偏好对照。RBFE计算结果按ATP酶类型（F1-ATPase、MalK、MCM、Rho、FtsK、gp16）并按核苷酸结合位点的主要亚基的字母顺序排列。数据点按实验观测的核苷酸结合偏好进行颜色编码：蓝色表示ATP结合（或ATP类似物结合），红色表示ADP结合，绿色表示核苷酸交换位点。正值RBFE表示相对于ADP优先ATP结合，负值表示相对于ATP优先ADP结合。不确定性对应于两个独立运行间的标准偏差（而非MBAR误差）。高度不确定性反映了在动态多聚体组件中模拟高度带电、灵活核苷酸配体的挑战。本图汇总了F1-ATPase、MalK、MCM、Rho、FtsK与gp16在不含中央底物时的所有界面RBFE值。整体分布呈双峰特征：一类显著偏负（>-3 kcal/mol，更偏好ADP），一类显著偏正（>+3 kcal/mol，更偏好ATP），少量接近零的位点被标注为交换态。与实验观测对比后可见明显分化：高一致性组（F1、MalK、MCM）：一致率达91%（11个位点中10个与实验相符）计算的RBFE值与实验核苷酸占位高度对应绝大多数位点 RBFE >3 kcal/mol，排序具有稳健的热力学裕度这三类体系均采用X射线结构，分辨率2.0-3.15 Å，口袋几何限制强低一致性组（Rho、FtsK、gp16）：一致率仅60%（15个明确位点中9个相符）出现中心收敛的窄分布，多处 RBFE <3 kcal/mol 相邻位点的RBFE值波动大，重复运行间方差显著增大 Rho和gp16为cryo-EM结构或低分辨率体系，结构柔性大物理解释：稳健的一致性来自两个因素——其一，初始结构质量高、局部口袋的几何限制强；其二，腺嘌呤环的π-π堆叠与磷酸-阳离子静电配位在所有λ窗口都被良好维持，降低了窗口间的自由能方差与系统性偏差。详细的RBFE数据汇总请参见附录D：具体RBFE计算结果。中央底物的影响图2：中央底物存在对Rho、FtsK与gp16相对结合自由能预测的影响。对比了有无DNA或RNA中央底物条件下，Rho、FtsK与gp16三种ATP酶的RBFE计算结果。蛋白-核苷酸复合物与纯蛋白体系用不同符号区分。数据点按实验观测的核苷酸结合偏好进行颜色编码：蓝色表示ATP（或ATP类似物），红色表示ADP，绿色表示核苷酸交换位点。误差条表示有中央底物条件下单次运行的MBAR估计误差，以及无中央底物条件下两次独立运行的标准偏差。中央底物的引入对所有三个ATP酶的预测核苷酸偏好影响微乎其微，RBFE值在有无DNA或RNA条件下基本保持相似，提示中央底物并不能显著稳定不同的核苷酸结合构象。这可能源于核苷酸结合口袋与中央转位通道之间的较大空间距离。在Rho、FtsK、gp16中引入DNA/RNA后，多数位点的RBFE变化幅度有限（通常在±1 kcal/mol内），但误差条显示方差略有下降。结合后文图4的RMSD结果，可得：中央底物通过限制全局构象减少宏观漂移，却未必稳定核苷酸口袋的局部微结构。因此，中央底物对RBFE数值的直接贡献小，对收敛速度与方差的间接贡献更明显。详细的有无中央底物RBFE对比数据请参见附录D：中央底物影响分析。方法建议：若仅为提升RBFE稳定性，可优先在端点短程MD中加入中央底物做几何预约束；但若口袋本身柔性大，仍需口袋内的软约束或构象筛选。 AlphaFold3预测结构与实验结构的对比图3：gp16 cryo-EM结构与AlphaFold3预测结构的对比 (a) cryo-EM结构（PDB：7jqq）中，亚基D的NTD显示为洋红色，CTD为浅粉色；亚基E的NTD显示为青色，CTD为深蓝色；其余亚基用各种黄色表示，DNA用浅灰色表示。该结构相邻亚基之间缺乏NTD-CTD相互作用，仅呈现NTD-NTD和CTD-CTD相互作用。(b) AlphaFold3（AF3）预测的gp16-DNA-5ATP结构展示更高的螺旋度与明确的NTD-CTD相互作用（特别是亚基D和E之间）。(c) 亚基A、B、C的NTD用两种黄色表示——深黄色代表cryo-EM结构，浅黄色代表AF3结构，两者高度重合，说明结构一致性强。结合的核苷酸：cryo-EM中ATP用红色表示，AF3结构中ATP用绿色表示。该图并排比较了gp16的低分辨率cryo-EM模型与AlphaFold3（AF3）模型：AF3展示更紧密的亚基界面与更明确的NTD-CTD接触，RBFE在多数位点偏向ADP。这与cryo-EM结构中多处ATP-γ-S占位形成对照。解释：两种结构很可能对应不同功能态。AF3模型的界面更锁定，有利于ADP稳定结合，符合后水解停顿态的直觉；而cryo-EM样品可能捕获到更接近水解前/转运中的构象。因此，结构选择会改变能量学结论，但这不必然意味着孰优孰劣，而是反映了动力学循环中的态-依赖能量学。表3 AF3‑gp16‑DNA五个位点的RBFE（ATP→ADP）位点（主、辅） RBFE AB −3.51 ± 0.43 BC −11.65 ± 3.01 CD −4.80 ± 2.01 DE 1.40 ± 1.95 EA −6.90 ± 1.90 解读：五个位点中四个呈ADP偏好，与cryo‑EM中的ATP占位不同步，进一步支持“AF3与cryo‑EM捕获了不同功能态”的判断。若以此为假设，可据此设计突变或时间分辨实验（例如稳定NTD‑CTD互作）以区分前后水解态。全局构象稳定性分析图4：六类ATP酶在模拟过程中的主链RMSD变化该图展示了所有6类多亚基ATP酶复合物在两个代表性λ窗口的蛋白骨架RMSD（均值自25 ns炼金MD轨迹）：λ窗口0（完全ATP结合态）和λ窗口31（完全ADP结合态）。RMSD值按ATP酶体系用颜色和符号编码以便识别。F1-ATPase和MCM的平均骨架RMSD约2.0 Å，提示最小的全局结构变化；MalK、Rho-RNA、FtsK-DNA和AF3预测的gp16-DNA复合物RMSD为2.0-3.0 Å，反映中等程度的结构变化；cryo-EM结构的gp16-DNA则显示大于3.0 Å的较大RMSD。AF3预测的gp16-DNA结构RMSD比cryo-EM结构更低，且呈现更高的螺旋度和更强的亚基间NTD-CTD接触。主链RMSD在端点窗口给出全局稳定性的上限估计。F1与MCM在两个端点均<2 Å，表明整体环型装配紧致且稳固；Rho与FtsK在某些窗口>2.5 Å，提示体系易发生跨亚基的相对位移。意义：当全局RMSD升高时，窗口之间的参考系差异变大，MBAR整合的统计不确定性放大，直接体现在RBFE误差条上。降低全局RMSD的通用策略包括：使用弹性网络或域间相对位置约束保持装配整体性在构建盒子与离子环境时避免应力集中，使用各向同性压力耦合与充足的平衡阶段表4 AMOEBA对照MD的全局与局部稳定性（25 ns，代表位点）体系位点主链RMSD Å 配体RMSD Å Rho AB 3.01 ± 0.08 3.84 ± 1.03 F1‑ATPase FB 2.54 ± 0.01 2.75 ± 0.56 结论：极化与二价离子并非灵丹妙药。当关键几何与水网络未就位时，增加物理保真度未必换来更好稳定性。优先级应是结构→端点稳态→采样→力场。局部构象稳定性分析图5：配体构象在端点窗口的稳定性比较该图展示了所有6类多亚基ATP酶复合物在两个代表性λ窗口的配体RMSD（均值自25 ns炼金MD轨迹）：λ窗口0（完全ATP结合态）和λ窗口31（完全ADP结合态）。RMSD值按ATP酶体系用颜色和符号编码以便识别。低RMSD表示配体在模拟过程中位置稳定，而高RMSD则指示配体构象漂移。配体重原子RMSD是判断位点可计算性的直接指标。经验上，若端点窗口中配体RMSD>2 Å且关键堆叠/配位反复丢失，则RBFE的方差与系统性偏差会同时增大。本文的FtsK、gp16在部分位点就呈现此特征。诊断与补救：先做端点短程MD与关键作用距离监控，必要时进行口袋侧链重定位（rotamer调整）或水网络重建对腺嘌呤-芳环堆叠可用温和平面保持约束，对磷酸-阳离子可用距离约束避免非物理解离相互作用保持性分析图6：关键蛋白-核苷酸相互作用的保持性 (a) 代表性的关键相互作用，包括：π-π堆叠（腺嘌呤与芳香残基PHE/TYR/TRP），以及静电配位（磷酸基团与Lys/Arg）。这两类相互作用在所有55个结合位点中广泛保守。详细的蛋白-核苷酸相互作用图见Figure S1(a-g)。(b-d) 在第一个炼金窗口（λ窗口0，完全ATP结合态）MD模拟期间，关键核苷酸基团（腺嘌呤和磷酸基团）与其对应的口袋残基之间的距离演化。数据来自5个代表性ATP酶：两个结构偏差低的（F1和MalK），两个结构偏差高的（FtsK和gp16），以及AF3预测的gp16模型。此图以时间序列显示堆叠距离与配位距离。可见在高一致性的F1、MCM位点中，堆叠距离在3.5-4.5 Å之间小幅波动，磷酸-Lys/Arg配位在2.8-3.2 Å的窗口内稳定；而在偏差较大的位点中，这些距离呈间歇性崩塌或双稳态跳变。特别是gp16完全丧失π-π堆叠相互作用，而磷酸-残基相互作用仍基本保持，表明静电相互作用对结构扰动的抗性更强。AF3预测的gp16模型则在两种相互作用上都表现更为稳定。结论：RBFE的本质是端点-路径无关的状态函数差。当端点的微观相互作用网络不能稳定维持时，即便总体RMSD不高，局部自由能景观也在窗口间改变，从而破坏了路径无关的前提，导致整合的不稳定。极化力场效果评估图7：极化与固定电荷力场在关键作用维持上的差异性 (a) 腺嘌呤与其对应的结合口袋残基之间的距离，展示F1-ATPase和Rho在λ窗口0（完全ATP结合态）的MD模拟中使用极化AMOEBA和固定电荷AMBER力场的对比。(b) 磷酸基团与其对应结合口袋残基之间的距离，同样比较两种力场。虽然AMOEBA的计算成本更高，但未能维持π-π堆叠相互作用，而AMBER力场持续维持堆叠和静电相互作用。代表位点的无偏对照MD显示：引入Mg²⁺与AMOEBA极化后，关键距离的平均值与方差未见系统性改善；在某些情形下，极化还可能放大侧链多体相互作用的竞争，使口袋出现新的亚稳态。结论：当主要误差来自结构与采样而非电性欠刻画时，简单堆叠更复杂的力场性价比不高。结构质量与端点稳态仍是决定因素。结论逻辑关系图 graph TB subgraph OBS["实验观察"] O1["结构质量 cryo-EM vs AF3 F1/MCM高稳 vs Rho/FtsK/gp16柔性"] O2["中央底物作用 RBFE无显著变化 但全局RMSD改善"] O3["相互作用保持 π堆叠易丢失 静电配位抗性强"] O4["修正项权重 单项可达10+ kcal/mol 净值2-3 kcal/mol"] end subgraph KEY["关键认识"] K1["全局稳定性决定 局部计算可靠性"] K2["构象固定能促进 全局收敛而非 局部相互作用"] K3["微观相互作用网络 破损直接影响 自由能景观"] K4["弱偏好位点对 修正敏感"] end subgraph CONCL["实践结论"] C1["结构优先： 高分辨率结构 是基础"] C2["几何预约束： 用中央底物或 柔软约束"] C3["相互作用维护： 关键残基重定位 和水网络优化"] C4["完整报告修正： 尤其弱偏好位点"] C5["力场务实选择： 结构>采样>复杂度"] end O1 --> K1 O2 --> K2 O3 --> K3 O4 --> K4 K1 --> C1 K1 --> C2 K2 --> C2 K3 --> C3 K4 --> C4 K1 --> C5 方法学讨论与建议本研究的发现为多亚基ATP酶中的RBFE计算提供了重要启示。结构质量与稳定性是决定计算成败的关键因素。在结构分辨率高且口袋几何限制强的体系中（如F1-ATPase、MalK、MCM），RBFE能够达到91%的定性一致性，充分证明了该方法在合适条件下的可靠性。然而，对于柔性较大或分辨率较低的体系（如Rho、FtsK、gp16），计算精度显著下降至约60%，这提示我们需要更加谨慎的方法学考量。全局构象漂移和局部相互作用丢失是主要的误差来源，特别是在核苷酸结合位点的π-π堆叠和静电配位不能稳定维持时。中央底物的引入虽然对RBFE数值影响有限（通常在±1 kcal/mol内），但能显著降低全局RMSD，改善计算的收敛性。这为处理柔性体系提供了一个实用的策略：通过几何预约束来稳定整体构象，同时关注局部口袋的优化。 Rocklin电荷修正在带电配体转化中扮演着至关重要的角色。修正项的敏感性分析显示，对于 RBFE <3 kcal/mol的弱偏好位点，小的净修正就可能改变排序结果。这要求我们在计算中必须完整报告修正分解，并进行盒长依赖性检查。有趣的是，AlphaFold3预测结构与实验结构的对比揭示了不同功能态的能量学差异。AF3-gp16模型显示更紧密的亚基界面和ADP偏好，这可能对应后水解停顿态，为理解ATP酶的功能循环提供了新的视角。小编锐评本文可能提供了一些RBFE实操时需要注意的问题，给出了一些建议，可以参考关键结论与批判性总结本研究通过在六类ATP酶的55个界面位点开展系统性RBFE基准研究，为复杂多亚基体系中的核苷酸结合自由能计算提供了重要的方法学见解。潜在影响：为复杂分子机器建立RBFE实用基线，明确何种结构与采样条件下可获得可复现实验的预测为机制学研究提供量化线索，例如通过AF3-gp16的ADP偏好指向后水解功能态，有助于理解ATP酶的功能循环局限性：单窗口采样仍可能低估长程静电松弛，弱偏好位点排序对修正与采样时间敏感未显式处理Mg²⁺在固定电荷力场下的配位细节，可能造成局部静电不一致 AF3与实验结构的差异解读仍需更多实验验证，不同功能态的能量学特征需要进一步探索未来方向：结构-采样一体化优化：AF3筛选稳定构象→端点稳态判定→分层增强采样，形成系统化的工作流程稳健的不确定性量化：多起点、多种λ路径与Bayesian整合，给出置信区间，提高预测可靠性跨体系推广：将流程扩展到DNA聚合酶、解旋酶等更多ATP驱动机器，形成通用评估框架

Free Energy · 2025-11-03

多亚基ATP酶中核苷酸结合RBFE计算——技术细节与Rocklin修正深度解析

Free Energy · 2025-11-03

ABCG2电荷模型技术细节：附录

ABCG2技术细节附录本文档为《优化单一性质≠改善相关性质：ABCG2电荷模型的启示》的技术附录，详细介绍ACES自由能计算方法、模拟参数设置和验证协议。附录A：ACES（Alchemical Enhanced Sampling）自由能计算方法 A.1 热力学积分框架 ABCG2验证采用ACES方法进行高精度自由能计算，这是一种基于哈密顿副本交换分子动力学（HREMD）的热力学积分方法。基本原理：通过λ参数控制初始态和最终态之间的平滑变换，计算自由能差： \[\Delta G = \int_0^1 \left\langle \frac{\partial H}{\partial \lambda} \right\rangle_\lambda d\lambda\] 其中H为哈密顿量，$\langle \cdot \rangle_\lambda$表示在λ状态下的系综平均。 A.2 λ状态设置炼金术变换参数： λ状态数量：11个状态 λ值范围：0.0, 0.1, 0.2, …, 1.0 软核势：Smooth Step Softcore（用于避免原子碰撞）耦合方案：VDW和静电相互作用同步耦合 A.3 HREMD采样策略副本交换设置：交换频率：每20 MD步尝试一次Hamiltonian交换交换总次数：每个λ状态进行100,000次交换尝试 4次独立运行：每个系统重复4次相同的模拟 A.4 模拟协议详细参数气相系统初始化：几何最小化（避免立体碰撞） NVT平衡：0.5 ns at 298 K（Langevin恒温器，衰减系数100 ps^-1）生产阶段：2.0 ns HREMD 总采样深度：每λ状态等效2,000,000 MD步液相系统初始化：几何最小化 NVT平衡：0.5 ns at 298 K NPT平衡：3.0 ns at 1 atm, 298 K（Monte Carlo压力控制器）溶剂盒设置：40 Å三斜晶系盒子，与溶质至少2.5 Å间距生产阶段：2.0 ns HREMD 总采样深度：每λ状态等效2,000,000 MD步通用MD参数时间步长：1 fs 温度：298 K 压力：1 atm（仅液相）截断方案：Particle Mesh Ewald（PME）电磁势，VDW截断12 Å 约束条件：所有含H键约束（SHAKE算法）附录B：数据集详细信息 B.1 FreeSolv数据库数据库特征：总分子数：642个中性有机分子分子量范围：16-499 g/mol 官能团覆盖：30种主要官能团数据来源：由Dr. J. P. Guthrie精心编制和验证分阶段开发： FreeSolv_p1：441个单官能团分子 FreeSolv_p2：201个多官能团+含P分子 B.2 验证数据集 MNSol数据库：溶质-溶剂对数：2068对溶剂种类：89种有机溶剂用途：多溶剂环境下的转移自由能验证 ATB3.0验证集：分子数：685个数据要求：ΔGexp误差<1 kcal/mol 用途：高精度基准验证附录C：电荷分配工作流程 C.1 输入数据处理数据来源和格式： FreeSolv：xyz文件 MNSol：xyz文件 ATB3.0：xyz文件结构检查与修正： Schrödinger Maestro v11.2进行人工检查设置正确的键类型和原子参数转换为统一mol2格式 C.2 ABCG2电荷分配命令行工具： antechamber -i molecule.mol2 -fi mol2 \ -o molecule.prepi -fo prepi -c abcg2 工作流程： AM1半经验几何优化（Sqm模块） Mulliken电荷计算 BCC参数表查询和应用最终电荷分配附录D：统计分析方法 D.1 性能指标定义主要指标： Mean Signed Error (MSE)： $\text{MSE} = \frac{1}{N}\sum_i (\Delta G_i^{calc} - \Delta G_i^{exp})$ Mean Unsigned Error (MUE)： $\text{MUE} = \frac{1}{N}\sum_i |\Delta G_i^{calc} - \Delta G_i^{exp}|$ Root Mean Square Error (RMSE)： $\text{RMSE} = \sqrt{\frac{1}{N}\sum_i (\Delta G_i^{calc} - \Delta G_i^{exp})^2}$ Pearson相关系数 (R)：线性相关性度量 Spearman秩相关系数 (ρ)：非参数相关性度量 D.2 统计检验配对Student’s t检验：比较三种力场组合的RMSE差异评估差异是否具有统计显著性（p < 0.05）计算95%置信区间 D.3 误差分析误差分布特性： ±1 kcal/mol范围内的数据比例 ±2 kcal/mol范围内的数据比例离群点（outliers）的识别和分析附录E：相关资源和工具软件工具 GROMACS：分子动力学模拟引擎 (https://www.gromacs.org/) AmberTools：含ABCG2参数和Antechamber模块 (https://ambermd.org/) pmx：非平衡炼金术工具 (https://github.com/deGrootLab/pmx) Schrödinger Maestro：结构准备和验证数据库 FreeSolv：https://github.com/MobleyLab/FreeSolv OpenFE数据集：https://github.com/OpenFreeEnergy/openfe-data 原始论文数据 ABCG2原始论文：He et al., J. Chem. Theory Comput. 2025, 21, 3032–3043 评估论文：Behera et al., J. Chem. Inf. Model. 2025 (Letter) 附录F：蛋白-配体RBFE评估的模拟协议 F.1 数据集来源 OpenFE蛋白-配体数据集：来源：OpenFE协会提供的基准数据集（Ross et al. 2023）规模： 12个蛋白靶点 273个配体 507个配体微扰（ligand perturbations）覆盖范围： ‘jacs_set’（273个转化）：通用靶点集合 ‘janssen_bace’（234个转化）：BACE相关靶点（bace_cp, bace_p3等）质量标准：所有配体均基于临床或实验化合物 F.2 非平衡炼金术（Nonequilibrium Alchemical Free Energy）协议模拟框架：采用pmx工具进行非平衡FEP（Jarzynski等式和Crooks涨落定理） F.2.1 蛋白系统准备结构准备：蛋白结构来自PDB数据库或实验提供质子化状态使用PDB2PQR确定（pH 7.4）使用Schrödinger Maestro进行配体对接与姿态优化配体使用GAFF2或GAFF2-ABCG2力场参数化力场选择：配体力场：GAFF2（基础）+ AM1-BCC或ABCG2电荷蛋白力场（两种）： AMBER99SB*-ILDN（基准） AMBER14SB（改进版对照）溶剂力场：TIP3P水（标准） F.2.2 系统构建与平衡盒子大小：蛋白周围距离至少14 Å的水盒子三斜晶系（triclinic）盒子，最小化周期性人工物离子补偿： Na⁺/Cl⁻补偿系统电荷最终离子浓度约0.15 M（生理浓度）平衡协议：几何最小化：1000步，能量收敛 NVT平衡（2 ns）：温度：298 K 恒温器：Langevin，衰减系数100 ps⁻¹ NPT平衡（3 ns）：温度：298 K，压力：1 atm 压力控制：Berendsen压力浴分子约束：所有含H键约束（SHAKE） F.2.3 非平衡FEP生产阶段 λ变换参数： λ状态数量：5个（0.0, 0.25, 0.5, 0.75, 1.0）变换路径：VDW和静电相互作用同步耦合（单一λ参数）软核势：C6/C12软核势用于避免原子碰撞模拟参数：时间步长：2 fs（使用H-mass repartitioning允许更大时步）运行时间/λ：1 ns 每个转化的总运行时间：5 ns（5个λ × 1 ns）驱动速度：λ通常以0.2 ns⁻¹速率驱动（总耗时1 ns）数据采集频率：每1 ps记录一次配置物理常数与截断：温度控制：Langevin恒温器（298 K，衰减系数0.1 ps⁻¹）范德华截断：12 Å 静电势：PME（Particle Mesh Ewald），精度1e⁻6 压力控制：NPT条件下Parrinello-Rahman压力控制器 F.2.4 多个独立重复与误差估计重复计算：每个配体微扰：进行3-5次独立的FEP模拟（不同的初始速度）平衡数据排除：前100 ps作为平衡期舍弃误差估计：使用standard error of the mean（SEM）统计多次运行使用Jarzynski等式处理不可逆工作使用动态无偏估计器（BAR, Bennett Acceptance Ratio）整合多条轨迹 F.3 结果分析与统计自由能计算：相对结合自由能（ΔΔG）：直接从FEP得到绝对结合自由能（ΔG）：使用Cinnabar最大似然估计法将ΔΔG累积为ΔG 95%置信区间：基于bootstrap重采样或标准差精度评估指标： RMSE（Root Mean Square Error）：主要精度指标 MUE（Mean Unsigned Error）：绝对误差平均值 Pearson相关系数（r）：计算与实验的线性相关性 Spearman秩相关系数（ρ）：非参数相关性（化合物排名能力） Kendall’s τ：另一种非参数排名相关性配对Student’s t检验：比较不同力场组合的显著性差异（p值） F.4 官能团子分析分类标准：根据配体中改变的官能团分类转化（酮、醚、醇、芳香烃、喹啉等）一个转化可能跨越多个官能团类别（如联苯既属”联苯”也属”芳香烃”）统计处理：仅显示RMSE差异>1 kJ/mol（0.24 kcal/mol）的官能团对所有官能团组进行配对t检验评估显著性补充分析在补充图S16中呈现 F.5 主要参考配体与案例分析两个对比案例：叔醇案例（p38靶点，转化2y→2v）：实验ΔΔG = 0.81 kcal/mol AM1-BCC预测：2.47 ± 0.26 kcal/mol（偏离） ABCG2预测：0.49 ± 0.20 kcal/mol（接近） ABCG2改进喹啉案例（mcl1靶点，转化47→27）：实验ΔΔG = −0.34 kcal/mol AM1-BCC预测：−0.42 ± 0.52 kcal/mol（接近） ABCG2预测：−3.11 ± 0.23 kcal/mol（严重偏离） ABCG2变差这两个案例展示了：电荷模型的效能在蛋白环境中具有化学环境特异性，同一模型不能保证在所有官能团上都表现一致。附录G：HREMD Reweighting 物理公式总结 G.1 统计力学基础 HREMD（Hamiltonian Replica Exchange Molecular Dynamics）通过在不同 Hamiltonian（lambda 值）间交换构型，实现对复杂自由能面的高效采样。Reweighting 的核心问题是：如何从多个 lambda replicas 的样本中，准确重构目标 lambda 的系综平均？系综分布关系：在温度 $T$ 下，不同 lambda 的系综分布满足： \[\frac{\rho(\mathbf{r};\lambda_0)}{\rho(\mathbf{r};\lambda_i)} = \frac{Z(\lambda_i)}{Z(\lambda_0)} \exp\left[-\beta\Delta U_{0i}(\mathbf{r})\right]\] 其中： $\rho(\mathbf{r};\lambda)$ 是构型 $\mathbf{r}$ 在 lambda $\lambda$ 下的概率密度 $Z(\lambda)$ 是配分函数 $\Delta U_{0i}(\mathbf{r}) = U(\mathbf{r};\lambda_0) - U(\mathbf{r};\lambda_i)$ 是势能差 $\beta = \frac{1}{k_B T}$ G.2 核心重加权公式 2.1 单 Replica 重加权对于在目标 lambda $\lambda_0$ 的系综平均，可以从任意 replica $i$ 的样本重加权得到： \[\langle A \rangle_{\lambda_0} = \frac{\langle A \exp[-\beta\Delta U_{0i}] \rangle_{\lambda_i}}{\langle \exp[-\beta\Delta U_{0i}] \rangle_{\lambda_i}}\] 通俗解释：这就像用”汇率”把不同货币的样本转换成目标货币。$\exp[-\beta\Delta U_{0i}]$ 就是转换汇率，把 replica $i$ 的样本值 “折算” 成目标 lambda $\lambda_0$ 的价值。 2.2 多 Replica 综合公式（实际使用）对于 HREMD 中 $M$ 个 replicas，综合所有样本： \[\langle A \rangle_{\lambda_0} = \frac{\sum_{i=1}^M \sum_{j=1}^{N_i} A_{i,j} \exp[-\beta\Delta U_{0i}(\mathbf{r}_{i,j})]}{\sum_{i=1}^M \sum_{j=1}^{N_i} \exp[-\beta\Delta U_{0i}(\mathbf{r}_{i,j})]}\] 其中： $N_i$ 是 replica $i$ 的样本数 $A_{i,j}$ 是第 $i$ 个 replica 第 $j$ 个样本的观测值 $\mathbf{r}_{i,j}$ 是对应的构型 $\Delta U_{0i}(\mathbf{r}{i,j}) = U(\mathbf{r}{i,j};\lambda_0) - U(\mathbf{r}_{i,j};\lambda_i)$ 物理意义：这是最大似然估计，相当于用所有 replicas 的样本，通过各自的权重，加权平均得到目标 lambda 的期望值。 G.3 有效样本量和统计质量 3.1 有效样本量计算由于不同样本的权重不同，实际的有效样本量会减少： \[N_{\text{eff}} = \frac{(\sum_{i,j} w_{i,j})^2}{\sum_{i,j} w_{i,j}^2}\] 其中权重 $w_{i,j} = \exp[-\beta\Delta U_{0i}(\mathbf{r}_{i,j})]$ 重要性： $N_{\text{eff}}/N_{\text{total}} > 0.1$ 通常认为是良好的重叠 $N_{\text{eff}}$ 太小说明 replica 间重叠不足，误差会很大 3.2 方差估计重加权估计的方差： \[\text{Var}(\langle A \rangle_{\lambda_0}) \approx \frac{1}{N_{\text{eff}}} \frac{\sum_{i,j} w_{i,j} (A_{i,j} - \langle A \rangle_{\lambda_0})^2}{\sum_{i,j} w_{i,j}}\] 通俗解释：有效样本量直接决定了估计的可靠性。如果某些样本的权重特别大（说明它们在目标 lambda 中很重要），但数量很少，那么整个估计就会不稳定。 G.4 实际应用注意事项 4.1 权重截断策略问题：极端权重会导致数值不稳定和统计偏差解决方案：绝对截断：设定最大权重 $w_{\max} = \alpha \bar{w}$（通常 $\alpha = 3-5$）相对截断：使用 $w’ = \frac{w}{1 + \epsilon w}$ 进行平滑处理 4.2 交换率优化 HREMD 交换概率： $P_{\text{acc}}(i \leftrightarrow j) = \min\left[1, \exp\left(-\beta\Delta U_{ji} + \beta\Delta U_{ij}\right)\right]$ 最优交换率：一般在 20-40% 之间太低：采样效率不高太高：lambda 间隔太大，重叠不足 4.3 收敛性判断收敛标准：有效样本量稳定：$N_{\text{eff}}$ 不再随时间增加权重分布合理：避免极端权重（如 $\exp(10)$ 以上）块平均一致：不同时间段的平均值应该一致 G.5 高级方法：WHAM/MBAR 5.1 WHAM（Weighted Histogram Analysis Method）基本思想：同时优化所有 lambda 的配分函数，提高统计效率公式： $\hat{F}_i = -\ln \sum_{j=1}^M \sum_{n=1}^{N_j} \frac{\exp(-\beta U_i(\mathbf{x}_{j,n}))}{\sum_{k=1}^M N_k \exp(\hat{F}_k - \beta U_k(\mathbf{x}_{j,n}))}$ 5.2 MBAR（Multistate Bennett Acceptance Ratio）优势：考虑样本间的相关性，理论上更优适用场景：样本数量有限需要 highest precision 多个目标态都需要估计 G.7 常见问题与解决方案问题1：负权重原因：$\Delta U_{0i} > 0$ 且很大时，$\exp[-\beta\Delta U_{0i}]$ 会很小解决：使用相对权重或截断问题2：重叠不足表现：$N_{\text{eff}}/N_{\text{total}} < 0.1$ 解决：增加 lambda 点数，调整 lambda 间隔问题3：计算成本高策略：使用重要性采样并行化计算预先计算权重 G.8 物理意义总结 Reweighting 的本质：统计推断：从容易采样的分布推断难采样的分布信息利用：充分利用所有 lambda 的样本信息误差传播：样本的统计误差会影响最终结果的精度关键洞见：HREMD reweighting 证明了通过物理定律，我们可以从”不完美”的采样中获得”完美”的统计推断。这就像用散乱的拼图碎片，通过数学方法还原出完整的图像。

Free Energy · 2025-11-02

优化单一性质≠改善相关性质：ABCG2电荷模型的启示

Free Energy · 2025-11-02

从参数调优的困境中解脱：FEP Ω如何让药物分子动力学模拟「开箱即用」

FEP Ω：结合标准化自动化设置和模拟后机器学习，试图在不进行系统特异性优化的条件下达到更好的精准性本文信息标题：FEP Ω：参数调优时代的终结作者：Sam Giannakoulias, John J. Ferrie, Andrew Apicello 发表时间：2025年10月单位：Sentauri Inc，美国马里兰州伍德宾引用格式：Giannakoulias, S.; Ferrie, J. J.; Apicello, A. FEP Ω: The End of Parameter Tuning. ChemRxiv 2025. https://doi.org/10.26434/chemrxiv-2025-bg1t9 论文原文：https://doi.org/10.26434/chemrxiv-2025-bg1t9 作者机构：Sentauri Inc（www.sentauriai.com）技术涉及：GROMACS分子动力学、xtb量子化学、scikit-learn机器学习框架摘要自由能微扰（FEP）是结构基础药物设计的常用方法，但其精准性不足往往需要大量的参数调优。本文提出FEP Ω，一个不同的FEP工作流，通过消除先验参数调优、炼金术中间体和网络校正，结合标准化自动化设置和模拟后机器学习，试图在不进行系统特异性优化的条件下达到更好的精准性。与Schrödinger的FEP-PB相比，FEP Ω在多个测试靶点上表现出可比或更优的精准性。核心结论不同的参数调优策略：通过标准化工作流和后处理机器学习，提出了一个无需系统特异性参数优化的方案计算成本改进：使用仅1-5纳秒的短模拟时间，避免了网络校正和反向模拟精准性表现：在测试的靶点上，RMSE通常比FEP+低30-40% 泛化能力验证：在陌生蛋白靶标（DPP-4）上的测试显示了一定的泛化能力工作流自动化：无需手工目标特异性优化，可应用于新靶点和化学序列小编锐评感觉很多细节都没说，特征什么的啥也不知道，显得方法不是很靠谱。智能初始结构优化没说清楚，我看不懂但大受震撼。太搞笑了，每个target就30多个ligand，全拿去训练了，肯定准确。也无法用这样的流程去做真实的药物开发：如果我没有实验数据，纯靠计算，用这个流程也没法训练吧？我FEP算的分子全都实验再测一遍，还需要FEP干啥？就算有初始实验数据（like JMC），后续FEP也无法补充。而且，跑很短也无所谓只是因为这几个体系比较容易收敛，有的体系是应该长点，你只不过是因为有target，算不准的都是“物理和实验的误差”，那我只要过拟合就行了，拿30个ligands就想做screening？而且，机器学习它真的能替代调模拟参数等等吗？消除网络校正和反向模拟是通过过拟合？？你攻击人家调模拟参数，但自己在调机器学习参数？？不同实验误差原因都不一样的，学这玩意也没什么可迁移性，原理上都不对。哪里体现”开箱即用”？？这篇根本就是体系搭建和模拟没啥改进嘛，除了QM力场参数，也不知道是否真的更好。背景传统药物发现中，从先导化合物优化到候选药物的过程往往是漫长且昂贵的。在这个关键阶段，计算方法已成为加速筛选和指导合成的不可或缺的工具。自由能微扰（FEP）方法因能精准计算配体的结合自由能，已成为现代药物发现中最可靠的结合自由能预测方法。然而，尽管FEP理论上优越，其实际应用面临一个顽固的现实：无法开箱即用。无论使用哪个商业平台，计算化学家都必须大量调优参数——晶体结构、对接方案、力场、模拟时间等。这个过程既耗时又需要专业知识，严重限制了FEP在药物设计流程中的应用。 Schrödinger曾尝试通过FEP-PB（自动协议优化）来解决这个问题，但代价巨大：需要运行数百次模拟，且每个新靶点都要重复。结果是把人工调优转变成计算爆炸，大规模应用仍然难以实现。 FEP Ω的出现正是为了直面并彻底解决这些问题。核心创新在于：用标准化物理模拟 + 机器学习后处理的组合，完全消除系统特异性的参数调优需求。关键科学问题在FEP发展的关键时刻，核心问题不是能否提高精准性，而是能否在不进行繁琐参数调优的情况下实现精准性。换句话说：如何打破传统FEP中精准性与实用性的矛盾，使其真正成为即插即用的工具？创新点范式转换：从「模拟前优化」转向「模拟后学习」——用标准化协议运行简短模拟，再用机器学习捕捉系统误差自动化端到端工作流：从PDB结构和SMILES字符串到精准预测，完全自动化，无需人工干预量子驱动的力场体系：基于xtb量子力学的统一参数化框架，消除传统lookup表的依赖智能配体放置：MCS对齐+约束对接确保初始结构合理，最小化后续平衡轻量级机器学习：用最少实验数据（~30个化合物）训练，可随着数据积累迭代改进基准数据集与RBFE配体对 FEP Ω使用5个不同的蛋白质靶标进行基准测试和验证，总共包含180个配体。这些数据集来源如下：靶标配体数 PDB ID 来源特征 HIF2α 37 4gs9/4xt2/8ck3 文献参考 (ref 24-26) 小型、刚性、高卤代、完全埋藏口袋 BACE1 36 4djw Schrödinger官方套件 (ref 27) 体积大、正电荷多、埋藏口袋 P38 33 3fln Schrödinger官方套件 (ref 28) 线性结构、核心恒定、端部可变、部分溶剂暴露 MCL1 41 4hw3 Schrödinger官方套件 (ref 29-30) 高度灵活连接子、羧基、部分溶剂暴露 DPP-4 33 4ffw 文献参考 (ref 32) 灵活连接子、游离胺、高卤代、完全埋藏总计 180 - - - 关键说明： HIF2α的三个PDB ID含义（4gs9 / 4xt2 / 8ck3）：不是三个不同的蛋白质，而是同一蛋白质（HIF2α）的三个不同晶体结构每个结构代表蛋白质在不同配体复合物状态下的晶体学结构 Scaffold hopping实验设计：4xt2和8ck3用于模型开发训练（共两个配体系列），4gs9专门保留为盲测试集（blind test，完全独立），验证模型对陌生配体系列的真实泛化性这个设计类似于k折交叉验证的 held-out test set，但用于评估不同化学骨架的转移性 RBFE的配体对选择：原文未明确说明采用全配对、星型网络还是其他拓扑结构。原文仅提到RBFE需要选择 well-characterized reference ligand 作为起点数据集多样性：这5个靶标代表了不同的结合位点拓扑、溶剂暴露程度和构象灵活性，为FEP Ω的鲁棒性和泛化性提供了全面的验证研究内容图1：FEP Ω工作流总体框架。展示自动化与标准化参数化 → FEP/MD模拟 → 目标特异性机器学习三个关键步骤，右侧突出显示核心优势：消除了迭代且耗时的参数调优、计算时间减少>50倍、预测精准度大幅提升。智能初始结构优化是该框架的关键创新，确保配体从化学合理的初始构象开始，最小化平衡过程，从而实现最优的原子重叠度。核心方法：FEP Ω工作流 FEP Ω的设计理念简洁而优雅：用物理基础模拟为基石，用机器学习进行数据驱动的精度修正。整个工作流分为三个关键阶段： graph LR subgraph "输入" PDB["PDB结构"] SMILES["SMILES字符串"] end subgraph "阶段1：标准化设置" PREP["蛋白质/配体 预处理"] MCS["MCS对齐 +对接"] QUNITY["Q-Unity参数化 xtb量子计算"] end subgraph "阶段2：MD模拟" EQUIL["平衡 100ps"] PROD["生产运行 1-5ns"] end subgraph "阶段3：ML修正" FEAT["时间序列 特征提取"] ML["弱学习器 训练"] PRED["校正预测 ΔG值"] end OUTPUT["结合亲和力 预测"] PDB --> PREP SMILES --> PREP PREP --> MCS MCS --> QUNITY QUNITY --> EQUIL EQUIL --> PROD FEAT --> ML ML --> PRED PRED --> OUTPUT 第一阶段：标准化自动化设置与传统FEP不同，FEP Ω不要求对每个系统进行参数微调。相反，所有系统都遵循统一的预处理协议：蛋白质处理：从PDB结构开始，移除非生物学相关的水分子，保留关键水分子，补全缺失的环，添加显式氢配体处理：从SMILES字符串标准化开始，移除反离子和消除歧义形式电荷。质子化态和互变异构体选择刻意保留为用户可定义，以便进行系统性的假设探索智能初始结构优化（核心创新）简化理解：FEP Ω的配体放置策略就像是乐高积木的组合过程。新配体中的「通用部分」（参考配体也有的核心结构）被固定对齐，而「新添加的部分」被优化到最合理的位置。这种智能放置策略确保配体从一开始就处于化学合理的结合状态，大大减少了后续平衡的需要。图2：原子重叠度对FEP预测精准性的影响。(A)展示p38系列中表现最差的FEP初始结构（MCS Filtered Vina，RMSE = 1.7 kcal/mol，平均重叠度指标 = 122），(B)展示表现最好的初始结构（Glide MCS，RMSE = 1.1 kcal/mol，平均重叠度指标 = 55）。上排视觉对比清晰展示了配体重叠程度与RMSE的强相关性。(C)散点图显示不同靶点序列（p38a红色、PTP1b蓝色、SYK棕色、TNKS2紫色）的平均重叠度指标值与RMSE的关系，证明最低RMSE的FEP模拟往往来自重叠度指标最低的对接方法。第二阶段：量子驱动的力场参数化——Q-Unity框架简化理解：传统力场就像是一本预先写好的化学「字典」，里面只收录了常见分子的参数。当你遇到新分子时，只能从字典里找最相近的来近似使用。Q-Unity则是一个自动的「化学字典生成器」，它能为任何一个新分子从第一性原理计算其专属的、最准确的参数。 Q-Unity的核心价值：每个分子都有专属参数：不再依赖「通用字典」，每个化合物都获得基于其自身电子结构的最优参数自动化且物理严谨：通过量子力学计算自动生成所有必需的参数，无需人工调整真正的统一框架：蛋白质和配体都采用相同的量子力学方法，确保体系的一致性图3：Q-Unity参数化流程示意图。蛋白质和小分子都采用相同的第一性原理策略（从xtb量子力学计算导出非键作用参数σ/ε、原子电荷和成键参数——键长、键角、二面角），无需lookup表依赖。第三阶段：轻量级模拟与高效后处理简化理解：FEP Ω的模拟过程就像是一个高度优化的「工厂流水线」：自动化生产线：从分子输入到最终预测完全自动化，无需人工干预快速采样：仅1-5纳秒的短模拟，相比传统的10-20 ns大幅压缩时间大跨度变换：可以一次性处理大幅度的分子变化，无需中间步骤智能纠错：机器学习层自动修正物理模拟中的系统性偏差核心优势：快速模拟：仅需1-5纳秒，比传统方法快10-20倍大跨度变换：可以一次性处理大幅度的分子变化，无需繁琐的中间步骤消除传统瓶颈：无需网络校正、反向模拟等耗时环节，计算效率提升50倍以上机器学习的智能纠错机制工作原理：FEP Ω将机器学习集成到活跃学习框架中，利用MD轨迹导出的时间序列特征来学习FEP结果与实验间的系统性残差。具体地：弱学习器初始化：用仅~30个历史实验数据训练初始模型，建立模拟导出特征与实验结合亲和力间的映射时间序列特征：不是简单看终态能量，而是分析整个1 ns轨迹中的能量演化动态，捕捉MD过程中蕴含的物理信息残差纠正：学习的是MD计算与实验间的残差（residual errors），这些残差反映的是力场对特定相互作用的系统性欠描述，而非特定分子的噪声持续自迭代：当新实验数据出现时，新化合物自动在标准FEP框架内运行1 ns模拟，模拟结果和实验数据一起加入ML引擎，模型自动重训练和改进核心机制：最终预测 = FEP直接计算结果 + ML学到的系统性残差纠正原文强调关键一点：「the learned corrections capture underlying systematic biases rather than memorizing scaffold-specific features」。这意味着ML学到的是通用的物理规律（如力场对极性相互作用的欠描述），而非特定化学骨架的细节。因此，用两个配体系列训练的模型可以准确预测第三个完全不同的化学骨架（骨架跃迁实验），证明了真正的泛化能力而非过拟合。关键结果与分析结果推导逻辑： graph TD A["五个靶点上 的FEP模拟结果"] --> B["短时间模拟 1-5ns收敛"] A --> C["时间序列特征 提取"] C --> D["~30个化合物 训练集"] D --> E["弱学习器 ML模型"] B --> F["残差分析 计算模拟-实验差"] F --> E E --> G["交叉验证 及独立测试"] G --> H{"骨架跃迁 能否泛化"} G --> I{"工业靶点 DPP-4测试"} H -->|是| J["学到系统性物理规律 而非过拟合"] I -->|通过| J J --> K["与FEP+对标"] K --> L["结论：精准性和 计算效率双赢"] 图：关键结果的推导链。从短时模拟、ML训练、到泛化验证，逐步证明FEP Ω的有效性。 1.收敛性与模拟时间依赖性在HIF2α系统上进行了详细的收敛性研究：图4：ML模型性能随模拟时间的收敛曲线，HIF2α数据集。上行A-C展示相对结合自由能（RB FEP）建模结果，下行D-F展示绝对结合自由能（AB FEP）建模结果。所有曲线覆盖0-5纳秒的模拟时间范围（横轴），纵轴显示三个计算指标。A和D为R²（Pearson相关系数平方），B和E为RMSE（均方根误差，单位kcal/mol），C和F为Spearman Rho（ρ，秩相关系数）。青色曲线代表交叉验证（CV）指标，深蓝色曲线显示独立测试集（Test）性能。关键发现：亚千卡准确度：在每个时间步都实现亚千卡每摩尔的误差，最小值甚至低于0.5 kcal/mol RMSE和Spearman Rho稳定：在模拟过程中保持稳定，表明即使是非常短的模拟也能保持接近实验的预测能力和排名顺序 R²不稳定（不足为怪）：R²在小数据集中极其敏感且不可靠，因此不是主要关注指标，而且RBFE用R²也不好三重启示：无参数调优也能精准：精准的能量估算完全依靠数据驱动方法，无需任何参数调优计算效率翻倍：避免网络校正和反向模拟，且生产MD极短，直接减少至少50%的计算量支持大转化：传统的闭环实现需要最小化转化，但FEP Ω可以处理多个同步转化，让药物化学团队直接测试真实设计假设，而非浪费资源在无关的中间体 2.骨架跃迁：真正的泛化能力测试为了评估FEP Ω对陌生化学空间的泛化能力，进行了骨架跃迁实验：用HIF2α的两个序列（4xt2和8ck3）训练，保留第三个序列（4gs9）作为独立测试集。这模拟了真实的药物化学场景，即新化学骨架与训练数据差异巨大。骨架跃迁的结果：图5：骨架跃迁实验性能对比，柱状图。(A)相对结合自由能（RB FEP）模式、(B)绝对结合自由能（AB FEP）模式。三个性能指标R²、RMSE和Spearman Rho分别计算交叉验证（CV，深蓝色柱）和独立测试集（Test，青色柱）的数值。 RB FEP：独立测试集RMSE从0.590轻微降至0.558 kcal/mol，表明学到的纠正捕捉的是系统性物理偏差而非骨架特异性特征 AB FEP：在所有指标上CV和测试集间保持强一致性，实现亚半千卡精度和稳定的排名顺序 RB FEP在陌生骨架上的性能略微改进，在小数据集中这是合理的——少数预测的变化会导致指标波动。本文推测：AB FEP的目标变量（ΔG）更平滑均匀，相比RB FEP（预测精度对参考配体选择高度敏感）更容易被ML回归稳定处理。这个实验验证了模型的泛化能力，显示出学到的是通用的物理规律而非过拟合。 3.工业基准对标对标Schrödinger的FEP+是验证FEP Ω的关键一步。在BACE1、P38和MCL1三个标准靶点上进行了详细对比。关键细节：这三个靶点来自Schrödinger的公开基准数据集，FEP Ω对每个靶点都独立训练了自己的ML模型——即用该靶点的~30个化合物训练，然后在该靶点的其余化合物上评估。这样的设计确保了每个靶点都获得了针对性的学习，而不是用单一HIF2α模型直接外推（见表1）。系统 FEP+ R² FEP+ RMSE FEP+ SR FEP Ω R² FEP Ω RMSE FEP Ω SR BACE1 RB FEP 0.47 1.08 0.215 0.306 0.513 0.533 BACE1 AB FEP 0.44 1.21 -0.004 0.340 0.703 0.333 P38 RB FEP 0.49 0.87 0.464 0.565 0.531 0.588 P38 AB FEP 0.58 1.09 0.221 0.652 0.764 0.698 MCL1 RB FEP 0.45 1.03 0.570 0.641 0.570 0.728 MCL1 AB FEP 0.53 0.95 0.383 0.644 0.567 0.728 MCL1 RB FEP (PB) 0.439 1.0 0.657 0.641 0.570 0.728 表1：FEP+与FEP Ω在三个靶点上的RB和AB FEP性能对比。指标为R²（Pearson相关系数的平方）、RMSE（均方根误差，单位kcal/mol）和SR（Spearman Rho，秩相关系数）。PB是Schrödinger协议构建器的缩写。加粗部分显示各行中表现最优的指标对标结果分析： RMSE表现：FEP Ω的RMSE通常比FEP+低30-40%，并在所有系统上达到sub-kcal/mol误差水平 Spearman相关性：Spearman Rho指标较高，表明FEP Ω在化合物排名上有良好表现，这对药物设计的优先级排序很重要 vs FEP-PB：FEP Ω在标准化设置和较低计算成本条件下，准确性超过了经过大量自动调优的FEP-PB 评估框架对比： Schrödinger的FEP+基准基于参数优化，无论是手工还是通过协议构建器（FEP-PB）。模拟协议在同一数据集上迭代调优，报告的指标可能反映数据集内拟合。 FEP Ω采用不同的路径：标准化模拟，仅在模拟后学习，理论上避免前置调优的隐藏偏差。其指标来自样本外测试数据，提供独立的泛化性能评估。这种评估方法更加严格，但实际应用价值仍需进一步验证。 4.盲验证：DPP-4外部靶点测试 DPP-4（二肽基肽酶-4）作为测试靶点，因为它是临床验证的2型糖尿病靶点，但在FEP文献中毫无先例（无法参考前人的参数调优经验）。工作流遵循同一标准协议，每个化合物1 ns MD模拟。从33个化合物中取24个作为训练子集，剩余作为独立测试集，模拟实际工业场景。图6：DPP-4靶点上AB FEP预测值与实验结合自由能的对比。虚线（y=x）代表完美一致性，浅灰色阴影区域表示±2 kcal/mol误差带，深灰色阴影区域表示±1 kcal/mol误差带。深蓝色点代表交叉验证（CV）的预测结果，青色点代表独立测试集的预测。图表右下角标注了CV和Test两组的性能指标（R²、RMSE、Spearman ρ）。结果：交叉验证（CV）：R²=0.53，RMSE=0.51 kcal/mol，Spearman ρ=0.74 独立测试集（Test）：R²=0.45，RMSE=0.49 kcal/mol，Spearman ρ=0.75 Spearman Rho > 0.7：强相关性，表明可靠的化合物排名能力亚千卡精度：RMSE ~ 0.5 kcal/mol，完全达到药物发现的实用要求完全盲测中实现了稳健预测力，无需任何额外的方法开发这个结果的意义在于：它证明了FEP Ω不是针对特定靶点序列优化的工具，而是真正具有通用性的、开箱即用的FEP平台。医学化学家团队可以立即将其部署到新的发现项目，无需进行系统特异性的优化，这直接打破了传统FEP应用的关键障碍。关键结论与批判性总结主要发现 FEP Ω通过将学习从模拟前转移到模拟后，提出了一个不同的参数调优策略。在多个靶点上的测试显示，该方法在不进行系统特异性优化的情况下达到了与调优方法相当或更优的精准性。跨越五个靶点、从小蛋白到临床靶点、从相对到绝对FEP的验证表明，FEP Ω具有一定的泛化能力。与商业平台FEP+的对标显示在精准性和计算效率两方面有改进。局限性小数据集的统计鲁棒性：即使是30个化合物的训练集，在某些化学空间中仍可能面临统计鲁棒性问题初始实验数据依赖：ML训练需要历史实验数据，无法在完全无数据的场景下使用溶剂环境的简化：当前使用SPC/E显式水，对于特殊溶剂或复杂膜系统的适用性未知蛋白质构象选择：自动流程中蛋白质入射构象的选择仍然关键，复杂的多状态结合可能需要额外处理特殊化学物质的参数化：某些非常规分子可能仍需手工验证参数可能的应用前景如果FEP Ω在更多真实项目中得到验证，其潜在应用包括：设计迭代加速：通过减少参数优化周期，缩短药物设计的迭代时间门槛降低：标准化流程可能使FEP预测更容易被非专家使用数据反馈循环：新的实验数据可逐步改进模型然而，实际的工业应用效果和泛化能力仍需要在更多真实项目中验证。

Free Energy · 2025-11-02

FEP Ω：从参数调优的困境中解脱【技术附录】

FEP Ω：技术附录与深度讨论本文是主文章《从参数调优的困境中解脱：FEP Ω如何让药物分子动力学模拟「开箱即用」》的技术附录，包含详细的方法论讨论、常见问题解答、以及对原文未公开内容的深入分析。深度技术讨论智能初始结构优化的详细机制 MCS对齐与多重方案评估 FEP Ω的配体放置策略涉及最大公共子结构（MCS）搜索，这一步看似简单但包含了多个微妙的设计选择： MCS搜索的多样性问题：为什么会有多个MCS对齐方式？虽然叫最大公共子结构，但MCS算法处理的是2D化学结构（分子图的子图同构问题），没有3D空间信息当两个分子有对称性结构或多种异构体形式时，可能存在多个相同大小的等效MCS对齐方式原子重叠指标的本质：它测量的是整个新配体B与参考配体A之间的空间相似程度——通过计算对应原子间的距离来评估原文未提供这个指标的具体数学公式，仅定性描述它基于两个分子的组成原子的空间位置这可能是Sentauri的专有信息，或需要在实际应用中通过逆向工程来推断为什么低重叠度产生更好的预测（反直觉的发现）：原文对Moore等人数据的回溯性分析显示：在那些导致低RMSE预测的FEP模拟中，初始配体结构的原子重叠度指标往往最低。这看似矛盾，但有合理的物理解释： MCS部分被固定：共享配体核心（reference和mutant共有的部分）作为锚点被固定对齐，这实际上是有意的高重叠新取代基被优化：新型取代基的位置通过同时考虑蛋白质相互作用和原子重叠项来进行优化物理直觉：高重叠度可能意味着系统过度追求新配体与参考配体的高度相似，这会迫使新取代基采取不自然的扭曲构象低重叠度反映了新配体与参考配体之间的合理空间差异，初始构象更接近真实的结合状态我没看懂，感觉在扯 Q-Unity框架的量子力学基础 GFN2-xTB方法的关键特性 Q-Unity使用GFN2-xTB（扩展紧束缚）量子力学方法，这是一个半经验QM方法，具有以下特点：参数化策略：蛋白质参数：从N-乙酰化和C-甲基酰化的二肽衍生物进行GFN2-xTB计算，确保残基特异性参数化同时保留局部主链环境配体参数：直接对完整小分子进行GFN2-xTB计算，利用衍生的电子结构数据定义所有参数自动化量子力学参数化流程详解：输入：任何蛋白质残基或小分子结构（用SMILES或PDB格式）量子力学计算：使用自洽场（Self-Consistent Field, SCF）方法优化分子几何和电子结构基于分子的实际电子密度分布进行后续的参数提取包含多极矩电静相互作用和密度相关的色散修正（D4）参数提取：非键相互作用参数（范德华力）： σ（原子大小）：从优化后分子结构中原子间的有效距离推导 ε（相互作用强度）：从电子结构数据和原子极化率推导原子电荷：Mulliken电荷通过CM5修正方案进行调整成键参数：键长、键角、二面角参数从计算得到的分子构象导出输出：一套完整、物理严谨的力场参数，可直接用于GROMACS等MD程序 GFN2-xTB的优势与限制： ✅ 全局元素特异性：参数仅依赖于单个元素身份，不依赖于原子对的组合，大幅简化参数空间 ✅ 广泛的元素覆盖：包括spd-block元素和镧系元素（Z=1-86），覆盖药物化学中的几乎所有常见元素 ✅ 参数拟合策略：所有参数针对准确预测几何、振动频率和非共价相互作用进行优化 ⚠️ 半经验方法的局限：对某些极端化学环境或高度优化的分子，参数可能需要人工检查溶剂化、平衡与模拟参数的完整说明在主文章中为了保持可读性，我们简化了模拟过程的描述。以下是完整的技术细节：溶剂化环境使用SPC/E显式水溶剂（Berendsen等, 1987），这是一个经过验证的水模型缓冲区大小：配体周围5 Å的显式水层，确保蛋白质/配体充分水合中性化：加入150 mM Na⁺和Cl⁻离子以模拟生理盐浓度，保持系统电中性平衡阶段（Equilibration）第一步：能量最小化：使用最陡下降法直到收敛，移除不合理的原子接触 NVT平衡（恒体积、恒温）：分阶段温度升温（10 K → 310 K），确保受控加热和系统稳定，避免温度跳跃引起的构象扭曲 NPT平衡（恒压力、恒温）：多阶段过程前期：位置约束（positional restraints）固定重原子（非氢原子），仅允许溶剂弛豫逐步放松约束，最终达到完全无约束的平衡，确保溶质和溶剂的充分弛豫生产MD运行所有MD步骤在GROMACS中执行（Abraham等, 2015）——业界标准的高效分子动力学软件系综选择：Parrinello-Rahman (PR) 集合（恒压力、恒温、恒应力张量）约束状态：无任何约束，允许系统完全自由演化时间步：2 fs（飞秒），足够长以高效采样，足够小以保持数值稳定性生产时长：仅1 ns总时间（vs. 传统FEP的10-20 ns），这是FEP Ω计算效率的关键体现机器学习特征工程的深度解析时间序列描述符的来源与本质原文关键信息缺失：原文明确指出 the ML component operates directly on simulation-derived descriptors，但具体的描述符列表和特征工程方法并未公开（这可能是Sentauri公司的专有信息）。原文未公开的具体信息：具体的描述符列表和特征工程方法确切的输入维度（从1 ns轨迹中提取，可能是数十到数百维，但具体数字未给出）特征选择的标准（是否进行了维度约简、PCA或其他降维）可合理推测的特征类型（基于MD物理学）：能量时间序列：结合自由能、范德华能、静电能、溶剂化能在1 ns内的时间演化轨迹结构动力学指标：配体RMSD、蛋白质-配体接触距离变化、氢键网络的建立/破坏相互作用统计量：蛋白质极性残基与配体相互作用的频率和强度为什么能通用：这些都是基于力学的物理量，而非特定分子的化学细节力场对极性相互作用的欠描述在MCL1和P38中同样存在因此HIF2α学到的系统性校正可转移到其他靶标相对FEP vs. 绝对FEP的深入对比特性 RB FEP（相对） AB FEP（绝对）参考点需要一个已知实验值的参考配体无需参考配体，从虚拟「无配体」状态开始计算目标相对结合自由能 ΔΔG 绝对结合自由能 ΔG 配体变换 A配体 ↔ B配体（两个真实配体间的转化）虚拟态↔真实配体（配体从”无”变到”有”）是否消失配体 ❌ 不消失，A和B都是真实小分子 ✅ 是的，配体逐步「消失」（从完全耦合到完全解耦） ML目标变量 ΔΔG（kcal/mol） ΔG（kcal/mol）应用场景有参考配体时（如已有活性先导化合物）完全新颖靶点或化学空间（无参考化合物） ML稳定性较差（对参考配体选择敏感）较好（目标变量更平滑） AB FEP的「消失」机制：在传统FEP中，AB FEP通过解耦变换（decoupling transformation）实现：状态A：虚拟的「无配体」（所有原子相互作用势设为0，配体不存在）状态B：真实蛋白质-配体复合物（完整的相互作用）变换过程：λ从0→1，配体的原子逐步「激活」，从无到有物理意义：计算完整的结合自由能，不依赖任何参考化合物计算难度：通常比RB FEP难，因为需要处理”从无到有”的大跨度变换 FEP Ω对AB FEP的改进（原文第324-325行）： “AB FEP models a continuous target (ΔG) that is inherently more uniform and therefore more amenable to stable ML regression” 即：相比RB FEP，AB FEP的目标函数更光滑、更易学，ML回归更稳定。 ML校正的具体原理与流程校正方程： $\Delta G_{\text{预测}} = \Delta G_{\text{FEP直接计算}} + \Delta G_{\text{ML校正项}}$ 其中： $\Delta G_{\text{FEP直接计算}}$：标准MD/FEP计算的原始结果（如BAR或MBAR估计值） $\Delta G_{\text{ML校正项}}$：ML模型从时间序列描述符预测的系统性物理偏差这个校正项不是随机噪声，而是力场固有的、可学习的系统性欠描述为什么用实验值做target不会导致过拟合：这是一个关键的方法论问题。用实验数据训练ML确实提高了效果，但FEP Ω提出的设计在一定程度上缓解了过拟合风险： ❌ 过拟合风险：如果ML直接记住~30个化合物的实验值，就无法泛化到新的配体和靶点 ✅ 系统性偏差学习：但FEP Ω学到的不是「配体A的亲和力是-8.5 kcal/mol」，而是「力场对这类相互作用系统性欠描述~0.5-1.0 kcal/mol」证据：骨架跃迁实验结果用4xt2和8ck3训练的模型可以准确预测4gs9的陌生配体（完全不同的化学骨架）这证明模型学到的是通用的物理规律，而非数据集特异性的噪声原文强调（第360-361行，第515行）： “FEP Ω captures systematic physical deviations rather than dataset-specific artifacts” 模型训练细节机器学习算法选择：由于数据稀缺（仅~30个历史数据点），FEP Ω限制于经典的浅学习算法，避免过度参数化：岭回归（Ridge Regression）：带L2正则化的线性回归，防止过拟合支持向量回归（Support Vector Regression, SVR）：非线性核方法，能捕捉特征与目标变量间的复杂关系 k-最近邻（k-Nearest Neighbors, kNN）：基于相似化合物的本地预测，对SAR数据友好简单决策树（Simple Decision Trees）：可解释的分层决策，易于理解预测逻辑超参数优化：交叉验证：5折交叉验证（5-fold cross-validation）超参数优化：贝叶斯优化（Bayesian optimization）目标函数：均方误差（Mean Squared Error, MSE）训练样本分割：从~30个化合物中分出训练和测试子集，特别注意确保训练集包含活性上下限的样本（这在小样本中至关重要）性能评估指标： R²（Pearson相关系数平方）：传统指标，但在小数据集中极其敏感，因此不作为主要判断标准 RMSE（均方根误差）：单位为kcal/mol，直接反映预测误差 Spearman Rho（ρ）：秩相关系数，是小数据集中更相关且更稳健的指标，更好地反映化合物排名的保留能力——这正是药物化学设计中的核心需求（排名正确比绝对值准确更重要）闭环迭代改进机制的深度分析闭环过程的三个关键阶段：初期：弱学习器建立基线（~30个数据）从历史实验数据开始训练初始模型虽然样本量小，但弱学习器已能提供相比纯物理方法（BAR、MBAR）的显著改进迭代中期：数据积累与模型自动精化当新的实验结果可用时，新化合物被自动在标准FEP框架内运行模拟模拟得到的时间序列描述符和实验数据一起自动加入ML引擎模型基于扩展的训练集自动重新训练长期效应：捕捉并修正系统物理偏差随着数据积累，ML模型学习和捕捉模拟与实验之间的系统性物理偏差这些偏差包括：力场对特定原子相互作用的欠描述电荷分配的系统误差特定官能团在蛋白质环境中的系统性预测偏移不同蛋白质口袋特征导致的预测系统偏移模型逐步应用针对性的校正来改进未来的预测关键澄清：改进的是什么？改进对象改变否原文依据 ✅ ML预测模型 ✓ 改变 iteratively refines the model ❌ 配体分子本身 ✗ 不改配体结构固定，仅做新的FEP模拟 ❌ MD模拟参数 ✗ 不改模拟协议标准化、固定 —— 这是FEP Ω核心特点 ❌ 力场参数 ✗ 不改 Q-Unity产生的参数基于QM计算，不调优不改 ❌ 对接或MCS策略 ✗ 不改初始结构生成策略保持不变改进的本质：从信息论角度：ML模型学习的是「模拟时间序列描述符与实验结果的系统关联」从物理角度：模型捕捉的是系统性的物理偏差而非随机噪声从统计角度：原文强调这种校正是跨靶点、跨化学空间可转移的，说明模型学到的是通用的物理规律，而非过拟合到特定数据集原文证据： “This robustness, combined with the absence of pre-simulation optimization, positions FEP Ω as a practical and scalable alternative to traditional FEP methods… FEP Ω captures systematic physical deviations rather than dataset-specific artifacts.” 实际应用效果的演化：阶段数据量模型性能应用场景初始 ~30 亚千卡精度，已可用早期化学导向，粗筛中期 50-100 精准度逐步上升结构活性关系（SAR）预测成熟 200+ 高度优化、经验证实时化合物优先级排名常见问题深度解答（Q&A） Q1：为什么消除参数调优反而能改进精准性？ A1：看似矛盾，但逻辑清晰。传统FEP中，”参数调优”本质上是对数据集进行过拟合的过程——你不断调整参数直到特定系列的预测变好。虽然看起来精准，但这些”最优参数”往往不具有泛化性。相比之下，FEP Ω采用标准化物理模拟 + 机器学习校正的策略：标准化模拟确保一致性，无系统特异性调优 ML层学习的是系统性物理偏差（如力场对特定相互作用的欠描述）而非数据集特异性伪影这使得学到的纠正对新化学空间和新靶点同样有效，因此整体性能反而更优 Q2：机器学习需要多少训练数据才能有效？ A2：这是实用性的关键。FEP Ω在仅有~30个化合物的历史实验测量值上训练初始”弱学习器”就已经能改进物理估算器（如BAR或MBAR）。这是样本高效的——相比传统深度学习需要数千甚至数百万数据点，FEP Ω只需要小批量实验标签。 5折交叉验证和贝叶斯优化确保即使在小数据集中也能稳健调优超参数。且一旦有新实验数据，系统自动重新训练，逐步改进。 Q3：为什么只需1-5纳秒的模拟？这足够采样相构空间吗？ A3：这触及FEP Ω设计的深层逻辑：首先，FEP本身是微扰方法，而非绝对自由能计算——它关注的是能量差而非绝对值。这意味着我们不需要进行完整的构象空间采样来估计绝对的自由能，只需要足够的数据来精准估计两个态之间的能量微扰。其次，FEP Ω的智能初始结构定位（MCS对齐+约束对接）确保了配体从化学合理的初始构象开始，最小化了后续平衡过程。这意味着系统从更接近真实结合状态的点出发，1 ns的MD足以完成相对快速的热力学弛豫。第三，ML后处理捕捉的是系统性偏差而非统计噪声——它校正的是力场系统性的欠描述（如电荷分配偏差），而非每次运行的随机波动。这些系统偏差在很短的模拟时间内就已经表现出来，无需长时间模拟来累积统计证据。实验验证：在HIF2α数据集上的收敛性研究明确显示，即使在极短的模拟时间（0.5-1 ns）下，RMSE和Spearman相关性指标已经保持稳定在亚千卡精度，表明非常短的模拟已能捕捉到足够的物理信息。 Q4：Q-Unity力场与传统力场（AMBER、CHARMM）的主要区别是什么？ A4：关键区别在于参数导出的路径。传统力场（AMBER、CHARMM）依赖于大规模的lookup表和经验参数，这些是从历史数据和实验拟合中积累的。虽然这些表已被广泛验证，但它们本质上是为特定类型的分子和相互作用优化的，对于新颖或不寻常的化学取代基泛化性可能有限。 Q-Unity采取了第一性原理方法：对每个分子直接从量子力学计算（xtb）导出参数。这意味着每个化合物都获得定制的、物理上一致的力场，对新颖化学的适应性更强。代价是计算量略高（每个分子需xtb计算），但对于药物发现的通量而言是完全可接受的。 Q5：在您的测试中，为什么AB FEP的表现往往比RB FEP更稳健？ A5：这是一个有趣的统计观察。 RB FEP的目标变量（ΔΔG，相对变化）本质上比AB FEP的目标变量（ΔG，绝对值）更稀疏和离散——它严重依赖于参考配体的选择，参考配体决定了正向和负向转化的平衡。这使得RB FEP对异常值和参考选择的敏感性更高，ML回归在这样的目标上波动更大。相比之下，AB FEP直接预测连续的、相对均匀分布的绝对结合自由能，这对回归算法而言更”易驯服”。从这个角度，AB FEP的内在目标变量特性使其更适合小数据集的ML建模。原文未公开的关键细节 1. 特征工程的完整方法原文表述：the ML component operates directly on simulation-derived descriptors 具体缺失的信息：描述符列表的完整定义特征提取的确切算法维度约简的方法（如果有的话）特征选择的标准这些信息很可能是Sentauri的专有商业秘密，限制了该方法的独立复现。 2. 体系搭建的具体工具虽然原文描述了完整的自动化流程，但并未明确指定体系准备的具体软件工具：用于SMILES标准化的工具（RDKit、OpenEye、Chemaxon等）蛋白质准备的具体软件对接软件的详细参数水分子保留/移除的自动化判断标准 3. GROMACS模拟的完整参数原文只给出了概括性的描述，缺少以下细节：力常数的具体数值 Parrinello-Rahman偶联常数（τ值）截断距离和长程相互作用处理方式具体的热浴和压力调节器参数 4. ML模型集成策略原文提到使用多个算法（岭回归、SVR、kNN、决策树），但没有说明：如何在多个模型间选择或集成是否使用了投票、加权平均或堆叠等集成方法各算法的超参数具体范围方法论上的重要对比 FEP Ω vs. FEP+的对标分析 Schrödinger的FEP+基准来自于广泛的参数优化，无论是手工还是通过协议构建器（FEP-PB）。两种情况下，模拟协议都使用同一数据集迭代调优，报告的指标实际上反映了数据集内拟合。虽然FEP+被称为物理基础方法，但这种调优实际上引入了人工引导的学习成分，与机器学习的精神相似。相比之下，FEP Ω采取了不同的路径：标准化模拟，完全无参数调优仅在模拟后进行学习，确保无隐藏的前置调优偏差 FEP Ω报告的指标来自样本外测试数据，提供独立的泛化性能评估这种评估方法相对更严格，但实际应用价值仍需进一步验证。局限性与未来展望当前的制约因素小数据集的ML回归边界：即使是30个化合物的训练集在某些情况下仍可能面临统计鲁棒性问题，尤其是在特别不寻常的化学空间中溶剂环境的简化：当前使用SPC/E显式水，对于包含特殊溶剂或复杂膜系统的应用可能需要扩展蛋白质灵活性和构象选择：虽然流程自动化，但蛋白质入射构象的选择仍然关键，复杂的多状态结合或大幅构象变化可能需要额外考虑集成有机物的参数化：某些高度优化或非常规的化学物质可能仍需手工检查xtb衍生的参数特征工程的透明性：关键的特征列表和工程方法未公开，限制了学术复现和独立验证可能的改进方向更大规模的数据积累：跨多个项目和靶标积累更多实验数据，进一步验证泛化性特征工程的开源化：如果Sentauri愿意公开特征工程方法，将大大促进该方法的学术采用和改进拓展到更复杂的系统：膜蛋白、蛋白质-蛋白质相互作用、RNA结合等多目标优化：不仅预测结合亲和力，还预测代谢稳定性、溶解度等ADMET性质不确定性量化：为预测提供置信区间，帮助决策者评估风险补充：为什么纯计算方法难以训练ML模型用户的关键问题：”如果我没有实验数据，纯靠计算，用这个也没法训练吧？” 回答：完全正确。这是FEP Ω方法的根本局限： ❌ 纯计算无法启动：没有实验标签（experimental binding affinities），ML无法学习任何东西，甚至无法定义”系统性物理偏差” ✅ 需要实验数据作为基础：初始~30个化合物的实验测量值是启动ML学习的必要条件 📈 然后可以迭代改进：有了初始模型，后续新化合物的预测可以指导合成，实验验证后反过来改进模型这是FEP Ω的核心前提：它不是替代传统药物发现流程（计算→合成→实验→迭代），而是加速这个流程的计算环节。对于完全新颖的靶点或化学空间，如果没有任何历史实验数据，FEP Ω最初可能无法提供比原始FEP更好的预测。但一旦有了初始数据，它就开始发挥优势。

Free Energy · 2025-11-02

OpenFE蛋白质-配体结合自由能计算基准构建的最佳实践

【OpenFE】蛋白质-配体结合自由能计算基准构建的最佳实践本文信息标题：构建、准备和评估蛋白质-配体结合亲和力基准的最佳实践作者：David F. Hahn, Christopher I. Bayly, Melissa L. Boby, 等发表时间：2022年8月30日单位：Janssen Research & Development (比利时), OpenEye Scientific Software (美国), Memorial Sloan Kettering Cancer Center (美国) 等引用格式：Hahn, D. F., Bayly, C. I., Boby, M. L., Macdonald, H. E. B., Chodera, J. D., Gapsys, V., Mey, A. S. J. S., Mobley, D. L., Perez Benito, L., Schindler, C. E. M., Tresadern, G., & Warren, G. L. (2022). Best Practices for Constructing, Preparing, and Evaluating Protein-Ligand Binding Affinity Benchmarks. Living Journal of Computational Molecular Science, 4(1), 1497. https://doi.org/10.33011/livecoms.4.1.1497 源代码与数据集： LiveCoMS 文档：https://github.com/openforcefield/protein-ligand-benchmark-livecoms 基准数据集 (protein-ligand-benchmark)：https://github.com/openforcefield/protein-ligand-benchmark 分析工具包 (arsenic)：https://github.com/openforcefield/openff-arsenic 摘要自由能计算正迅速成为结构辅助药物发现项目中不可或缺的工具。随着新方法、力场和实现方案的不断发展，在真实世界系统上评估其准确性（即基准测试）变得至关重要。这不仅为用户提供了在方法适用领域内预期的准确性评估，也为开发者评估新方法学的潜在影响提供了途径。然而，构建一个高质量的基准集——包含精心准备的高质量体系及相应的实验测量数据——是确保计算结果能真实反映预期性能的关键。迄今为止，整个领域尚未采用一个共同的标准化基准，现有的基准报告存在数据质量差、统计功效有限和分析方法有缺陷等诸多问题，这些都可能导致基准测试结果无法准确预测真实世界的性能。本文旨在解决这些问题，提出了三大指导方针：（1）筛选实验数据以建立有意义的基准集；（2）按照最佳实践准备基准输入文件，以促进其广泛应用；（3）对预测结果进行统计学稳健分析，以便在不同方法和力场之间进行有意义的比较。我们还提供了一个经过筛选、版本化、开源的标准化基准集（protein-ligand-benchmark）和一个用于实施标准化最佳实践评估的开源工具包（arsenic），供社区作为标准化评估工具使用。背景在计算机辅助药物发现（CADD）领域，定量预测蛋白质-配体结合亲和力是一项核心任务。准确的亲和力预测能够显著加速药物发现的临床前阶段，通过优先合成那些有望提高或维持活性的化合物，从而节约大量时间和研发成本。在众多计算方法中，基于分子模拟的炼金术自由能计算（Alchemical Free Energy Calculations），特别是相对结合自由能（RBFE）和绝对结合自由能（ABFE）计算，已成为最有前途的工具之一。尽管炼金术自由能计算在理论上非常严谨，并且在许多研究中取得了令人鼓舞的成功（例如，在一些精心挑选的体系上，Schrödinger的FEP+预测的平均无符号误差小于1.2 kcal/mol），但该领域长期以来面临着一个严峻的挑战：缺乏统一、高质量的基准（benchmark）和标准化的评估流程。研究人员在开发或验证新方法时，往往使用各自挑选的数据集，这些数据集的质量参差不齐，实验数据来源各异，结构准备过程不透明，分析方法也五花八门。这导致了不同研究之间的结果难以直接比较，方法的真实性能被高估或低估，最终阻碍了整个领域的健康发展。现有的基准测试实践普遍存在以下问题：实验数据质量问题：混合使用来自不同实验室、不同检测方法（assay）的活性数据；未能排除超出检测限的数据点；忽略实验误差。结构数据问题：使用低分辨率或存在明显错误的晶体结构；对蛋白质和配体的准备（如质子化状态、互变异构体、缺失环区处理）缺乏统一标准和详细记录。统计分析缺陷：数据集规模太小，统计功效不足；动态范围（dynamic range）过窄，导致相关性指标虚高；对相对自由能计算结果使用不恰当的统计指标（如R²），其结果会因计算方向的任意选择而改变。这些问题共同导致了一个困境：我们很难确定一个计算方法的失败究竟是源于方法本身的缺陷，还是因为所使用的基准数据质量太差。因此，建立一套关于如何构建、准备和评估蛋白质-配体结合亲和力基准的”最佳实践”指南，并提供一个遵循这些指南的、开放的、标准化的基准集，对于推动自由能计算乃至整个药物发现领域的发展都至关重要。关键科学问题本文旨在系统性地解决以下核心科学问题：如何构建一个科学上严谨、统计上可靠、且能被社区广泛接受的蛋白质-配体结合亲和力计算基准，并建立一套标准化的评估流程？这个问题可以分解为三个子问题：数据筛选的标准是什么？如何从海量的实验数据中筛选出高质量的结构数据和活性数据，以确保基准的”金标准”是可靠的？系统准备的最佳实践是什么？如何以一种可复现、标准化的方式处理蛋白质和配体结构，为分子模拟生成高质量的输入文件，最大限度地减少人为操作引入的偏差？结果评估的正确方法是什么？应该使用哪些统计指标来公正地评估计算方法的性能？如何正确地解释这些指标，并进行置信区间估计，以避免得出错误的结论？创新点首次系统性地提出了基准构建的全流程最佳实践指南：涵盖了从实验数据筛选、结构准备、模拟设置到最终统计分析的每一个关键环节。区分了”验证”、”基准测试”和”应用”：清晰地界定了这三个概念，强调了基准测试应使用高质量、接近真实世界应用但经过充分研究的系统。提供了具体的、可操作的数据质量评估标准：针对结构数据（如分辨率、R-free、坐标误差、电子云密度）和活性数据（如单一来源、动态范围、数据点数量）给出了量化建议。发布了开源、版本化的基准集和分析工具：提供了protein-ligand-benchmark数据集和arsenic分析工具包，为社区提供了一套立即可用的标准化资源，促进了研究的可复现性和可比性。强调了统计分析的严谨性：详细阐述了不同统计指标的适用场景和局限性，特别是指出了对相对自由能使用相关性统计的谬误，并提倡使用自举法（Bootstrapping）来估计置信区间。研究内容本文的核心内容并非提出一种新的计算方法，而是为整个领域建立一套”游戏规则”。作者将构建一个高质量基准的过程分解为数据选择、系统准备和结果分析三个主要阶段，并为每个阶段提供了详细的指导方针。 mindmap root)基准构建最佳实践( (1.高质量数据集选择) (1.1.结构数据筛选) [全局质量指标] 分辨率小于3.5Å R-factor与R-free差值小于0.05 坐标误差小于0.7Å Iridium分类HT或MT [局部质量指标] 完整性无缺失残基电子云密度RSCC大于0.9 避免晶体堆积效应排除共价配体 (1.2.亲和力数据筛选) [数据一致性] 强烈推荐单一来源避免混合不同assay的数据 [数据类型] 优先使用生物物理数据如Kd 谨慎使用IC50需Cheng-Prusoff转换 [统计功效] 数据点数量理想25-50个动态范围理想大于5kcal/mol 考虑实验不确定性约0.64kcal/mol (2.可靠的系统准备) (2.1.蛋白质准备) 处理缺失残基如Loop建模处理交替构象即AltLocs 确定质子化状态 (2.2.配体准备) 确认化学结构确定质子化与互变异构状态 (2.3.复合物构建) 溶剂化与加离子匹配assay条件能量最小化与平衡 (3.稳健的结果分析) (3.1.可视化标准) 统一坐标轴尺度和单位包含计算和实验误差棒每个靶点单独绘图 (3.2.统计指标选择) 准确性指标通用RMSE和MUE 相关性指标仅ABFE可用 RBFE禁用相关性指标 (3.3.置信区间估计) 强烈推荐自举法Bootstrapping 报告95%置信区间用于判断统计显著性该图清晰地界定了在计算方法评估中常被混淆的三个核心概念：验证（Validation）、应用（Application）和基准测试（Benchmarking）。验证侧重于在理想化的小体系（toy systems）上对方法进行严格测试，其优点是能够实现完全收敛且易于排查问题，但缺点是脱离了真实世界的复杂性。应用则是指在实际的药物研发等项目中使用该方法，它直面真实世界的挑战，但结果的好坏可能受到数据质量、体系适用性等多重未知因素的影响。而基准测试则作为两者的桥梁，它使用经过精心筛选、具有高质量实验数据的真实世界体系，旨在评估一个方法在”理想化的真实世界”中的性能上限，从而为该方法在常规”应用”中的表现提供一个可靠的预期。图1：本指南中使用的验证（Validation）、应用（Application）和基准测试（Benchmarking）定义的图示。对于每个术语，其定义、在方法评估方面的优点（绿色）和潜在缺点（红色）分别在三个面板中列出。验证（左上面板）使用的系统能够确信地收敛，预期结果已知，且潜在问题被充分理解。应用（左下面板）则使用真实世界系统，并使方法能够在感兴趣的真实世界应用中得到持续评估。基准测试（右面板）通过旨在评估真实世界应用相对于实验的准确性，在实验数据质量不受限制且已知方法在其适用领域内应用的案例中，桥接了验证和应用。阶段一：高质量数据集的选择 (Dataset Selection) 构建一个可靠基准的第一步是确保输入的数据本身是高质量的。这包括蛋白质结构数据和配体结合亲和力数据。图2：五个不同靶点的配体对（A, B），每对配体用于一个靶点，其结构差异在模拟中可能具有挑战性。(A) Eg5：电荷变化，(B) SHP2：电荷移动，(C) PDE10：连接子变化，(D) HIF2a：环的生成，(E) CDK8：环的大小变化。 1. 蛋白质结构数据的筛选 (Structural Data) 自由能计算对初始结构的质量极为敏感。作者建议使用多重标准来评估和筛选PDB数据库中的晶体结构。全局质量指标: 分辨率 (Resolution): 传统上被用作首要标准，但它只提供了理论极限，并不能完全反映模型的质量。建议与其他指标结合使用，例如分辨率优于 3.5 Å。 R-factor 和 R-free ($R_{free}$): $R_{free}$ 是评估模型是否过拟合的关键指标。通常，$R_{free}$ 与R-factor的差值应小于0.05。坐标误差 (Coordinate Error): 这是评估模型精度和质量的最佳方式之一，可以通过密度精度指数 (DPI) 计算得出。一个高质量结构的坐标误差应小于 0.7 Å。 Iridium 分类: OpenEye提出的一个综合评分系统，将结构分为高可信 (HT)、中等可信 (MT) 和不可信 (NT) 三类。基准集应至少选用MT级别的结构，理想情况下为HT。该分类基于一系列标准进行评分，但本文未详述具体指标，而是引用了其原始文献。图3：PDB结构验证报告百分位得分面板，对比Jnk1靶点的两个结构（2GMX和3ELJ）。(A) 2GMX是一个相对于PDB中所有相似分辨率结构而言排名较差的结构。(B) 相比之下，3ELJ与PDB中相似分辨率或所有结构相比，质量相当或更好。局部（活性位点）质量指标: 完整性: 活性位点附近（例如配体原子6-8 Å范围内）不应有缺失的残基或侧链原子。电子云密度: 配体的电子云密度应至少覆盖其90%的原子中心（例如，真实空间相关系数RSCC > 0.90）。密度差（Fo-Fc map）中不应有无法解释的大块正或负密度。晶体堆积效应: 应检查是否有来自相邻晶胞的原子与配体或活性位点发生相互作用，这可能会影响其天然构象。共价配体: 应避免使用共价结合的配体，因为其模拟处理更为复杂，超出了标准基准的范畴。图4：使用X射线晶体结构时遇到的常见挑战示例。(A) PDB ID 4PV0在活性位点显示出较差的电子云密度（3σ水平）。(B) 推荐的同一蛋白的结构PDB ID 4PX6则对整个loop具有完整的密度（3σ水平）。(C) PDB ID 5E89显示出较差的配体密度。(D) PDB ID 1SNC的配体与邻近单元的残基K70和K71（蓝色）有晶体接触，直接与配体相互作用，可能影响其在溶液环境中的结合模式。(E) PDB ID 3ZOV有两个备选的侧链构象。(F) 在PDB ID 5HNB中，有一个赋形剂（甲酸）直接与配体相互作用。图5：使用X射线晶体结构进行配体建模时遇到的挑战示例。(A) 在PDB ID 3FLY中，存在显著的差异密度，可能表明配体构象建模不正确。(B) 建议的同一蛋白的备选结构PDB ID 6SFI没有差异密度。(C) PDB ID 2ZFF在结合口袋中显示出无法解释的电子密度（差异图，中心底部，青色）。 2. 实验结合亲和力数据的筛选 (Experimental Binding Affinity Data) 实验数据是评判计算结果的”金标准”，其自身的质量直接决定了基准测试的上限。数据一致性: 强烈推荐使用单一来源的数据（如同一篇论文或同一个专利）。从业者可能倾向于将所有可用的测量数据（例如从ChEMBL查询得到的数据）拼凑在一起，以构建一个统计功效足够的数据集，但这种做法通常应该被抵制。因为不同实验室的检测条件或方案可能不具有可比性，例如，这些差异可能源于底物浓度、所用的蛋白质构建体、孵育时间或缓冲液的组成，而且这些细节在报道的实验方法中可能没有被充分记录。这些因素会引入难以量化的系统性偏差，导致基准的”金标准”本身变得不可靠。图6：实验不确定性可能在0.64 kcal/mol量级。该图比较了COVID moonshot项目中365个分子通过两种不同方法测定的结合亲和力。在一个assay中预测会结合但在另一个assay中无活性的分子以蓝色显示。两种方法之间的RMSE为0.64 kcal/mol。数据类型：理想情况下应使用生物物理方法直接测定的解离常数，如 $K_d$ (来自ITC, SPR等)。由于生物物理数据稀少，通常不得不使用功能性assay测得的半数抑制浓度 $IC_{50}$。此时，需要通过 Cheng-Prusoff方程将其转换为抑制常数 $K_i$，并假设 $K_i \approx K_d$。对于相对自由能计算，由于体系内偏移是系统性的，可以直接比较 $\Delta\Delta G$ 与由 $IC_{50}$ 算出的相对能量差。 \[K_i = \frac{IC_{50}}{1 + \frac{[S]}{K_m}}\] 统计功效 (Statistical Power)：数据点数量：为获得具有较小置信区间的稳健统计结果，推荐数据集大小在25到50个配体之间。动态范围 (Dynamic Range)：数据集的活性范围要足够宽，才能有效地区分不同方法的性能。考虑到典型的实验误差，推荐的动态范围至少为 $3.0 \mathrm{kcal/mol}$，理想情况下大于 $5.0 \mathrm{kcal/mol}$。过窄的动态范围会导致 $R^2$ 等指标的上限（$R^2_{max}$）很低，使得方法之间的比较失去意义。统计功效（statistical power）是指，在假设检验中，当原假设错误时，接受正确的备择假设的概率。 #### 公式的通俗解释一个数据集理论上能达到的最高 $R^2$ 值 ($R^2_{max}$) 受其自身的数据质量限制。它由数据点的离散程度（亲和力标准差 $\sigma(\text{affinity})$）和实验测量的不确定性（测量误差标准差 $\sigma(\text{measurement error})$）共同决定。 $$ R^2_{max} = 1 - \frac{\sigma(\text{measurement error})^2}{\sigma(\text{affinity})^2} $$ 这个公式告诉我们，如果实验误差相对于数据本身的分布范围过大，那么即使是完美的预测模型，其 $R^2$ 也无法达到1。图7：实验不确定性越大，给定 $R^2{max}$ 所需的亲和力范围就越大。该图展示了 $R^2{max}$ 如何受亲和力标准差 $\sigma(\text{affinity})$ 和测量误差标准差 $\sigma(\text{measurement error})$ 的限制。实验不确定性：应尽可能获取并报告实验测量误差。若无，可参考文献中报道的典型重现性误差，约为 $0.64 \mathrm{kcal/mol}$。对于相对自由能的比较，两个独立测量的误差会进行传递，总误差为 $\sqrt{\sigma_{1}^{2}+\sigma_{2}^{2}}$。图8：数据集越大，性能统计的不确定性越小。(A) Kendall $\tau$ 和 (B) RMSE 的置信区间随数据集大小N的变化。(C-E) 展示了一个N=10的特例，说明即使误差棒重叠，通过成对的自举分析也可能发现统计学上的显著差异。基于以上标准，作者评估了多个先前研究中常用的数据集，并将其质量进行了标注。表1：对提议的基准集中结构和活性实验数据质量的评估。该表详细列出了多个靶点（如BACE, CDK2, Jnk1等）所使用的PDB结构及其质量指标（Iridium分类和分数、DPI），并推荐了更高质量的备选结构。同时，它也列出了每个靶点配体集的信息，包括配体数量(N)、动态范围(DR)和模拟的RMSE，并用颜色编码（深绿、浅绿、红）标注了质量等级。例如，Jnk1使用的2GMX结构被评为NT（不可信），而推荐的备选结构3ELJ则质量更高。BACE_P2的动态范围仅为0.8 kcal/mol，质量为”低”。阶段二：可靠的系统准备 (Structure Preparation) 将筛选出的实验结构转化为可用于模拟的计算模型是充满挑战的一步，任何疏忽都可能导致计算失败。 ```mermaid graph TD subgraph “输入” direction LR A[“蛋白质X射线结构(PDB)”] B[“配体化学结构(SMILES/SDF)”] end 阶段二：可靠的系统准备 (Structure Preparation) 系统准备包括蛋白质准备、配体准备和复合物构建三个主要步骤。阶段三：稳健的结果分析 (Analysis) 1. 统计指标的选择准确性指标: RMSE和MUE适用于所有类型的自由能计算。相关性指标: $R^2$, Kendall等仅适用于ABFE，不推荐用于RBFE。 2. 置信区间估计应使用自举法（Bootstrapping）来估计统计量的不确定性，报告95%置信区间。关键结论基准测试的成败始于数据质量：必须采用严格的标准来筛选实验结构和活性数据。标准化系统准备至关重要：蛋白质和配体的准备过程必须谨慎、可复现。统计分析必须严谨：应优先使用准确性指标，所有统计量都必须附带置信区间。社区合作是未来方向：作者通过发布开源工具和基准集，呆呐社区共同参与。

Free Energy · 2025-10-08

FE-ToolKit：分析高维自由能表面和炼金术自由能网络的多功能软件套件

FE-ToolKit：一个用于分析高维自由能表面和炼金术自由能网络的多功能软件套件 📖 本文基本信息摘要自由能模拟在酶设计、药物发现和生物分子工程等多种生物学应用中发挥着关键作用。要表征复杂酶促反应机理背后的高维自由能表面，需要通过伞形采样或弦方法模拟进行广泛的采样。准确地对大型配体库的靶标结合自由能进行排序，则依赖于组织成热力学网络的全面炼金术自由能计算。这些方法的预测准确性取决于强大且可扩展的工具，用于进行全网络数据分析并从异构模拟数据中提取物理性质。在这里，我们介绍了FE-ToolKit，一个多功能的软件套件，用于自动分析自由能表面、最小自由能路径和炼金术自由能网络（热力学图）。引用信息 Giese, T. J., Snyder, R., Piskulich, Z., Barletta, G. P., Zhang, S., McCarthy, E., Ekesan, Ş., & York, D. M. (2025). FE-ToolKit: A Versatile Software Suite for Analysis of High-Dimensional Free Energy Surfaces and Alchemical Free Energy Networks. Journal of Chemical Information and Modeling, 65(17), 5273–5279. https://doi.org/10.1021/acs.jcim.5c00554 引言在现代计算化学与生物物理学领域，自由能计算是理解和预测分子识别、反应机理及构象动力学等核心科学问题的基石。然而，这些计算本身面临着巨大的挑战，主要源于分子构象空间的广阔性以及对稳健统计方法和严格误差分析的内在需求。为应对这些挑战，FE-ToolKit应运而生。它是一个综合性的集成软件包，旨在为两类主要的计算问题——高维自由能面（Free Energy Surface, FES）的表征和炼金术自由能网络的分析——提供一个模块化、面向工作流程的解决方案生态系统。本报告将遵循该工具包的结构，深入剖析其三个核心组成部分：首先是利用ndfes程序进行自由能面的构建与分析；其次是采用edgembar程序执行可扩展的炼金术网络计算；最后是介绍fetkutils中一系列增强计算效率与数据质量的辅助工具。为了给读者提供一个清晰的概览，下表总结了FE-ToolKit生态系统中的关键程序及其核心功能。表1：FE-ToolKit程序生态系统程序/脚本核心功能 ndfes 使用MBAR/vFEP方法，根据伞形采样数据计算N维FES。 ndfes-path-analyzesims.py 为表面加速弦方法（SASM）提取当前迭代的样本并准备ndfes元文件。 ndfes-path 在静态FES上优化最小自由能路径，并为下一次迭代生成新的模拟输入。 edgembar 对单个炼金术变换（“边”）进行MBAR分析，并生成其有效目标函数。 edgembar-WriteGraphHtml.py 执行炼金术自由能的网络范围分析，并生成交互式HTML报告。 fetkutils-tischedule.py 优化炼金术自由能计算中的λ调度，以提高采样效率。 ndfes-AvgFESs.py 平均多个独立的FES，并根据试验间的方差调整不确定性。 ndfes-CombineMetafiles.py 将多个元文件合并为一个，以聚合采样数据。 ndfes-PrintFES.py 将FES检查点文件中的数据打印为人类可读的文本格式。 Figure 1. FE-ToolKit consists of ndfes for calculating N-dimensional free energy surfaces, edgembar for analyzing alchemical free energy networks using the EdgeMBAR method, and FE-ToolKit utilities (fetkutils) for optimizing schedules of alchemical states. 第一部分：使用ndfes构建和分析自由能形貌 ndfes是FE-ToolKit中用于将偏置模拟（biased simulation）数据转化为有意义的多维自由能面（Free Energy Surface, FES），并识别其上最可能转变路径的核心组件。本节将详细阐述其理论基础、核心方法及实现细节。 1.1 伞形采样与集体变量（CVs）的原理伞形采样（Umbrella Sampling）是一种成熟的增强采样技术，常用于计算分子构象变化、化学反应或分子解离/结合等过程的自由能。它通过施加人工偏置势（biasing potential）来克服高自由能垒，从而确保沿特定过程坐标的充分采样。在FE-ToolKit的语境中，这些过程坐标被称为“反应坐标”（Reaction Coordinates）或更广为人知的“集体变量”（Collective Variables, CVs）。CVs是描述所研究过程的一组低维坐标。本文中的示例并未指定具体的分子体系（例如，某个特定的蛋白或反应），而是作为通用教程进行展示。但其中使用的CVs是该领域的典型代表，例如以埃（Å）为单位的原子间距离，或以度（degrees）为单位的角度或二面角。 1.2 从偏置数据到无偏表面：MBAR与vFEP方法核心问题是如何将来自多个独立的、仅探索了CV空间小范围的偏置模拟数据，整合成一个全局的、无偏的自由能面。FE-ToolKit为此提供了两种功能强大且互为补充的先进方法。多态贝内特接受率（MBAR）方法 MBAR 是一种在统计上被证明是最优的数据重权（reweighting）技术。其核心思想是：所有偏置模拟（每个模拟是一个“态”）的采样数据可以被汇集起来，通过一个优化的权重因子，来估计任何一个“态”（包括我们最感兴趣的无偏物理态）的性质。详细的原理见下一篇推送。变分自由能剖面（vFEP）方法 vFEP是一种参数化方法，与MBAR不同，它不直接计算离散点的概率，而是假设整个自由能表面（FES）可以用一个全局的、连续光滑的解析函数 $F_h(\xi;p)$ 来建模。其核心思想是通过光滑函数拟合能量地貌，类似于用一条平滑的数学曲线或曲面来拟合整个能量地形。 vFEP通过最大化观测到所有偏置模拟样本的对数似然函数来找到最优的函数参数 $p$。该方法使用基数B样条作为基函数来构建全局函数 $F_h(\xi;p)$。B样条是一种标准化的、柔性的“曲线积木”，每个基函数在空间的一小块区域内有值，其他地方为零，特别适合描述规则网格上的函数。详细的原理见下一篇推送。 vFEP与MBAR互补。MBAR是非参数化的，忠实于原始数据，但在数据稀疏区域可能结果不连续或噪声多；vFEP是参数化的，假设FES平滑，能提供平滑连续的表面并便于后续分析，但可能引入模型偏见。用户可根据具体问题选择合适工具或联合使用进行交叉验证。 1.3 寻找最优路径：表面加速弦方法（SASM）在获得了FES之后，下一个重要任务是识别连接两个稳定态（如反应物和产物）的最小自由能路径（Minimum Free Energy Path, MFEP）。ndfes-path 程序为此实现了弦方法的一个先进变体——表面加速弦方法（SASM）。 SASM的迭代过程 SASM的迭代流程针对的是一个特定的反应过程或构象转变（例如一个蛋白的开闭运动，或一个配体的解离路径），而不是一次性处理多个不同的配体。其核心思想是，它将路径（“弦”）的表示与用于生成FES的伞形采样解耦。它的可靠性来源于一个“数据驱动的、渐进精化的”迭代过程：初始猜测与采样：基于一个初始猜测的路径进行初步的伞形采样。聚合与分析：使用ndfes-path-analyzesims.py脚本收集当前及所有先前迭代的全部采样数据。随后，运行ndfes程序，基于这些聚合数据计算出当前对全局FES的最佳估计。路径优化：ndfes-path程序读取步骤2中生成的静态FES，并在此固定的表面上优化弦的位置，以找到当前对MFEP的最佳估计。采样精化与迭代：最后，ndfes-path生成新的模拟输入文件。这些文件会在新优化的路径周围放置新的伞形采样窗口以提高路径局部的分辨率，或在路径的末端进行采样以将其扩展到未探索的区域。随后返回步骤2，进行下一轮迭代。这个策略通过利用全部历史数据来不断修正全局FES，确保路径优化总是在最可靠的表面上进行，从而防止路径在FES定义不清的区域中“迷失”，加速收敛至真实的MFEP。 graph LR %% 定义节点和边的样式 classDef startNode fill:#E8F8F5,stroke:#16A085,stroke-width:2px,font-family:SimHei classDef processNode fill:#EAF2F8,stroke:#5499C7,stroke-width:2px,font-family:SimHei classDef loopArrow stroke:#E74C3C,stroke-width:2.5px,stroke-dasharray: 5 5 %% 节点定义 A("1.初始猜测与采样 基于初始路径进行初步伞形采样") B["2.聚合与分析 程序：ndfes-path-analyzesims.py 与 ndfes 聚合所有历史数据并计算全局FES"] C["3.路径优化 程序：ndfes-path 在固定的FES上优化路径"] D["4.采样精化 程序：ndfes-path 生成新的伞形采样窗口"] %% 流程连接 A --> B B --> C C --> D D -- "返回步骤2 进行下一轮迭代" --> B %% 为节点和边应用样式 class A startNode class B,C,D processNode linkStyle 3 stroke:#c0392b,stroke-width:2px 1.4 最终的自由能面：结构与内容 ndfes的最终输出是一个离散化的多维网格，存储在一个信息详尽的XML格式的检查点文件中。这个输出远不止是能量值，网格中的每个“箱”（bin）都包含了用于分析和质量评估的丰富数据。表1：一个ndfes FES箱的数据结构（MBAR模型）数据字段描述与单位重要性 Bin坐标 (<bidx>) 标识箱在多维网格中位置的一组整数索引。定义了FES上的一个特定离散点。自由能 (<val>) 箱中心的自由能值，单位为kcal/mol。计算的主要结果，描述了该状态的相对稳定性。标准误差 (<err>) 自由能值的不确定性，通过自助法（bootstrap）估计，单位为kcal/mol。衡量结果的统计置信度，是误差分析的关键。 Bin布居数 (<size>) 落入该箱的原始样本数量。表明该区域的采样质量；数量过少可能意味着结果不可靠。重权熵 (<re>) 一个介于0和1之间的无量纲数。衡量不同偏置模拟之间的重叠程度，越接近1越好。第二部分：使用edgembar进行网络范围的炼金术计算 FE-ToolKit 的 edgembar 组件为相对自由能计算提供了一个强大且可扩展的解决方案，尤其适用于处理大规模的配体结合或溶剂化能研究。 2.1 炼金术网络范式为了计算相对结合或溶剂化自由能，通常会构建一个热力学循环。这些计算可以被直观地表示为一个图形网络：网络中的节点（nodes）代表不同的分子（如配体），而连接两个节点的边（edges）则代表在这两个分子之间进行的炼金术转换。每条边关联的值是相对自由能差，记为 $\Delta\Delta G$。例如，在计算相对结合自由能时，该值定义为 $\Delta\Delta G_{(ab)} = \Delta G_{(ab),protein} - \Delta G_{(ab),water}$。这个值直接反映了配体 B 相对于配体 A 与靶标蛋白结合的优势或劣势程度。 2.2 EdgeMBAR 方法：一种可扩展的网络分析策略当我们需要比较一系列配体（例如候选药物分子）与同一靶点的结合能力时，通常会构建一个“炼金术自由能网络”。edgembar 是 FE-ToolKit 中为此类任务量身定做的核心组件。它采用了一种创新性的 EdgeMBAR 方法，将复杂的网络分析问题分解为几个清晰、高效的步骤。 graph TD %% 定义节点样式 classDef inputNode fill:#FEF9E7,stroke:#F39C12,stroke-width:2px,font-family:SimHei classDef stepNode fill:#EAF2F8,stroke:#5499C7,stroke-width:2px,font-family:SimHei classDef innovationNode fill:#E8DAEF,stroke:#8E44AD,stroke-width:2px,font-family:SimHei classDef solveNode fill:#D5F5E3,stroke:#229954,stroke-width:2px,font-family:SimHei classDef outputNode fill:#E8F8F5,stroke:#16A085,stroke-width:2px,font-family:SimHei %% 节点定义 A("炼金术自由能网络 包含所有边的原始模拟数据") B["步骤一：隔离与表征 对每一条边独立进行MBAR分析 得到无约束自由能 g(ab)"] C["步骤二：抽象为有效模型 (核心创新) 将每条边的复杂目标函数 近似为简单的二次函数 提取 g(ab) 和置信度 k(ab)"] D["步骤三：线性代数求解 整合所有边的 g 与 k 信息 构建并求解全局线性方程组"] E("最终网络解 c 得到所有配体全局一致的 有约束自由能(CFE)") %% 流程连接 A --> B B --> C C --> D D --> E %% 为节点应用样式 class A inputNode class B stepNode class C innovationNode class D solveNode class E outputNode 步骤一：隔离与表征（Isolation & Characterization）在这一阶段，edgembar 将复杂的网络拆解开，对其中的每一条“边”（edge）进行独立的、高精度的分析。通俗解释：可以把构建整个自由能网络比作绘制一幅完整的国家地图。传统方法可能试图一次性测量和绘制所有省份，计算量巨大且容易出错。EdgeMBAR 则更像“分而治之”：它先向每个省（每一条边）派出一位独立的“本地勘探专家”。这位专家只负责深度勘探自己省内的地形，完全不受邻省情况的干扰。技术实现：对于网络中任意一条代表“配体 a → 配体 b”转换的边 (ab)，程序首先会构建其完整的“边目标函数” $F_{(ab)}(G_{(ab)})$。该函数是这条边所有相关模拟试验（包括不同环境、阶段和重复试验）的 MBAR 目标函数的总和。通过最小化这个局部的目标函数（$G_{(ab)}^{} = \arg\min F_{(ab)}(G_{(ab)})$），可以得到该边在完全独立、不受网络中其他边影响时的无约束相对自由能（unconstrained relative free energy），记为 $g_{(ab)} = \Delta\Delta G_{(ab)}^{}$。这代表了这条边基于其自身模拟数据得出的“最真实”的自由能值。步骤二：抽象为有效模型（Abstraction to an Effective Model）这是 EdgeMBAR 方法的核心创新所在。在进行全局网络分析时，程序并不直接使用那个包含了所有原始数据、形式复杂的 $F_{(ab)}$，而是用一个极其简单的二次函数（即抛物线）来近似模拟其在最小值 $g_{(ab)}$ 附近的行为。通俗解释：那位“本地勘探专家”在完成详细勘探后，并不会把所有密密麻麻的原始测绘数据都上报给总部。他只提交一份极其凝练的报告：“我省的平均海拔是 $g_{(ab)}$，我对这个值的置信度是 $k_{(ab)}$。” 技术实现：这个近似的二次“有效目标函数”形式如下： \[\tilde{F}_{(ab)}(x) \approx F_{(ab)}(G_{(ab)}^{*}) + \frac{k_{(ab)}}{2}(x - g_{(ab)})^{2}\] 这个简单的抛物线精确地抓住了关于这条边计算结果的两个最关键信息：最可能的自由能值 ($g_{(ab)}$)：即抛物线的最低点位置，代表了独立的边分析给出的最佳估计值。结果的置信度或精度 ($k_{(ab)}$)：这是抛物线的“力常数”，决定了曲线的陡峭程度。$k_{(ab)}$ 越大，抛物线越“瘦削”，意味着微小的自由能偏差 $x - g_{(ab)}$ 都会导致目标函数值急剧上升。这表明模拟数据非常肯定地指向 $g_{(ab)}$ 这个值，因此该计算结果的置信度越高、统计误差越小。反之，一个平坦的抛物线（$k_{(ab)}$ 很小）则代表了较大的不确定性。步骤三：可扩展的线性代数求解（Scalable Linear Algebra Solution）通过将网络中的每一条边都抽象成一个简单的二次函数，原本棘手的、需要处理海量原始数据的非线性优化问题，被神奇地转化为了一个可以解析求解的线性代数问题。通俗解释：总部现在收到了来自所有省份的标准化报告（$g_{(ab)}$ 和 $k_{(ab)}$）。为了绘制一张全局一致的国家地图，总部只需执行一个简单的“加权平均”过程：找到一组能最好地同时满足所有本地报告，且优先采纳那些置信度（$k_{(ab)}$ 值）更高的报告的“官方海拔值”（$c_a, c_b, \dots$）。技术实现：整个网络的全局目标函数现在是所有边的有效目标函数之和，这是一个简单的二次型： \[F_{\text{graph}}(\mathbf{c}) = \sum_{(ab)}^{N_{\text{edge}}} \frac{k_{(ab)}}{2} (c_b - c_a - g_{(ab)})^2\] 其中 $\mathbf{c}$ 是一个包含了所有节点（配体）待求的相对自由能 $c_a, c_b, \dots$ 的向量。最小化这个函数等价于求解一个线性方程组，其闭合解形式非常简洁： \[\mathbf{c} = \mathbf{M}^{-1} \cdot \mathbf{X}^T \cdot \mathbf{K} \cdot \mathbf{g}\] 这里的 $\mathbf{g}$ 是所有无约束自由能构成的向量，$\mathbf{K}$ 是所有力常数构成的对角矩阵，$\mathbf{X}$ 和 $\mathbf{M}$ 是描述网络拓扑结构（即节点如何被边连接）的矩阵。这种方法的优势是巨大的：计算效率极高：求解线性方程组远比处理海量原始数据和最小化非线性函数要快得多。出色的可扩展性：如果网络中增加了一条新的边，我们只需对这条新边执行一次步骤一和步骤二，然后几乎可以瞬时解出新的全局网络结果。而传统方法可能需要从头重新分析整个网络，成本高昂。步骤四：得到网络解以后能做什么？——从无约束到约束分析求解出向量 $\mathbf{c}$（即所有配体的相对自由能）后，我们可以进行一系列深刻的分析，这正是edgembar的核心价值所在。计算有约束自由能（Constrained Free Energy, CFE）求解该线性方程组的主要目的之一就是计算有约束自由能。定义：向量 $\mathbf{c}$ 中的解，代表了在满足全局热力学循环闭合条件下，对所有配体相对自由能的最佳估计。网络中任意两点（例如配体 a 和配体 b）的自由能差 $c_b - c_a$，就是该路径的有约束自由能（CFE）。与无约束自由能（UFE）的对比：与之对应的是我们在步骤一中得到的无约束自由能（UFE），即 $g_{(ab)}$。UFE 是单条边“认为”自己应该有的值，而 CFE 是它在整个关系网中为了“合群”（满足热力学一致性）而必须调整到的值。诊断价值：比较 CFE 和 UFE 的差异，即 Shift（$ CFE - UFE $），是一个极其重要的诊断指标。一个很大的 Shift 值意味着这条边的独立计算结果与网络中的其他邻居存在严重冲突，表明这条边的模拟数据可能存在问题，需要仔细检查。整合实验数据进行进一步约束 edgembar 的强大之处还在于，它允许将外部的高精度数据（如已知的实验测量值）作为额外的、更强的约束条件整合到网络分析中。实现机制：该功能通过拉格朗日乘子法（Lagrange’s method of undetermined multipliers）实现。它在最小化全局目标函数 $F_{\text{graph}}(\mathbf{c})$ 的同时，额外施加了一组线性约束，强制要求网络中某些边的 CFE 值必须等于给定的实验值。实际操作：用户可以通过在 edgembar-WriteGraphHtml.py 脚本中使用 --expt FILENAME 和 --constrain LIGA~LIGB 等命令行选项来轻松实现这一功能。意义：这使得我们可以利用已知的、可靠的实验数据来“锚定”整个自由能网络，从而提高对未知配体自由能的预测精度。深入的诊断与质量评估最终的“graph report”（HTML 格式的图报告）提供了丰富的诊断指标，帮助用户全面评估网络质量。表 2：网络分析中的关键诊断指标指标全称描述与意义 UFE / dUFE Unconstrained Free Energy 边的无约束自由能及其标准误，来自独立的边分析。 CFE / dCFE Constrained Free Energy 边的有约束自由能及其标准误，来自网络全局分析的结果。 Force Constant ($k_{(ab)}$) 有效目标函数中的二次项系数，反映了自由能曲线的陡峭程度。 “力常数”越小，表示独立计算该边自由能的不确定性越大，其结果在网络整合中的权重也相应较低。 Shift Shift 网络自洽后的边自由能与独立计算的边自由能之差的绝对值：$ \Delta\Delta G_{\text{network}} - \Delta\Delta G_{\text{isolated}} $。该值较大时，表明网络整合显著改变了该边的自由能估计，可能暗示网络中存在不一致性或该边的初始计算存在偏差。 CC Cycle Closure error 任何一个闭合环路的 UFE 之和的绝对值，直接衡量网络的不一致程度。 Average Cycle Closure (ACC) 遍历某条边的所有独立闭合路径的循环闭合误差的平均值。 ACC 值较大同样标志着该边是网络不一致性的主要来源，需要仔细检查与之相关的模拟数据。 LMI Lagrange Multiplier Index 一个无量纲数，衡量一条边对整个网络施加的“应力”或“张力” 。值越大，表明该边与网络其余部分的矛盾越大。 OFC2 Objective Force Constant 目标函数力常数的两倍 (2k(ab))，衡量 UFE 计算结果的置信度。 2.3 实用的网络分析与诊断 FE-ToolKit 的设计理念是赋能专家用户，因此 edgembar 及其配套脚本不仅提供最终的自由能数值，还输出了大量的诊断数据，以评估结果的可靠性和整个网络的一致性。edgembar-WriteGraphHtml.py 脚本生成的交互式 HTML 报告是一个强大的可视化工具，用户可以用它来探索网络图、节点、边和循环的详细属性。为了有效利用这些诊断信息，理解关键指标的含义至关重要。补充细节：edgembar 的输入与输出输入要求： edgembar 的输入是一个 XML 文件，该文件组织模拟数据到环境、阶段、试验和状态的层次结构中。每个试验的数据是一组名为 “efep_tlam_elam.dat” 的文件集合，其中 tlam 是采样状态，elam 是文件中制表的势能状态。文件的第一列是模拟时间（皮秒），第二列是势能（kcal/mol）。如果需要，还可以包含额外列用于不同环境和目标势能。输出与报告： edgembar 的输出被组织成数据结构并写入 Python 文件，可直接导入其他脚本进行分析。执行 Python 输出会总结结果到一个 HTML 格式的 “边报告” 中。 edgembar-WriteGraphHtml.py 脚本读取多个 edgembar 输出，计算配体自由能，并总结结果到一个 HTML 格式的 “图报告” 中，比较孤立边自由能与配体自由能差异，并包含闭合路径及其闭合误差的表格。实际应用案例假设我们正在进行一项大规模的配体结合自由能计算，以筛选潜在的药物分子。我们构建了一个包含 100 个配体的网络，每个配体与相邻配体之间都有边连接，形成一个复杂的热力学网络。使用 edgembar，我们可以：对每条边进行独立分析，计算其无约束相对自由能 $g_{(ab)}$ 和力常数 $k_{(ab)}$。将每条边的结果抽象为二次有效目标函数，构建整个网络的全局目标函数。求解线性方程组，得到所有配体的相对自由能。利用 edgembar-WriteGraphHtml.py 生成的 HTML 报告，检查 Shift、LMI 和 ACC 等诊断指标，识别网络中的潜在问题边。针对问题边进行进一步的模拟或调整计算参数，优化网络一致性。通过这种系统性的分析和诊断流程，edgembar 不仅提供了准确的相对自由能计算结果，还帮助研究人员深入理解网络中各边和节点的相互作用，为药物设计和分子模拟提供了宝贵的指导。第三部分：辅助工具与实用工作流程 (fetkutils) 如果说 ndfes 和 edgembar 是执行核心科学分析的“主力部队”，那么 fetkutils 工具集就是保障整个研究工作流程顺畅、高效、可靠的“精英后勤与工程团队”。它解决了两个在自由能计算中普遍存在、至关重要的实践问题：如何用最少的资源达到最高的计算效率，以及如何确保用于分析的数据是稳定可靠的。优化模拟效率：“智能的领航员” (fetkutils-tischedule.py) 核心思想：与其亡羊补牢，不如未雨绸缪。在进行昂贵的炼金术自由能计算时，一个常见的效率瓶颈是不同炼金术状态（λ态）之间的转换不顺畅。可以把这个过程想象成一场长距离接力赛，如果其中某两个赛段的交接棒（状态交换）非常困难，那么整个团队的速度都会被拖慢。天真地将“接力点”（λ值）均匀分布，往往不是最高效的策略。 fetkutils-tischedule.py 工具提供了一种主动优化的智能策略。它就像一位经验丰富的教练，在正式比赛前，先让队员们进行一次简短的“测试跑”（即“预烧”模拟），以识别出哪些交接棒环节是薄弱点。然后，它利用这些测试数据，为正式比赛量身定做一套最优的接力方案（即优化的λ调度表）——在困难的交接区段，让接力点靠得更近，在轻松的区段则拉得更远。这个“先侦察，再规划”的策略，能够确保最终进行的、计算成本高昂的生产性模拟从一开始就在最优化的路径上运行，从而显著节省宝贵的计算资源和研究时间。确保数据质量：“严谨的质检员”（自动化平衡检测）核心思想：用客观的算法取代主观的人眼判断。分子模拟的轨迹数据，就像刚从工厂生产出来的产品，必须经过严格的质量检验才能使用。每条轨迹的开头部分都是系统从初始状态走向平衡的“预热”或“适应”阶段，这部分数据是不稳定、不可靠的，必须被准确地切除。在面对成百上千条模拟轨迹时，手动检查并决定切割点不仅繁琐，而且极易引入研究者的主观偏见。 FE-ToolKit 内置的自动化平衡检测算法就是一位不知疲倦且铁面无私的“质检员”。它会自动审查每一条轨迹的关键数据流（如能量波动），并运用一套严格的统计检验流程来做出判断。它会反复“考察”数据，直到找到一个明确的、不再有系统性漂移或剧烈波动的稳定“生产区域”。这个自动化流程提供了一种可重复的、客观的方法来筛选数据，从源头上保证了只有高质量、已平衡的样本才能被用于最终的自由能分析，这对于确保科学结论的可靠性至关重要。其他工具功能概览 ndfes-AvgFESs.py：用于合并来自独立重复试验的结果，并正确地传递误差，这对于评估结果的稳健性至关重要。 ndfes-CombineMetafiles.py：一个实用的工具，用于聚合来自多个模拟集的数据，简化了对大规模伞形采样数据的管理。 ndfes-PrintFES.py：用于从二进制的检查点文件中提取数据，并将其转换为人类可读的文本格式，方便后续处理或绘图。 ndfes-genbias：一个专门用于处理非谐波偏置势的程序。这体现了工具包的灵活性，但文档也明确指出，使用该程序会在效率和易用性上有所取舍。它们共同构成了面向工作流程的完整工具链。结论 FE-ToolKit不仅仅是一个程序的集合，它体现了对现代自由能计算的一种连贯而强大的构想。通过对其核心组件和设计理念的深入剖析，可以总结出几个贯穿始终的主题：可扩展的严谨性：无论是通过SASM中的解耦策略，还是EdgeMBAR中革命性的抽象方法，该工具包始终在追求统计上最优的严谨性的同时，确保方法能够扩展到日益复杂的系统中。赋能专家用户：从提供MBAR和vFEP两种FES构建方法，到输出详尽的网络诊断指标，FE-ToolKit的设计处处体现了对专业用户的尊重，为他们提供了深入分析和验证计算结果所需的全部工具。模块化的工作流程设计：工具包由一系列目标明确、可协同工作的脚本和程序组成，形成了一个从实验设计（如λ调度优化）、数据生成、核心分析到最终结果可视化的完整生态系统。抽象的力量：EdgeMBAR方法是这一点的最佳体现。通过将复杂的边目标函数抽象为一个简单的二次模型，它成功地将一个难以处理的全局优化问题转化为一个易于求解的线性问题，这正是计算科学中优雅解决方案的典范。综上所述，FE-ToolKit为计算科学家提供了一个从头至尾的解决方案，引导研究人员高效、自信地应对从基础反应机理到大规模药物设计等领域中极具挑战性的自由能计算问题。局限性与未来展望尽管FE-ToolKit功能强大，但根据原文的描述，其在当前版本中仍存在一些局限性，并指明了未来的发展方向：特定组件的功能限制：工具包中提供了一个用于处理通用偏置势的程序 ndfes-genbias，但作者明确建议除非绝对必要，否则不推荐使用。主要原因是 ndfes-genbias 需要写入非常大的输入文件，对内存工作站的要求很高。此外，该程序尚不能执行vFEP方法，并且在聚合来自多个重复试验的数据时，由于“偏置索引”可能会失效，操作起来非常谨慎和困难。性能与实现：核心的网络分析程序 edgembar 是一个用C++编写的、支持OpenMP并行的实现，但原文明确指出它目前缺乏GPU加速功能。在当前大规模计算日益依赖GPU的背景下，这可能在处理超大规模网络时成为一个潜在的性能瓶颈。当前版本的功能待完善之处：对于在不同温度下进行的模拟，并试图在某个特定温度下分析其自由能面的功能，原文提到这部分功能尚未经过广泛测试，且初步测试表明结果可能会受到显著的数值噪声影响。在能量单位方面，当前版本的图报告和边报告中的能量单位是固定的（kcal/mol）。原文提到未来的版本将允许用户选择输出的能量单位，暗示了当前版本在这方面缺乏灵活性。持续发展的需求：作者在结尾处指出，FE-ToolKit将继续被开发和维护，以支持新兴的集成自由能方法。这表明该工具包虽然在处理当前主流方法上非常成熟，但仍需不断迭代，以跟上计算化学领域快速涌现的新技术和新方法。

Free Energy · 2025-10-08

FE-ToolKit方法学深度解析：数学推导与物理诠释

Free Energy · 2025-10-08

自由能计算的"蝴蝶效应"：初始速度 vs. 溶剂盒子，哪个对结果影响更大？

自由能计算的”蝴蝶效应”：初始速度 vs. 溶剂盒子，哪个对结果影响更大？本文信息标题: 变化的初始速度和溶剂盒子对炼金术自由能模拟的影响作者: Meiting Wang, Hao Jiang, Ulf Ryde 发表时间: 2025年1月31日单位: 新乡医学院 (中国), 隆德大学 (瑞典) 引用格式: Wang, M., Jiang, H., & Ryde, U. (2025). Impact of Varying Velocities and Solvation Boxes on Alchemical Free-Energy Simulations. Journal of Chemical Information and Modeling, 65(7), 2107–2115. https://doi.org/10.1021/acs.jcim.4c02236 本文的输入文件和水盒子模型等可在 http://signe.teokem.lu.se/ulf/Methods/waterboxes.html 找到。摘要炼金术自由能微扰 (FEP) 是一种精确且热力学上严谨的方法，用于估算小分子配体与生物大分子结合的相对能量。研究反复指出，单次模拟通常会停留在相空间的起始点附近，因此会低估结果的不确定性。因此，更好的做法是运行一组独立的模拟。传统上，这样的独立模拟系综是通过使用不同的初始速度来生成的。我们认为，利用模拟设置过程中的其他随机选择，特别是溶质的溶剂化过程，可能会更优。我们在此证明，这种“溶剂诱导的独立模拟 (SIS)” 方法，在计算42种配体与五种不同蛋白质（人N端溴结构域蛋白4、T4溶菌酶的Leu99Ala突变体、二氢叶酸还原酶、凝血因子Xa和铁蛋白）的结合能时，有时会产生更大的标准差和略有不同的结果。SIS方法不会增加任何额外的时间消耗。因此，我们强烈建议使用SIS（以及不同的初始速度）来启动独立模拟。模拟系统设置中的其他随机或不确定的选择，例如选择具有替代构象的残基或添加质子的位置，也可用于增强独立模拟的多样性。背景在计算生物化学领域，精确预测小分子药物与靶点蛋白的结合自由能是核心目标之一，尤其是在药物研发中，它直接关系到药物筛选和优化的效率。为此，研究者们开发了从分子对接到高精度自由能微扰 (FEP) 的一系列方法。FEP方法通过在分子动力学 (MD) 模拟中将一个配体“炼金术式”地缓慢转变为另一个，从而计算它们与蛋白结合的相对自由能差 (ΔΔG)，其精度可以达到甚至优于 4 kJ/mol。然而，FEP的精度高度依赖于两个核心要素：力场的准确性和相空间采样的充分性。MD模拟具有所谓的“李雅普诺夫不稳定性”，即对初始条件的微小扰动会随着模拟时间的推移被指数级放大。这意味着，任何单次MD模拟都只能探索初始结构附近一个非常局限的构象区域。因此，仅靠单次模拟得出的结合能及其误差估计，往往会过于乐观，无法反映真实的不确定性。为了解决这个问题，学术界普遍推荐的做法是运行一组（系综）独立的模拟。传统上，生成这些独立模拟最简单、最常用的方法是为每次模拟分配不同的随机初始速度。因为原子速度在实验上是完全未知的，所以这种随机化是物理上合理的。但是，在搭建一个模拟体系的过程中，还存在许多其他同样具有随机性或任意性的步骤。关键科学问题本文旨在解决的核心科学问题是：除了改变初始速度外，我们能否利用模拟设置过程中的其他“随机性来源”来生成更加多样化、更能反映真实不确定性的独立模拟系综，从而提高自由能计算的可靠性？具体来说，作者将焦点放在了另一个关键的、但常被忽略的随机步骤上：溶剂化。当我们将一个蛋白质-配体复合物放入一个水盒子中进行模拟时，水分子的具体位置和取向是完全任意的。我们只是简单地将一个预平衡的水盒子叠加在溶质上，并删除与溶质冲突的水分子。更换一个不同的水盒子（例如，从一个纯水模拟轨迹的不同时间点提取），会得到一个原子坐标完全不同、甚至水分子总数也略有不同的初始体系。因此，本文的核心问题可以进一步细化为：与传统的改变初始速度 (VIS) 相比，使用不同溶剂盒子 (SIS) 生成的独立模拟，其计算出的结合自由能结果是否会有显著差异？ SIS方法是否能够比VIS方法揭示出更大的统计不确定性（即更大的标准差），从而提供一个更保守、更真实的误差估计？考虑到SIS方法在计算成本上与VIS完全相同，它是否应该成为未来FEP计算中的一个标准实践？创新点提出新策略：明确提出了溶剂诱导的独立模拟 (Solvent-Induced Independent Simulations, SIS) 的概念，将其作为一种与传统改变速度 (VIS) 并行或更优的策略，用于生成FEP计算的独立模拟系综。系统性比较：对VIS和SIS两种策略进行了大规模、系统性的比较。研究涵盖了5个不同的蛋白质靶点和42个配体，涉及数十个炼金术转换，确保了结论的统计鲁棒性。强调不确定性量化：本文再次强调了单一模拟会严重低估不确定性的问题，并通过VIS和SIS的对比，为如何更准确地评估FEP计算的真实误差范围提供了切实可行的方案。零成本优化：最关键的是，SIS方法不引入任何额外的计算成本，因为它仅仅改变了模拟开始前的设置步骤，使得这一优化策略极易被广泛采纳和应用。研究内容核心方法：VIS vs. SIS 的严格比较框架为了系统地比较两种独立模拟生成策略，作者设计了一个严谨的计算流程，并在多个蛋白质-配体体系上进行了测试。测试体系: 研究共涉及五个蛋白质靶点，涵盖了不同的结构和功能类型： BRD4: 人N端溴结构域蛋白4，一个热门的表观遗传学靶点。 T4溶菌酶 (L99A突变体): 一个经典的用于研究配体结合的口袋模型体系。二氢叶酸还原酶 (DHFR): 一个重要的抗疟疾药物靶点。凝血因子Xa (fXa): 一个关键的抗凝血药物靶点。铁蛋白 (Ferritin): 一个用于研究小分子结合的蛋白笼。总共研究了42个配体的相对结合自由能。图1：BRD4和T4溶菌酶的示意图及其配体结构式。模拟设置与流程: 所有模拟均采用 AMBER 22 软件包进行。 graph LR A("1.体系准备 (Maestro, MOE)") --> B["2.力场与溶剂化 蛋白:ff14SB 配体:GAFF2,AM1-BCC 水模型:TIP3P"] B --> C["3.能量最小化 与平衡"] C --> D{"4.FEP生产模拟 (pmemd.cuda,NPT系综) 11-13个λ窗口"} D --> E["5.自由能计算 (MBAR,alchemlyb)"] 体系准备: 蛋白质结构来自PDB数据库，使用Maestro软件进行质子化、残基侧链翻转等预处理。配体则通过MOE软件对接到活性位点。力场参数: 蛋白质采用 ff14SB 力场，配体采用 GAFF2 通用力场，其原子部分电荷通过 AM1-BCC 方法计算。溶剂化: 将复合物和游离配体分别置于一个立方体 TIP3P 水盒子中，盒子边界距离溶质至少12 Å。平衡: 体系首先进行能量最小化，然后依次在NVT（恒容）和NPT（恒压）系综下进行加热和平衡。 FEP模拟: 使用双拓扑方法，在11或13个离散的λ窗口中进行炼金术转换。每个窗口的生产模拟时长为2 ns或10 ns。自由能分析: 使用多态贝内特接受率 (MBAR) 方法计算每个λ窗口间的自由能差，并最终得到总的相对结合自由能 $\Delta\Delta G$。 VIS vs. SIS 的实现: 这是本研究的核心设计。对于每一个炼金术转换，作者都进行了10次独立的FEP模拟，分为两组： VIS组 (Velocity-Induced Independent Simulations): 5次模拟。这5次模拟使用完全相同的初始坐标和拓扑文件，但在AMBER输入文件中设置了不同的随机数种子 (ig = -1)，从而生成了5套不同的原子初始速度。 SIS组 (Solvent-Induced Independent Simulations): 5次模拟。这5次模拟使用了5个不同的水盒子来溶剂化初始结构。这些水盒子是从一个长达500 ns的纯水模拟轨迹中，每隔12.5 ns提取一个快照得到的。这意味着每个SIS模拟的初始原子坐标（特别是水分子的坐标）和体系中的水分子总数都略有不同。同时，它们的初始速度也是随机生成的。性能评估指标: 与实验值的比较: 平均绝对偏差 (MAD), 最大误差 (Max), 相关系数 ($R^2$), 和肯德尔等级相关系数 ($\tau_{r90}$)。不确定性评估: 比较由MBAR方法本身报告的误差和由5次独立模拟结果的标准误（Standard Error）。热力学循环闭合度: 检查由多个转换构成的热力学循环的自由能总和是否接近于零，这是衡量采样收敛性的一个重要指标。结果与分析作者通过对五个体系的详细数据分析，系统比较了VIS和SIS两种策略的性能。以BRD4和T4溶菌酶为例 BRD4体系 (表1): 平均值相似: 对于BRD4的4个配体转换，VIS和SIS计算出的平均 $\Delta\Delta G$ 值非常接近，差异在0.1-0.8 kJ/mol之间，均在统计误差范围内。不确定性差异: 对于 L3 → L2 的转换，SIS给出的不确定性 ($0.58 \mathrm{kJ/mol}$) 几乎是VIS ($0.35 \mathrm{kJ/mol}$) 的两倍。这表明在这种情况下，SIS探索了更广阔的构象空间，从而揭示了更大的潜在误差。热力学循环: 对于一个由三次转换构成的循环，SIS计算得到的循环闭合能为 $0.16 \pm 0.7 \mathrm{kJ/mol}$，完美地接近于零。而VIS的结果为 $-1.08 \pm 0.5 \mathrm{kJ/mol}$，略有偏差。这暗示SIS系综可能具有更好的收敛性。表1：BRD4四个配体的相对结合自由能 (kJ/mol) | 转换 | 方法 | 独立模拟1 | 独立模拟2 | 独立模拟3 | 独立模拟4 | 独立模拟5 | 平均值 ± 标准误 | 实验值 | |—|—|—|—|—|—|—|—|—| | L1→L3 | VIS | 1.45±0.10 | 1.18±0.10 | 1.80±0.10 | 1.30±0.10 | 1.40±0.10 | 1.43±0.10 | 1.26 | | | SIS | 1.59±0.10 | 1.66±0.10 | 1.49±0.10 | 1.76±0.10 | 1.32±0.10 | 1.65±0.07 | | | L3→L2 | VIS | 6.62±0.17 | 6.62±0.17 | 8.24±0.16 | 7.08±0.17 | 8.04±0.16 | 7.32±0.35 | 6.69 | | | SIS | 9.01±0.16 | 8.11±0.16 | 7.24±0.17 | 6.47±0.17 | 9.66±0.16 | 8.10±0.58 | | | L3→L4 | VIS | -0.38±0.08 | -0.10±0.08 | 0.00±0.07 | 0.09±0.08 | 0.03±0.08 | -0.07±0.08 | 0.00 | | | SIS | -0.30±0.08 | -0.56±0.08 | 0.26±0.08 | -0.11±0.08 | -0.10±0.08 | -0.16±0.13 | | | L4→L2 | VIS | 9.34±0.16 | 8.06±0.17 | 7.16±0.17 | 8.71±0.17 | 9.09±0.17 | 8.47±0.39 | 6.69 | | | SIS | 8.69±0.17 | 8.49±0.17 | 8.59±0.17 | 7.11±0.17 | 7.62±0.17 | 8.10±0.31 | | T4溶菌酶体系 (表2): 显著的平均值差异: 对于 Eth→Tol 的转换，VIS和SIS的结果出现了统计上显著的差异 ($2.5 \pm 0.1$ vs $3.1 \pm 0.1 \mathrm{kJ/mol}$)。VIS的5次模拟结果分布在2.4-2.9 kJ/mol，而SIS则分布在2.8-3.3 kJ/mol。这表明，对于这个特定的体系，初始溶剂环境的微小差异确实导致了最终收敛到了不同的自由能平均值。采样问题: 该体系的某些转换（如 Ide→Ido）与实验值误差较大（6-10 kJ/mol）。但热力学循环闭合得很好，暗示问题可能出在力场参数或初始对接构象上，而非采样不足。对慢动力学不敏感: 作者还分析了活性位点附近一个关键残基 Val-111 的侧链动力学，发现其构象变化非常缓慢。然而，VIS和SIS两种方法在采样这种慢动力学行为上没有表现出差异，这可能是因为初始溶剂环境的改变主要影响表层，难以直接传递到蛋白内部。表2：T4溶菌酶七个配体的相对结合自由能 (kJ/mol)，节选 | 转换 | 方法 | 平均值 ± 标准误 | 实验值 | |—|—|—|—| | Ben→Phe | VIS | 8.11±0.08 | ≥10.25 | | | SIS | 8.14±0.07 | | | Eth→Tol | VIS | 2.51±0.10 | 1.00 | | | SIS | 3.13±0.10 | | | Ide→Ido | VIS | 7.52±0.24 | 1.00 | | | SIS | 7.26±0.12 | | 综合所有体系的结论对另外三个蛋白质（DHFR、fXa、铁蛋白）的分析也得出了类似的结论（详见支持信息）。普遍现象: 在大多数情况下，VIS和SIS给出的结果非常相似。 SIS的优势: 但在某些情况下（如BRD4的一个转换和铁蛋白体系），SIS确实揭示了比VIS更大的结果可变性（标准差）。并且在T4溶菌酶的一个例子中，SIS和VIS甚至收敛到了不同的平均值。共同的重要性: 两种方法都清晰地表明，单次FEP模拟报告的误差（来自MBAR）显著低于多次独立模拟的标准误，再次证实了运行独立模拟系综的必要性。单次模拟的结果差异可达数 kJ/mol，这在药物研发项目中足以影响决策。结论：向更可靠的自由能计算迈出简单而重要的一步作者最终得出结论，强烈推荐在生成独立模拟系综时，除了使用不同的初始速度，也应该使用不同的溶剂盒子。 graph LR A("传统方法:VIS 仅改变初始速度") -->|提供| B["一组独立的模拟轨迹"] B --> E{自由能估计 可能低估不确定性} C("推荐方法:SIS 改变溶剂盒子 和初始速度") -->|提供| D["一组更多样化的 独立模拟轨迹"] D --> F{自由能估计 更真实的不确定性} 这种SIS策略的优势在于：最大化初始条件的多样性: 它利用了模拟设置中另一个主要的随机来源，从而可能引导模拟轨迹进入更广阔、更多样的相空间区域。提供更保守的误差估计: 在某些体系中，SIS能够揭示出更大的统计不确定性，这对于避免在药物项目中做出过于乐观的判断至关重要。零额外计算成本: SIS的实施仅在模拟开始前的准备阶段有所不同，完全不增加FEP模拟本身的计算时间。作者进一步建议，未来还可以探索将其他不确定性来源，如蛋白侧链的替代构象、质子化状态的选择等，也纳入到独立模拟的构建中，以期获得对自由能计算结果可靠性的最全面评估。 Q&A Q1: SIS方法为什么有时能比VIS产生更大的结果差异？其物理机制是什么？ A1: 物理机制在于，不同的初始溶剂构象（水分子的位置和取向）会改变溶质表面（蛋白质和配体）的初始氢键网络和静电环境。这种微小的初始环境差异，会通过MD模拟的“蝴蝶效应”被放大，可能导致蛋白质或配体在模拟过程中探索到略有不同的构象子空间。如果这些子空间对应着不同的能量状态，那么最终计算出的平均自由能就可能出现差异或更大的波动。而VIS方法由于初始坐标完全相同，所有模拟都从同一个能量微观态出发，它们的分歧完全依赖于随机速度的碰撞传导，这种多样性可能不如改变整个溶剂环境来得直接和显著。 Q2: 这篇论文的结果是否意味着传统的VIS方法是错误的或不可靠的？ A2: 并非如此。论文的结果表明，VIS方法在大多数情况下与SIS给出了相似的结果，它仍然是生成独立模拟的有效且必要的方法。文章的核心论点是“优化”而非“否定”。作者认为，既然存在多个随机性来源，我们应该尽可能地利用它们来最大化模拟系综的多样性。SIS可以看作是对VIS的一个零成本的、强有力的补充。最佳实践应该是同时使用不同的溶剂盒子和不同的随机速度，确保初始条件尽可能地随机和不相关。 Q3: 作者提到，对于T4溶菌酶体系中的Val-111残基的慢动力学，SIS和VIS都没有表现出更好的采样能力。这是否说明这两种方法有其局限性？ A3: 是的，这正说明了这两种方法的适用范围和局限性。VIS和SIS主要通过改变模拟的初始条件来增加多样性。这种扰动对于采样与溶剂接触的、快速变化的构象非常有效。然而，对于深埋在蛋白质内部、由高能垒隔开的慢动力学过程（如大范围的侧链翻转或结构域运动），仅仅改变初始条件是不足以在有限的模拟时间内（本文中为10 ns）跨越这些能垒的。要解决这类问题，需要依赖更高级的增强采样方法，如副本交换MD (REMD)、元动力学 (Metadynamics) 或特定的蒙特卡洛移动等。 Q4: 如果我想在自己的FEP计算中实施SIS策略，具体应该如何操作？ A4: 操作非常简单。首先，你需要生成几个不同的水盒子文件。一个标准做法是：运行一个较长时间（例如100 ns）的纯水盒子（如TIP3P水）的MD模拟。然后，从这条轨迹中等间隔地（例如每10 ns）提取一个快照（坐标文件）。这样你就得到了10个原子坐标和构象完全不同的水盒子。在你的FEP模拟流程中，当进行溶剂化步骤时（例如在AMBER的tleap或GROMACS的gmx solvate中），为你的5次独立模拟分别指定这5个不同的水盒子文件即可。关键结论与批判性总结核心结论独立模拟至关重要: 再次证实，仅依赖单次FEP模拟会严重低估计算的不确定性，运行一组独立的模拟是获得可靠结果和误差估计的必要步骤。 SIS是一种有效的补充策略: 使用不同的溶剂盒子来初始化模拟（SIS），在某些体系中能够比仅改变初始速度（VIS）揭示出更大的结果可变性和更保守的误差估计。初始条件影响显著: 在至少一个案例中，SIS和VIS系综收敛到了统计上显著不同的平均结合能，表明初始溶剂环境可以对FEP计算结果产生实质性影响。实践建议: 鉴于SIS策略不增加任何计算成本，作者强烈建议将其作为FEP计算中的标准操作，与改变初始速度结合使用，以最大程度地增加初始构象的多样性，从而获得更可靠的自由能预测。潜在影响改进FEP计算的最佳实践: 本研究为高精度自由能计算领域提供了一个简单、有效且零成本的改进方案，有望被社区广泛采纳，成为新的“最佳实践”之一，从而提高药物设计项目中计算结果的可靠性。提升对不确定性的认识: 它促使研究者更加关注模拟设置中各种“隐性”的随机性来源，并思考如何利用这些来源来更全面地量化模拟结果的不确定性，推动计算化学向更严谨、更可重复的方向发展。研究局限性扰动范围有限: SIS主要扰动的是溶剂环境，对于那些由蛋白质内部慢动力学主导的构象变化，其采样增强效果有限。样本数量相对较小: 尽管研究的体系很多，但每个系综仅包含5次独立模拟。虽然这是当前计算成本下的常见做法，但更多的独立模拟（如10次或20次）可能会提供更稳健的统计结果。未探索其他不确定性来源: 文章虽然提及了质子化状态、替代构象等其他不确定性来源，但并未在本次研究中进行系统性比较，这些因素的影响仍有待进一步探索。未来方向组合多种不确定性来源: 系统地研究将不同的初始速度、不同的溶剂盒子、不同的初始质子化状态、不同的晶体结构副本等多种不确定性来源组合在一起，以构建终极的、最大多样性的模拟系综。自动化工作流: 开发能够自动执行VIS和SIS（以及其他策略）的计算工作流软件，使用户可以一键式地生成和分析多样化的独立模拟系综。与增强采样方法结合: 探索如何将SIS/VIS策略与更强大的增强采样技术（如GCMC/MD）相结合，以同时解决初始条件不确定性和采样不充分的问题，特别是对于包含埋藏水合物或存在构象变化的复杂体系。

Free Energy · 2025-10-07

量子计算首次炼金：将CI方法引入自由能计算以提升药物预测精度

Free Energy · 2025-10-07

Random Forest and Enhanced Sampling Unite: Revealing and Correcting Ghost Errors in Alchemical Free Energy Calculations

随机森林与增强采样联手：揭示并修正炼金术自由能计算中的幽灵误差本文信息标题: 研究炼金术自由能预测中的误差：使用随机森林模型与GaMD 作者: Skanda Sastry and Michael Tae-jong Kim 单位: Genentech Inc, South San Francisco, California, 美国引用格式: Sastry, S., & Kim, M. T.-j. (2025). Investigating Errors in Alchemical Free Energy Predictions Using Random Forest Models and GaMD. Journal of Chemical Information and Modeling. https://doi.org/10.1021/acs.jcim.5c01135 源代码: https://github.com/adnaksskanda/gamdti-paper 摘要当前最先进的抗体-抗原复合物计算结合自由能变化（$\Delta\Delta G$）预测技术，其精度约为$\pm1$ kcal/mol。尽管这对于高通量筛选或亲和力成熟等应用已足够，但对于在临床开发阶段评估翻译后修饰（PTMs）的关键性和影响而言，这一精度仍显不足。那些导致结合能力下降超过50%的PTMs会对实现预期疗效构成重大风险，因此必须严格控制其含量以确保产品质量。50%的解离常数（$K_D$）损失对应于$+0.5$ kcal/mol的$\Delta\Delta G$变化，这意味着计算预测的精度必须达到$\pm0.5$ kcal/mol的阈值，才能在临床阶段具有实际应用价值。在本文中，我们使用常规分子动力学热力学积分（CMD-TI）方法生成$\Delta\Delta G$预测值，并开发了一种结合随机森林（RF）模型和末端态高斯加速分子动力学（GaMD）的误差分析方法。该方法仅需cMD-TI和末端态GaMD数据，即可无偏见地洞察关键自由度（DOF）的采样不足问题。我们发现，大体积侧链的采样不足和关键原子间相互作用的破坏是主要的误差来源，通过我们基于GaMD的误差校正，在误差最大的案例中，预测精度提升超过了1 kcal/mol。当应用于一个包含13个突变的测试集时，基于GaMD的误差校正将均方根误差（RMSE）从$1.06 \pm 0.22$ kcal/mol降低至$0.70 \pm 0.18$ kcal/mol。这项工作不仅开创了利用炼金术自由能预测来评估PTM对生物活性影响的应用，也深入探究了限制其在临床开发中实际应用的关键误差来源。一句话：跑一段GaMD来识别关键DOF，进而指导TI的采样能减小误差。背景治疗性抗体是现代生物医药的基石，其通过与特定抗原的高亲和力结合来发挥治疗作用。在抗体药物的规模化生产过程中，蛋白质不可避免地会发生各种化学修饰，即翻译后修饰（PTMs），如色氨酸氧化、天冬氨酸异构化等。这些PTMs如果发生在抗体-抗原结合界面附近，可能会显著改变结合亲和力，从而影响药物的疗效、药代动力学甚至安全性。因此，准确评估PTMs的影响，并将其作为关键质量属性（CQA）进行严格控制，是生物制药开发中的核心环节。传统上，评估PTM影响主要依赖实验方法，如富集含有特定PTM的抗体亚型，再通过SPR等技术测定其结合活性。然而，这一过程不仅耗时耗力，而且当多种PTMs同时出现时，几乎无法剥离出单一修饰的影响。相比之下，计算模拟方法，特别是炼金术自由能计算，为评估这些点突变或化学修饰对结合自由能的影响（$\Delta\Delta G$）提供了一个高效、精准的理论框架。然而，尽管炼金术自由能计算（如热力学积分TI或自由能微扰FEP）是当前预测相对结合自由能（RBFE）的“金标准”，但其精度仍然存在瓶颈。目前，对于蛋白质-蛋白质相互作用体系，该方法的最佳精度约为$\pm1$ kcal/mol。这一精度水平足以用于抗体亲和力改造的初步筛选，但对于临床阶段的CQA评估，则显得力不从心。一个对产品质量构成严重风险的PTM，其bioactivity影响阈值通常设定为50%，这在热力学上相当于仅仅$+0.5$ kcal/mol的$\Delta\Delta G$变化。因此，计算方法必须达到远超当前水平的$\pm0.5$ kcal/mol精度，才能为临床决策提供可靠依据。这一巨大的“精度鸿沟”是当前领域面临的核心挑战，其背后的误差来源——无论是力场不准、构象采样不足还是计算方案本身的缺陷——亟待被系统性地揭示和解决。 50%解离常数损失意味着什么？在临床上，如果一个PTM导致抗体的生物活性（通常与结合亲和力相关）损失超过50%，则被认为具有高风险。在热力学层面，这意味着结合变得更弱，解离常数$K_D$增大。具体来说，“50%的活性损失”通常指突变体的$K_D$值变为野生型的两倍，即$K_{D,mutant} / K_{D,wildtype} = 2$。根据公式 $\Delta\Delta G = RT \ln(K_{D,mutant} / K_{D,wildtype})$ 在室温下（约298K），这对应于$\Delta\Delta G \approx +0.41$ kcal/mol的变化。为了能够可靠地识别这一变化，计算方法的精度必须显著优于这个值，因此作者提出了$\pm0.5$ kcal/mol的目标。关键科学问题本文旨在解决的核心科学问题是：如何系统性地识别并校正炼金术自由能计算中的微观分子层面采样误差，从而将其预测精度提升至临床应用所需的$\pm0.5$ kcal/mol阈值以下？这不仅仅是一个提升数值精度的问题，更是要深入理解在非物理的炼金术路径中，哪些关键的分子动态行为被错误地表征，并开发出能够“对症下药”的诊断和修正策略。创新点创新的误差诊断框架：首次提出了一种无偏见的（untargeted）误差诊断新方法，该方法巧妙地将机器学习（随机森林）与增强采样（GaMD）相结合，能够从复杂的动力学数据中自动识别出导致计算误差的关键分子自由度（DOF）。揭示核心误差来源：通过该框架，系统性地 pinpoint 了炼金术计算中两个主要的误差来源：一是大体积氨基酸侧链（如Trp）的旋转异构态采样不足；二是在炼金术中间态，由于混合势场的人为效应导致的关键盐桥等原子间相互作用的破坏。精准的误差校正策略：针对上述误差来源，开发了相应的校正方法（如基于GaMD构象分布对TI数据进行过滤或重加权，以及使用距离限制来强制维持关键相互作用），在误差最大的案例中实现了超过1 kcal/mol的精度提升。方法和体系作者采用了一套结合常规MD、增强采样MD和机器学习的综合性方法流程，详见图2。 1. 模拟体系与数据集准备实验数据集：本文使用的基准数据集来源于已发表的文献，主要包括hu4D5-5、mab1和mab2三个抗体系统的一系列单点突变及其对应的实验测定结合能数据。hu4D5-5是人源化抗p185HER2抗体4D5的一个变体，与乳腺癌靶点Erbb2抗原结合。结构准备：抗体-抗原复合物的初始结构来源于PDB数据库（如hu4D5-8的冷冻电镜结构，PDB ID: 6OGE）。hu4D5-5的结构是通过在hu4D5-8上引入两个点突变（VH-V102Y 和 VL-E55Y）构建的。为了节省计算资源，模拟中对抗原蛋白进行了截断，仅保留了靠近结合界面的135个残基。 MD模拟设置：力场与溶剂：所有模拟均采用AMBER20软件包，力场为ff14SB，水模型为TIP3P。体系被溶于一个半径为10 Å的水盒子中，并加入0.15 M的NaCl以模拟生理盐浓度。拓扑构建：使用AmberTools20中的tLEaP和parmed工具准备拓扑文件。对于非天然氨基酸（甲硫氨酸亚砜），使用Gaussian 09和antechamber进行力场参数化。 cMD-TI协议：每个突变计算包含5个重复。体系首先在$\lambda=0.5$下进行能量最小化和升温弛豫，然后进行双向串行平衡，最后在12个$\lambda$窗口下分别进行5 ns的production模拟。每个$\lambda$窗口用于分析的帧数（构象数）为 200帧。 GaMD协议：为了获得更可靠的构象分布，对每个突变的端点态（野生型和突变型）进行了5次重复的、每次300 ns的GaMD增强采样模拟。 2. 随机森林(RF)关键自由度筛选这是本文的核心创新，目的是从海量构象信息中找出导致误差的“罪魁祸首”。详见文末附录。数据集的每一行代表TI模拟过程中的一个单一快照（即一个构象）。对于同一帧，计算机会记录其对应的能量导数值$dV/d\lambda$。特征(Feature)提取：首先，通过GaMD轨迹确定体系的最低能构象簇。然后，在突变位点周围5 Å的球形区域内，定义一系列几何参数作为候选特征，主要包括侧链的二面角（rotamers）和原子间的距离（interatomic distances）。目标变量(Target)定义：RF模型要预测的目标不是原始的能量导数$dV/d\lambda$，而是经过高斯求积权重$w_j$加权后的值，即$w_j \cdot dV/d\lambda$。这使得模型能更直接地关注对最终$\Delta G$积分贡献最大的项。特征筛选与模型训练：使用scikit-learn库进行建模。首先剔除相关性过高（Pearson $r > 0.5$）的冗余特征。然后使用递归特征消除（Recursive Feature Elimination）方法进一步筛选，保留最重要的75%特征。最后，使用这些筛选后的特征训练一个随机森林回归模型，并通过贝叶斯超参数调优来优化模型性能。关键自由度(DOF)识别：模型训练完成后，利用随机森林内置的“基于不纯度的平均特征重要性（mean impurity-based feature importance）”指标，量化每个DOF对预测$w_j \cdot dV/d\lambda$的贡献度。得分最高的DOF即被认为是影响能量计算的关键自由度。 3. 使用的软件工具总结 MD模拟: AMBER20, AmberTools20 (tLEaP, parmed) 增强采样: GaMD 量子化学计算: Gaussian 09 机器学习: scikit-learn 轨迹分析: CPPTRAJ, PyReweighting 分子可视化: VMD 研究内容与结果初始TI预测的性能基准作者首先在一个包含20个有定量实验数据的抗体突变数据集上，评估了他们标准cMD-TI流程的性能。图1：经验ΔΔG与预测ΔΔG的对比图。该图展示了包含所有定量实验结果的案例中，初始TI预测值（纵轴）与实验测量值（横轴）的比较。理想情况下，所有数据点应落在对角虚线上。虽然整体趋势良好（斜率0.788），但均方根误差（RMSE）为0.94 kcal/mol，且许多数据点落在了$\pm1$ kcal/mol的误差区间（点线之间）之外。分析发现，涉及大体积侧链（如Phe, Tyr, Trp）或电荷变化的突变，误差往往更大。创新的RF+GaMD联合误差诊断流程为了剖析这些误差的根源，作者设计了一套创新的诊断流程。图2：TI计算与误差模式分析方法的图形化示意图。该图展示了整个工作流程：(左上) 首先通过常规的TI计算获得初始的$\Delta\Delta G$；(中上) 在突变位点周围5Å的局部环境中测量各种DOF；(右上) 将这些DOF作为输入，加权的$dV/d\lambda$作为输出，训练一个随机森林模型，以识别出对能量影响最大的关键DOF；(中下) 利用GaMD增强采样的轨迹生成这些关键DOF的自由能分布图（PMF）；(左下) 将常规TI模拟对关键DOF的采样情况与GaMD的PMF进行对比，找出采样不一致的地方，并据此进行校正。通过该流程，作者识别出了导致TI计算不准确的关键DOF。跑GaMD不需要事先知道关键DOF？在这个工作流程中，跑GaMD时不需要事先知道哪个或哪些DOF是关键的。这正是该方法“无偏见”（untargeted）的核心优势所在。 GaMD的角色是作为一个独立的、更可靠的“黄金标准”来使用。它通过施加一个偏置势能，对体系的整个势能形貌进行增强采样，目的是尽可能地探索所有可能的构象，并生成一个接近真实平衡态的自由能分布图（PMF）。这个过程是全局性的，不针对任何特定的DOF。关键DOF的识别是在之后发生的。流程是：并行计算：独立地运行常规TI模拟和GaMD增强采样模拟。事后诊断：利用随机森林模型，分析TI轨迹和能量数据，从事后诸葛亮的角度找出哪些DOF对能量计算影响最大。交叉验证：将RF模型找出的关键DOF在TI模拟中的表现，与GaMD这个“黄金标准”进行对比，从而确认采样错误。怎么根据PMF校正采样的？详见附录。 graph TD A["发现TI采样与GaMD PMF不一致"]; A --> B{{"误差类型是什么？"}}; B -- "构象态采样比例错误 (例如：大体积侧链)" --> C1; B -- "关键相互作用持续性破坏 (例如：盐桥断裂)" --> D1; subgraph "方法二：施加限制并重算" direction LR D1["1.从GaMD PMF中 确定关键相互作用的 正常几何范围 (如距离<5Å)"] --> D2["2.根据该范围 设置一个NMR式的距离限制"]; D2 --> D3["3.完全重新进行TI模拟 在所有λ窗口中施加该距离限制"]; D3 --> D4["4.新模拟的结果 即为校正后的ΔΔG"]; end subgraph "方法一：过滤与重加权" direction LR C1["1.从GaMD PMF中 识别有效的低能构象态 (A, B...)" ] --> C2["2.过滤TI轨迹 只保留属于有效构象态的帧"]; C2 --> C3["3.将保留的帧分组 并为每个构象态(A, B...) 单独计算ΔG (ΔG_A, ΔG_B...)"]; C4["4.从GaMD PMF中 获取各构象态的布居比例 (Area_A, Area_B...)"]; C3 & C4 --> C5["5.线性组合得到校正结果 ΔG_corr = Area_A·ΔG_A + Area_B·ΔG_B"]; end 表1：由随机森林模型识别出的误差最大案例中的前5个最重要自由度 rank hu4D5-5 VH-R50A (charging step) hu4D5-5 VH-W95A mab2 VL-Y→R (charging step) mab2 VH-T→Y hu4D5-5 VL-F53N 1 Ag-E71:VH-R50 salt bridge dist VH-W95 chi1 Ag-D161:VL-R49 salt bridge dist Ag-V117:VH-Y53 H-bond dist Ag-C117:VL-N53 H-bond dist 2 VH-R50 chi1 VH-W95 chi2 VL-R49:VL-S50 H-bond dist VL-Y53 chi1 VL-N53 chi1 3 VH-R94 chi4 VH-V48 chi1 VL-S53 chi1 VL-T53 chi1 Ag-M102 chi1 4 VH-F100 chi1 VL-T94:VH-R50 H-bond dist VL-S50 chi1 VL-T53:VL-N51 H-bond dist Ag-N53 chi2 5 Ag-E71 chi3 Ag-E71 chi3 Ag-R157 chi1 VL-Y53 chi2 Ag-N120 chi1 注：表格内容根据原文Table 1整理。加粗的特征是作者后续使用GaMD自由能图进行深入检查的特征。案例分析：揭示三大核心误差来源案例1：大体积侧链采样不足 (Bulky Side-Chain Undersampling) 在hu4D5-5 VH-W95A（色氨酸突变为丙氨酸）这个误差高达1.88 kcal/mol的案例中，RF模型指出，W95侧链的两个二面角（chi1/chi2）是影响能量计算的最关键DOF。图3：(A, C) 完整的和 (B, D) 校正后的TI采样与VH-W95 chi1/chi2旋转角空间的GaMD自由能形貌图的比较，分别对应结合态(A, B)和非结合态(C, D)。图中，背景的彩色热图代表由GaMD增强采样得到的“真实”自由能地貌，其中颜色越深的区域能量越低，是侧链最应该停留的构象。而灰色的散点则代表在常规TI模拟中，侧链实际访问过的构象。在(A)和(C)中可以看到，大量的TI采样点（灰色散点）散落在高能量区域，并未准确地集中在GaMD发现的两个主要低能区域（能量阱）。更重要的是，TI模拟对这两个能量阱的采样比例（例如在结合态，TI采样比例为33.6% vs 66.4%）与GaMD计算的真实布居比例（GaMD: 24.5% vs 75.5%）存在显著偏差。作者通过过滤掉无效的TI采样帧，并根据GaMD的比例对两个能量阱的贡献进行重新加权，最终将预测误差从1.88 kcal/mol降至0.44 kcal/mol。案例2：关键盐桥相互作用的破坏 (Violation of Key Salt Bridge Interactions) 在hu4D5-5 VH-R50A和mab2 VL-Y→R这两个涉及电荷变化的突变案例中，RF模型发现，影响计算的最关键DOF是抗体与抗原之间的一个关键盐桥的距离。图5：(A) hu4D5-5复合物中的Ag-E71:VH-R50A盐桥和(B) mab2复合物中的Ag-D161:VL-Y→R盐桥的可视化。图中展示了由RF模型识别出的关键盐桥。图4：(A-C) hu4D5-5 VH-R50A和(D-F) mab2 VL-Y→R中关键盐桥距离的GaMD自由能形貌图（曲线）与TI采样（直方图）的对比。(A, D)为原始TI模拟，(B, E)为过滤后的TI数据，(C, F)为施加NMR距离限制后的TI模拟。在(A)和(D)中，可以惊人地发现，在大部分TI模拟帧中（绿色直方图），该盐桥的距离都远远超过了5Å，说明这个关键的相互作用在计算过程中被人为地破坏了。作者推测这是由于炼金术中间态的混合势场削弱了静电作用所致。通过(B, E)过滤掉盐桥破坏的帧，或(C, F)在TI模拟中施加距离限制来强制维持盐桥，预测精度都得到了超过1 kcal/mol的显著提升。小编补充：从图4来看，似乎过滤数据分布也差不多，但很可能普通TI散掉了就一直散掉了，采不了多少数据？还是约束着好。案例3：关键氢键相互作用的破坏 (Violation of Key Hydrogen Bonds) 对于mab2 VH-T→Y和hu4D5-5 VL-F53N这两个案例，RF模型识别出的关键DOF是分子间的氢键距离。与前两种情况类似，TI模拟也未能准确捕捉这些氢键的正确构象。然而，对这类更动态、更复杂的相互作用进行校正要困难得多。例如，在mab2 VH-T→Y中，由于自由能形貌呈现双峰分布，简单的加权求和难以实现。在hu4D5-5 VL-F53N中，施加距离限制甚至导致了体系无法正确平衡。这表明，虽然该框架能有效识别问题，但对某些复杂情况的修复仍是未来的挑战。总体校正效果表2：对误差最大的几个预测进行GaMD校正的效果总结 | case | original $\Delta\Delta G$ (kcal/mol) | corrected $\Delta\Delta G$ (kcal/mol) | empirical $\Delta\Delta G$ (kcal/mol) | original error (kcal/mol) | corrected error (kcal/mol) | model R² | theorized source of error | | :— | :— | :— | :— | :— | :— | :— | :— | | hu4D5-5 W95A | $3.19 \pm 0.71$ | $4.63 \pm 0.47$ | 5.07 | 1.88 | 0.44 | 0.53 | bulky side-chain undersampling | | hu4D5-5 R50A | $2.98 \pm 1.02$ | $5.14 \pm 1.05$ | 4.58 | 1.60 | 0.56 | 0.73 | salt bridge violation | | mab2 VL-Y→R | $0.61 \pm 1.04$ | $-0.87 \pm 1.01$ | < -0.83 | > 1.43 | - | 0.48 | salt bridge violation | | mab2 VH-T→Y | $1.69 \pm 0.75$ | $0.61 \pm 0.73$ | 0 | 1.69 | 0.61 | 0.76 | hydrogen bond violation | | hu4D5-5 VL-F53N| $-0.56 \pm 0.57$ | - | 1.19 | 1.75 | - | 0.64 | hydrogen bond violation | 注：表格内容根据原文Table 2整理。不确定度为95%置信区间。original：普通TI；empirical：实验世界最终，作者将此校正方法应用到包含13个突变的整个hu4D5-5数据集，进一步验证了其普适性。表3：对hu4D5-5数据集($n=13$)的误差分析：原始方案、延长模拟方案与RF+GaMD校正方案的对比 | protocol | MAE | RMSE | | :— | :— | :— | | original protocol (5 ns per $\lambda$) | $0.82 \pm 0.18$ | $1.06 \pm 0.22$ | | extended protocol (25 ns per $\lambda$) | $0.71 \pm 0.18$ | $0.93 \pm 0.23$ | | RF + GaMD correction | $0.53 \pm 0.16$ | $0.70 \pm 0.18$ | 注：表格内容根据原文Table 3整理。MAE为平均绝对误差，RMSE为均方根误差。结果表明，简单地将模拟时间延长5倍，对精度的提升有限，而RF+GaMD校正方法则取得了实质性的改进，使RMSE非常接近$\pm0.5$ kcal/mol的目标精度。深入讨论本文的讨论部分对研究的发现及其意义进行了深刻的阐述。盐桥破坏是炼金术计算中的一个普遍且棘手的问题：作者强调，在炼金术中间态，混合势场会系统性地削弱静电相互作用，导致关键盐桥的“局部解离”。这是一个方法本身的缺陷，无法通过简单延长模拟时间来解决。作者将他们基于物理的距离限制校正方法与文献中其他经验性的校正方案进行对比，认为他们的方法虽然计算成本更高，但更为严谨和可靠，特别适用于对精度要求极高的场景。机器学习赋能无偏见的误差诊断：本文最大的方法学创新在于利用RF模型实现了一种“无偏见”的误差溯源。在不具备任何先验知识的情况下，该模型能自动从纷繁的动力学数据中识别出对能量计算起决定性作用的少数几个DOF。这为解决自由能计算中的“未知之不知”问题提供了一个强大的工具。对已知问题的再验证：RF模型能够自动识别出“大体积侧链采样不足”这一领域内公认的难题，这本身就强有力地验证了该诊断框架的有效性。作者指出，他们的框架可以作为更高级的增强采样方法（如ACES）的前导步骤，为其指明需要增强采样的关键DOF，从而提高效率。对力场误差的评估：在经过一系列采样校正后，预测的RMSE降低到了0.70 kcal/mol。考虑到实验测量本身也存在约$\pm0.3$ kcal/mol的误差，这意味着由ff14SB力场本身带来的误差可能非常小（约0.2-0.4 kcal/mol）。这表明，在当前阶段，改善采样问题比优化力场参数对提升预测精度的贡献可能更大。 Q&A Q1: 为什么简单地延长TI模拟时间通常无法修复这些预测误差？ A1: 因为这些误差很多是系统性误差（systematic error），而非随机误差。例如，在电荷变化突变中，炼金术路径中间态的“混合势场”会人为地削弱静电相互作用。这导致关键的盐桥即使在理论上应该存在的情况下也容易断裂。无论模拟时间多长，只要这个势场本身存在缺陷，盐桥就可能一直处于被破坏的状态。这并非采样不足的问题，而是方法本身的“人造缺陷”（artifact）。 Q2: 随机森林模型（RF）在其中扮演了什么角色？为什么不直接分析所有可能的分子自由度（DOF）？ A2: RF模型扮演了“筛子”或“侦探”的角色。在一个复杂的蛋白质体系中，分子自由度（如所有侧链的旋转角、所有原子间的距离）的数量是巨大的。绝大多数DOF的变化对我们关心的$\Delta\Delta G$计算影响甚微，它们是“噪音”。RF模型通过监督学习，能够从海量的DOF中，找出与能量导数$dV/d\lambda$相关性最强、即对最终结果影响最大的那几个“关键自由度”。这使得后续的分析可以集中火力解决主要矛盾，而不是在无关的噪音中大海捞针。 Q3: GaMD增强采样给出的自由能分布就一定是“正确”的吗？这个方法的核心假设是什么？ A3: GaMD并不保证绝对“正确”，但它是一种增强采样方法，相比于几纳秒的常规MD（cMD），它能更快速、更广泛地探索分子的构象空间，因此其得到的自由能分布更有可能接近体系的真实平衡态分布。该方法的核心假设是：由长时间GaMD模拟得到的构象能量地貌，比短时间的常规TI模拟所采样的构象，能更准确地反映体系的真实热力学性质。当然，使用GaMD时，研究者也需要通过检查收敛性等方式来确认其结果的可靠性。 Q4: 论文中使用距离限制（restraint）来修复盐桥断裂问题，但施加限制本身不会引入新的能量项，从而影响自由能计算吗？ A4: 问得非常好，这确实是一个严谨性问题。是的，施加限制会改变系统的哈密顿量，理论上需要计算并扣除这个限制所贡献的自由能。在一些体系中（如小分子-蛋白），有成熟的方法（如Boresch restraints）来解析地计算这一项。但在复杂的蛋白-蛋白界面，这个问题尚无标准解法。作者在文中也承认了这一点，他们认为，由盐桥断裂引入的巨大误差（>1 kcal/mol）远大于忽略限制自由能所带来的微小误差，因此在当前阶段，这是一个实用且有效的近似处理方法。 Q5: 这个RF+GaMD框架与其他改进炼金术计算的方法（如ACES）有何不同？ A5: 它们是互补而非竞争的关系。像ACES（炼金术增强采样）这类方法，旨在通过在炼金术路径上对某些“慢”自由度进行增强采样来加速收敛。但一个前提是，你需要预先知道应该对哪些自由度进行增强采样。而本文提出的RF+GaMD框架的核心贡献之一，就是提供了一种无偏见的、自动化的方法来识别出这些需要被特别关注的关键自由度。因此，可以将该框架视为ACES等更高级采样方法的前置步骤：先用RF+GaMD做“侦查”，找出问题所在，再用ACES等方法进行“精确打击”。关键结论与批判性总结关键结论本文提出并验证了一个结合随机森林（RF）和高斯加速分子动力学（GaMD）的创新框架，该框架能够以一种无偏见（untargeted）的方式，系统性地诊断和校正炼金术自由能计算中的采样误差。研究发现，大体积侧链（如色氨酸）的旋转异构态采样不足和在炼金术中间态由于混合势场导致的关键盐桥人为断裂，是导致$\Delta\Delta G$预测不准确的两大主要来源。通过应用基于GaMD的针对性校正策略（对不同构象态进行重加权或施加距离限制），在误差最大的案例中，预测精度提升超过1 kcal/mol。对于包含13个突变的hu4D5-5数据集，该方法将整体均方根误差（RMSE）从$1.06 \pm 0.22$ kcal/mol降至$0.70 \pm 0.18$ kcal/mol，非常接近临床应用所需的0.5 kcal/mol精度目标。研究明确表明，简单地将模拟时间延长5倍（从每个$\lambda$窗口5 ns增加到25 ns）对精度的提升非常有限（RMSE仅从1.06 kcal/mol降至0.93 kcal/mol），这证实了误差主要来源于系统性缺陷而非随机采样不足，因此必须采用更具针对性的校正方法。批判性总结潜在影响：该工作为突破炼金术自由能计算的精度瓶颈提供了一个强大、系统且思路清晰的框架。其“无偏见的误差识别能力”尤为重要，能够在使用常规TI计算的基础上，为更高级的增强采样方法（如ACES）指明需要关注的关键自由度。这有望将高精度自由能计算从少数专家的“炼丹术”推广为更可靠、更自动化的标准流程，从而加速其在治疗性抗体药物临床前CQA评估等要求苛刻的工业领域的应用。存在的局限性：尽管对盐桥断裂的校正效果显著，但对于更瞬态、更复杂的相互作用（如氢键网络）的校正仍具挑战性，因为这些相互作用的自由能形貌可能呈现复杂的多峰分布，难以直接修复。此外，施加距离限制所贡献的自由能未能被严格计算，这在理论上仍是一个待解决的问题。同时，该框架无疑增加了额外的计算成本，因为它需要在标准TI计算之外进行长时间的GaMD模拟和机器学习模型训练。未来研究方向：未来的工作可以致力于将该框架推广到更多的PTMs类型（如天冬酰胺脱氨等）和更复杂的分子体系中。同时，开发更普适、更自动化的方法来校正氢键等瞬态相互作用，以及探索如何在蛋白-蛋白体系中严格处理限制自由能的贡献，将是该领域的重要发展方向。附录1：随机森林(RF)关键自由度筛选高斯求积权重$w_j$的来源：高斯求积是一种经典的数值积分方法，其目的是用一个离散的加权和来高度精确地近似一个连续积分。对于热力学积分中自由能的计算，其基本形式为： $\Delta G = \int_{0}^{1} \left\langle \frac{\partial V(\lambda)}{\partial \lambda} \right\rangle_{\lambda} d\lambda$ 为了在计算机中求解，该积分被离散化。在使用N点高斯求积法时，这个积分被近似为在N个特定的$\lambda$坐标点（$\lambda_j$）上计算值的加权和： $\Delta G \approx \sum_{j=1}^{N} w_j \cdot \left\langle \frac{\partial V(\lambda)}{\partial \lambda} \right\rangle_{\lambda_j}$ 在这项工作中，作者使用了12点高斯求积方案（即$N=12$）。这些$\lambda_j$坐标点和它们对应的权重$w_j$是根据高斯求积的数学理论预先确定的，旨在最大化数值积分的精度。该论文将这些权重作为标准数值方法的组成部分直接使用，并未详细阐述其数学推导过程。递归特征消除（Recursive Feature Elimination, RFE）的具体操作：该方法通过一个迭代过程来系统性地减少特征数量，以找到性能最佳的特征子集。其操作流程如下：初始训练：使用全部$p$个候选特征$S_0 = {f_1, f_2, \dots, f_p}$训练一个基础模型（本文中是一个最大深度为5的决策树回归器）。重要性排序：根据训练好的模型，计算并排序所有特征的重要性。特征剔除：移除最不重要的预设百分比的特征。根据论文描述，每次迭代剔除5%的特征。这个过程可以表示为： $S_{k+1} = S_k \setminus R_k$ 其中，$S_k$是第$k$次迭代的特征集，$R_k$是该轮中被评定为最不重要的5%特征的集合。循环迭代：重复步骤1至3，直到特征数量达到预设的目标。在本文中，该过程持续进行，直到保留原始特征集中最重要的75%为止。贝叶斯超参数调优的具体操作：这是一种用于自动寻找机器学习模型最佳超参数组合的优化算法。其目标是找到一组能使模型性能最大化的超参数$\theta^*$。定义目标函数：首先定义一个评估模型性能的目标函数$J(\theta)$。在本文中，目标函数被设定为5折交叉验证后的平均$R^2$值，这代表了模型的泛化能力。构建代理模型：贝叶斯优化使用一个概率模型（通常是高斯过程）来拟合已观察到的超参数点$(\theta, J(\theta))$与目标函数之间的关系。优化搜索：整个搜索过程共进行200次迭代。前50次通过拉丁超立方采样进行随机探索，以获得对超参数空间的初步了解。随后的150次迭代则由贝叶斯模型指导，通过一个“采集函数”来智能地选择下一个最有希望提升性能的超参数组合进行尝试，从而高效地找到全局最优解。整个优化问题可表示为： $\theta^* = \arg\max_{\theta \in \Theta} J(\theta)$ 其中$\Theta$是所有可能的超参数组合空间。基于不纯度的平均特征重要性的具体计算：这是决策树和随机森林模型中常用的一种评估特征重要性的方法。对于回归任务，其核心是计算每个特征对“方差减少”的贡献。节点方差：对于树中的任意一个节点$m$，其包含的数据点的方差定义为： $\text{Var}(m) = \frac{1}{N_m} \sum_{i \in \text{node } m} (y_i - \bar{y}_m)^2$ 其中$N_m$是节点$m$中的样本数，$y_i$是样本值，$\bar{y}_m$是节点内所有样本的平均值。分裂带来的方差减少：如果一个节点$m$使用特征$f$进行分裂，产生左右两个子节点，那么这次分裂带来的方差减少量（即该节点的重要性）为： $\Delta I(m, f) = \text{Var}(m) - \left( \frac{N_{\text{left}}}{N_m} \text{Var}(\text{left}) + \frac{N_{\text{right}}}{N_m} \text{Var}(\text{right}) \right)$ 特征在单棵树中的重要性：一个特征$f$在单棵决策树$T$中的总重要性，是它在所有用它进行分裂的节点上带来的方差减少量的总和。特征在森林中的重要性：在随机森林中，一个特征的最终重要性是它在所有树中的重要性的平均值。为了结果的稳健性，作者通过5次重复的5折交叉验证共训练了25个模型，最终的特征重要性是这25个模型计算出的重要性分数的平均值。附录2：校正采样的细节怎么根据PMF校正采样的？根据识别出的不同误差来源，作者采用了两种不同的、具有针对性的校正策略： 1. 针对构象态采样比例错误的校正（过滤与重加权）这种方法主要用于处理像大体积侧链采样不足（如W95A案例）这样的问题，即TI模拟虽然找到了正确的低能构象态，但对它们的采样比例是错误的。第一步：识别构象态。首先，根据GaMD生成的PMF，确定体系存在几个主要的低能构象微观态（microstates）以及它们各自的能量盆。例如，在W95A案例中，GaMD发现W95侧链主要存在两个稳定的旋转异构态。第二步：过滤TI数据。检查常规TI模拟的每一帧，将所有不属于GaMD识别出的任何一个低能构象态的帧全部过滤掉、丢弃。这些被认为是物理意义不大或采样错误的“噪音”数据。第三步：分别计算各态的自由能。对于过滤后剩下的数据，将其按照所属的构象态进行分组。然后，为每一个构象态单独计算其炼金术自由能变化$\Delta G$。例如，如果存在两个微观态，就会得到$\Delta G_1和\Delta G_2$。第四步：根据GaMD比例进行重加权。最后，根据GaMD的势能面（Potential of Mean Force, PMF）计算出各个微观态的真实热力学布居比例（即自由能盆的面积或体积占比，例如$\text{Area}_1$和$\text{Area}_2$）。用这个比例作为权重，对上一步分别计算出的自由能进行线性组合，得到最终校正后的总自由能： $\Delta G_{\text{corrected}} = (\text{Area}_1 \times \Delta G_1) + (\text{Area}_2 \times \Delta G_2) + \dots$ 这个过程本质上是用热力学积分（Thermodynamic Integration, TI）的局部能量信息，结合增强采样分子动力学（GaMD）的全局构象分布信息，来重构一个更准确的自由能值。 2. 针对关键相互作用破坏的校正（施加距离限制）这种方法主要用于处理像关键盐桥断裂（如R50A案例）这样的问题，即TI模拟系统性地无法采样到某个本应存在的关键相互作用。第一步：识别相互作用。通过GaMD的PMF确认某个关键相互作用（如盐桥）在平衡态下是稳定存在的，并确定其正常的距离范围（例如< 5 Å）。第二步：施加距离限制并重新模拟。作者发现，简单地过滤数据会导致样本量急剧下降。因此，他们采用了一种更稳健的方法：重新进行一次TI模拟。在这次新的模拟中，他们施加了一个NMR式的距离限制（distance restraint），强制性地将形成盐桥的两个原子基团的距离约束在GaMD确定的合理范围内。第三步：使用限制性模拟的结果。这个限制有效地阻止了盐桥在炼金术中间态的人为断裂，确保了这一关键相互作用在整个计算过程中的完整性。最终的$\Delta\Delta G$直接采用这次限制性TI模拟的结果。虽然从理论上讲，施加限制本身会引入额外的自由能项，但作者认为，由盐桥破坏引入的巨大误差（>1 kcal/mol）远大于忽略限制自由能所带来的微小误差，因此这是一个在实践中非常有效的校正策略。如何从GaMD PMF中确定关键相互作用的正常几何范围？从GaMD（高斯加速分子动力学）生成的PMF（Potential of Mean Force，平均力势）图中确定相互作用的正常几何范围，主要依赖于对自由能形貌的解读。这个过程可以分为两步：第一步：生成并观察自由能分布图首先，需要针对感兴趣的几何参数（例如形成盐桥的两个原子团之间的距离）运行GaMD模拟并计算其一维PMF。这个PMF图的纵轴是自由能，横轴是距离。一个热力学稳定的相互作用会在图中表现为一个清晰、深刻的能量阱（energy well）。在论文的图4中，这个能量阱体现为相对丰度（Relative Abundance）图上的一个尖锐、高耸的山峰。第二步：根据能量阱定义范围 “正常几何范围”就是这个能量阱所覆盖的距离区间。具体操作是：定位能量最低点：找到能量阱最深处（即概率峰值最高处）对应的距离值。这代表了该相互作用最可能存在的距离。确定边界：从能量最低点向两侧延伸，直到自由能开始急剧上升的位置为止。这个能量急剧上升的“井壁”就定义了稳定相互作用的边界。应用临界值：在实践中，可以根据物理化学常识设置一个合理的临界值（cutoff）。例如，对于盐桥，通常认为带电原子团之间的距离在4-5 Å以内才算形成有效的相互作用。在论文的图4中，GaMD的PMF清晰地显示能量阱完全位于5 Å以内，因此作者采用“距离 < 5 Å”作为判断盐桥是否完整的标准是合理且有数据支持的 2。附录3：SI的信息 1. 完整的实验基准数据集 (Table S1) SI提供了用于验证计算结果的全部23个突变的完整实验数据。这包括每个突变的来源文献、实验方法（如SPR、滴定量热法）、原始测量值（如Kd值），以及最终转换为$\Delta\Delta G$ (kcal/mol)的结果。文件还澄清了数据处理的细节，例如在hu4D5-5数据存在多个报告值时，优先选择SPR数据，但对于解离速率过快的突变（如W95A），则根据与原作者的沟通改用等温滴定微量热法（ITC）的数据。 2. 完整的初始TI计算结果 (Table S3) 与实验数据相对应，SI列出了所有23个突变的初始TI计算预测值（$\Delta\Delta G$）及其不确定度。该表格还对每个突变进行了分类，明确标注了其是否涉及大体积侧链（bulky side chain）、电荷变化（charge-changing）或两者兼有。这使得读者可以直接比较不同类型突变的预测难度和误差大小。 3. 误差来源的排他性证据 (Table S2) 在分析涉及电荷变化的突变时，炼金术转化通常分为范德华（vdW）和静电（charging）两个步骤。主文假设误差主要来源于静电步骤。 Table S2提供了关键的“排除法”证据：当作者将RF+GaMD校正方法仅应用于误差最大的两个电荷变化突变（R50A和Y→R）的范德华步骤时，预测精度的改善微乎其微（trivial change）。这有力地证明了误差几乎完全集中在静电（charging）步骤，与主文中观察到的盐桥破坏现象高度吻合。 4. 随机森林（RF）模型的详细参数与定义 (Table S4, S4.2) 为了提高研究的可复现性，SI提供了RF分析的更多细节。Table S4列出了主文中提到的前5个最重要自由度（DOF）的定量重要性分数。 S4.2节提供了每个关键DOF的精确原子定义。例如，它明确定义了“Ag-E71:VH-R50盐桥距离”是“抗原E71残基的CD原子与抗体VH链R50残基的CZ原子之间的距离”。这些精确的定义对于其他研究者复现或借鉴该方法至关重要。 5. 方法的稳健性验证 (Table S5, Figures S1-S4) 为了排除误差是由于特定的“两步法”电荷转化方案引起的可能性，作者使用了一种更新的“一步法”转化方案（使用smoothstep软核势）重新计算了两个关键的电荷变化突变。结果显示，即使在“一步法”中，同样的盐桥破坏问题依然存在。并且，施加距离限制同样能有效地校正误差。这表明盐桥破坏是一个与炼金术混合势场相关的普遍性问题，而非特定计算方案的产物。 6. 发现的普适性——对外部数据的验证 (Figures S5-S11) 为了验证其发现的普适性，作者将其分析思路应用到了一个完全不同的、已发表的barstar-barnase蛋白复合物体系中，该体系的某些突变在原研究中也存在无法解释的巨大误差。作者对这些出错的突变进行了GaMD模拟，结果发现，在每一个出错的案例中，都存在一个先前未被讨论的关键盐桥或氢键相互作用。这强烈暗示，这些外部数据集中的误差很可能也是由同样的关键相互作用破坏机制导致的，从而极大地增强了本文结论的普适性。 7. 对比“增加算力”与“智能校正”的效果 (Table S6, S7) SI提供了最有说服力的数据之一：简单粗暴地增加算力是否能解决问题？作者将所有模拟的采样时间增加了5倍（从每个λ窗口5 ns延长到25 ns）。结果显示，5倍的算力投入对精度的提升非常有限（RMSE仅从1.06轻微降至0.93 kcal/mol），甚至在某些情况下预测结果反而变得更差。相比之下，应用RF+GaMD智能校正方法的RMSE则显著降低至0.70 kcal/mol。这组对比有力地证明了文中所述的误差是系统性误差，无法通过“大力出奇迹”来解决，必须采用本文提出的这种更智能的诊断和校正策略。

Free Energy · 2025-10-07

从参数调优的困境中解脱：FEP Ω如何让药物分子动力学模拟”开箱即用” 本文信息标题：FEP Ω：参数调优时代的终结作者：Sam Giannakoulias, John J. Ferrie, Andrew Apicello 发表时间：2025年10月单位：Sentauri Inc，美国马里兰州伍德宾引用格式：Giannakoulias, S.; Ferrie, J. J.; Apicello, A. FEP Ω: The End of Parameter Tuning. ChemRxiv 2025. https://doi.org/10.26434/chemrxiv-2025-bg1t9 论文原文：https://doi.org/10.26434/chemrxiv-2025-bg1t9 作者机构：Sentauri Inc（www.sentauriai.com）技术涉及：GROMACS分子动力学、xtb量子化学、scikit-learn机器学习框架摘要自由能微扰（FEP）是结构基础药物设计的金标准，但其精准性不足往往需要大量的参数调优，这严重阻碍了其在化合物设计中的实际应用。本文提出了FEP Ω，一个机器学习原生的FEP平台，通过消除传统范式中的先验参数调优、炼金术中间体和网络校正，结合标准化自动化设置和模拟后机器学习，实现了前所未有的数据驱动精度。与Schrödinger的FEP-PB相比，FEP Ω在更短时间内实现了更优的精准性，真正打破了FEP在药物发现中的应用壁垒。核心结论无参数调优流程：通过标准化工作流和后处理机器学习，完全消除了系统特异性的参数优化需求计算效率提升>50倍：使用仅1-5纳秒的短模拟时间，避免了网络校正和反向模拟，大幅降低计算成本精准性超越商业平台：在不进行任何参数调优的情况下，RMSE比FEP+低30-40%，达到亚千卡每摩尔级别强大的泛化能力：在陌生蛋白靶标（DPP-4）上的盲验证成功，证明了系统的通用性而非过拟合即时部署性：无需目标特异性优化，可直接应用于新靶点和化学序列，真正满足当代药物化学的快速迭代需求背景传统药物发现中，从先导化合物优化到候选药物的过程往往是漫长且昂贵的。在这个关键阶段，计算方法已成为加速筛选和指导合成的不可或缺的工具。自由能微扰（FEP）方法因能精准计算配体的结合自由能，已成为现代药物发现中最可靠的结合自由能预测方法。然而，尽管FEP理论上优越，其实际应用面临一个顽固的现实：无法开箱即用。无论使用哪个商业平台，计算化学家都必须大量调优参数——晶体结构、对接方案、力场、模拟时间等。这个过程既耗时又需要专业知识，严重限制了FEP在药物设计流程中的应用。 Schrödinger曾尝试通过FEP-PB（自动协议优化）来解决这个问题，但代价巨大：需要运行数百次模拟，且每个新靶点都要重复。结果是把人工调优转变成计算爆炸，大规模应用仍然难以实现。 FEP Ω的出现正是为了直面并彻底解决这些问题。核心创新在于：用标准化物理模拟 + 机器学习后处理的组合，完全消除系统特异性的参数调优需求。关键科学问题在FEP应用的这个关键时刻，关键问题并非”我们能否提高FEP的精准性”——这在理论上早已解决。真正的问题是：我们能否在不进行繁琐的系统特异性参数调优的情况下，实现这种精准性？换句话说，FEP发展到今天面临的核心困境是：精准性与实用性的矛盾：高精准的FEP需要大量参数调优，而这使其不适合快速的药物设计迭代通用性的缺失：每个靶点和化学序列都似乎需要定制化的参数方案，难以建立通用的、即插即用的工作流计算成本的爆炸：现有的自动化调优方法（如FEP-PB）需要运行数百次模拟，这对大多数药物发现团队而言难以承受知识壁垒：参数调优的成功高度依赖于计算化学家的经验和直觉，限制了FEP在更广泛应用中的采纳 FEP Ω的出现正是为了直面并彻底解决这些问题。创新点范式转换：从”模拟前优化”转向”模拟后学习”。不再试图通过调整模拟参数来获得精准性，而是用标准化协议运行简短模拟，然后用机器学习捕捉系统误差自动化端到端工作流：从PDB结构和SMILES字符串到精准的结合自由能预测，完全自动化，无需人工干预 Q-Unity力场体系：首次实现基于量子力学（xtb）的统一力场参数化框架，对蛋白质和小分子采用相同的第一性原理策略，消除了传统lookup表的依赖智能配体置位策略：创新的两步法（MCS对齐+约束对接+自定义原子重叠项）确保配体初始构象的精准放置，最小化后续平衡需求主动学习的轻量级机器学习：后处理ML层独立于模拟成本，用最少的实验数据（~30个化合物）训练弱学习器，可随着数据积累而迭代改进真正的跨系统泛化性：证明了学到的校正捕捉的是系统物理偏差而非数据集特异性伪影，在陌生蛋白靶标上的盲验证成功基准数据集与RBFE配体对 FEP Ω使用5个不同的蛋白质靶标进行基准测试和验证，总共包含180个配体。这些数据集来源如下：靶标配体数 PDB ID 来源特征 HIF2α 37 4gs9/4xt2/8ck3 文献参考 (ref 24-26) 小型、刚性、高卤代、完全埋藏口袋 BACE1 36 4djw Schrödinger官方套件 (ref 27) 体积大、正电荷多、埋藏口袋 P38 33 3fln Schrödinger官方套件 (ref 28) 线性结构、核心恒定、端部可变、部分溶剂暴露 MCL1 41 4hw3 Schrödinger官方套件 (ref 29-30) 高度灵活连接子、羧基、部分溶剂暴露 DPP-4 33 4ffw 文献参考 (ref 32) 灵活连接子、游离胺、高卤代、完全埋藏总计 180 - - - 关键说明： HIF2α的三个PDB ID含义（4gs9 / 4xt2 / 8ck3）：不是三个不同的蛋白质，而是同一蛋白质（HIF2α）的三个不同晶体结构每个结构代表蛋白质在不同配体复合物状态下的晶体学结构 Scaffold hopping实验设计：4xt2和8ck3用于模型开发训练（共两个配体系列），4gs9专门保留为盲测试集（blind test，完全独立），验证模型对陌生配体系列的真实泛化性这个设计类似于k折交叉验证的”held-out test set”，但用于评估不同化学骨架的转移性 RBFE的配体对选择：原文未明确说明采用全配对、星型网络还是其他拓扑结构。原文仅提到RBFE需要选择”well-characterized reference ligand”作为起点数据集多样性：这5个靶标代表了不同的结合位点拓扑、溶剂暴露程度和构象灵活性，为FEP Ω的鲁棒性和泛化性提供了全面的验证研究内容图1：FEP Ω工作流总体框架。展示自动化与标准化参数化 → FEP/MD模拟 → 目标特异性机器学习三个关键步骤，右侧突出显示核心优势：消除了迭代且耗时的参数调优、计算时间减少>50倍、预测精准度大幅提升。智能初始结构优化是该框架的关键创新，确保配体从化学合理的初始构象开始，最小化平衡过程，从而实现最优的原子重叠度。核心方法：FEP Ω工作流 FEP Ω的设计理念简洁而优雅：用物理基础模拟为基石，用机器学习进行数据驱动的精度修正。整个工作流分为三个关键阶段：第一阶段：标准化自动化设置与传统FEP不同，FEP Ω不要求对每个系统进行参数微调。相反，所有系统都遵循统一的预处理协议：蛋白质处理：从PDB结构开始，移除非生物学相关的水分子，保留关键水分子，补全缺失的环，添加显式氢配体处理：从SMILES字符串标准化开始，移除反离子和消除歧义形式电荷。质子化态和互变异构体选择刻意保留为用户可定义，以便进行系统性的假设探索智能初始结构优化（核心创新）第一步：真空态中的MCS配对搜索想象你有两个配体：分子A（参考配体）已经绑定在蛋白质口袋中，分子B是新的配体变种，你想计算从A→B的自由能变化。真空态指的是不含蛋白质和水分子的孤立状态——只有配体分子本身浮在虚空中。在这个真空态中，FEP Ω首先进行最大公共子结构（MCS）搜索：找出A和B分子中化学上相同的部分（比如它们都有的苯环骨架）。为什么会有多个MCS对齐方式？虽然叫”最大”公共子结构，但MCS算法处理的是2D化学结构（分子图的子图同构问题），没有3D空间信息。因此，当两个分子有对称性结构或多种异构体形式时，可能存在多个相同大小的等效MCS对齐方式（例如苯环可以用不同的旋转角度来对齐）。系统会测试多个可能的MCS对齐方式，然后用原子重叠指标来评估哪一种对齐最优。关键理解：MCS搜索的目的是找到一个稳定的对齐方案，用来在后续的蛋白质对接中充当”锚点”。MCS中的原子当然应该与参考配体A保持对齐（高重叠），这是合理的。问题在于，新配体B中与A不同的新取代基如何放置。原子重叠指标的定义：它测量的是整个新配体B与参考配体A之间的空间相似程度——通过计算对应原子间的距离来评估。请注意：原文未提供这个指标的具体数学公式，只是定性描述它基于”两个分子的组成原子的空间位置”。对接时，系统同时考虑两个目标：与蛋白质口袋的物理相互作用（经典对接评分）通过原子重叠项来优化：MCS部分作为锚点被固定，新取代基的位置被优化到产生合理空间差异的状态第二步：混合对接策略中的约束优化得到真空态的初始构象后，配体被放入蛋白质口袋中进行约束对接。这一步结合了两个评分函数：经典物理评分项：来自传统对接工具（如Glide或Vina），评估配体与蛋白质之间的相互作用能自定义原子重叠项：FEP Ω自己开发的指标，只考虑两个配体原子的空间位置，不考虑原子类型或化学性质为什么低重叠度反而产生更好的预测？这看似反直觉，但其实很有道理。原PDF中对Moore等人数据的回溯性分析显示：在那些导致低RMSE预测的FEP模拟中，初始配体结构的原子重叠度指标往往最低。关键的概念澄清：这里的”低重叠度”需要准确理解：根据原文的描述，FEP Ω的混合对接策略的核心是：“anchors shared ligand cores while optimizing the positioning of novel substituents”（锚定共享配体核心，同时优化新型取代基的位置）。当原子重叠指标低时，意味着整个新配体与参考配体在空间上呈现合理的差异。这并不是因为新取代基被强行拉远，而是因为： MCS部分被固定：共享配体核心（reference和mutant共有的部分）作为锚点被固定对齐，这实际上是有意的高重叠新取代基被优化：新型取代基的位置通过同时考虑蛋白质相互作用和原子重叠项来进行优化，使其既满足蛋白质结合，又不会造成不自然的构象简单的物理解释是：高重叠度：可能意味着系统过度追求新配体与参考配体的高度相似，这会迫使新取代基采取不自然的扭曲构象。后续MD模拟需要大量时间来”松弛”这种扭曲，引入随机噪声，降低FEP精准性。低重叠度：反映了新配体与参考配体之间的合理空间差异。这通常表明新取代基被放置在既满足蛋白质相互作用，又不会造成过度扭曲的位置，初始构象更接近真实的结合状态，所以后续平衡很快收敛。核心洞察：问题的关键不是简单的”重叠高低”，而是初始构象的化学和物理合理性。MCS部分自然对齐，新取代基的位置被优化到既满足蛋白质要求又不过度扭曲，这样系统从更合理的状态开始模拟，自然产生更好的预测结果。图2：原子重叠度对FEP预测精准性的影响。(A)展示p38系列中表现最差的FEP初始结构（MCS Filtered Vina，RMSE = 1.7 kcal/mol，平均重叠度指标 = 122），(B)展示表现最好的初始结构（Glide MCS，RMSE = 1.1 kcal/mol，平均重叠度指标 = 55）。上排视觉对比清晰展示了配体重叠程度与RMSE的强相关性。(C)散点图显示不同靶点序列（p38a红色、PTP1b蓝色、SYK棕色、TNKS2紫色）的平均重叠度指标值与RMSE的关系，证明最低RMSE的FEP模拟往往来自重叠度指标最低的对接方法。第二阶段：量子驱动的力场参数化——Q-Unity框架传统的分子力场依赖于lookup表和经验参数，这限制了其泛化性和物理基础性。所谓lookup表（查找表），就是指预先计算好的、针对常见原子类型和化学环境的参数集合。例如，AMBER、CHARMM、CGenFF等常用力场都依赖这样的参数库：当你给一个小分子建模时，系统会根据原子类型（如”sp³碳”、”醚氧”、”硫代酮硫”等）从lookup表中查找对应的Lennard-Jones参数σ和ε、部分电荷、键伸缩和二面角刚性系数等。这种方法的好处是计算速度快、经过广泛验证，但局限在于：对于新颖或不寻常的化学取代基（如罕见的杂原子组合、特殊的官能团），lookup表中可能没有确切匹配，导致参数化精准性下降，或需要人工调整。FEP Ω引入了Q-Unity，一个完全基于第一性原理的统一参数化框架，打破了对lookup表的依赖。 Q-Unity是什么：Q-Unity是FEP Ω团队创新开发的自动化力场参数化框架，它使用GFN2-xTB（扩展紧束缚）量子力学方法来为每个分子计算定制的力场参数。与传统力场依赖预定义的lookup表不同，Q-Unity为每个新颖的化合物——无论其化学结构是否在已知的参数库中——都直接从量子力学计算导出所有力场参数，确保参数的物理一致性和广泛适用性。这意味着不再受制于lookup表的限制，每个分子都获得定制的、基于其实际电子结构的力场参数。 Q-Unity的创新背景：虽然Q-Unity本身是FEP Ω论文的首次提出，但它基于该团队之前的成功经验。Giannakoulias、Shringari、Ferrie和Petersson在2020-2021年发表的系列工作证明了模拟导出参数+机器学习的方法论可以精准预测： Ref 21 (2020): 蛋白-蛋白界面突变的ΔΔG Ref 22 (2020): 硫代酰胺对多肽蛋白酶抵抗力的定位效应 Ref 23 (2021): 非天然氨基酸在蛋白质中的容错位点 Q-Unity正是将这一成功的“计算参数+数据驱动学习”方法论第一次应用到FEP的自动化力场参数化中。 GFN2-xTB的核心特点（Ref 34）：半经验量子力学方法：比全量子化学快得多，能处理数百甚至数千个原子精准的参数优化：参数不是从第一性原理预计算的，而是通过最小化与大量参考数据的偏差来优化，采用Levenberg-Marquardt算法广泛的元素覆盖：包括spd-block元素和镧系元素，覆盖所有常见的化学元素物理严谨性：包含多极矩电静相互作用和密度相关色散修正（D4） Q-Unity的实现方式：蛋白质参数：从N-乙酰化和C-甲基酰化的二肽衍生物进行GFN2-xTB计算，确保残基特异性参数化同时保留局部主链环境配体参数：直接对完整小分子进行GFN2-xTB计算，利用衍生的电子结构数据定义所有参数统一性：所有参数（Lennard-Jones σ和ε、原子电荷、键长、键角、二面角）都从GFN2-xTB量子力学计算直接导出，无任何lookup表依赖自动化流程：从SMILES或PDB格式的分子结构自动生成完整的、物理上一致的力场参数图3：Q-Unity参数化流程示意图。蛋白质和小分子都采用相同的第一性原理策略（从xtb量子力学计算导出非键作用参数σ/ε、原子电荷和成键参数——键长、键角、二面角），无需lookup表依赖。 Automated QM Parameterization Pipeline详解图3中的”自动化量子力学参数化流程”具体是什么？简单说，它是一个自动化的参数工厂：输入：任何蛋白质残基或小分子结构（用SMILES或PDB格式）量子力学计算：将分子输入GFN2-xTB引擎（一个高速的半经验量子力学计算工具），计算几何优化和电子密度： GFN2-xTB使用自洽场（Self-Consistent Field, SCF）方法优化分子几何和电子结构基于分子的实际电子密度分布进行后续的参数提取包含多极矩电静相互作用和密度相关的色散修正（D4），确保物理的准确性参数提取：从量子计算结果中直接读取和导出：非键相互作用参数（范德华力）： σ（原子大小）：从优化后分子结构中原子间的有效距离推导，反映原子的范德华半径 ε（相互作用强度）：从GFN2-xTB计算的电子结构数据和原子极化率推导原子电荷（Mulliken/CM5电荷）： GFN2-xTB在SCF计算中生成的Mulliken电荷分布，然后通过CM5（Charge Model 5）方案进行修正这些电荷直接来自于分子的电子密度，而非从lookup表查找成键参数：键长参考值：优化后的键长直接取自GFN2-xTB计算的几何键角和二面角参数：从计算得到的分子构象和力常数导出，用于定义成键的刚性系数这些参数是几何依赖的，因为GFN2-xTB包含坐标依赖的能级输出：一套完整、物理严谨的力场参数，可直接用于GROMACS等MD程序 GFN2-xTB参数的关键特点（基于Bannwarth等, 2019）：全局元素特异性而非元素对特异性：参数仅依赖于单个元素身份，不依赖于原子对的组合，这样大幅简化了参数空间参数拟合策略：GFN2-xTB的所有参数在开发时是针对准确预测几何、振动频率和非共价相互作用进行优化的，确保在FEP应用中的可靠性广泛的元素覆盖：包括spd-block元素和镧系元素（Z=1-86），覆盖药物化学中的几乎所有常见元素这样做的好处是：每个分子都获得定制的、基于其实际电子结构的力场参数，而不是从有限的lookup表中强行套用。对于新颖或罕见的化学取代基（比如某种稀有的杂原子组合、含金属的复杂官能团），这种方法远优于传统的”猜测或查表”方式。最重要的是，这个过程完全自动化，无需人工干预或参数调整。第三阶段：轻量级模拟与高效后处理体系搭建的自动化流程 FEP Ω将整个体系准备过程完全自动化，从原始的PDB结构和SMILES字符串开始，无需人工干预：配体准备（Ligand Preparation）：输入：配体SMILES字符串 SMILES标准化：移除反离子（counterions）、修正模糊的形式电荷（ambiguous formal charges）质子化和互变异构体选择：用户自定义——这样设计允许在不同的化学假设下进行系统的模拟队列化，探索不同的质子化状态或互变异构体对结果的影响显式氢添加：添加所有显式氢原子，确保结构完全用于MD模拟蛋白质准备（Protein Processing）：输入：PDB结构文件溶剂清理：移除bulk（大块）溶剂分子，仅保留生物学相关的水分子（这些水在结构中有明确的功能角色）缺失结构补全：对缺失的loop进行建模，确保蛋白质结构的完整性显式氢添加：添加所有显式氢原子对接与初始结构生成：使用MCS对齐+约束对接混合策略（前面详述）生成变体配体的初始结构确保初始结构几何和电子上合理，最小化后续平衡的耗时原文注记：虽然原文描述了完整的自动化流程，但并未明确指定体系准备的具体软件工具（如RDKit、OpenEye等），仅将其统称为”automated pipeline”。溶剂化、平衡与模拟参数溶剂化环境：使用SPC/E显式水溶剂（Berendsen等, 1987），这是一个经过验证的固体水模型缓冲区大小：配体周围5 Å的显式水层，确保蛋白质/配体充分水合中性化：加入150 mM Na⁺和Cl⁻离子以模拟生理盐浓度，保持系统电中性平衡阶段（Equilibration）：第一步：能量最小化：使用最陡下降法直到收敛，移除不合理的原子接触 NVT平衡（恒体积、恒温）：分阶段温度升温（10 K → 310 K），确保受控加热和系统稳定，避免温度跳跃引起的构象扭曲 NPT平衡（恒压力、恒温）：多阶段过程前期：位置约束（positional restraints）固定重原子（非氢原子），仅允许溶剂弛豫逐步放松约束，最终达到完全无约束的平衡，确保溶质和溶剂的充分弛豫生产MD运行：所有MD步骤在GROMACS中执行（Abraham等, 2015）——业界标准的高效分子动力学软件系综选择：Parrinello-Rahman (PR) 集合（恒压力、恒温、恒应力张量）约束状态：无任何约束，允许系统完全自由演化时间步：2 fs（飞秒），足够长以高效采样，足够小以保持数值稳定性生产时长：仅1 ns总时间（vs. 传统FEP的10-20 ns），这是FEP Ω计算效率的关键体现核心简化：FEP Ω完全消除了传统FEP工作流中的三个耗时环节：无alchemical intermediates：直接单步变换，无需多个λ态，省去大量模拟无反向模拟（hysteretic backward simulations）：传统FEP常进行正向和反向变换以估计统计误差，FEP Ω不需要无网络校正（cycle closure scheme）：传统FEP在热力学循环闭合时进行校正，FEP Ω依靠ML来处理任何不一致性这三项改动单独就能减少至少50%的计算量关键优势：支持大幅度配体变换（Larger Transformations）传统FEP的限制：需要最小化每步变换——即相邻配体A和B的差异必须很小（仅替换一个官能团）如果目标配体与参考配体差异大，必须插入多个中间体作为过渡步骤（A→中间体1→中间体2→…→目标）这导致模拟次数呈线性增长 FEP Ω的改进（原文第291-294行）： “remains accurate even for larger transformations. Unlike conventional cycle-closure implementations that require simulating the smallest possible transitions, our procedure accommodates multiple simultaneous transformations” 具体含义： FEP Ω可以处理大幅度的配体变换，无需特别小化每步差异支持多个同步的大跳跃变换，而不仅限于线性串联原文明确指出：这使药物化学团队可以直接测试他们真实的设计假设，而不是浪费资源在人为的中间体上例子： ❌ 传统FEP：要从某个先导化合物A评估到高活性配体D，需要：A→B（小变换）→C（小变换）→D（小变换），共4次模拟 ✅ FEP Ω：可以直接A→D（大幅变换），一次模拟，ML学会纠正变换过程中的物理偏差主动学习框架的机器学习：模型训练与特征工程：初始”弱学习器”：在~30个历史实验测量值上训练，建立模拟导出的时间序列描述符与实验结合亲和力的映射时间序列特征的来源与本质：FEP MD轨迹产生的模拟时间序列数据（如能量、原子坐标等在整个1 ns过程中的变化）被转化为描述符特征。这些特征捕捉的是系统在模拟过程中的动力学行为和能量变化模式，而非单纯的终态能量。系统会从FEP轨迹的整个过程中提取关键的物理量变化特性，用作ML模型的输入相对FEP（RB FEP）vs. 绝对FEP（AB FEP）的本质区别：特性 RB FEP（相对） AB FEP（绝对）参考点需要一个已知实验值的参考配体无需参考配体，从虚拟”无配体”状态开始计算目标相对结合自由能 ΔΔG 绝对结合自由能 ΔG 配体变换 A配体 ↔ B配体（两个真实配体间的转化）虚拟态↔真实配体（配体从”无”变到”有”）是否消失配体 ❌ 不消失，A和B都是真实小分子 ✅ 是的，配体逐步”消失”（从完全耦合到完全解耦） ML目标变量 ΔΔG（kcal/mol） ΔG（kcal/mol）应用场景有参考配体时（如已有活性先导化合物）完全新颖靶点或化学空间（无参考化合物） AB FEP的”消失”机制：在传统FEP中，AB FEP通过解耦变换（decoupling transformation）实现：状态A：虚拟的”无配体”（所有原子相互作用势设为0，配体不存在）状态B：真实蛋白质-配体复合物（完整的相互作用）变换过程：λ从0→1，配体的原子逐步”激活”，从无到有物理意义：计算完整的结合自由能，不依赖任何参考化合物计算难度：通常比RB FEP难，因为需要处理”从无到有”的大跨度变换 FEP Ω对AB FEP的改进（原文第324-325行）： “AB FEP models a continuous target (ΔG) that is inherently more uniform and therefore more amenable to stable ML regression” 即：相比RB FEP，AB FEP的目标函数更光滑、更易学，ML回归更稳定。关键设计：由于模拟和特征化都设计得简单直接，AB FEP和RB FEP无需额外模拟即可切换——仅调整目标变量即可（切换ΔΔG vs. ΔG）为什么1 ns足够： FEP是微扰方法而非绝对自由能计算：FEP的核心是计算能量差（ΔΔG或ΔG）而非绝对自由能。这意味着我们不需要进行完整的构象空间采样来估计绝对的游离能，只需要足够的数据来精准估计两个态之间的能量微扰智能初始结构优化的贡献：FEP Ω的MCS对齐+约束对接策略确保了配体从化学合理的初始构象开始，最小化了后续平衡过程。这意味着系统从更接近真实结合状态的点出发，1 ns的MD足以完成相对快速的热力学弛豫 ML层捕捉系统性偏差而非统计噪声：后处理的机器学习不是在修正MD采样的统计噪声，而是在学习和修正力场的系统性物理偏差（如对特定相互作用的欠描述、电荷分配偏差等）。这些系统偏差在很短的模拟时间内就已经表现出来，无需长时间模拟来累积统计证据实验验证：在HIF2α数据集上的收敛性研究明确显示，即使在极短的模拟时间（0.5-1 ns）下，RMSE和Spearman相关性指标已经保持稳定在亚千卡精度，表明非常短的模拟已能捕捉到足够的物理信息模型开发与评估：机器学习算法选择：由于数据稀缺（仅~30个历史数据点），FEP Ω限制于经典的浅学习算法，避免过度参数化：岭回归（Ridge Regression）：带L2正则化的线性回归，防止过拟合支持向量回归（Support Vector Regression, SVR）：非线性核方法，能捕捉特征与目标变量间的复杂关系 k-最近邻（k-Nearest Neighbors, kNN）：基于相似化合物的本地预测，对SAR数据友好简单决策树（Simple Decision Trees）：可解释的分层决策，易于理解预测逻辑特征工程：使用时间序列描述符（time series descriptors），从FEP MD轨迹提取特征维度：原文未明确给出具体数字，仅描述为从整个1 ns MD轨迹中提取的描述符特征的跨系统转移性：虽然原文未公开具体特征列表，但强调这些描述符是物理量导出的（如能量时间序列、接触距离变化等），因此能跨靶点、跨化学空间转移，而非特定分子的几何细节。在HIF2α学到的系统性偏差校正也适用于MCL1、P38等不同靶标特征的具体内容与局限：原文表述（第327-328行）：”the ML component operates directly on simulation-derived descriptors” 原文未公开的信息：具体的描述符列表和特征工程方法（这可能是Sentauri公司的专有信息）确切的输入维度（”从1 ns轨迹中提取”，可能是数十到数百维，但具体数字未给出）特征选择的标准（是否进行了维度约简、PCA或其他降维）可合理推测的特征类型（基于MD物理学）：能量时间序列：结合自由能、范德华能、静电能、溶剂化能在1 ns内的时间演化轨迹结构动力学指标：配体RMSD、蛋白质-配体接触距离变化、氢键网络的建立/破坏相互作用统计量：蛋白质极性残基与配体相互作用的频率和强度为什么能通用：这些都是基于力学的物理量，而非特定分子的化学细节力场对”极性相互作用”的欠描述在MCL1和P38中同样存在因此HIF2α学到的系统性校正可转移到其他靶标 ML校正的具体原理与流程：原文明确指出（第58行）：”By applying machine learning downstream of MD, FEP Ω is able to correct for residual errors” 校正方程： $\Delta G_{\text{预测}} = \Delta G_{\text{FEP直接计算}} + \Delta G_{\text{ML校正项}}$ 其中： $\Delta G_{\text{FEP直接计算}}$：标准MD/FEP计算的原始结果（如BAR或MBAR估计值） $\Delta G_{\text{ML校正项}}$：ML模型从时间序列描述符预测的系统性物理偏差这个校正项不是随机噪声，而是力场固有的、可学习的系统性欠描述为什么用实验值做target不会导致过拟合：你的关键观察”肯定效果更好啊，用实验值为target做训练了”是对的，但这恰恰是FEP Ω设计的精妙之处： ❌ 过拟合风险：如果ML直接记住~30个化合物的实验值，就无法泛化到新的配体和靶点 ✅ 系统性偏差学习：但FEP Ω学到的不是”配体A的亲和力是-8.5 kcal/mol”，而是”力场对这类相互作用系统性欠描述~0.5-1.0 kcal/mol” 原文强调（第360-361行，第515行）： “FEP Ω captures systematic physical deviations rather than dataset-specific artifacts” 证据：Scaffold hopping成功用4xt2和8ck3训练的模型可以准确预测4gs9的陌生配体（完全不同的化学骨架）这证明模型学到的是通用的物理规律，而非数据集特异性的噪声模型训练与超参数优化：交叉验证：5折交叉验证（5-fold cross-validation）超参数优化：贝叶斯优化（Bayesian optimization）目标函数：均方误差（Mean Squared Error, MSE）训练样本分割：从~30个化合物中分出训练和测试子集，特别注意确保训练集包含活性上下限的样本（这在小样本中至关重要）性能评估指标： R²（Pearson相关系数平方）：传统指标，但在小数据集中极其敏感，因此不作为主要判断标准 RMSE（均方根误差）：单位为kcal/mol，直接反映预测误差 Spearman Rho（ρ）：秩相关系数，是小数据集中更相关且更稳健的指标，更好地反映化合物排名的保留能力——这正是药物化学设计中的核心需求（排名正确比绝对值准确更重要） graph LR A["约30个历史 实验数据"] --> B["弱学习器训练"] B --> C["5折交叉验证 +贝叶斯优化"] C --> D["模型评估 R²、RMSE Spearman ρ"] D --> E["新实验数据"] E --> F["自动重新训练"] F --> G["模型精度 迭代改进"] G -.循环反馈.-> E 主动学习的闭环反馈与迭代改进机制这不仅仅是一个工作流，而是一个自适应和自我进化的系统。原文明确指出：整个过程形成了”a continuous feedback loop that bridges theoretical precision with the iterative demands of medicinal chemistry”（一个连接理论精准性与药物化学迭代需求的持续反馈循环）。闭环过程的三个关键阶段：初期：弱学习器建立基线（~30个数据）从历史实验数据开始训练初始模型虽然样本量小，但弱学习器已能提供相比纯物理方法（BAR、MBAR）的显著改进迭代中期：数据积累与模型自动精化当新的实验结果可用时，新化合物被自动在标准FEP框架内运行模拟模拟得到的时间序列描述符和实验数据一起自动加入ML引擎模型基于扩展的训练集自动重新训练长期效应：捕捉并修正系统物理偏差随着数据积累，ML模型学习和捕捉模拟与实验之间的系统性物理偏差这些偏差包括：力场对特定原子相互作用的欠描述电荷分配的系统误差特定官能团在蛋白质环境中的系统性预测偏移不同蛋白质口袋特征导致的预测系统偏移模型逐步应用针对性的校正来改进未来的预测关键澄清：改进的是什么？改进对象改变否原文依据 ✅ ML预测模型 ✓ 改变 “iteratively refines the model” ❌ 配体分子本身 ✗ 不改配体结构固定，仅做新的FEP模拟 ❌ MD模拟参数 ✗ 不改模拟协议标准化、固定 —— 这是FEP Ω核心特点 ❌ 力场参数 ✗ 不改 Q-Unity产生的参数基于QM计算，不调优不改 ❌ 对接或MCS策略 ✗ 不改初始结构生成策略保持不变改进的本质：从信息论角度：ML模型学习的是”模拟时间序列描述符与实验结果的系统关联” 从物理角度：模型捕捉的是“系统性的物理偏差”而非随机噪声从统计角度：原文强调这种校正是跨靶点、跨化学空间可转移的，说明模型学到的是通用的物理规律，而非过拟合到特定数据集原文证据： “This robustness, combined with the absence of pre-simulation optimization, positions FEP Ω as a practical and scalable alternative to traditional FEP methods… FEP Ω captures systematic physical deviations rather than dataset-specific artifacts.” 实际应用效果的演化：阶段数据量模型性能应用场景初始 ~30 亚千卡精度，已可用早期化学导向，粗筛中期 50-100 精准度逐步上升结构活性关系（SAR）预测成熟 200+ 高度优化、经验证实时化合物优先级排名价值在于闭环本身：早期精准度不高也没关系，因为系统会自动学习无需人工重新调试力场、对接参数或模拟设置每一个新实验数据都自动改进未来的预测形成”计算→实验→改进计算”的良性循环这形成了一个真正的自我进化系统，不像传统FEP需要每次都手工调参。关键结果与分析 1.收敛性与模拟时间依赖性在HIF2α系统上进行了详细的收敛性研究：图4：ML模型性能随模拟时间的收敛曲线，HIF2α数据集。上行A-C展示相对结合自由能（RB FEP）建模结果，下行D-F展示绝对结合自由能（AB FEP）建模结果。所有曲线覆盖0-5纳秒的模拟时间范围（横轴），纵轴显示三个计算指标。A和D为R²（Pearson相关系数平方），B和E为RMSE（均方根误差，单位kcal/mol），C和F为Spearman Rho（ρ，秩相关系数）。青色曲线代表交叉验证（CV）指标，深蓝色曲线显示独立测试集（Test）性能。关键发现：亚千卡准确度：在每个时间步都实现亚千卡每摩尔的误差，最小值甚至低于0.5 kcal/mol RMSE和Spearman Rho稳定：在模拟过程中保持稳定，表明即使是非常短的模拟也能保持接近实验的预测能力和排名顺序 R²不稳定（不足为怪）：R²在小数据集中极其敏感且不可靠，因此不是主要关注指标，而且RBFE用R²也不好三重启示：无参数调优也能精准：精准的能量估算完全依靠数据驱动方法，无需任何参数调优计算效率翻倍：避免网络校正和反向模拟，且生产MD极短，直接减少至少50%的计算量支持大转化：传统的闭环实现需要最小化转化，但FEP Ω可以处理多个同步转化，让药物化学团队直接测试真实设计假设，而非浪费资源在无关的中间体 2.骨架跃迁：真正的泛化能力测试为了评估FEP Ω对陌生化学空间的泛化能力，进行了骨架跃迁实验：用HIF2α的两个序列（4xt2和8ck3）训练，保留第三个序列（4gs9）作为独立测试集。这模拟了真实的药物化学场景，即新化学骨架与训练数据在化学上差异巨大。结果令人瞩目：图5：骨架跃迁实验性能对比，柱状图。(A)相对结合自由能（RB FEP）模式、(B)绝对结合自由能（AB FEP）模式。三个性能指标R²、RMSE和Spearman Rho分别计算交叉验证（CV，深蓝色柱）和独立测试集（Test，青色柱）的数值。 RB FEP：独立测试集RMSE从0.590轻微降至0.558 kcal/mol，说明学到的纠正捕捉的是系统性物理偏差而非骨架特异性特征 AB FEP：在所有指标上CV和测试集间保持强一致性，实现亚半千卡精度和稳定的排名顺序有趣的是，RB FEP在陌生骨架上的性能反而略微改进。虽然在大型机器学习项目中这种改进不常见，但在小数据集中是可信的——少数预测的变化会导致指标波动，有时反而有利。本文推测：AB FEP因为目标变量（ΔG）更平滑和均匀，相比RB FEP（其预测精度对参考配体选择高度敏感）更容易被ML回归稳定处理。这个结果的意义深远：它证明了FEP Ω的真正泛化性，而非过拟合，为其在实际工业应用中的快速部署奠定了基础。 3.工业基准对标对标Schrödinger的FEP+是验证FEP Ω的关键一步（见表1）。在BACE1、P38和MCL1三个标准靶点上进行了详细对比：系统 FEP+ R² FEP+ RMSE FEP+ SR FEP Ω R² FEP Ω RMSE FEP Ω SR BACE1 RB FEP 0.47 1.08 0.215 0.306 0.513 0.533 BACE1 AB FEP 0.44 1.21 -0.004 0.340 0.703 0.333 P38 RB FEP 0.49 0.87 0.464 0.565 0.531 0.588 P38 AB FEP 0.58 1.09 0.221 0.652 0.764 0.698 MCL1 RB FEP 0.45 1.03 0.570 0.641 0.570 0.728 MCL1 AB FEP 0.53 0.95 0.383 0.644 0.567 0.728 MCL1 RB FEP (PB) 0.439 1.0 0.657 0.641 0.570 0.728 表1：FEP+与FEP Ω在三个靶点上的RB和AB FEP性能对比。指标为R²（Pearson相关系数的平方）、RMSE（均方根误差，单位kcal/mol）和SR（Spearman Rho，秩相关系数）。PB是Schrödinger协议构建器的缩写。加粗部分显示各行中表现最优的指标令人震撼的对标结果： RMSE一致性更优：FEP Ω的RMSE通常比FEP+低30-40%，而且在所有系统上都实现了sub-kcal/mol误差强Spearman相关性：Spearman Rho指标的高值表明FEP Ω能可靠地对化合物进行排名，这正是药物设计中最关键的能力甚至超越FEP-PB：FEP Ω在使用完全标准化设置和极少计算成本的情况下，精准性反而超越了进行了大量自动调优的FEP-PB 方法论上的重要对比： Schrödinger的FEP+基准来自于广泛的参数优化，无论是手工还是通过协议构建器（FEP-PB）。两种情况下，模拟协议都使用同一数据集迭代调优，报告的指标实际上反映了数据集内拟合。虽然FEP+被称为物理基础方法，但这种调优实际上引入了人工引导的学习成分，与机器学习的精神相似。相比之下，FEP Ω采取了不同的路径：标准化模拟，仅在模拟后进行学习，确保无隐藏的前置调优偏差。FEP Ω报告的指标来自真正的样本外测试数据，代表真正的泛化性能。这种更严格的评估框架使得FEP Ω的优越性更加令人信服。 4.盲验证：DPP-4外部靶点测试最终的终极考验是在完全陌生的靶点上的盲验证。DPP-4（二肽基肽酶-4）被选中作为试验场，因为它是临床验证的2型糖尿病靶点，但在FEP文献中毫无先例。工作流完全遵循同一标准协议，每个化合物1纳秒MD模拟，24个化合物作为训练集：图6：DPP-4靶点上AB FEP预测值与实验结合自由能的对比。虚线（y=x）代表完美一致性，浅灰色阴影区域表示±2 kcal/mol误差带，深灰色阴影区域表示±1 kcal/mol误差带。深蓝色点代表交叉验证（CV）的预测结果，青色点代表独立测试集的预测。图表右下角标注了CV和Test两组的性能指标（R²、RMSE、Spearman ρ）。结果：交叉验证（CV）：R²=0.53，RMSE=0.51 kcal/mol，Spearman ρ=0.74 独立测试集（Test）：R²=0.45，RMSE=0.49 kcal/mol，Spearman ρ=0.75 Spearman Rho > 0.7：强相关性，表明可靠的化合物排名能力亚千卡精度：RMSE ~ 0.5 kcal/mol，完全达到药物发现的实用要求完全盲测中实现了稳健预测力，无需任何额外的方法开发这个结果的根本意义在于：它证明了FEP Ω不是针对特定靶点序列优化的工具，而是真正具有通用性的、开箱即用的FEP平台。医学化学家团队可以立即将其部署到新的发现项目，无需进行系统特异性的优化，这直接打破了传统FEP应用的关键障碍。为什么这对药物发现意义重大传统FEP的一个顽固现实是：医学化学家的设计迭代速度往往快于计算团队生成和验证FEP预测的速度。结果是，FEP预测经常来得太晚，无法影响药物化学决策。因此，FEP要真正发挥威力，必须在狭窄的时间窗口内提供可行的精准预测，与快速迭代的医学化学工作流对齐。 FEP Ω正是为此而设计的：无参数调优 → 立即部署：新靶点无需等待优化协议，直接运行标准流程短模拟 + 后处理ML → 快速周转：1-5纳秒的短模拟相比传统的10-20 ns大幅压缩，消除网络校正和反向模拟进一步加速独立的ML层 → 成本分摊：初始模拟的计算投入随着新数据积累而摊销，模型精度随之迭代改进，形成自强化反馈循环这种设计使FEP Ω特别适合hit-to-lead和lead优化的工业场景，在这里化学合成、生物测试和预测在快速循环中连续进行。随着实验数据累积，FEP Ω的模型变得越来越精准，逐渐建立起计算与实验间的自我强化反馈机制。 Q&A Q1：为什么消除参数调优反而能改进精准性？ A1：看似矛盾，但逻辑清晰。传统FEP中，”参数调优”本质上是对数据集进行过拟合的过程——你不断调整参数直到特定系列的预测变好。虽然看起来精准，但这些”最优参数”往往不具有泛化性。相比之下，FEP Ω采用标准化物理模拟 + 机器学习校正的策略。标准化模拟确保一致性，ML层学习的是系统性物理偏差（如力场对特定相互作用的欠描述）而非数据集特异性伪影。这使得学到的纠正对新化学空间和新靶点同样有效，因此整体性能反而更优。 Q2：机器学习需要多少训练数据才能有效？ A2：这是实用性的关键。FEP Ω在仅有~30个化合物的历史实验测量值上训练初始”弱学习器”就已经能改进物理估算器（如BAR或MBAR）。这是样本高效的——相比传统深度学习需要数千甚至数百万数据点，FEP Ω只需要小批量实验标签。跨验证和贝叶斯优化确保即使在小数据集中也能稳健调优超参数。且一旦有新实验数据，系统自动重新训练，逐步改进。 Q3：为什么只需1-5纳秒的模拟？这足够采样相构空间吗？ A3：这触及FEP Ω设计的深层逻辑。首先，FEP本身是微扰方法，而非绝对自由能计算——它关注的是能量差而非绝对值。其次，FEP Ω的智能初始结构置位（MCS对齐+约束对接）确保了配体从化学合理的起点开始，最小化平衡需求。第三，ML后处理捕捉的是系统性偏差而非统计噪声——它校正的是力场系统性的欠描述（如电荷分配偏差），而非每次运行的随机波动。因此，虽然短模拟中的构象采样不如长模拟丰富，但结合后处理ML，整体预测精准性往往更优。 Q4：Q-Unity力场与传统力场（AMBER、CHARMM）的主要区别是什么？ A4：关键区别在于参数导出的路径。传统力场（AMBER、CHARMM）依赖于大规模的lookup表和经验参数，这些是从历史数据和实验拟合中积累的。虽然这些表已被广泛验证，但它们本质上是为特定类型的分子和相互作用优化的，对于新颖或不寻常的化学取代基泛化性可能有限。Q-Unity采取了第一性原理方法：对每个分子直接从量子力学计算（xtb）导出参数。这意味着每个化合物都获得定制的、物理上一致的力场，对新颖化学的适应性更强。代价是计算量略高（每个分子需xtb计算），但对于药物发现的通量而言是完全可接受的。 Q5：在您的测试中，为什么AB FEP的表现往往比RB FEP更稳健？ A5：这是一个有趣的统计观察。RB FEP的目标变量（ΔΔG，相对变化）本质上比AB FEP的目标变量（ΔG，绝对值）更稀疏和离散——它严重依赖于参考配体的选择，参考配体决定了正向和负向转化的平衡。这使得RB FEP对异常值和参考选择的敏感性更高，ML回归在这样的目标上波动更大。相比之下，AB FEP直接预测连续的、相对均匀分布的绝对结合自由能，这对回归算法而言更”易驯服”。从这个角度，AB FEP的内在目标变量特性使其更适合小数据集的ML建模。关键结论与批判性总结核心成就 FEP Ω代表了自由能计算领域的范式转变。通过将学习从模拟前转移到模拟后，该平台有效地消除了系统特异性参数调优的需求，使得高精准的FEP预测在真正意义上变成即插即用的能力。跨越五个靶点、从小蛋白到临床靶点、从相对到绝对FEP的广泛验证显示，FEP Ω的性能真正具有通用性，而非针对特定化学序列的优化结果。与商业平台的对标进一步证实了其在精准性、计算效率和实用部署三个关键维度上的优势。局限性与未来方向小数据集的ML回归边界：即使是30个化合物的训练集在某些情况下仍可能面临统计鲁棒性问题，尤其是在特别不寻常的化学空间中溶剂环境的简化：当前使用SPC/E显式水，对于包含特殊溶剂或复杂膜系统的应用可能需要扩展蛋白质灵活性和构象选择：虽然流程自动化，但蛋白质入射构象的选择仍然关键，复杂的多状态结合或大幅构象变化可能需要额外考虑集成有机物的参数化：某些高度优化或非常规的化学物质可能仍需手工检查xtb衍生的参数前景 FEP Ω的出现强有力地宣示：精准性与实用性之间不必然存在不可调和的矛盾。通过物理模型和数据驱动学习的智能结合，我们可以构建既精准又通用的计算工具。在更广泛的背景下，这为下一代预测建模开辟了新思路——一个在其中自由能计算变成普遍性、即时可行的科学工具，而非仅限于少数专家的精妙计算技艺。从化学工业的角度，这意味着计算与实验的融合加速。随着FEP Ω在真实项目中的应用，每一个新的实验数据点都强化了模型，创造出一个自我强化的反馈循环。医学化学家不再需要等待计算优化周期，而是能够在快速设计迭代的节奏中获得可靠的计算指导。这直接加速从先导化合物到候选药物的关键阶段，有望显著降低早期药物发现的时间成本。

Free Energy

【JCIM综述】FEP的“AI进化”：机器学习如何革新自由能微扰计算工作流本文信息文章类型: Perspective (观点/综述) 标题: 将机器学习整合进自由能微扰工作流作者: Donald J. M. van Pinxteren and Willem Jespers 发表时间: 2025年9月17日单位: 格罗宁根大学格罗宁根药物研究所 (GRIP)，药物化学、光药理学与成像系 (荷兰) 引用格式: van Pinxteren, D. J. M., & Jespers, W. Integrating Machine Learning into Free Energy Perturbation Workflows. Journal of Chemical Information and Modeling. Published online September 17, 2025. https://doi.org/10.1021/acs.jcim.5c01449 摘要自由能微扰（Free Energy Perturbation, FEP）方法是基于结构的药物设计中，用于预测蛋白质-配体结合亲和力的最精确的工具之一。然而，由于其高昂的计算需求和复杂的设置流程，其应用仍然受限。这篇综述探讨了如何通过整合机器学习（ML），特别是主动学习（AL）和深度学习（DL），来提升FEP工作流的效率、易用性、准确性和精确性。文章审视了ML成功应用的三个关键领域：采样策略、方案优化和力场开发。主动学习算法可以通过指导分子的选择，显著减少虚拟筛选中所需的FEP计算次数。基于深度学习的蛋白质-配体协同折叠方法，如AlphaFold、NeuralPLexer和DragonFold，能够自动化地生成用于FEP的精确复合物结构，绕过了传统的对接和准备步骤。此外，基于量子力学据训练的机器学习衍生的神经网络势（NNPs），虽然计算成本更高，但提供了更高的力场精度。本综述强调，将人类专业知识与机器学习工具相结合的混合方法，是加速和普及基于FEP的药物发现最有前景的策略。这个跨学科领域的未来发展，有望在制药和材料科学应用中扩展计算机辅助药物设计的范围和影响力。本文内容思维导图 mindmap root(FEP的“AI进化”) **FEP的挑战** ::icon(fa fa-bomb) 高计算成本复杂的体系构建与方案设置 **ML整合的目标** ::icon(fa fa-bullseye) 提升效率提升精度提升易用性 **三大核心应用领域** ::icon(fa fa-cogs) **1.优化采样策略** 主动学习（AL）工作流程 ::icon(fa fa-sync) FEP计算小子集 --> 训练ML模型 --> 预测大文库 --> 智能选择下一批 --> 循环获取函数利用策略（贪婪）探索策略（不确定性）关键参数分子描述符迭代批次大小成果 ::icon(fa fa-rocket) 约20倍效率提升 **2.自动化方案设置** FEP方案构建器 ::icon(fa fa-wrench) AL自动优化FEP+参数协同折叠（Cofolding） ::icon(fa fa-dna) 绕过传统分子对接代表工具 AlphaFold3 NeuralPLexer3 DragonFold 优势与挑战更高精度 vs. 泛化能力有限 **3.力场增强** ML辅助的MM力场参数化 ::icon(fa fa-sliders-h) 高效重拟合扭转角参数神经网络势（NNPs） ::icon(fa fa-brain) 原理以接近MM的速度实现QM的精度代表模型 ANI AIMNet2 AceFF1.0 优势与挑战高精度 vs. 极高计算成本 **结论与展望** ::icon(fa fa-flag-checkered) **人机协作是未来** 融合AI的速度与人类专家的智慧 **跨学科应用前景** 材料科学化学工程 1. 引言 (Introduction) 在药物发现与优化领域，计算机辅助药物设计（CADD）已成为不可或缺的工具。随着计算能力的增强、开源化学数据库和蛋白质结构的普及，以及各种计算方法的效率、可靠性和准确性的提升，CADD被广泛应用于药物研发流程中。 FEP方法是CADD中定量预测结合亲和力的“金标准”。无论是绝对结合自由能微扰（ABFE）还是相对结合自由能微扰（RBFE），其核心都是通过一系列微小的“炼金术”步骤，在一个热力学循环中计算两个状态之间的自由能差。RBFE因其更高的精度和相对较低的成本，在先导化合物优化中应用最为广泛，但它要求两个比较的配体结构差异不能太大。ABFE虽然可以克服这一限制，但其计算成本和技术挑战更高。尽管FEP在多个成功的药物研发案例中（如KRAS G12C抑制剂、TYK2抑制剂等）证明了其价值，但其应用普及仍然面临两大瓶颈：高昂的计算成本和繁琐费力的体系准备过程。因此，开发更高效、计算需求更低、设置更简便的方法，对于筛选更大规模的分子库、更全面地探索化学空间至关重要。机器学习（ML），特别是深度学习（DL）和主动学习（AL），正是在这一背景下展现出巨大潜力。通过将ML整合到FEP工作流中，我们有望突破上述瓶颈，进一步提升这一强大工具的可靠性与计算性能。 2. 机器学习在自由能微扰方法中的应用本节将探讨ML在FEP工作流中落地的三个关键方向：优化采样策略、自动化方案设置以及增强力场精度。 2.1 通过主动学习（AL）优化FEP样本选择在虚拟筛选中，对一个包含成千上万个分子的化学库进行“暴力”FEP计算是不现实的。主动学习（AL）为此提供了一个智能的解决方案：用最少的FEP计算，发现最多的高活性配体。方案1：主动学习增强FEP文库筛选的示意图 AL-FEP的基本工作流程如上图所示。它是一个迭代循环：初始阶段：从整个化学库中选择一个小的初始子集，对其进行FEP计算，获得精确的结合自由能数据。模型训练：用这个小的、高质量的FEP数据集来训练一个机器学习模型（通常是QSAR模型）。预测与选择：用训练好的模型去预测化学库中所有剩余分子的结合亲和力。样本获取：根据特定的“获取函数”（Acquisition Function），从剩余分子中智能地选择下一批（一个batch）最有价值的分子进行FEP计算。循环迭代：将新获得的FEP数据加入训练集，重新训练模型，并开始下一轮的预测和选择，直到达到预设的计算预算或找到足够多的高活性分子。 “获取函数”是AL的灵魂，主要分为两类：利用（Exploitation）：也称“贪婪”策略，即选择模型预测的结合亲和力最强的分子。其目标是尽快找到最佳候选物。探索（Exploration）：选择模型最“不确定”的分子，即预测误差可能最大的分子。其目标是帮助模型更好地学习整个化学空间的规律，避免陷入局部最优。多项回顾性研究系统地评估了AL-FEP工作流的性能。研究表明，通过优化分子描述符（如RDKit分子指纹优于相互作用指纹）、获取策略（如先探索后利用的混合策略）、迭代批次大小（batch size，通常60-120个分子的初始批次和更小的迭代批次效果较好）以及机器学习算法等参数，AL-FEP可以用相当于暴力筛选5%的计算量，找到超过50%的高活性化合物，实现了高达20倍的效率提升。然而，这些研究也指出，最优的AL配置高度依赖于具体靶点和数据集的化学多样性，目前尚无“一招鲜”的通用方案。 2.2 FEP方案与蛋白质体系的构建自动化随着FEP计算本身效率的提升，繁琐且需要高度专业知识的体系准备过程已成为新的主要瓶颈。诸如残基质子化状态的确定、关键水分子的保留等细节，都极大地影响着最终结果的准确性。机器学习正在从两个方面彻底改变这一现状。方案2：FEP方法中蛋白质体系构建的传统与AI驱动工作流对比。(A) 传统工作流，涉及手动蛋白质准备和分子对接。(B) 使用协同折叠技术的替代工作流。 A. FEP方案的自动化优化由de Oliveira等人开发的FEP Protocol Builder (FEP-PB)是一个典型的例子。它使用主动学习来自动化地创建和优化FEP+的计算方案。FEP-PB能够探索包括蛋白质结构选择、平衡时间、水模型、采样策略、力场选择、残基互变异构/质子化状态等在内的众多参数组合。它通过短时FEP模拟快速评估随机生成的方案，训练AutoML模型来预测并迭代优化，最终找到在特定体系上兼具速度和准确性的最佳方案。在某些情况下，FEP-PB自动生成的方案性能甚至超越了经验丰富的计算化学家手动设计的方案。 B. 基于深度学习的蛋白质-配体结构预测（协同折叠）传统的FEP流程（方案2A）需要先通过分子对接等方法预测配体的结合构象，这个过程本身就充满了不确定性。近年来，以AlphaFold为代表的深度学习方法带来了革命性的变化。新一代的工具不再是先预测蛋白质结构再对接配体，而是直接进行协同折叠（Cofolding），一步到位地预测出蛋白质-配体复合物的精细三维结构（方案2B）。代表性工具： AlphaFold3 和 HelixFold3：闭源和开源领域的领先者，报道了相比传统对接方法更高的复合物结构预测精度。 NeuralPLexer3：采用多尺度DL架构，据称在捕捉配体诱导的构象变化方面优于AlphaFold3，且速度快15倍。 DragonFold：由Charm Therapeutics开发，旨在通过协同折叠跳过对接步骤，直接生成用于FEP计算的高质量起始结构。优势：协同折叠有望提供更准确的结合模式、蛋白质构象和局部质子化状态，从而极大地提升FEP计算的可靠性，并大大降低了对使用者专业知识的要求。挑战与局限：尽管前景广阔，但第三方基准测试（如PoseX, Runs N’ Poses）也揭示了当前协同折叠模型的局限性。它们的成功率在很大程度上依赖于测试体系与训练集的相似性，对于训练集中未充分体现的新颖药物分子，其预测准确性会下降。此外，在处理手性、对柔性配体进行排序、以及模拟大的构象重排等方面仍存在挑战。 2.3 力场增强 FEP计算的基石是分子力学（MM）力场。尽管现有力场（如AMBER, CHARMM, OPLS）已相当成熟，但其参数化的局限性和可转移性问题仍是FEP预测不确定性的主要来源之一。机器学习为此提供了两条改进路径。方案3：(A) 传统MM力场和(B) QM/NNP混合力场的获取流程示意图 A. 机器学习辅助的MM力场参数化一种相对温和的改进方式是利用ML来优化现有MM力场中的特定参数。例如，Karwounopoulos等人发现，使用ML/MM方法（基于ANI-2x神经网络势）来重新拟合MM力场中的扭转角参数，是一种计算开销极小但能有效提升精度的实用策略，其性能与更复杂的端点校正方法相当，但计算成本和方差都更低。 B. 神经网络势（NNP）更具革命性的方法是开发全新的、完全由机器学习驱动的力场，即神经网络势（Neural Network Potentials, NNPs）。基本原理：NNPs通过在大量的量子力学（QM）数据上进行训练，学习原子环境与其能量、受力之间的复杂关系。其目标是以接近经典MM力场的计算速度，实现媲美QM计算的精度。代表性模型： ANI系列（如ANI-2x）：开创性的NNP模型，但应用范围主要局限于小分子。 AIMNet2：克服了早期NNP的许多局限，提供了广泛的元素覆盖，支持中性和带电分子，并整合了物理的长程相互作用项，无需重新训练即可直接应用于多种化学体系。 AceFF1.0：应用于QuantumBind-RBFE方法中，展示了在FEP计算中比传统力场更高的精度。挑战与权衡：尽管NNPs潜力巨大，但目前仍面临挑战。首先，其计算成本显著高于传统MM力场（例如，ANI-2x在FEP中的成本比FEP+高约8倍）。其次，其精度和泛化能力严重依赖于训练数据的质量和覆盖范围。尽管如此，在传统MM力场失效的困难体系中，NNPs可以作为介于经典MM和完全QM/MM之间的一种高精度选择。 3. 结论与展望近年来，机器学习与FEP方法的融合取得了显著进展，覆盖了从采样策略、方案自动化到力场开发的各个环节。协同折叠模型（如AlphaFold3）和自动化方案构建工具（如FEP-PB）极大地降低了FEP的技术门槛，使其有望被更多非专业用户所使用。然而，当前模型在面对新颖化学结构时泛化能力的不足，也凸显了其局限性。神经网络势（NNPs）为力场开发带来了新的曙光，有望在未来成为标准实践。但目前，其高昂的计算成本仍然是普及的主要障碍。展望未来，最有效、最务实的策略可能并非完全依赖自动化，而是一种人机协作（human-in-the-loop）的混合模式。在这种模式下，机器学习模型负责处理大规模的数据筛选和繁琐的流程优化，而经验丰富的计算化学家和药物化学家则负责进行关键的决策、评估模型的局限性，并整合关于分子可合成性、脱靶效应等模型难以评估的“化学直觉”。这种结合了AI的速度与人类智慧的深度的工作范式，将是推动FEP在更广泛的科学和工业应用中发挥更大作用的关键。

Free Energy

Mendelevium

Contact

Free Energy