从参数调优的困境中解脱:FEP Ω如何让药物分子动力学模拟”开箱即用”
本文信息
- 标题:FEP Ω:参数调优时代的终结
- 作者:Sam Giannakoulias, John J. Ferrie, Andrew Apicello
- 发表时间:2025年10月
- 单位:Sentauri Inc,美国马里兰州伍德宾
- 引用格式:Giannakoulias, S.; Ferrie, J. J.; Apicello, A. FEP Ω: The End of Parameter Tuning. ChemRxiv 2025. https://doi.org/10.26434/chemrxiv-2025-bg1t9
- 论文原文:https://doi.org/10.26434/chemrxiv-2025-bg1t9
- 作者机构:Sentauri Inc(www.sentauriai.com)
- 技术涉及:GROMACS分子动力学、xtb量子化学、scikit-learn机器学习框架
摘要
自由能微扰(FEP)是结构基础药物设计的金标准,但其精准性不足往往需要大量的参数调优,这严重阻碍了其在化合物设计中的实际应用。本文提出了FEP Ω,一个机器学习原生的FEP平台,通过消除传统范式中的先验参数调优、炼金术中间体和网络校正,结合标准化自动化设置和模拟后机器学习,实现了前所未有的数据驱动精度。与Schrödinger的FEP-PB相比,FEP Ω在更短时间内实现了更优的精准性,真正打破了FEP在药物发现中的应用壁垒。
核心结论
- 无参数调优流程:通过标准化工作流和后处理机器学习,完全消除了系统特异性的参数优化需求
- 计算效率提升>50倍:使用仅1-5纳秒的短模拟时间,避免了网络校正和反向模拟,大幅降低计算成本
- 精准性超越商业平台:在不进行任何参数调优的情况下,RMSE比FEP+低30-40%,达到亚千卡每摩尔级别
- 强大的泛化能力:在陌生蛋白靶标(DPP-4)上的盲验证成功,证明了系统的通用性而非过拟合
- 即时部署性:无需目标特异性优化,可直接应用于新靶点和化学序列,真正满足当代药物化学的快速迭代需求
背景
传统药物发现中,从先导化合物优化到候选药物的过程往往是漫长且昂贵的。在这个关键阶段,计算方法已成为加速筛选和指导合成的不可或缺的工具。自由能微扰(FEP)方法因能精准计算配体的结合自由能,已成为现代药物发现中最可靠的结合自由能预测方法。
然而,尽管FEP理论上优越,其实际应用面临一个顽固的现实:无法开箱即用。无论使用哪个商业平台,计算化学家都必须大量调优参数——晶体结构、对接方案、力场、模拟时间等。这个过程既耗时又需要专业知识,严重限制了FEP在药物设计流程中的应用。
Schrödinger曾尝试通过FEP-PB(自动协议优化)来解决这个问题,但代价巨大:需要运行数百次模拟,且每个新靶点都要重复。结果是把人工调优转变成计算爆炸,大规模应用仍然难以实现。
FEP Ω的出现正是为了直面并彻底解决这些问题。核心创新在于:用标准化物理模拟 + 机器学习后处理的组合,完全消除系统特异性的参数调优需求。
关键科学问题
在FEP应用的这个关键时刻,关键问题并非”我们能否提高FEP的精准性”——这在理论上早已解决。真正的问题是:我们能否在不进行繁琐的系统特异性参数调优的情况下,实现这种精准性?
换句话说,FEP发展到今天面临的核心困境是:
- 精准性与实用性的矛盾:高精准的FEP需要大量参数调优,而这使其不适合快速的药物设计迭代
- 通用性的缺失:每个靶点和化学序列都似乎需要定制化的参数方案,难以建立通用的、即插即用的工作流
- 计算成本的爆炸:现有的自动化调优方法(如FEP-PB)需要运行数百次模拟,这对大多数药物发现团队而言难以承受
- 知识壁垒:参数调优的成功高度依赖于计算化学家的经验和直觉,限制了FEP在更广泛应用中的采纳
FEP Ω的出现正是为了直面并彻底解决这些问题。
创新点
- 范式转换:从”模拟前优化”转向”模拟后学习”。不再试图通过调整模拟参数来获得精准性,而是用标准化协议运行简短模拟,然后用机器学习捕捉系统误差
- 自动化端到端工作流:从PDB结构和SMILES字符串到精准的结合自由能预测,完全自动化,无需人工干预
- Q-Unity力场体系:首次实现基于量子力学(xtb)的统一力场参数化框架,对蛋白质和小分子采用相同的第一性原理策略,消除了传统lookup表的依赖
- 智能配体置位策略:创新的两步法(MCS对齐+约束对接+自定义原子重叠项)确保配体初始构象的精准放置,最小化后续平衡需求
- 主动学习的轻量级机器学习:后处理ML层独立于模拟成本,用最少的实验数据(~30个化合物)训练弱学习器,可随着数据积累而迭代改进
- 真正的跨系统泛化性:证明了学到的校正捕捉的是系统物理偏差而非数据集特异性伪影,在陌生蛋白靶标上的盲验证成功
基准数据集与RBFE配体对
FEP Ω使用5个不同的蛋白质靶标进行基准测试和验证,总共包含180个配体。这些数据集来源如下:
| 靶标 | 配体数 | PDB ID | 来源 | 特征 |
|---|---|---|---|---|
| HIF2α | 37 | 4gs9/4xt2/8ck3 | 文献参考 (ref 24-26) | 小型、刚性、高卤代、完全埋藏口袋 |
| BACE1 | 36 | 4djw | Schrödinger官方套件 (ref 27) | 体积大、正电荷多、埋藏口袋 |
| P38 | 33 | 3fln | Schrödinger官方套件 (ref 28) | 线性结构、核心恒定、端部可变、部分溶剂暴露 |
| MCL1 | 41 | 4hw3 | Schrödinger官方套件 (ref 29-30) | 高度灵活连接子、羧基、部分溶剂暴露 |
| DPP-4 | 33 | 4ffw | 文献参考 (ref 32) | 灵活连接子、游离胺、高卤代、完全埋藏 |
| 总计 | 180 | - | - | - |
关键说明:
- HIF2α的三个PDB ID含义(4gs9 / 4xt2 / 8ck3):
- 不是三个不同的蛋白质,而是同一蛋白质(HIF2α)的三个不同晶体结构
- 每个结构代表蛋白质在不同配体复合物状态下的晶体学结构
- Scaffold hopping实验设计:4xt2和8ck3用于模型开发训练(共两个配体系列),4gs9专门保留为盲测试集(blind test,完全独立),验证模型对陌生配体系列的真实泛化性
- 这个设计类似于k折交叉验证的”held-out test set”,但用于评估不同化学骨架的转移性
-
RBFE的配体对选择:原文未明确说明采用全配对、星型网络还是其他拓扑结构。原文仅提到RBFE需要选择”well-characterized reference ligand”作为起点
- 数据集多样性:这5个靶标代表了不同的结合位点拓扑、溶剂暴露程度和构象灵活性,为FEP Ω的鲁棒性和泛化性提供了全面的验证
研究内容

图1:FEP Ω工作流总体框架。展示自动化与标准化参数化 → FEP/MD模拟 → 目标特异性机器学习三个关键步骤,右侧突出显示核心优势:消除了迭代且耗时的参数调优、计算时间减少>50倍、预测精准度大幅提升。智能初始结构优化是该框架的关键创新,确保配体从化学合理的初始构象开始,最小化平衡过程,从而实现最优的原子重叠度。
核心方法:FEP Ω工作流
FEP Ω的设计理念简洁而优雅:用物理基础模拟为基石,用机器学习进行数据驱动的精度修正。整个工作流分为三个关键阶段:
第一阶段:标准化自动化设置
与传统FEP不同,FEP Ω不要求对每个系统进行参数微调。相反,所有系统都遵循统一的预处理协议:
- 蛋白质处理:从PDB结构开始,移除非生物学相关的水分子,保留关键水分子,补全缺失的环,添加显式氢
- 配体处理:从SMILES字符串标准化开始,移除反离子和消除歧义形式电荷。质子化态和互变异构体选择刻意保留为用户可定义,以便进行系统性的假设探索
- 智能初始结构优化(核心创新)
第一步:真空态中的MCS配对搜索
想象你有两个配体:分子A(参考配体)已经绑定在蛋白质口袋中,分子B是新的配体变种,你想计算从A→B的自由能变化。
真空态指的是不含蛋白质和水分子的孤立状态——只有配体分子本身浮在虚空中。在这个真空态中,FEP Ω首先进行最大公共子结构(MCS)搜索:找出A和B分子中化学上相同的部分(比如它们都有的苯环骨架)。
为什么会有多个MCS对齐方式?虽然叫”最大”公共子结构,但MCS算法处理的是2D化学结构(分子图的子图同构问题),没有3D空间信息。因此,当两个分子有对称性结构或多种异构体形式时,可能存在多个相同大小的等效MCS对齐方式(例如苯环可以用不同的旋转角度来对齐)。系统会测试多个可能的MCS对齐方式,然后用原子重叠指标来评估哪一种对齐最优。
关键理解:MCS搜索的目的是找到一个稳定的对齐方案,用来在后续的蛋白质对接中充当”锚点”。MCS中的原子当然应该与参考配体A保持对齐(高重叠),这是合理的。问题在于,新配体B中与A不同的新取代基如何放置。
原子重叠指标的定义:它测量的是整个新配体B与参考配体A之间的空间相似程度——通过计算对应原子间的距离来评估。请注意:原文未提供这个指标的具体数学公式,只是定性描述它基于”两个分子的组成原子的空间位置”。
对接时,系统同时考虑两个目标:
- 与蛋白质口袋的物理相互作用(经典对接评分)
- 通过原子重叠项来优化:MCS部分作为锚点被固定,新取代基的位置被优化到产生合理空间差异的状态
第二步:混合对接策略中的约束优化
得到真空态的初始构象后,配体被放入蛋白质口袋中进行约束对接。这一步结合了两个评分函数:
- 经典物理评分项:来自传统对接工具(如Glide或Vina),评估配体与蛋白质之间的相互作用能
- 自定义原子重叠项:FEP Ω自己开发的指标,只考虑两个配体原子的空间位置,不考虑原子类型或化学性质
为什么低重叠度反而产生更好的预测?
这看似反直觉,但其实很有道理。原PDF中对Moore等人数据的回溯性分析显示:在那些导致低RMSE预测的FEP模拟中,初始配体结构的原子重叠度指标往往最低。
关键的概念澄清:这里的”低重叠度”需要准确理解:
根据原文的描述,FEP Ω的混合对接策略的核心是:“anchors shared ligand cores while optimizing the positioning of novel substituents”(锚定共享配体核心,同时优化新型取代基的位置)。
当原子重叠指标低时,意味着整个新配体与参考配体在空间上呈现合理的差异。这并不是因为新取代基被强行拉远,而是因为:
- MCS部分被固定:共享配体核心(reference和mutant共有的部分)作为锚点被固定对齐,这实际上是有意的高重叠
- 新取代基被优化:新型取代基的位置通过同时考虑蛋白质相互作用和原子重叠项来进行优化,使其既满足蛋白质结合,又不会造成不自然的构象
简单的物理解释是:
-
高重叠度:可能意味着系统过度追求新配体与参考配体的高度相似,这会迫使新取代基采取不自然的扭曲构象。后续MD模拟需要大量时间来”松弛”这种扭曲,引入随机噪声,降低FEP精准性。
-
低重叠度:反映了新配体与参考配体之间的合理空间差异。这通常表明新取代基被放置在既满足蛋白质相互作用,又不会造成过度扭曲的位置,初始构象更接近真实的结合状态,所以后续平衡很快收敛。
核心洞察:问题的关键不是简单的”重叠高低”,而是初始构象的化学和物理合理性。MCS部分自然对齐,新取代基的位置被优化到既满足蛋白质要求又不过度扭曲,这样系统从更合理的状态开始模拟,自然产生更好的预测结果。

图2:原子重叠度对FEP预测精准性的影响。(A)展示p38系列中表现最差的FEP初始结构(MCS Filtered Vina,RMSE = 1.7 kcal/mol,平均重叠度指标 = 122),(B)展示表现最好的初始结构(Glide MCS,RMSE = 1.1 kcal/mol,平均重叠度指标 = 55)。上排视觉对比清晰展示了配体重叠程度与RMSE的强相关性。(C)散点图显示不同靶点序列(p38a红色、PTP1b蓝色、SYK棕色、TNKS2紫色)的平均重叠度指标值与RMSE的关系,证明最低RMSE的FEP模拟往往来自重叠度指标最低的对接方法。
第二阶段:量子驱动的力场参数化——Q-Unity框架
传统的分子力场依赖于lookup表和经验参数,这限制了其泛化性和物理基础性。所谓lookup表(查找表),就是指预先计算好的、针对常见原子类型和化学环境的参数集合。例如,AMBER、CHARMM、CGenFF等常用力场都依赖这样的参数库:当你给一个小分子建模时,系统会根据原子类型(如”sp³碳”、”醚氧”、”硫代酮硫”等)从lookup表中查找对应的Lennard-Jones参数σ和ε、部分电荷、键伸缩和二面角刚性系数等。这种方法的好处是计算速度快、经过广泛验证,但局限在于:对于新颖或不寻常的化学取代基(如罕见的杂原子组合、特殊的官能团),lookup表中可能没有确切匹配,导致参数化精准性下降,或需要人工调整。FEP Ω引入了Q-Unity,一个完全基于第一性原理的统一参数化框架,打破了对lookup表的依赖。
Q-Unity是什么:Q-Unity是FEP Ω团队创新开发的自动化力场参数化框架,它使用GFN2-xTB(扩展紧束缚)量子力学方法来为每个分子计算定制的力场参数。与传统力场依赖预定义的lookup表不同,Q-Unity为每个新颖的化合物——无论其化学结构是否在已知的参数库中——都直接从量子力学计算导出所有力场参数,确保参数的物理一致性和广泛适用性。这意味着不再受制于lookup表的限制,每个分子都获得定制的、基于其实际电子结构的力场参数。
Q-Unity的创新背景:虽然Q-Unity本身是FEP Ω论文的首次提出,但它基于该团队之前的成功经验。Giannakoulias、Shringari、Ferrie和Petersson在2020-2021年发表的系列工作证明了模拟导出参数+机器学习的方法论可以精准预测:
- Ref 21 (2020): 蛋白-蛋白界面突变的ΔΔG
- Ref 22 (2020): 硫代酰胺对多肽蛋白酶抵抗力的定位效应
- Ref 23 (2021): 非天然氨基酸在蛋白质中的容错位点
Q-Unity正是将这一成功的“计算参数+数据驱动学习”方法论第一次应用到FEP的自动化力场参数化中。
GFN2-xTB的核心特点(Ref 34):
- 半经验量子力学方法:比全量子化学快得多,能处理数百甚至数千个原子
- 精准的参数优化:参数不是从第一性原理预计算的,而是通过最小化与大量参考数据的偏差来优化,采用Levenberg-Marquardt算法
- 广泛的元素覆盖:包括spd-block元素和镧系元素,覆盖所有常见的化学元素
- 物理严谨性:包含多极矩电静相互作用和密度相关色散修正(D4)
Q-Unity的实现方式:
- 蛋白质参数:从N-乙酰化和C-甲基酰化的二肽衍生物进行GFN2-xTB计算,确保残基特异性参数化同时保留局部主链环境
- 配体参数:直接对完整小分子进行GFN2-xTB计算,利用衍生的电子结构数据定义所有参数
- 统一性:所有参数(Lennard-Jones σ和ε、原子电荷、键长、键角、二面角)都从GFN2-xTB量子力学计算直接导出,无任何lookup表依赖
- 自动化流程:从SMILES或PDB格式的分子结构自动生成完整的、物理上一致的力场参数

图3:Q-Unity参数化流程示意图。蛋白质和小分子都采用相同的第一性原理策略(从xtb量子力学计算导出非键作用参数σ/ε、原子电荷和成键参数——键长、键角、二面角),无需lookup表依赖。
Automated QM Parameterization Pipeline详解
图3中的”自动化量子力学参数化流程”具体是什么?简单说,它是一个自动化的参数工厂:
-
输入:任何蛋白质残基或小分子结构(用SMILES或PDB格式)
- 量子力学计算:将分子输入GFN2-xTB引擎(一个高速的半经验量子力学计算工具),计算几何优化和电子密度:
- GFN2-xTB使用自洽场(Self-Consistent Field, SCF)方法优化分子几何和电子结构
- 基于分子的实际电子密度分布进行后续的参数提取
- 包含多极矩电静相互作用和密度相关的色散修正(D4),确保物理的准确性
-
参数提取:从量子计算结果中直接读取和导出:
- 非键相互作用参数(范德华力):
- σ(原子大小):从优化后分子结构中原子间的有效距离推导,反映原子的范德华半径
- ε(相互作用强度):从GFN2-xTB计算的电子结构数据和原子极化率推导
- 原子电荷(Mulliken/CM5电荷):
- GFN2-xTB在SCF计算中生成的Mulliken电荷分布,然后通过CM5(Charge Model 5)方案进行修正
- 这些电荷直接来自于分子的电子密度,而非从lookup表查找
- 成键参数:
- 键长参考值:优化后的键长直接取自GFN2-xTB计算的几何
- 键角和二面角参数:从计算得到的分子构象和力常数导出,用于定义成键的刚性系数
- 这些参数是几何依赖的,因为GFN2-xTB包含坐标依赖的能级
- 非键相互作用参数(范德华力):
- 输出:一套完整、物理严谨的力场参数,可直接用于GROMACS等MD程序
GFN2-xTB参数的关键特点(基于Bannwarth等, 2019):
- 全局元素特异性而非元素对特异性:参数仅依赖于单个元素身份,不依赖于原子对的组合,这样大幅简化了参数空间
- 参数拟合策略:GFN2-xTB的所有参数在开发时是针对准确预测几何、振动频率和非共价相互作用进行优化的,确保在FEP应用中的可靠性
- 广泛的元素覆盖:包括spd-block元素和镧系元素(Z=1-86),覆盖药物化学中的几乎所有常见元素
这样做的好处是:每个分子都获得定制的、基于其实际电子结构的力场参数,而不是从有限的lookup表中强行套用。对于新颖或罕见的化学取代基(比如某种稀有的杂原子组合、含金属的复杂官能团),这种方法远优于传统的”猜测或查表”方式。最重要的是,这个过程完全自动化,无需人工干预或参数调整。
第三阶段:轻量级模拟与高效后处理
体系搭建的自动化流程
FEP Ω将整个体系准备过程完全自动化,从原始的PDB结构和SMILES字符串开始,无需人工干预:
配体准备(Ligand Preparation):
- 输入:配体SMILES字符串
- SMILES标准化:移除反离子(counterions)、修正模糊的形式电荷(ambiguous formal charges)
- 质子化和互变异构体选择:用户自定义——这样设计允许在不同的化学假设下进行系统的模拟队列化,探索不同的质子化状态或互变异构体对结果的影响
- 显式氢添加:添加所有显式氢原子,确保结构完全用于MD模拟
蛋白质准备(Protein Processing):
- 输入:PDB结构文件
- 溶剂清理:移除bulk(大块)溶剂分子,仅保留生物学相关的水分子(这些水在结构中有明确的功能角色)
- 缺失结构补全:对缺失的loop进行建模,确保蛋白质结构的完整性
- 显式氢添加:添加所有显式氢原子
对接与初始结构生成:
- 使用MCS对齐+约束对接混合策略(前面详述)生成变体配体的初始结构
- 确保初始结构几何和电子上合理,最小化后续平衡的耗时
原文注记:虽然原文描述了完整的自动化流程,但并未明确指定体系准备的具体软件工具(如RDKit、OpenEye等),仅将其统称为”automated pipeline”。
溶剂化、平衡与模拟参数
- 溶剂化环境:
- 使用SPC/E显式水溶剂(Berendsen等, 1987),这是一个经过验证的固体水模型
- 缓冲区大小:配体周围5 Å的显式水层,确保蛋白质/配体充分水合
- 中性化:加入150 mM Na⁺和Cl⁻离子以模拟生理盐浓度,保持系统电中性
- 平衡阶段(Equilibration):
- 第一步:能量最小化:使用最陡下降法直到收敛,移除不合理的原子接触
- NVT平衡(恒体积、恒温):分阶段温度升温(10 K → 310 K),确保受控加热和系统稳定,避免温度跳跃引起的构象扭曲
- NPT平衡(恒压力、恒温):多阶段过程
- 前期:位置约束(positional restraints)固定重原子(非氢原子),仅允许溶剂弛豫
- 逐步放松约束,最终达到完全无约束的平衡,确保溶质和溶剂的充分弛豫
- 生产MD运行:
- 所有MD步骤在GROMACS中执行(Abraham等, 2015)——业界标准的高效分子动力学软件
- 系综选择:Parrinello-Rahman (PR) 集合(恒压力、恒温、恒应力张量)
- 约束状态:无任何约束,允许系统完全自由演化
- 时间步:2 fs(飞秒),足够长以高效采样,足够小以保持数值稳定性
- 生产时长:仅1 ns总时间(vs. 传统FEP的10-20 ns),这是FEP Ω计算效率的关键体现
- 核心简化:FEP Ω完全消除了传统FEP工作流中的三个耗时环节:
- 无alchemical intermediates:直接单步变换,无需多个λ态,省去大量模拟
- 无反向模拟(hysteretic backward simulations):传统FEP常进行正向和反向变换以估计统计误差,FEP Ω不需要
- 无网络校正(cycle closure scheme):传统FEP在热力学循环闭合时进行校正,FEP Ω依靠ML来处理任何不一致性
- 这三项改动单独就能减少至少50%的计算量
-
关键优势:支持大幅度配体变换(Larger Transformations)
传统FEP的限制:
- 需要最小化每步变换——即相邻配体A和B的差异必须很小(仅替换一个官能团)
- 如果目标配体与参考配体差异大,必须插入多个中间体作为过渡步骤(A→中间体1→中间体2→…→目标)
- 这导致模拟次数呈线性增长
FEP Ω的改进(原文第291-294行):
“remains accurate even for larger transformations. Unlike conventional cycle-closure implementations that require simulating the smallest possible transitions, our procedure accommodates multiple simultaneous transformations”
具体含义:
- FEP Ω可以处理大幅度的配体变换,无需特别小化每步差异
- 支持多个同步的大跳跃变换,而不仅限于线性串联
- 原文明确指出:这使药物化学团队可以直接测试他们真实的设计假设,而不是浪费资源在人为的中间体上
例子:
- ❌ 传统FEP:要从某个先导化合物A评估到高活性配体D,需要:A→B(小变换)→C(小变换)→D(小变换),共4次模拟
- ✅ FEP Ω:可以直接A→D(大幅变换),一次模拟,ML学会纠正变换过程中的物理偏差
-
主动学习框架的机器学习:
模型训练与特征工程:
- 初始”弱学习器”:在~30个历史实验测量值上训练,建立模拟导出的时间序列描述符与实验结合亲和力的映射
-
时间序列特征的来源与本质:FEP MD轨迹产生的模拟时间序列数据(如能量、原子坐标等在整个1 ns过程中的变化)被转化为描述符特征。这些特征捕捉的是系统在模拟过程中的动力学行为和能量变化模式,而非单纯的终态能量。系统会从FEP轨迹的整个过程中提取关键的物理量变化特性,用作ML模型的输入
-
相对FEP(RB FEP)vs. 绝对FEP(AB FEP)的本质区别:
特性 RB FEP(相对) AB FEP(绝对) 参考点 需要一个已知实验值的参考配体 无需参考配体,从虚拟”无配体”状态开始 计算目标 相对结合自由能 ΔΔG 绝对结合自由能 ΔG 配体变换 A配体 ↔ B配体(两个真实配体间的转化) 虚拟态↔真实配体(配体从”无”变到”有”) 是否消失配体 ❌ 不消失,A和B都是真实小分子 ✅ 是的,配体逐步”消失”(从完全耦合到完全解耦) ML目标变量 ΔΔG(kcal/mol) ΔG(kcal/mol) 应用场景 有参考配体时(如已有活性先导化合物) 完全新颖靶点或化学空间(无参考化合物) AB FEP的”消失”机制:
- 在传统FEP中,AB FEP通过解耦变换(decoupling transformation)实现:
- 状态A:虚拟的”无配体”(所有原子相互作用势设为0,配体不存在)
- 状态B:真实蛋白质-配体复合物(完整的相互作用)
- 变换过程:λ从0→1,配体的原子逐步”激活”,从无到有
- 物理意义:计算完整的结合自由能,不依赖任何参考化合物
- 计算难度:通常比RB FEP难,因为需要处理”从无到有”的大跨度变换
FEP Ω对AB FEP的改进(原文第324-325行):
“AB FEP models a continuous target (ΔG) that is inherently more uniform and therefore more amenable to stable ML regression”
即:相比RB FEP,AB FEP的目标函数更光滑、更易学,ML回归更稳定。
- 在传统FEP中,AB FEP通过解耦变换(decoupling transformation)实现:
- 关键设计:由于模拟和特征化都设计得简单直接,AB FEP和RB FEP无需额外模拟即可切换——仅调整目标变量即可(切换ΔΔG vs. ΔG)
为什么1 ns足够:
- FEP是微扰方法而非绝对自由能计算:FEP的核心是计算能量差(ΔΔG或ΔG)而非绝对自由能。这意味着我们不需要进行完整的构象空间采样来估计绝对的游离能,只需要足够的数据来精准估计两个态之间的能量微扰
- 智能初始结构优化的贡献:FEP Ω的MCS对齐+约束对接策略确保了配体从化学合理的初始构象开始,最小化了后续平衡过程。这意味着系统从更接近真实结合状态的点出发,1 ns的MD足以完成相对快速的热力学弛豫
- ML层捕捉系统性偏差而非统计噪声:后处理的机器学习不是在修正MD采样的统计噪声,而是在学习和修正力场的系统性物理偏差(如对特定相互作用的欠描述、电荷分配偏差等)。这些系统偏差在很短的模拟时间内就已经表现出来,无需长时间模拟来累积统计证据
- 实验验证:在HIF2α数据集上的收敛性研究明确显示,即使在极短的模拟时间(0.5-1 ns)下,RMSE和Spearman相关性指标已经保持稳定在亚千卡精度,表明非常短的模拟已能捕捉到足够的物理信息
模型开发与评估:
机器学习算法选择:
- 由于数据稀缺(仅~30个历史数据点),FEP Ω限制于经典的浅学习算法,避免过度参数化:
- 岭回归(Ridge Regression):带L2正则化的线性回归,防止过拟合
- 支持向量回归(Support Vector Regression, SVR):非线性核方法,能捕捉特征与目标变量间的复杂关系
- k-最近邻(k-Nearest Neighbors, kNN):基于相似化合物的本地预测,对SAR数据友好
- 简单决策树(Simple Decision Trees):可解释的分层决策,易于理解预测逻辑
- 特征工程:使用时间序列描述符(time series descriptors),从FEP MD轨迹提取
- 特征维度:原文未明确给出具体数字,仅描述为从整个1 ns MD轨迹中提取的描述符
- 特征的跨系统转移性:虽然原文未公开具体特征列表,但强调这些描述符是物理量导出的(如能量时间序列、接触距离变化等),因此能跨靶点、跨化学空间转移,而非特定分子的几何细节。在HIF2α学到的系统性偏差校正也适用于MCL1、P38等不同靶标
特征的具体内容与局限:
原文表述(第327-328行):”the ML component operates directly on simulation-derived descriptors”
原文未公开的信息:
- 具体的描述符列表和特征工程方法(这可能是Sentauri公司的专有信息)
- 确切的输入维度(”从1 ns轨迹中提取”,可能是数十到数百维,但具体数字未给出)
- 特征选择的标准(是否进行了维度约简、PCA或其他降维)
可合理推测的特征类型(基于MD物理学):
- 能量时间序列:结合自由能、范德华能、静电能、溶剂化能在1 ns内的时间演化轨迹
- 结构动力学指标:配体RMSD、蛋白质-配体接触距离变化、氢键网络的建立/破坏
- 相互作用统计量:蛋白质极性残基与配体相互作用的频率和强度
为什么能通用:
- 这些都是基于力学的物理量,而非特定分子的化学细节
- 力场对”极性相互作用”的欠描述在MCL1和P38中同样存在
- 因此HIF2α学到的系统性校正可转移到其他靶标
ML校正的具体原理与流程:
原文明确指出(第58行):”By applying machine learning downstream of MD, FEP Ω is able to correct for residual errors”
校正方程: \(\Delta G_{\text{预测}} = \Delta G_{\text{FEP直接计算}} + \Delta G_{\text{ML校正项}}\)
其中:
- $\Delta G_{\text{FEP直接计算}}$:标准MD/FEP计算的原始结果(如BAR或MBAR估计值)
- $\Delta G_{\text{ML校正项}}$:ML模型从时间序列描述符预测的系统性物理偏差
- 这个校正项不是随机噪声,而是力场固有的、可学习的系统性欠描述
为什么用实验值做target不会导致过拟合:
你的关键观察”肯定效果更好啊,用实验值为target做训练了”是对的,但这恰恰是FEP Ω设计的精妙之处:
- ❌ 过拟合风险:如果ML直接记住~30个化合物的实验值,就无法泛化到新的配体和靶点
- ✅ 系统性偏差学习:但FEP Ω学到的不是”配体A的亲和力是-8.5 kcal/mol”,而是”力场对这类相互作用系统性欠描述~0.5-1.0 kcal/mol”
原文强调(第360-361行,第515行):
“FEP Ω captures systematic physical deviations rather than dataset-specific artifacts”
证据:Scaffold hopping成功
- 用4xt2和8ck3训练的模型可以准确预测4gs9的陌生配体(完全不同的化学骨架)
- 这证明模型学到的是通用的物理规律,而非数据集特异性的噪声
模型训练与超参数优化:
- 交叉验证:5折交叉验证(5-fold cross-validation)
- 超参数优化:贝叶斯优化(Bayesian optimization)
- 目标函数:均方误差(Mean Squared Error, MSE)
- 训练样本分割:从~30个化合物中分出训练和测试子集,特别注意确保训练集包含活性上下限的样本(这在小样本中至关重要)
性能评估指标:
- R²(Pearson相关系数平方):传统指标,但在小数据集中极其敏感,因此不作为主要判断标准
- RMSE(均方根误差):单位为kcal/mol,直接反映预测误差
- Spearman Rho(ρ):秩相关系数,是小数据集中更相关且更稳健的指标,更好地反映化合物排名的保留能力——这正是药物化学设计中的核心需求(排名正确比绝对值准确更重要)
graph LR
A["约30个历史<br/>实验数据"] --> B["弱学习器训练"]
B --> C["5折交叉验证<br/>+贝叶斯优化"]
C --> D["模型评估<br/>R²、RMSE<br/>Spearman ρ"]
D --> E["新实验数据"]
E --> F["自动重新训练"]
F --> G["模型精度<br/>迭代改进"]
G -.循环反馈.-> E
主动学习的闭环反馈与迭代改进机制
这不仅仅是一个工作流,而是一个自适应和自我进化的系统。原文明确指出:整个过程形成了”a continuous feedback loop that bridges theoretical precision with the iterative demands of medicinal chemistry”(一个连接理论精准性与药物化学迭代需求的持续反馈循环)。
闭环过程的三个关键阶段:
- 初期:弱学习器建立基线(~30个数据)
- 从历史实验数据开始训练初始模型
- 虽然样本量小,但弱学习器已能提供相比纯物理方法(BAR、MBAR)的显著改进
- 迭代中期:数据积累与模型自动精化
- 当新的实验结果可用时,新化合物被自动在标准FEP框架内运行模拟
- 模拟得到的时间序列描述符和实验数据一起自动加入ML引擎
- 模型基于扩展的训练集自动重新训练
- 长期效应:捕捉并修正系统物理偏差
- 随着数据积累,ML模型学习和捕捉模拟与实验之间的系统性物理偏差
- 这些偏差包括:
- 力场对特定原子相互作用的欠描述
- 电荷分配的系统误差
- 特定官能团在蛋白质环境中的系统性预测偏移
- 不同蛋白质口袋特征导致的预测系统偏移
- 模型逐步应用针对性的校正来改进未来的预测
关键澄清:改进的是什么?
| 改进对象 | 改变否 | 原文依据 |
|---|---|---|
| ✅ ML预测模型 | ✓ 改变 | “iteratively refines the model” |
| ❌ 配体分子本身 | ✗ 不改 | 配体结构固定,仅做新的FEP模拟 |
| ❌ MD模拟参数 | ✗ 不改 | 模拟协议标准化、固定 —— 这是FEP Ω核心特点 |
| ❌ 力场参数 | ✗ 不改 | Q-Unity产生的参数基于QM计算,不调优不改 |
| ❌ 对接或MCS策略 | ✗ 不改 | 初始结构生成策略保持不变 |
改进的本质:
- 从信息论角度:ML模型学习的是”模拟时间序列描述符与实验结果的系统关联”
- 从物理角度:模型捕捉的是“系统性的物理偏差”而非随机噪声
- 从统计角度:原文强调这种校正是跨靶点、跨化学空间可转移的,说明模型学到的是通用的物理规律,而非过拟合到特定数据集
原文证据:
“This robustness, combined with the absence of pre-simulation optimization, positions FEP Ω as a practical and scalable alternative to traditional FEP methods… FEP Ω captures systematic physical deviations rather than dataset-specific artifacts.”
实际应用效果的演化:
| 阶段 | 数据量 | 模型性能 | 应用场景 |
|---|---|---|---|
| 初始 | ~30 | 亚千卡精度,已可用 | 早期化学导向,粗筛 |
| 中期 | 50-100 | 精准度逐步上升 | 结构活性关系(SAR)预测 |
| 成熟 | 200+ | 高度优化、经验证 | 实时化合物优先级排名 |
价值在于闭环本身:
- 早期精准度不高也没关系,因为系统会自动学习
- 无需人工重新调试力场、对接参数或模拟设置
- 每一个新实验数据都自动改进未来的预测
- 形成”计算→实验→改进计算”的良性循环
这形成了一个真正的自我进化系统,不像传统FEP需要每次都手工调参。
关键结果与分析
1.收敛性与模拟时间依赖性
在HIF2α系统上进行了详细的收敛性研究:

图4:ML模型性能随模拟时间的收敛曲线,HIF2α数据集。上行A-C展示相对结合自由能(RB FEP)建模结果,下行D-F展示绝对结合自由能(AB FEP)建模结果。所有曲线覆盖0-5纳秒的模拟时间范围(横轴),纵轴显示三个计算指标。A和D为R²(Pearson相关系数平方),B和E为RMSE(均方根误差,单位kcal/mol),C和F为Spearman Rho(ρ,秩相关系数)。青色曲线代表交叉验证(CV)指标,深蓝色曲线显示独立测试集(Test)性能。
关键发现:
- 亚千卡准确度:在每个时间步都实现亚千卡每摩尔的误差,最小值甚至低于0.5 kcal/mol
- RMSE和Spearman Rho稳定:在模拟过程中保持稳定,表明即使是非常短的模拟也能保持接近实验的预测能力和排名顺序
- R²不稳定(不足为怪):R²在小数据集中极其敏感且不可靠,因此不是主要关注指标,而且RBFE用R²也不好
三重启示:
- 无参数调优也能精准:精准的能量估算完全依靠数据驱动方法,无需任何参数调优
- 计算效率翻倍:避免网络校正和反向模拟,且生产MD极短,直接减少至少50%的计算量
- 支持大转化:传统的闭环实现需要最小化转化,但FEP Ω可以处理多个同步转化,让药物化学团队直接测试真实设计假设,而非浪费资源在无关的中间体
2.骨架跃迁:真正的泛化能力测试
为了评估FEP Ω对陌生化学空间的泛化能力,进行了骨架跃迁实验:用HIF2α的两个序列(4xt2和8ck3)训练,保留第三个序列(4gs9)作为独立测试集。这模拟了真实的药物化学场景,即新化学骨架与训练数据在化学上差异巨大。
结果令人瞩目:

图5:骨架跃迁实验性能对比,柱状图。(A)相对结合自由能(RB FEP)模式、(B)绝对结合自由能(AB FEP)模式。三个性能指标R²、RMSE和Spearman Rho分别计算交叉验证(CV,深蓝色柱)和独立测试集(Test,青色柱)的数值。
- RB FEP:独立测试集RMSE从0.590轻微降至0.558 kcal/mol,说明学到的纠正捕捉的是系统性物理偏差而非骨架特异性特征
- AB FEP:在所有指标上CV和测试集间保持强一致性,实现亚半千卡精度和稳定的排名顺序
有趣的是,RB FEP在陌生骨架上的性能反而略微改进。虽然在大型机器学习项目中这种改进不常见,但在小数据集中是可信的——少数预测的变化会导致指标波动,有时反而有利。本文推测:AB FEP因为目标变量(ΔG)更平滑和均匀,相比RB FEP(其预测精度对参考配体选择高度敏感)更容易被ML回归稳定处理。
这个结果的意义深远:它证明了FEP Ω的真正泛化性,而非过拟合,为其在实际工业应用中的快速部署奠定了基础。
3.工业基准对标
对标Schrödinger的FEP+是验证FEP Ω的关键一步(见表1)。在BACE1、P38和MCL1三个标准靶点上进行了详细对比:
| 系统 | FEP+ R² | FEP+ RMSE | FEP+ SR | FEP Ω R² | FEP Ω RMSE | FEP Ω SR |
|---|---|---|---|---|---|---|
| BACE1 RB FEP | 0.47 | 1.08 | 0.215 | 0.306 | 0.513 | 0.533 |
| BACE1 AB FEP | 0.44 | 1.21 | -0.004 | 0.340 | 0.703 | 0.333 |
| P38 RB FEP | 0.49 | 0.87 | 0.464 | 0.565 | 0.531 | 0.588 |
| P38 AB FEP | 0.58 | 1.09 | 0.221 | 0.652 | 0.764 | 0.698 |
| MCL1 RB FEP | 0.45 | 1.03 | 0.570 | 0.641 | 0.570 | 0.728 |
| MCL1 AB FEP | 0.53 | 0.95 | 0.383 | 0.644 | 0.567 | 0.728 |
| MCL1 RB FEP (PB) | 0.439 | 1.0 | 0.657 | 0.641 | 0.570 | 0.728 |
表1:FEP+与FEP Ω在三个靶点上的RB和AB FEP性能对比。指标为R²(Pearson相关系数的平方)、RMSE(均方根误差,单位kcal/mol)和SR(Spearman Rho,秩相关系数)。PB是Schrödinger协议构建器的缩写。加粗部分显示各行中表现最优的指标
令人震撼的对标结果:
- RMSE一致性更优:FEP Ω的RMSE通常比FEP+低30-40%,而且在所有系统上都实现了sub-kcal/mol误差
- 强Spearman相关性:Spearman Rho指标的高值表明FEP Ω能可靠地对化合物进行排名,这正是药物设计中最关键的能力
- 甚至超越FEP-PB:FEP Ω在使用完全标准化设置和极少计算成本的情况下,精准性反而超越了进行了大量自动调优的FEP-PB
方法论上的重要对比:
Schrödinger的FEP+基准来自于广泛的参数优化,无论是手工还是通过协议构建器(FEP-PB)。两种情况下,模拟协议都使用同一数据集迭代调优,报告的指标实际上反映了数据集内拟合。虽然FEP+被称为物理基础方法,但这种调优实际上引入了人工引导的学习成分,与机器学习的精神相似。
相比之下,FEP Ω采取了不同的路径:标准化模拟,仅在模拟后进行学习,确保无隐藏的前置调优偏差。FEP Ω报告的指标来自真正的样本外测试数据,代表真正的泛化性能。这种更严格的评估框架使得FEP Ω的优越性更加令人信服。
4.盲验证:DPP-4外部靶点测试
最终的终极考验是在完全陌生的靶点上的盲验证。DPP-4(二肽基肽酶-4)被选中作为试验场,因为它是临床验证的2型糖尿病靶点,但在FEP文献中毫无先例。
工作流完全遵循同一标准协议,每个化合物1纳秒MD模拟,24个化合物作为训练集:

图6:DPP-4靶点上AB FEP预测值与实验结合自由能的对比。虚线(y=x)代表完美一致性,浅灰色阴影区域表示±2 kcal/mol误差带,深灰色阴影区域表示±1 kcal/mol误差带。深蓝色点代表交叉验证(CV)的预测结果,青色点代表独立测试集的预测。图表右下角标注了CV和Test两组的性能指标(R²、RMSE、Spearman ρ)。
结果:
- 交叉验证(CV):R²=0.53,RMSE=0.51 kcal/mol,Spearman ρ=0.74
- 独立测试集(Test):R²=0.45,RMSE=0.49 kcal/mol,Spearman ρ=0.75
- Spearman Rho > 0.7:强相关性,表明可靠的化合物排名能力
- 亚千卡精度:RMSE ~ 0.5 kcal/mol,完全达到药物发现的实用要求
- 完全盲测中实现了稳健预测力,无需任何额外的方法开发
这个结果的根本意义在于:它证明了FEP Ω不是针对特定靶点序列优化的工具,而是真正具有通用性的、开箱即用的FEP平台。医学化学家团队可以立即将其部署到新的发现项目,无需进行系统特异性的优化,这直接打破了传统FEP应用的关键障碍。
为什么这对药物发现意义重大
传统FEP的一个顽固现实是:医学化学家的设计迭代速度往往快于计算团队生成和验证FEP预测的速度。结果是,FEP预测经常来得太晚,无法影响药物化学决策。因此,FEP要真正发挥威力,必须在狭窄的时间窗口内提供可行的精准预测,与快速迭代的医学化学工作流对齐。
FEP Ω正是为此而设计的:
- 无参数调优 → 立即部署:新靶点无需等待优化协议,直接运行标准流程
- 短模拟 + 后处理ML → 快速周转:1-5纳秒的短模拟相比传统的10-20 ns大幅压缩,消除网络校正和反向模拟进一步加速
- 独立的ML层 → 成本分摊:初始模拟的计算投入随着新数据积累而摊销,模型精度随之迭代改进,形成自强化反馈循环
这种设计使FEP Ω特别适合hit-to-lead和lead优化的工业场景,在这里化学合成、生物测试和预测在快速循环中连续进行。随着实验数据累积,FEP Ω的模型变得越来越精准,逐渐建立起计算与实验间的自我强化反馈机制。
Q&A
-
Q1:为什么消除参数调优反而能改进精准性?
-
A1: 看似矛盾,但逻辑清晰。传统FEP中,”参数调优”本质上是对数据集进行过拟合的过程——你不断调整参数直到特定系列的预测变好。虽然看起来精准,但这些”最优参数”往往不具有泛化性。相比之下,FEP Ω采用标准化物理模拟 + 机器学习校正的策略。标准化模拟确保一致性,ML层学习的是系统性物理偏差(如力场对特定相互作用的欠描述)而非数据集特异性伪影。这使得学到的纠正对新化学空间和新靶点同样有效,因此整体性能反而更优。
-
Q2:机器学习需要多少训练数据才能有效?
-
A2: 这是实用性的关键。FEP Ω在仅有~30个化合物的历史实验测量值上训练初始”弱学习器”就已经能改进物理估算器(如BAR或MBAR)。这是样本高效的——相比传统深度学习需要数千甚至数百万数据点,FEP Ω只需要小批量实验标签。跨验证和贝叶斯优化确保即使在小数据集中也能稳健调优超参数。且一旦有新实验数据,系统自动重新训练,逐步改进。
-
Q3:为什么只需1-5纳秒的模拟?这足够采样相构空间吗?
-
A3: 这触及FEP Ω设计的深层逻辑。首先,FEP本身是微扰方法,而非绝对自由能计算——它关注的是能量差而非绝对值。其次,FEP Ω的智能初始结构置位(MCS对齐+约束对接)确保了配体从化学合理的起点开始,最小化平衡需求。第三,ML后处理捕捉的是系统性偏差而非统计噪声——它校正的是力场系统性的欠描述(如电荷分配偏差),而非每次运行的随机波动。因此,虽然短模拟中的构象采样不如长模拟丰富,但结合后处理ML,整体预测精准性往往更优。
-
Q4:Q-Unity力场与传统力场(AMBER、CHARMM)的主要区别是什么?
-
A4: 关键区别在于参数导出的路径。传统力场(AMBER、CHARMM)依赖于大规模的lookup表和经验参数,这些是从历史数据和实验拟合中积累的。虽然这些表已被广泛验证,但它们本质上是为特定类型的分子和相互作用优化的,对于新颖或不寻常的化学取代基泛化性可能有限。Q-Unity采取了第一性原理方法:对每个分子直接从量子力学计算(xtb)导出参数。这意味着每个化合物都获得定制的、物理上一致的力场,对新颖化学的适应性更强。代价是计算量略高(每个分子需xtb计算),但对于药物发现的通量而言是完全可接受的。
-
Q5:在您的测试中,为什么AB FEP的表现往往比RB FEP更稳健?
-
A5: 这是一个有趣的统计观察。RB FEP的目标变量(ΔΔG,相对变化)本质上比AB FEP的目标变量(ΔG,绝对值)更稀疏和离散——它严重依赖于参考配体的选择,参考配体决定了正向和负向转化的平衡。这使得RB FEP对异常值和参考选择的敏感性更高,ML回归在这样的目标上波动更大。相比之下,AB FEP直接预测连续的、相对均匀分布的绝对结合自由能,这对回归算法而言更”易驯服”。从这个角度,AB FEP的内在目标变量特性使其更适合小数据集的ML建模。
关键结论与批判性总结
核心成就
FEP Ω代表了自由能计算领域的范式转变。通过将学习从模拟前转移到模拟后,该平台有效地消除了系统特异性参数调优的需求,使得高精准的FEP预测在真正意义上变成即插即用的能力。跨越五个靶点、从小蛋白到临床靶点、从相对到绝对FEP的广泛验证显示,FEP Ω的性能真正具有通用性,而非针对特定化学序列的优化结果。与商业平台的对标进一步证实了其在精准性、计算效率和实用部署三个关键维度上的优势。
局限性与未来方向
- 小数据集的ML回归边界:即使是30个化合物的训练集在某些情况下仍可能面临统计鲁棒性问题,尤其是在特别不寻常的化学空间中
- 溶剂环境的简化:当前使用SPC/E显式水,对于包含特殊溶剂或复杂膜系统的应用可能需要扩展
- 蛋白质灵活性和构象选择:虽然流程自动化,但蛋白质入射构象的选择仍然关键,复杂的多状态结合或大幅构象变化可能需要额外考虑
- 集成有机物的参数化:某些高度优化或非常规的化学物质可能仍需手工检查xtb衍生的参数
前景
FEP Ω的出现强有力地宣示:精准性与实用性之间不必然存在不可调和的矛盾。通过物理模型和数据驱动学习的智能结合,我们可以构建既精准又通用的计算工具。在更广泛的背景下,这为下一代预测建模开辟了新思路——一个在其中自由能计算变成普遍性、即时可行的科学工具,而非仅限于少数专家的精妙计算技艺。
从化学工业的角度,这意味着计算与实验的融合加速。随着FEP Ω在真实项目中的应用,每一个新的实验数据点都强化了模型,创造出一个自我强化的反馈循环。医学化学家不再需要等待计算优化周期,而是能够在快速设计迭代的节奏中获得可靠的计算指导。这直接加速从先导化合物到候选药物的关键阶段,有望显著降低早期药物发现的时间成本。