ABCG2技术细节附录
本文档为《优化单一性质≠改善相关性质:ABCG2电荷模型的启示》的技术附录,详细介绍ACES自由能计算方法、模拟参数设置和验证协议。
附录A:ACES(Alchemical Enhanced Sampling)自由能计算方法
A.1 热力学积分框架
ABCG2验证采用ACES方法进行高精度自由能计算,这是一种基于哈密顿副本交换分子动力学(HREMD)的热力学积分方法。
基本原理:通过λ参数控制初始态和最终态之间的平滑变换,计算自由能差:
\[\Delta G = \int_0^1 \left\langle \frac{\partial H}{\partial \lambda} \right\rangle_\lambda d\lambda\]其中H为哈密顿量,$\langle \cdot \rangle_\lambda$表示在λ状态下的系综平均。
A.2 λ状态设置
炼金术变换参数:
- λ状态数量:11个状态
- λ值范围:0.0, 0.1, 0.2, …, 1.0
- 软核势:Smooth Step Softcore(用于避免原子碰撞)
- 耦合方案:VDW和静电相互作用同步耦合
A.3 HREMD采样策略
副本交换设置:
- 交换频率:每20 MD步尝试一次Hamiltonian交换
- 交换总次数:每个λ状态进行100,000次交换尝试
- 4次独立运行:每个系统重复4次相同的模拟
A.4 模拟协议详细参数
气相系统
- 初始化:几何最小化(避免立体碰撞)
- NVT平衡:0.5 ns at 298 K(Langevin恒温器,衰减系数100 ps^-1)
- 生产阶段:2.0 ns HREMD
- 总采样深度:每λ状态等效2,000,000 MD步
液相系统
- 初始化:几何最小化
- NVT平衡:0.5 ns at 298 K
- NPT平衡:3.0 ns at 1 atm, 298 K(Monte Carlo压力控制器)
- 溶剂盒设置:40 Å三斜晶系盒子,与溶质至少2.5 Å间距
- 生产阶段:2.0 ns HREMD
- 总采样深度:每λ状态等效2,000,000 MD步
通用MD参数
- 时间步长:1 fs
- 温度:298 K
- 压力:1 atm(仅液相)
- 截断方案:Particle Mesh Ewald(PME)电磁势,VDW截断12 Å
- 约束条件:所有含H键约束(SHAKE算法)
附录B:数据集详细信息
B.1 FreeSolv数据库
数据库特征:
- 总分子数:642个中性有机分子
- 分子量范围:16-499 g/mol
- 官能团覆盖:30种主要官能团
- 数据来源:由Dr. J. P. Guthrie精心编制和验证
分阶段开发:
- FreeSolv_p1:441个单官能团分子
- FreeSolv_p2:201个多官能团+含P分子
B.2 验证数据集
MNSol数据库:
- 溶质-溶剂对数:2068对
- 溶剂种类:89种有机溶剂
- 用途:多溶剂环境下的转移自由能验证
ATB3.0验证集:
- 分子数:685个
- 数据要求:ΔGexp误差<1 kcal/mol
- 用途:高精度基准验证
附录C:电荷分配工作流程
C.1 输入数据处理
数据来源和格式:
- FreeSolv:xyz文件
- MNSol:xyz文件
- ATB3.0:xyz文件
结构检查与修正:
- Schrödinger Maestro v11.2进行人工检查
- 设置正确的键类型和原子参数
- 转换为统一mol2格式
C.2 ABCG2电荷分配
命令行工具:
antechamber -i molecule.mol2 -fi mol2 \
-o molecule.prepi -fo prepi -c abcg2
工作流程:
- AM1半经验几何优化(Sqm模块)
- Mulliken电荷计算
- BCC参数表查询和应用
- 最终电荷分配
附录D:统计分析方法
D.1 性能指标定义
主要指标:
- Mean Signed Error (MSE): \(\text{MSE} = \frac{1}{N}\sum_i (\Delta G_i^{calc} - \Delta G_i^{exp})\)
- Mean Unsigned Error (MUE): \(\text{MUE} = \frac{1}{N}\sum_i |\Delta G_i^{calc} - \Delta G_i^{exp}|\)
- Root Mean Square Error (RMSE): \(\text{RMSE} = \sqrt{\frac{1}{N}\sum_i (\Delta G_i^{calc} - \Delta G_i^{exp})^2}\)
- Pearson相关系数 (R):线性相关性度量
- Spearman秩相关系数 (ρ):非参数相关性度量
D.2 统计检验
配对Student’s t检验:
- 比较三种力场组合的RMSE差异
- 评估差异是否具有统计显著性(p < 0.05)
- 计算95%置信区间
D.3 误差分析
误差分布特性:
- ±1 kcal/mol范围内的数据比例
- ±2 kcal/mol范围内的数据比例
- 离群点(outliers)的识别和分析
附录E:相关资源和工具
软件工具
- GROMACS:分子动力学模拟引擎 (https://www.gromacs.org/)
- AmberTools:含ABCG2参数和Antechamber模块 (https://ambermd.org/)
- pmx:非平衡炼金术工具 (https://github.com/deGrootLab/pmx)
- Schrödinger Maestro:结构准备和验证
数据库
- FreeSolv:https://github.com/MobleyLab/FreeSolv
- OpenFE数据集:https://github.com/OpenFreeEnergy/openfe-data
原始论文数据
- ABCG2原始论文:He et al., J. Chem. Theory Comput. 2025, 21, 3032–3043
- 评估论文:Behera et al., J. Chem. Inf. Model. 2025 (Letter)
附录F:蛋白-配体RBFE评估的模拟协议
F.1 数据集来源
OpenFE蛋白-配体数据集:
- 来源:OpenFE协会提供的基准数据集(Ross et al. 2023)
- 规模:
- 12个蛋白靶点
- 273个配体
- 507个配体微扰(ligand perturbations)
- 覆盖范围:
- ‘jacs_set’(273个转化):通用靶点集合
- ‘janssen_bace’(234个转化):BACE相关靶点(bace_cp, bace_p3等)
- 质量标准:所有配体均基于临床或实验化合物
F.2 非平衡炼金术(Nonequilibrium Alchemical Free Energy)协议
模拟框架:采用pmx工具进行非平衡FEP(Jarzynski等式和Crooks涨落定理)
F.2.1 蛋白系统准备
结构准备:
- 蛋白结构来自PDB数据库或实验提供
- 质子化状态使用PDB2PQR确定(pH 7.4)
- 使用Schrödinger Maestro进行配体对接与姿态优化
- 配体使用GAFF2或GAFF2-ABCG2力场参数化
力场选择:
- 配体力场:GAFF2(基础)+ AM1-BCC或ABCG2电荷
- 蛋白力场(两种):
- AMBER99SB*-ILDN(基准)
- AMBER14SB(改进版对照)
- 溶剂力场:TIP3P水(标准)
F.2.2 系统构建与平衡
盒子大小:
- 蛋白周围距离至少14 Å的水盒子
- 三斜晶系(triclinic)盒子,最小化周期性人工物
离子补偿:
- Na⁺/Cl⁻补偿系统电荷
- 最终离子浓度约0.15 M(生理浓度)
平衡协议:
- 几何最小化:1000步,能量收敛
- NVT平衡(2 ns):
- 温度:298 K
- 恒温器:Langevin,衰减系数100 ps⁻¹
- NPT平衡(3 ns):
- 温度:298 K,压力:1 atm
- 压力控制:Berendsen压力浴
- 分子约束:所有含H键约束(SHAKE)
F.2.3 非平衡FEP生产阶段
λ变换参数:
- λ状态数量:5个(0.0, 0.25, 0.5, 0.75, 1.0)
- 变换路径:VDW和静电相互作用同步耦合(单一λ参数)
- 软核势:C6/C12软核势用于避免原子碰撞
模拟参数:
- 时间步长:2 fs(使用H-mass repartitioning允许更大时步)
- 运行时间/λ:1 ns
- 每个转化的总运行时间:5 ns(5个λ × 1 ns)
- 驱动速度:λ通常以0.2 ns⁻¹速率驱动(总耗时1 ns)
- 数据采集频率:每1 ps记录一次配置
物理常数与截断:
- 温度控制:Langevin恒温器(298 K,衰减系数0.1 ps⁻¹)
- 范德华截断:12 Å
- 静电势:PME(Particle Mesh Ewald),精度1e⁻6
- 压力控制:NPT条件下Parrinello-Rahman压力控制器
F.2.4 多个独立重复与误差估计
重复计算:
- 每个配体微扰:进行3-5次独立的FEP模拟(不同的初始速度)
- 平衡数据排除:前100 ps作为平衡期舍弃
- 误差估计:
- 使用standard error of the mean(SEM)统计多次运行
- 使用Jarzynski等式处理不可逆工作
- 使用动态无偏估计器(BAR, Bennett Acceptance Ratio)整合多条轨迹
F.3 结果分析与统计
自由能计算:
- 相对结合自由能(ΔΔG):直接从FEP得到
- 绝对结合自由能(ΔG):使用Cinnabar最大似然估计法将ΔΔG累积为ΔG
- 95%置信区间:基于bootstrap重采样或标准差
精度评估指标:
- RMSE(Root Mean Square Error):主要精度指标
- MUE(Mean Unsigned Error):绝对误差平均值
- Pearson相关系数(r):计算与实验的线性相关性
- Spearman秩相关系数(ρ):非参数相关性(化合物排名能力)
- Kendall’s τ:另一种非参数排名相关性
- 配对Student’s t检验:比较不同力场组合的显著性差异(p值)
F.4 官能团子分析
分类标准:
- 根据配体中改变的官能团分类转化(酮、醚、醇、芳香烃、喹啉等)
- 一个转化可能跨越多个官能团类别(如联苯既属”联苯”也属”芳香烃”)
统计处理:
- 仅显示RMSE差异>1 kJ/mol(0.24 kcal/mol)的官能团
- 对所有官能团组进行配对t检验评估显著性
- 补充分析在补充图S16中呈现
F.5 主要参考配体与案例分析
两个对比案例:
- 叔醇案例(p38靶点,转化2y→2v):
- 实验ΔΔG = 0.81 kcal/mol
- AM1-BCC预测:2.47 ± 0.26 kcal/mol(偏离)
- ABCG2预测:0.49 ± 0.20 kcal/mol(接近)
- ABCG2改进
- 喹啉案例(mcl1靶点,转化47→27):
- 实验ΔΔG = −0.34 kcal/mol
- AM1-BCC预测:−0.42 ± 0.52 kcal/mol(接近)
- ABCG2预测:−3.11 ± 0.23 kcal/mol(严重偏离)
- ABCG2变差
这两个案例展示了:电荷模型的效能在蛋白环境中具有化学环境特异性,同一模型不能保证在所有官能团上都表现一致。
附录G:HREMD Reweighting 物理公式总结
G.1 统计力学基础
HREMD(Hamiltonian Replica Exchange Molecular Dynamics)通过在不同 Hamiltonian(lambda 值)间交换构型,实现对复杂自由能面的高效采样。Reweighting 的核心问题是:如何从多个 lambda replicas 的样本中,准确重构目标 lambda 的系综平均?
系综分布关系: 在温度 $T$ 下,不同 lambda 的系综分布满足:
\[\frac{\rho(\mathbf{r};\lambda_0)}{\rho(\mathbf{r};\lambda_i)} = \frac{Z(\lambda_i)}{Z(\lambda_0)} \exp\left[-\beta\Delta U_{0i}(\mathbf{r})\right]\]其中:
- $\rho(\mathbf{r};\lambda)$ 是构型 $\mathbf{r}$ 在 lambda $\lambda$ 下的概率密度
- $Z(\lambda)$ 是配分函数
- $\Delta U_{0i}(\mathbf{r}) = U(\mathbf{r};\lambda_0) - U(\mathbf{r};\lambda_i)$ 是势能差
- $\beta = \frac{1}{k_B T}$
G.2 核心重加权公式
2.1 单 Replica 重加权
对于在目标 lambda $\lambda_0$ 的系综平均,可以从任意 replica $i$ 的样本重加权得到:
\[\langle A \rangle_{\lambda_0} = \frac{\langle A \exp[-\beta\Delta U_{0i}] \rangle_{\lambda_i}}{\langle \exp[-\beta\Delta U_{0i}] \rangle_{\lambda_i}}\]通俗解释:这就像用”汇率”把不同货币的样本转换成目标货币。$\exp[-\beta\Delta U_{0i}]$ 就是转换汇率,把 replica $i$ 的样本值 “折算” 成目标 lambda $\lambda_0$ 的价值。
2.2 多 Replica 综合公式(实际使用)
对于 HREMD 中 $M$ 个 replicas,综合所有样本:
\[\langle A \rangle_{\lambda_0} = \frac{\sum_{i=1}^M \sum_{j=1}^{N_i} A_{i,j} \exp[-\beta\Delta U_{0i}(\mathbf{r}_{i,j})]}{\sum_{i=1}^M \sum_{j=1}^{N_i} \exp[-\beta\Delta U_{0i}(\mathbf{r}_{i,j})]}\]其中:
- $N_i$ 是 replica $i$ 的样本数
- $A_{i,j}$ 是第 $i$ 个 replica 第 $j$ 个样本的观测值
- $\mathbf{r}_{i,j}$ 是对应的构型
- $\Delta U_{0i}(\mathbf{r}{i,j}) = U(\mathbf{r}{i,j};\lambda_0) - U(\mathbf{r}_{i,j};\lambda_i)$
物理意义:这是最大似然估计,相当于用所有 replicas 的样本,通过各自的权重,加权平均得到目标 lambda 的期望值。
G.3 有效样本量和统计质量
3.1 有效样本量计算
由于不同样本的权重不同,实际的有效样本量会减少:
\[N_{\text{eff}} = \frac{(\sum_{i,j} w_{i,j})^2}{\sum_{i,j} w_{i,j}^2}\]其中权重 $w_{i,j} = \exp[-\beta\Delta U_{0i}(\mathbf{r}_{i,j})]$
重要性:
- $N_{\text{eff}}/N_{\text{total}} > 0.1$ 通常认为是良好的重叠
- $N_{\text{eff}}$ 太小说明 replica 间重叠不足,误差会很大
3.2 方差估计
重加权估计的方差:
\[\text{Var}(\langle A \rangle_{\lambda_0}) \approx \frac{1}{N_{\text{eff}}} \frac{\sum_{i,j} w_{i,j} (A_{i,j} - \langle A \rangle_{\lambda_0})^2}{\sum_{i,j} w_{i,j}}\]通俗解释:有效样本量直接决定了估计的可靠性。如果某些样本的权重特别大(说明它们在目标 lambda 中很重要),但数量很少,那么整个估计就会不稳定。
G.4 实际应用注意事项
4.1 权重截断策略
问题:极端权重会导致数值不稳定和统计偏差 解决方案:
- 绝对截断:设定最大权重 $w_{\max} = \alpha \bar{w}$(通常 $\alpha = 3-5$)
- 相对截断:使用 $w’ = \frac{w}{1 + \epsilon w}$ 进行平滑处理
4.2 交换率优化
HREMD 交换概率: \(P_{\text{acc}}(i \leftrightarrow j) = \min\left[1, \exp\left(-\beta\Delta U_{ji} + \beta\Delta U_{ij}\right)\right]\)
最优交换率:一般在 20-40% 之间
- 太低:采样效率不高
- 太高:lambda 间隔太大,重叠不足
4.3 收敛性判断
收敛标准:
- 有效样本量稳定:$N_{\text{eff}}$ 不再随时间增加
- 权重分布合理:避免极端权重(如 $\exp(10)$ 以上)
- 块平均一致:不同时间段的平均值应该一致
G.5 高级方法:WHAM/MBAR
5.1 WHAM(Weighted Histogram Analysis Method)
基本思想:同时优化所有 lambda 的配分函数,提高统计效率
公式: \(\hat{F}_i = -\ln \sum_{j=1}^M \sum_{n=1}^{N_j} \frac{\exp(-\beta U_i(\mathbf{x}_{j,n}))}{\sum_{k=1}^M N_k \exp(\hat{F}_k - \beta U_k(\mathbf{x}_{j,n}))}\)
5.2 MBAR(Multistate Bennett Acceptance Ratio)
优势:考虑样本间的相关性,理论上更优
适用场景:
- 样本数量有限
- 需要 highest precision
- 多个目标态都需要估计
G.7 常见问题与解决方案
问题1:负权重
原因:$\Delta U_{0i} > 0$ 且很大时,$\exp[-\beta\Delta U_{0i}]$ 会很小 解决:使用相对权重或截断
问题2:重叠不足
表现:$N_{\text{eff}}/N_{\text{total}} < 0.1$ 解决:增加 lambda 点数,调整 lambda 间隔
问题3:计算成本高
策略:
- 使用重要性采样
- 并行化计算
- 预先计算权重
G.8 物理意义总结
Reweighting 的本质:
- 统计推断:从容易采样的分布推断难采样的分布
- 信息利用:充分利用所有 lambda 的样本信息
- 误差传播:样本的统计误差会影响最终结果的精度
关键洞见:HREMD reweighting 证明了通过物理定律,我们可以从”不完美”的采样中获得”完美”的统计推断。这就像用散乱的拼图碎片,通过数学方法还原出完整的图像。