Home > Molecular Dynamics > Sampling & Analysis > BioEmu能把蛋白动力学采样推多远:激酶成功,转运体与隐蔽口袋暴露边界

BioEmu能把蛋白动力学采样推多远:激酶成功,转运体与隐蔽口袋暴露边界
protein-dynamics enhanced-sampling bioemu markov-state-model molecular-simulation generative-ai conformational-ensemble

BioEmu能把蛋白动力学采样推多远:激酶成功,转运体与隐蔽口袋暴露边界

本文信息

  • 标题:Accelerated sampling of protein dynamics using BioEmu augmented molecular simulation
  • 作者:Soumendranath Bhakat,Eva-Maria Strauch
  • 发表时间:2026年2月21日(bioRxiv 预印本)
  • 单位:AlloTec Bio Inc.(美国密苏里州圣路易斯);Washington University in St. Louis School of Medicine, Division of Infectious Diseases(美国密苏里州圣路易斯)
  • 引用格式:Bhakat, S., & Strauch, E.-M. (2026). Accelerated sampling of protein dynamics using BioEmu augmented molecular simulation. bioRxiv. https://doi.org/10.64898/2026.01.07.698041
  • 源代码与相关工具
    • BioEmu:https://github.com/microsoft/bioemu
    • H-packer:https://github.com/gvisani/hpacker
    • CryoPhold:https://github.com/strauchlab/cryoPhold
    • MDML:https://github.com/svats73/mdml/tree/main

摘要

这篇预印本提出了一条把生成式AI构象生成无偏分子动力学模拟马尔可夫状态模型串起来的工作流。作者先用 BioEmu 生成蛋白质骨架构象,再补全侧链、做慢特征分析与聚类,最后从代表性结构出发跑多条短程 MD,并用 MSM 恢复符合玻尔兹曼权重的构象分布。在 CDK2 与 BRAF 这类丝氨酸/苏氨酸激酶上,这条路线确实能捕获 DFG-in 到 DFG-out 的稀有转变,还能解析 V600E 突变诱导的群体迁移。更进一步,作者把 BioEmu 与 Cryo-EM 重加权结合,用于构建 GlyT1 的全原子构象系综。不过,论文同样强调了一点:BioEmu 并不是普适的动力学万能钥匙。在 GlyT1 与 PlmII 这类强依赖侧链构象异质性的体系里,BioEmu 派生的初始系综并没有覆盖足够广的功能相关状态,后续 MD 也就难以“凭空补回来”。

核心结论

  • BioEmu 加短程 MD在激酶体系里确实有效,能用累计 5 μs 的模拟捕获 DFG-in 到 DFG-out 转变,而对照的 rMSA-AF2 路线即使做到 8 μs 仍主要困在 DFG-in
  • 这套方法不只是找到“终态”,还能够解析中间态、亚态和群体比例,例如 CDK2 激活环折叠/伸展状态与 BRAF 的 DFG-Phe 旋转异构体分布
  • 对 V600E BRAF,方法成功恢复了突变诱导的群体转移,包括 DFG-Phe 从 PheF1 向 PheN 的偏移,以及 αC 螺旋向更活性样构象偏移
  • 把 BioEmu 与 Cryo-EM 贝叶斯重加权结合后,可以得到 GlyT1 的全原子先验系综,但采样仍然不完整,尤其是 inward 态与 Y62 翻转
  • 论文最重要的结论其实是边界条件:当动力学高度依赖侧链异质性时,只有骨架多样性往往不够,BioEmu v1.0 的优势会明显下降

背景

蛋白质功能往往不是由单一静态结构决定的,而是由多个亚稳态之间的相对群体与相互转化共同决定。对药物研发来说,这一点尤其关键,因为变构口袋开放、激活环重排、跨膜转运开关、蛋白—蛋白相互作用界面暴露,很多都属于低概率但功能关键的稀有事件

传统无偏 MD 最大的问题是时间尺度。很多功能相关转变隔着很高的自由能垒,常规模拟在可接受的算力预算内根本跨不过去。增强采样方法当然能帮忙,但常常要提前指定集体变量,或者引入偏置势,后续还得重新加权。问题不在于这些方法不好,而在于它们通常依赖较强的经验判断

这几年生成式 AI 进入分子模拟领域后,一个自然的问题是:能不能让 AI 先把构象空间“撒开”,再由物理模拟去恢复真实分布?这篇文章的思路正是如此。不过作者没有把 BioEmu 包装成万能替代品,而是很认真地比较了它在不同体系中的表现,最后给出的结论是:它在某些问题上很强,但也有非常具体、非常物理的失效场景

关键科学问题

  • BioEmu 生成的构象系综,能不能真正作为稀有动力学事件的高质量初始分布
  • 把 BioEmu、短程 MD 与 MSM 串起来之后,能否恢复有物理意义的平衡态群体与自由能面
  • 这套路线在成功体系与失败体系之间,分界线到底在哪里
  • 如果体系的关键转变高度依赖侧链翻转、局部闸门残基或隐蔽口袋开启,BioEmu 是否还足够好用

创新点

  • 提出了一个相对清晰的两阶段流程:先用 BioEmu 做广覆盖,再用 MD+MSM 做物理校正
  • 不只展示成功案例,还专门纳入 GlyT1 和 PlmII 这类有挑战的反例体系
  • 把 CryoPhold 的 Cryo-EM 贝叶斯重加权流程扩展到 BioEmu 先验系综
  • 用同一篇文章同时回答“这方法什么时候有效”和“什么时候会失灵”,这一点其实比单纯展示漂亮案例更有价值

研究内容

整体工作流:先铺开构象,再交给物理学筛选

fig1

图1:BioEmu 种子分子模拟的整体工作流

  • 输入是蛋白质序列,BioEmu 先生成约 500 个仅含骨架的单体构象
  • H-packer 负责补全侧链,把骨架系综转换成全原子表示
  • 作者对 Cα–Cα 距离做慢特征分析,并在前两个慢特征上进行 K-means 聚类,得到 50 个代表性结构
  • 50 个代表性结构分别启动 100 ns 无偏 MD,总计 5 μs
  • 所有轨迹最后交给 MSM 统一整合,输出自由能面、宏观态群体和亚态分布

这张图的重点不是“AI 替代了 MD”,而是AI 改变了初始结构分布。作者反复强调,后面的 MD 仍然是物理驱动的,只不过 BioEmu 提供了一个更可能覆盖稀有态的起点。

方法的关键逻辑:覆盖率先行,但物理意义不能省

这篇文章最值得记住的一句话可以概括成:BioEmu 负责把你带到更多地方,MSM 负责告诉你哪些地方真正重要

如果只看 BioEmu 本身,它给出的是构象多样性,而不是严格的平衡分布。作者因此没有直接把 BioEmu 输出当答案,而是把它当作更聪明的初始构象提案器。后续的全原子 MD 和 MSM,才是赋予这些结构统计物理意义的步骤。

这一点也解释了为什么作者坚持用对照组。文章不是简单展示“BioEmu 能采到什么”,而是要比较:同样是短程无偏 MD,不同初始构象覆盖到底能把结果拉开多大差距

激酶测试:BioEmu 的最佳表现出现在 DFG 翻转问题上

fig2

图2:MSM 加权自由能面解析 BRAF 与 CDK2 的 DFG-in 到 DFG-out 转变

  • A、C 是 BioEmu 种子模拟得到的自由能面,分别对应 apo BRAF 与 apo CDK2
  • B、D 是 rMSA-AF2 增强 MD 的对照结果
  • 黑点是初始构象系综投影,作者用它来直观看出初始覆盖范围
  • E 给出了 DFG-in 与 DFG-out 的代表性结构,salmon 色对应 DFG-in,cyan 色对应 DFG-out,重点看的是 DFG-Phe、Lys、Glu 的相对位置变化

这组结果非常直观。BioEmu 种子模拟不只是跑出了更散的点云,而是真正在自由能面上覆盖到了从 DFG-in 到 DFG-out 的过渡区域。相比之下,rMSA-AF2 的初始系综和后续模拟几乎都局限在 DFG-in 附近。

这里最有说服力的不是“总能量更低”之类抽象说法,而是一个非常实际的比较:BioEmu 路线总模拟时间是 5 μs,对照路线是 8 μs,但后者仍没能真正跨出 DFG-in 盆地。这说明在这类问题上,初始构象覆盖确实比单纯延长短程模拟更重要。

CDK2:不仅采到 DFG-out,还采到了更细的活化相关异质性

fig3

图3:BioEmu 增强模拟解析 apo CDK2 的 DFG-Phe、αC 螺旋与激活环亚态

  • A 是 DFG-in 宏观态内不同 DFG-Phe 旋转异构体,以及 αC 螺旋 LGL/LGU 和激活环 ACin/ACout 的相对群体
  • B 把激活环距离投影到 DFG 相关的两个距离坐标上,显示 DFG-out 更偏向折叠激活环
  • C 叠合了代表性 DFG-in 与 DFG-out 结构,突出显示DFG-Phe 翻转与激活环折叠

如果图2告诉读者“BioEmu 能跨盆地”,那图3告诉读者的是:它不只会跨盆地,还能把盆地里的精细异质性解析出来

在 apo CDK2 里,作者不仅看到了 DFG-in 与 DFG-out 两个终态,还看到了 DFG-in 内部的不同 DFG-Phe 亚态,以及 αC 螺旋与激活环的耦合变化。尤其是从 DFG-in 到 DFG-out 时,激活环从 ACout 向 ACin 转移,这正是从更活性样构象走向更非活性样构象的重要标志。

换句话说,BioEmu 的价值不只是“帮忙见到稀有终态”,而是能让后续 MSM 在更合理的初始覆盖上,恢复出与功能转换相关的层级化构象景观

V600E BRAF:群体转移而不是单一结构切换,才是更难也更有用的测试

fig4

图4:V600E 突变如何把 BRAF 系综推向更活性样构象

  • 左侧柱状图比较野生型与 V600E 在 DFG-in 宏观态内的 PheN、PheF1、PheF2 群体
  • 中间柱状图比较 αC 螺旋在 LGL 与 LGU 两种构象下的群体变化
  • 右侧结构示意图标出 Phe595、Lys483、Glu501,并用蓝色与米色展示更偏 DFG-in/DFG-out 或 LGL/LGU 的构象差异

这一部分是全文最接近“生物学解释”的地方。作者并不是简单说 V600E 更活跃,而是用群体分布具体展示:在 DFG-in 宏观态内部,V600E 会把 DFG-Phe 的侧链旋转异构体从 PheF1 推向 PheN。同时,αC 螺旋也更偏向“in”状态,也就是 LGL。

这很重要,因为突变激活常常不是把蛋白从一个完全静止的构象“掰”到另一个,而是让整个系综在多个亚态之间重新分配权重。这篇文章的一个亮点就在于,它确实把这种“群体转移”用 MSM 权重给量化了出来,而不只是画一张构象示意图就结束。

把 Cryo-EM 和 BioEmu 接起来:GlyT1 是更接近真实应用场景的测试

fig5

图5:BioEmu 先验系综经 CryoPhold 贝叶斯重加权后,得到 GlyT1 的全原子构象集合

  • 左侧是原始 BioEmu 系综和 SFA 聚类后的 50 个代表性结构
  • 右上是三张 Cryo-EM 参考图,对应 inward、occluded 与 outward 三种状态,分辨率分别约为 3.35 Å2.58 Å3.22 Å
  • 右下是重加权后的全原子 CryoPhold 系综,橙色、青绿色、紫色分别对应 inward、occluded、outward

这部分很值得关注,因为它把“AI 给先验 + 实验给约束 + MD 给动力学”这三件事真正串了起来。作者不是直接拿 BioEmu 去解释 GlyT1,而是先通过 Cryo-EM 参考图做贝叶斯重加权,得到更接近实验的全原子后验系综

从概念上说,这一步很漂亮:BioEmu 给广覆盖的起点,Cryo-EM 给状态约束,CryoPhold 把两者合成更可信的结构先验。如果只看工作流设计,这其实是全文最有方法学延展性的部分。

但问题也从这里开始:GlyT1 并没有被完全采开

fig6

图6:在 GlyT1 上,BioEmu 系综的覆盖不足开始暴露出来

  • A 标出 GlyT1 的关键热点残基,尤其是 Y62、W322、R71、D474,它们共同定义了状态转变相关的局部几何
  • B 是 BioEmu 种子模拟在 TM1–TM6 与 TM1–TM10 距离空间中的采样结果
  • C 是 rMSA-AF2 种子模拟的对照,明显覆盖到更多 inward、occluded、outward 区域
  • D、E 则比较了 Y62 的 χ1/χ2 二面角采样,显示 BioEmu 路线对 Y62 翻转 的覆盖明显不足

这张图非常关键,因为它直接告诉读者:BioEmu 并不是在所有体系里都比 rMSA-AF2 更强

在 GlyT1 中,作者发现 CryoEmu 增强模拟虽然能较好采到 outward 与 occluded,但对 inward 态以及 Y62 翻转的恢复并不充分。这个结果和前面激酶体系的成功形成鲜明对比,也说明 GlyT1 的关键动力学更依赖局部残基闸门与侧链重排,而不只是主链骨架的大尺度移动。

也就是说,对某些跨膜转运体来说,单纯把骨架铺得更开并不够。真正控制状态切换的,可能是像 Y62 这样的局部“盖子”残基,而这恰恰是 BioEmu v1.0 不擅长的地方。

PlmII:隐蔽口袋开启再次证明,侧链问题绕不过去

fig7

图7:在 PlmII 的隐蔽口袋开启问题上,rMSA-AF2 反而明显优于 BioEmu

  • A 是 BioEmu 增强模拟得到的 Trp41 χ1/χ2 自由能面,基本只覆盖主态
  • B 是 rMSA-AF2 的对照结果,可以看到更多离散盆地,其中圈出的区域对应隐蔽口袋开启相关状态
  • C 给出 Trp41 翻转的结构示意,说明这个侧链运动与口袋暴露直接相关

如果说 GlyT1 已经让人开始怀疑“骨架覆盖是否足够”,那 PlmII 几乎就是把这个问题钉死了。作者明确指出,PlmII 的隐蔽口袋开启依赖 Trp41 侧链翻转,而 BioEmu 生成的初始系综在这件事上的构象多样性太有限,所以后续 MD 也很难补救。

这也是全文最值得记住的负面结论之一:对由关键侧链翻转主导的构象开关,BioEmu v1.0 的瓶颈不在后续采样,而在起跑线就没有把相关侧链异质性准备好

这篇文章真正回答的问题:什么时候该用 BioEmu,什么时候要谨慎

综合激酶、GlyT1 和 PlmII 三类体系,这篇文章给出的不是一个简单的“好用/不好用”结论,而是一个更细的经验判断。

更适合 BioEmu 的情形通常有这些特征:

  • 关键转变主要表现为骨架层面的宏观构象重排
  • 稀有态虽然难采,但可以由较广的主链分布触达
  • 后续短程 MD 加 MSM 足以把这些状态重新赋予物理权重

相对不利的情形则包括:

  • 关键动力学由局部侧链翻转控制
  • 功能相关状态依赖少数残基构象的精细组合
  • 起始系综如果没有覆盖这些局部侧链模式,后续无偏 MD 很难在短时间内补齐

这也是作者为什么会在摘要和讨论里都强调,BioEmu 更像是一个很强的构象覆盖工具,而不是自动恢复全部真实动力学的黑箱。

方法细节:这套流程到底是怎么落地的

体系生成与聚类

  • BioEmu v1.0 为每个体系生成约 500 个构象
  • H-packer 补全侧链,得到全原子结构
  • 作者对 Cα–Cα 距离做慢特征分析,并在前两个慢特征上进行 K-means 聚类,得到 50 个聚类中心
  • SFA 与聚类使用的是 MDML 软件包
  • 对 GlyT1,作者再把这 50 个聚类中心作为 CryoPhold 的先验,用于针对三张 Cryo-EM 图的贝叶斯重加权

分子模拟参数

  • 使用 Amber2022 中的 tleap 进行体系准备
  • 蛋白力场是 AMBER ff14SB
  • 水模型是 TIP3P
  • 使用截角八面体水盒,蛋白到盒边界最小缓冲为 10 Å
  • 先做受限最小化,再做全体系无约束最小化
  • Amber 拓扑通过 ACPYPE 转到 GROMACS 格式
  • 后续模拟在 GROMACS 2022 中进行
  • 体系从 0 K 升温到 300 K,先进行 500 ps NVT 升温,再进行 200 ps NPT 平衡
  • 生产模拟为无偏 100 ns,轨迹每 10 ps 保存一次
  • 温控采用 velocity-rescale thermostat,压强控制采用 Parrinello–Rahman barostat
  • 非键相互作用截断为 1.0 nm,长程静电采用 PME,含氢键长通过 LINCS 约束

MSM 构建

  • MSM 使用 PyEMMA 构建
  • 激酶体系使用图2中的两个距离来区分 DFG 态
  • GlyT1 则使用能区分 inward、outward、occluded 的距离变量来建模

从技术路线看,这篇工作的核心不在于发明了新的采样偏置算法,而在于把生成式构象先验、全原子 MD、MSM 与实验约束拼成了一条相对简洁、可复用的流程。


Q&A

  • Q1:为什么 BioEmu 在激酶上明显成功,但在 GlyT1 和 PlmII 上表现变差?
  • A1:一个核心区别是,激酶 DFG 转变更多体现为主链与局部二级结构层面的构象重排,而 GlyT1 的 Y62、PlmII 的 Trp41 都属于关键侧链闸门残基。BioEmu v1.0 只显式生成骨架,侧链是后补的,所以一旦功能动力学高度依赖侧链异质性,起始覆盖就会受限。

  • Q2:这篇文章是在说 BioEmu 比 rMSA-AF2 更好吗?
  • A2:不是简单的“更好”,而是不同体系各有胜负。在 BRAF 和 CDK2 这类激酶上,BioEmu 的构象覆盖明显更广;但在 GlyT1 与 PlmII 上,rMSA-AF2 反而给出了更好的功能相关采样。作者真正想说明的是:初始系综的质量必须和问题类型匹配

  • Q3:为什么作者要坚持在后面再跑 MD 和 MSM,不能直接分析 BioEmu 输出吗?
  • A3:因为 BioEmu 给的是结构覆盖,不是严格的平衡分布。后续 MD 才提供局部物理松弛,MSM 才负责把多条轨迹整合成有统计力学意义的群体分布与自由能面。没有这一步,BioEmu 更像“候选构象生成器”,而不是完整的动力学答案。

  • Q4:这项工作对药物发现最直接的启发是什么?
  • A4:它说明了一个很实际的策略:如果目标体系的关键动力学主要由骨架级别的大构象转变主导,BioEmu 这类模型可以显著提高稀有态触达率;但如果问题核心是局部侧链翻转、闸门残基摆动或隐蔽口袋开启,就不能指望只靠骨架多样性解决问题,必须考虑更强的侧链建模或额外实验约束。

关键结论与批判性总结

这篇文章最重要的价值

这篇文章真正有价值的地方,不是单纯展示“AI 让采样更快”,而是把这个命题拆开讲清楚了。作者既给出了 BioEmu 在激酶体系上的漂亮成功案例,也非常诚实地展示了它在 GlyT1 和 PlmII 上的失败边界。这种写法反而更有参考意义,因为它把方法的适用前提说透了。

主要优点

  • 成功案例很有说服力:BRAF 与 CDK2 的 DFG 转变确实被采到了,而且对照组差距明显
  • 不只看终态:文章分析了中间态、亚态、群体分布和突变诱导的 群体转移,信息密度很高
  • 工作流具有可操作性:BioEmu、H-packer、MDML、GROMACS、PyEMMA、CryoPhold 串起来后,路线相对明确
  • 对失败模式有清楚归因:作者把问题聚焦到侧链异质性不足,这个解释既具体又有物理直觉

局限性

  • BioEmu v1.0 不显式建模侧链,这会直接限制对 Y62、Trp41 这类关键残基翻转的覆盖
  • 当前流程主要面向单体蛋白,对蛋白—蛋白或蛋白—配体体系的适用性仍有限
  • 虽然结果与已知机制一致,但很多系统仍缺少更直接的实验定量验证
  • 成败在很大程度上取决于初始系综是否覆盖到真正相关的局部自由度,这意味着方法仍然需要系统特异性判断

对后续工作的启发

  • 如果未来的生成模型能更好处理全原子级别的侧链异质性,这条路线的适用范围会明显扩大
  • 把 Cryo-EM、DEER、FRET 等实验信息与生成模型输出做更紧的耦合,可能是提高可靠性的关键方向
  • 对于隐蔽口袋和局部闸门问题,后续方法很可能需要从“只学骨架”走向同时学习骨架与关键侧链坐标

总体来看,这篇文章最值得记住的 punchline 不是“BioEmu 已经解决了蛋白动力学采样”,而是:BioEmu 确实能显著改善一类问题,但它的边界恰好暴露了下一代生成式分子模拟模型最该补的课