Mendelevium
Diary
Drug Design
Field Knowledge
Academia
Yang
Biology
Physics
Free Energy
Machine Learning & AI
Active Learning
Basics
Boltz-2
Data
Generation
Interpretability
QSAR application
Representations
Mol2Image
Workflow & Agent
Molecular Dynamics
FF & Algorithm
Small Molecule
martini
water
Interaction
Modeling & Tools
QM
Sampling & Analysis
Allostery
Fundamental
Other
Specific Sytems
Enzyme Engineering
Fiber & LLPS
Membrane
orientation_penetration
Metal
Nano Polymers
Skin Permeation
Techniques
Linux
Python
Research
Web
about
Home
Contact
Copyright © 2025 Xufan Gao | Academic Research Blog
Home
>
Specific Sytems
> Enzyme Engineering
A Bunch of Biophysics is Loading ...
Enzyme Engineering
如何从头设计具有非生物催化机制的金属酶?深度学习设计锌基酮还原酶实现高效不对称合成
如何从头设计具有非生物催化机制的金属酶?深度学习设计锌基酮还原酶实现高效不对称合成 本文信息 标题:De Novo Design of Miniature and Efficient Metallo-Ketoreductases 作者:Yiling Xu, Yunhao Li, Hangwen Zheng, Elliot S. Delfosse, Yuxuan Gao, David Baker, Pengfei Ji 发表期刊:Journal of the American Chemical Society 发表时间:2026年4月28日 DOI:https://doi.org/10.1021/jacs.6c00732 单位:浙江大学化学系,华盛顿大学蛋白质设计研究所 引用格式:Xu, Y., Li, Y., Zheng, H., Delfosse, E. S., Gao, Y., Baker, D., & Ji, P. (2026). De Novo Design of Miniature and Efficient Metallo-Ketoreductases. Journal of the American Chemical Society. https://doi.org/10.1021/jacs.6c00732 代码与数据:设计模型数据(https://zenodo.org/records/15580524) 摘要 本文报道了一种深度学习引导的工作流程,用于从理论活性位点从头设计金属酮还原酶,实现通过非生物氢负离子转移机制的不对称酮还原。设计的微型酶仅含130个残基,在全细胞条件下表现出高催化性能,$k_{\text{cat}}/k_{\text{uncat}}$最高达到$1.4 \times 10^6$,转换数(TON)达到19000,对映体过量(e.e.)值最高达到98%,底物范围广,并能实现二酮的区域选择性还原。值得注意的是,设计支架对90°C处理表现出优异的热稳定性,热稳定性超过天然混杂还原酶,并对多种有机溶剂耐受。 核心结论 130残基微型酶,分子量仅13.8 kDa,显著小于天然hCAII(29 kDa) 催化效率:$k_{\text{cat}}/k_{\text{uncat}}$最高达到$1.4 \times 10^6$,TON高达19000 立体选择性:e.e.值高达98%,对环酮(cyclic ketones)表现优异 稳定性:熔融温度$T_m$达93.8°C,耐受30%有机溶剂 底物范围:dMKR本身覆盖16种酮底物,产率高达99%,e.e.值$>90\%$;后续V88A和I92L变体进一步扩展到更多环酮、芳基酮和杂芳基酮 区域选择性:对1-phenylbutane-1,3-dione实现区域选择性还原 背景 氧化还原酶在合成化学工业中尤为重要,特别是在药物和精细化学品的对映体中间体生产中,其中对映体纯度对生物活性至关重要。尽管天然酶具有优异的催化性能,但其催化功能通常受限于天然进化的化学机制,难以直接覆盖非生物转化反应。传统酮还原酶多依赖NADPH等天然辅因子,而这篇文章关注的是硅烷供氢、锌氢中间体参与的非天然还原路径。 锌氢负离子催化机制:氢负离子来源于硅烷而非溶剂,反应通过Zn-H中间体进行,而非硅烷直接插入的三元机制。具体而言,这类非自然反应利用硅烷(如苯硅烷,$\ce{PhSiH3}$)作为终端还原剂和氢负离子(hydride)供体。在催化过程中,硅烷首先将一个氢负离子转移给酶活性中心的锌离子,形成瞬态的“锌-氢中间体”(zinc-hydride intermediate);随后,该中间体上的氢负离子再进攻(插入)酮的羰基碳,完成不对称还原。金属特异性验证显示,去除$\ce{Zn^{2+}}$后活性完全丧失,回补$\ce{Zn^{2+}}$恢复完整活性,证明dMKR是锌依赖金属酶。 目前,计算策略已成功设计了用于酸碱化学的酶,但从头设计的氧化还原酶例子仍然很少。金属酶在自然界的催化反应中扮演核心角色,但从头设计金属酶面临巨大挑战,需要精确控制金属配位环境、底物结合口袋和反应中间体稳定性。 本文的核心思想:能否只保留理论活性位点的关键几何关系,再从头生成一个更小、更稳定、立体选择性可预设的蛋白支架。hCAII虽然已经能通过锌氢机制还原酮,但它并不是为这个反应进化出来的:分子量约29 kDa,含较长loop和trefoil knot等结构特征,作为可移植、可重设计的工业生物催化支架并不理想。 关键科学问题 如何从理论活性位点模型出发,设计具有非生物催化机制的金属酶? 如何在保持催化活性的同时,大幅减小酶分子尺寸并提高稳定性? 如何实现对多种酮底物的高对映选择性还原,包括环酮(cyclic ketones)和二酮(diketones)? 如何通过计算设计精确控制区域选择性,实现二酮的特定位置还原? 创新点 深度学习引导设计:结合RFDiffusionAA、ProteinMPNN和AlphaFold2,从理论活性位点出发设计微型金属酶 锌氢负离子机制:重点不在于发现锌氢酮还原本身,而在于首次把这一非生物还原机制植入从头设计的微型蛋白支架 微型高效酶:130残基的微型酶明显小于29 kDa的天然hCAII,并在热稳定性、溶剂耐受性和部分选择性上表现更好 优异稳定性:$T_m$达93.8°C,耐受高温和有机溶剂 区域可控:实现对二酮底物的精确区域选择性还原 研究内容 设计方法与计算流程 本文采用深度学习引导的从头设计策略,没有直接改造hCAII全蛋白,而是从hCAII的QM/MM优化活性位点中抽取关键几何约束,再让扩散模型生成新的蛋白骨架。具体步骤包括: 理论活性位点构建:从人类碳酸酐酶II的QM/MM优化模型出发,固定$\ce{Zn^{2+}}$配位、底物和关键催化残基的相对位置。被迁移的关键残基包括三个配位组氨酸His94、His96、His119,辅助去质子化和静电稳定的Glu106,以及稳定烷氧负离子中间体的Thr199和Thr200 蛋白骨架生成:使用RFDiffusionAA生成8000个全新蛋白骨架,每个少于155个残基,具有多样化的α/β二级结构 序列设计与筛选:通过ProteinMPNN在三个温度下设计序列,生成54990个序列,经AlphaFold2预测筛选得到104个蛋白结构;随后用RIFDock对这104个骨架进行苯乙酮对接,共生成了777个对接模型(同一蛋白骨架包含不同的配体结合姿态),再按结合界面参数、底物埋藏程度和几何等条件将其筛选到148个设计模型 金属位点与界面精修:用Metal3D在三个组氨酸处引入$\ce{Zn^{2+}}$,再用RosettaScripts优化配体周围残基,得到7350个设计;经过严格几何筛选、第二轮ProteinMPNN/LigandMPNN设计、ColabFold预测和FastRelax,最终选出24个dMKR进行实验测试 图1:计算设计工作流程与初始筛选。(a)dMKR的计算设计管线,包括关键催化残基识别、使用RFDiffusionAA从头扩散生成蛋白支架、配体和金属对接、Rosetta和MPNN方法序列设计、Colab版AlphaFold2结构预测、FastRelax最终评估和实验测试。(b)不同扩散家族的dMKR设计对acetophenone的还原活性评估。(c)除dMKR50外,产率$>50\%$和e.e.值$>50\%$的设计展示。 催化活性与稳定性表征 初始筛选和稳定性测试结果如下: 初始活性筛选:24个从头设计的dMKR在大肠杆菌全细胞体系中测试苯乙酮还原,dMKR1、dMKR7和dMKR13显示出显著活性,产率$>20\%$,e.e.值$>50\%$ 最优设计dMKR50:来自扩散家族VII,经His-tag替换为Strep-tag后,在全细胞催化中达到98%产率和97% e.e.值,纯化酶产量达175 mg/L培养液 对映选择性可以预设:dMKR50主要给出R构型1-phenylethanol,而另一个设计dMKR53给出S构型产物。原文还统计了产率$>5\%$且绝对e.e.值$>50\%$的12个设计,其中11个的产物构型与设计模型一致,说明活性位点几何对立体化学有可预测性 热稳定性优异:圆二色谱显示dMKR在80°C仍保持折叠状态,熔融温度$T_m$为93.8°C,显著高于hCAII的58.8°C;dMKR在90°C孵育60 min后仍给出95%产率和91% e.e.值,而hCAII在90°C孵育2 min后完全失活 有机溶剂耐受性:dMKR在30% hexane、IPA、EtOH、DMF和DMSO中均保持活性,其中30% DMSO中产率达到$>99\%$、e.e.值为98%。与hCAII的直接对照只在30% 1,4-dioxane条件下进行,hCAII产率从79%降至17%,而dMKR仍有63%产率和97% e.e.值 图2:dMKR的热稳定性和有机溶剂耐受性。(a)远紫外圆二色谱显示dMKR在25°C和80°C的二级结构信号相近。(b)热变性曲线显示dMKR的$T_m$为93.8°C,而hCAII为58.8°C。(c, d)预热后再测催化活性,橙色代表dMKR,灰色代表hCAII;dMKR在60°C和90°C处理后仍保持较高活性,hCAII迅速失活。(e, f)蓝色柱为产率,橙色柱为e.e.值;dMKR在多种30%有机共溶剂中仍能工作,DMSO和DMF甚至提高了疏水底物1aa的转化。 反应机制研究 通过系列实验揭示了锌氢负离子催化机制: 氘代标记实验:使用$\ce{PhSiD3}$作为还原剂,产物在立体碳中心$>99\%$氘代,证实氢负离子来源于硅烷而非溶剂 锌氢负离子机制确认:测试不同硅烷的还原效果,产物e.e.值不随硅烷结构变化,表明反应遵循锌氢负离子机制(即硅烷先将一个氢负离子转移给锌中心,形成锌-氢中间体,然后再插入到酮的羰基中),而非各种硅烷直接与酮反应的三元机制;空间位阻更大、供氢能力更弱的硅烷不给产物,也支持硅烷需要先与锌活性位点有效作用 关键残基鉴定:丙氨酸扫描突变表明,His42、His44、His61和Glu54对催化活性和构型控制至关重要;任一组氨酸突变都会使活性消失或几乎消失。Thr84突变为Ala后产率从98%降至62%,但e.e.值基本不变,说明Thr84有贡献,但不是绝对必需位点,可能由主链酰胺氢键部分补偿 金属特异性验证:金属取代实验显示,去除$\ce{Zn^{2+}}$后活性完全丧失,回补$\ce{Zn^{2+}}$恢复完整活性。Mn、Fe、Co、Ni和Cu等离子并非完全不能反应,而是只给出部分活性,因此原文的结论是dMKR是锌依赖金属酶,同时金属替换可能提供进一步调参空间 图3:dMKR反应机制研究。(a)氘代同位素标记实验追踪氢负离子来源。(b)dMKR催化苯乙酮还原的总体反应机制。(c)不同硅烷类型对产物e.e.值和产率的影响。(d)关键催化残基丙氨酸突变对活性的影响。(e)$\ce{Zn^{2+}}$被其他金属离子取代后的催化活性。 底物范围与区域选择性 在全细胞条件下,dMKR高效还原16种酮底物,产率最高达到99%,所有例子的e.e.值均$>90\%$。底物包括多种芳基酮(带吸电子或给电子基团)、烷基酮、杂芳基酮和二烷基酮。特别值得注意的是,dMKR对1-phenylbutane-1,3-dione(1q)实现了区域选择性还原,选择性还原靠近苯环的内部羰基,产率85%,e.e.值95%,与hCAII的区域选择性(优先还原末端羰基,产率$>99\%$,e.e.值98%)相反。这里的关键并非简单的“酶更强”,而是设计模型中苯基埋藏在疏水口袋、羰基由Thr84附近氢键定位、末端羰基远离$\ce{Zn^{2+}}$中心,从而改变了哪个羰基更容易被还原。 图4:dMKR底物范围与区域选择性。展示16种酮底物的还原结果,包括芳基酮、烷基酮和杂环酮,以及对1-phenylbutane-1,3-dione的区域选择性还原。 定向进化优化 通过定向进化进一步提升催化性能: 图5:dMKR定向进化。(a, b)dMKR变体对环酮还原的催化活性评估。(c)手性环醇在药物和天然产物中的应用示例。(d)dMKR变体对芳基酮和杂芳基酮的催化性能。(e)低催化剂载量下的TON测试。(f)克级不对称放大反应。(g)dMKR_I92L的动力学参数。 突变位点选择:针对环酮底物,作者采用FRISM策略,对设计模型中距离配体4 Å以内的9个残基进行定点小库突变,分别用Ala、Leu和Phe调节口袋大小和空间位阻 V88A变体优化:dMKR_V88A对2,2-dimethyloxan-4-one的产率从43%提升至90%,e.e.值从84%提升至95% 底物范围扩展:dMKR_V88A和dMKR_I92L对多种环酮和芳基酮的催化性能显著提升 高TON实现:在0.0032 mol% dMKR_I92L和3当量$\ce{PhSiH3}$条件下,对1i的TON达到19000,产率61%,e.e.值94% 克级放大验证:克级放大反应在5小时内完成,产率96%(4.85 g),e.e.值94%,展示了实用潜力 动力学参数 动力学参数揭示了dMKR的优异催化性能:$k_{\text{cat}}/k_{\text{uncat}}$高达$1.0 \times 10^6$,$k_{\text{cat}}/K_M$达到$160 \pm 20\,\mathrm{M^{-1}\cdot s^{-1}}$,与天然或进化酮还原酶处于同一量级。 动力学研究表明dMKR变体具有优异的催化性能: 底物亲和力提升:dMKR_I92L对底物1i的$K_M$为$(2.1 \pm 0.2) \times 10^{-3}\,\mathrm{M}$,低于hCAII的$(1.1 \pm 0.2) \times 10^{-2}\,\mathrm{M}$,表明更高的底物亲和力 催化速率:dMKR_I92L对1i的$k_{\text{cat}}$为$(3.4 \pm 0.1) \times 10^{-1}\,\mathrm{s^{-1}}$,$k_{\text{cat}}/K_M$为$160 \pm 20\,\mathrm{M^{-1}\cdot s^{-1}}$ 速率增强显著:无酶对照反应的$k_{\text{uncat}}$仅为$(3.4 \pm 0.1) \times 10^{-7}\,\mathrm{s^{-1}}$,因此dMKR_I92L对1i的$k_{\text{cat}}/k_{\text{uncat}}$为$1.0 \times 10^6$;原文摘要中最高的$1.4 \times 10^6$来自dMKR_V88A对1i的动力学结果 进化变体优化:对acetophenone的还原,dMKR_V88A的$k_{\text{cat}}/K_M$为$88 \pm 8\,\mathrm{M^{-1}\cdot s^{-1}}$,比dMKR($21 \pm 3\,\mathrm{M^{-1}\cdot s^{-1}}$)提升4.2倍,与天然或进化酮还原酶($10$至$600\,\mathrm{M^{-1}\cdot s^{-1}}$)处于同一量级 关键结论与批判性总结 主要贡献 建立了从理论活性位点出发的深度学习引导金属酶设计流程,为人工酶设计提供了新方法;设计的130残基dMKR在热稳定性、溶剂耐受性和部分底物的选择性方面优于hCAII,实现了分子尺寸明显缩小的同时保持高催化表现。 这项工作的关键不在于锌氢中间体酮还原这条机制本身,而在于把锌氢非生物还原机制装进了从头设计的微型蛋白骨架;同时展示了克级合成反应、TON达到19000、优异热稳定性和溶剂耐受性。 局限性与挑战 尽管dMKR本身已涵盖16种酮底物,且进化变体进一步扩大了底物范围,但对大位阻或特殊结构底物的活性仍需优化;$k_{\text{cat}}$(约$0.34\,\mathrm{s^{-1}}$)与很多天然酶相比仍有提升空间。 设计成功率仍然有限:首轮24个设计中只有3个表现出显著活性;如果按全文总结的52条筛选序列计算,36条有可检测对映选择性(e.e.值$>10\%$),但真正高性能候选仍需要二次设计、标签替换和定向进化。 未来方向 将设计策略应用于其他氧化还原反应,如醇氧化、烯烃还原等;设计协同双金属催化中心,实现更复杂的转化; 整合QM/MM预测过渡态稳定性,提高设计成功率;探索工业化应用,包括固定化酶、连续流反应、大规模生产工艺开发。 批判性评价 本研究展示了深度学习在金属酶设计中的强大能力,从理论活性位点出发实现了高性能催化剂的从头设计: 性能评价需要分开看:与天然hCAII相比,dMKR在分子尺寸显著减小的同时,实现了更高的热稳定性和溶剂耐受性;但不同底物上的$k_{\text{cat}}/K_M$并非全面超过hCAII,因此更准确的说法是:它在稳定性、可设计性和特定选择性上体现了从头设计的优势 精确控制能力:区域选择性的精确控制充分体现了计算设计的优势,实现了与天然酶相反的选择性 设计挑战:然而,设计成功率仍较低,对过渡态的精确预测和能量学评估需要进一步改进 总体而言,这项工作为人工金属酶设计提供了一个清晰样例:先定义金属活性位点几何,再生成小型蛋白骨架,最后通过实验和定向进化补足活性。它的意义不在于一次性替代天然酶,而在于证明非天然氧化还原机制可以被较系统地迁移到从头设计的蛋白支架中。 小编锐评:具体的催化活性的优化等,AI仍无法取代基于物理的方法、定向进化等,因为精度不够。但其实选择性之类的可以通过允许给AI更多constraint来预先实现,本质上就是一些相互作用的优化,还是很有必要做的,传统办法仍然费时。骨架的设计可能也需要更多约束和更精确吧。当然酶的kinetics等更细节的、allosteric的又是AI做不了的了。
Specific Sytems
· 2026-05-22
如何设计出高对映选择性的人工金属酶?David Baker团队的从头设计尝试
如何设计出高对映选择性的人工金属酶?David Baker等团队的从头设计尝试 本文信息 标题:从头设计对映选择性人工金属酶光催化剂:含金属多吡啶辅因子的从头设计 作者:Sandip Mishra, Declan Evans, Kingsley Bortey, Husayn Bootwala, Giovanni Gonzalez-Gutierrez, Ricardo Javier Vázquez, David Baker, Jared C. Lewis 发表期刊:ChemRxiv预印本(尚未经同行评审) 发表时间:2026年5月7日在线发表 DOI:https://doi.org/10.26434/chemrxiv.15002852/v1 单位:印第安纳大学分子与细胞生物化学系;霍华德·休斯医学研究所,华盛顿大学 引用格式:Mishra, S., Evans, D., Bortey, K., Bootwala, H., Gonzalez-Gutierrez, G., Vázquez, R. J., Baker, D., & Lewis, J. C. (2026). De Novo Design of Enantioselective Artificial Metalloenzyme Photocatalysts Containing Metal Polypyridine Cofactors. ChemRxiv Preprint. https://doi.org/10.26434/chemrxiv.15002852/v1 摘要 如果蛋白支架能把手性环境传递给简单、易得的金属光催化剂,不对称光催化就会多一种可调控的设计方式。人工金属酶由合成金属辅因子与蛋白支架组成,但支架发现长期受限于试错筛选和天然蛋白框架的功能边界。本文表明,生成式蛋白设计可以直接用于构建对映选择性的人工金属酶光催化剂。作者从头设计了能够非共价结合金属多吡啶配合物的蛋白支架,其中部分支架对Λ型金属配合物显示出明显的对映选择性结合。随后通过定向进化,作者把这些支架优化为可在[2+2]光环化中实现3:97 e.r.的人工金属酶。进一步的光物理、动力学和结构分析说明,蛋白支架既改变了辅因子的结合构型,也改变了其激发态行为和底物预组织方式。 核心结论 从头设计实现:本文展示了用生成式蛋白设计直接构建人工金属酶光催化支架的可行性,减少了完全依赖试错筛选的需求 非共价结合策略:通过疏水口袋和氢键网络实现金属辅因子的非共价结合 高对映选择性:优化后的变体在[2+2]光环化反应中达到3:97 e.r.,并且在较低辅因子载量下仍保持高选择性 光物理性质被蛋白改变:辅因子结合后,寿命、发光强度和量子产率都发生了可测变化,这与催化提升直接相关 结构与模拟共同支持设计模型:本文得到的是 apo 结构而非辅因子复合物晶体,但晶体结构、AF3 模型和 MD 模拟表明,设计的辅因子结合构象在溶液中是可以达到的 背景 人工金属酶的挑战 人工金属酶概念提出已有数十年,核心思路是把均相催化剂的反应类型和蛋白的手性环境放到同一个体系里。传统方法主要依赖两大策略:将金属配合物共价连接到天然蛋白支架,或通过基因工程改造现有金属蛋白的活性位点。这两条路线都能做出有用体系,但也都受限于已有蛋白骨架和活性位点几何。 共价结合策略通常需要对蛋白或配合物进行化学修饰,增加了合成复杂性和不确定性。而改造天然金属蛋白则受限于天然折叠空间的有限性——现有蛋白的活性位点几何形状难以精确匹配合成金属催化剂的配位环境需求。更重要的是,试错筛选方法效率低下,往往需要测试数千个突变体才能找到性能改进的变体。 从头蛋白设计的优势在于,它可以先定义金属辅因子需要的口袋形状,再反过来生成能容纳这个辅因子的蛋白骨架。对人工金属酶来说,这一点很关键:设计目标从改造已有蛋白,转向围绕配合物生成新的结合环境。 光催化反应的特殊性 光催化反应在有机合成中具有重要价值,能够通过激发态金属配合物实现热化学难以达到的转化。钌和铱的多吡啶配合物是经典的光催化剂,在溶液中可以高效引发[2+2]光环化、烯烃异构化、C–H键官能团化等多种反应。然而,这些均相催化剂缺乏手性环境,无法实现高对映选择性。 将金属光催化剂嵌入手性蛋白支架,理论上可以在激发态反应过程中引入立体选择性。但光催化反应涉及三线态激子、能量转移和电子转移等复杂过程,对蛋白支架的刚性和微环境要求极高。支架必须在保持辅因子结合的同时,提供足够的手性环境来区分对映过渡态。 此前已有 DNA、肽和天然蛋白改造等多种人工光酶路线,但往往要依赖较重的化学修饰、天然骨架适配,或较长的筛选迭代。本文的切入点正是:如果从一开始就为金属多吡啶辅因子量身定制结合口袋,是否能更快进入高选择性空间。 关键科学问题 从头设计能否为金属光催化剂创建合适的结合口袋?金属多吡啶配合物体积大、形状复杂,蛋白支架能否提供精确的非共价结合位点? 如何实现对映选择性结合?设计出的支架能否区分金属配合物的Λ和Δ对映体,为后续反应提供手性环境? 定向进化能否优化初始设计?计算设计的支架是否具有足够的可进化性,通过实验进化继续提高亲和力、选择性和低载量下的表现? 这三个问题直指人工金属酶设计的核心:能否先用计算设计把体系推到可用的功能空间,再用少量实验进化完成精修。 Λ和Δ对映体:金属多吡啶配合物具有手性对映体,用希腊字母Λ(Lambda)和Δ(Delta)表示。这两个希腊字母描述的是配体围绕金属中心的螺旋走向:当从八面体顶点望向中心金属原子时,如果三条双齿联吡啶(bpy)配体从近到远顺时针排列则为Λ型,逆时针则为Δ型。这就好比我们的左手和右手,虽然组成元素完全相同,但三维空间排列不同,互为镜像。在这项研究中,作者设计时使用的是Λ型配合物作为模板,但实际合成得到的外消旋混合物包含Λ和Δ两种对映体。 创新点 方法创新:将 RFdiffusion All-Atom、LigandMPNN、AlphaFold2初筛、AF3指导突变和后续定向进化串成一条完整路线,用于从头设计人工金属酶光催化支架 结合策略创新:通过非共价相互作用实现金属配合物的对映选择性结合,避免了共价修饰的复杂性 设计-进化融合:计算设计负责产生能结合辅因子的初始支架,定向进化再处理底物取向、局部柔性和低载量性能 研究内容 核心方法:Scaffold设计流程详解 图S1:计算设计工作流程详情。本研究采用RFdiffusion + Rosetta的组合设计流程,分为以下几个关键步骤: 辅因子选择:选择Ru和Ir的多吡啶配合物作为目标金属配合物。本文主要研究四种辅因子:Ru配合物2($\ce{[Ru(bpy)3]^{2+}}$衍生物)、Ir配合物3($\ce{[Ir(dF(CF3)ppy)2(bpy)]^{+}}$的二羧酸衍生物,其中$\ce{\mathrm{d}F(CF3)ppy}$为二氟三氟甲基苯基吡啶)、以及用于比较的配合物4和5。 图S4:不同辅因子变体的化学结构。包括Ru配合物2、Ir配合物3($\ce{[Ir(dF(CF3)ppy)2(bpy)]^{+}}$的二羧酸衍生物)以及用于比较的配合物4和5。配合物3带有羧酸基团,用于增强与蛋白的相互作用并帮助控制结合取向。 骨架生成:使用RFdiffusion生成10万个长度为100–300个氨基酸的能结合金属配合物的蛋白骨架 疏水残基填充:用Rosetta脚本将生成的骨架用疏水残基填充,改善packing 筛选标准:根据contact_molecular_surface、dSASA、holes_around_lig和interface buried SASA等指标选择高质量设计,确保蛋白-配体界面packing紧密、配合物被充分掩埋,且口袋周围没有明显空洞 序列设计:使用LigandMPNN为通过筛选的骨架设计序列,以带羧酸盐的Λ2配合物为条件模板,随后用AlphaFold2检查序列是否能折回设计骨架 实验验证:在大肠杆菌中表达设计蛋白,测试辅因子结合能力和催化活性。设计序列被克隆到表达载体后转化E. coli BL21Gold(DE3),在TB培养基中培养,用IPTG诱导蛋白表达,通过SDS-PAGE验证可溶性表达 骨架生成阶段 作者先用DFT优化的$\ce{Λ\text{-}Ru(bpy)3^{2+}}$(Λ1)作为初始模板。DFT计算使用Gaussian16软件,采用B3LYP泛函、Grimme的GD3经验色散校正和6-31+G(d)基组,并在CPCM溶剂模型(参数设为乙醚)中优化几何结构。 这个优化的辅因子结构作为条件配体输入RFdiffusion All-Atom,随后用默认全原子参数和RFD_17.pt checkpoint一共生成了100,000个、长度为100–300个氨基酸的蛋白骨架。这里的目标:先尽量多地产生能容纳金属多吡啶整体形状的候选口袋,再用界面指标筛掉明显松散或暴露的设计。 初步筛选标准:这些骨架先用作者自写的Rosetta XML脚本进行疏水残基填充,以改善蛋白-配体界面的packing,再按一组已建立的界面指标筛选,包括contact_molecular_surface > 267、dSASA > 0.77、holes_around_lig > 4.95和interface buried SASA$>850\,\mathrm{Å^2}$。这里的几个指标从不同角度检查同一个问题:这个口袋是否足以稳定抓住金属多吡啶辅因子。 指标 原文阈值 主要含义 直观理解 contact_molecular_surface $>267$ 衡量蛋白和辅因子之间的有效接触表面,Rosetta会按表面距离给接触加权,因此它同时反映接触面积和贴合程度 辅因子被口袋贴实地抱住 dSASA $>0.77$ fractional interface $\Delta$SASA,表示辅因子结合后损失的溶剂可及表面积比例;接近1说明更接近完全埋藏,接近0说明仍大量暴露 辅因子大部分埋入口袋 holes_around_lig $>4.95$ 原文称为ligand cavity quality,反映配体周围腔体质量和局部packing状态;这里应按作者的Rosetta筛选分数理解,分数超过阈值才进入下一步 口袋周围的腔体质量通过本文筛选标准 interface buried SASA $>850\,\mathrm{Å^2}$ 衡量蛋白-辅因子界面形成后被埋藏的总表面积,原文将其解释为广泛的protein-cofactor contacts 接触面足够大、由多处接触共同稳定 筛选标准的物理意义:这四个阈值合在一起,实际是在筛掉三类假阳性:能装进去但露在外面的口袋、接触面积够大但贴得不紧的口袋,以及腔体质量不过关的口袋。作者想保留的是装得深、贴得紧、腔体质量合格、接触面还足够大的候选口袋。 序列设计阶段 通过筛选的骨架使用LigandMPNN进行序列设计,以带羧酸盐的Λ2配合物作为条件配体上下文,也就是把这个辅因子结构作为输入条件,指导序列设计生成能够与之匹配的蛋白序列。 光化学兼容性约束:LigandMPNN设计时特意排除了苯丙氨酸、酪氨酸和色氨酸,因为这些芳香残基可能淬灭激发态或引入不需要的能量转移。 序列设计工作流程迭代优化辅因子结合相互作用: 首先,LigandMPNN为所有可设计位置生成序列和侧链构象;这里的“可设计位置”不是算法自动判定的功能位点,而是设计流程中没有被固定、允许LigandMPNN重新选择氨基酸类型的残基位置; 然后基于几何标准(氢键供体-受体距离和角度截断,具体数值在正文中未明确给出)识别与辅因子Λ2羧酸盐形成潜在氢键的残基; 这些氢键残基在后续设计轮次中被固定,以保持与羧酸盐取代基的有利静电相互作用。 这种迭代设计-固定过程重复三次,逐步精炼结合位点架构,同时保持关键的辅因子稳定相互作用。 最终生成的序列中,结合位点残基被设计为通过疏水作用、氢键和静电相互作用与配合物的特定部分相互作用,从而实现精确的定位和稳定。 图1:从头设计金属多吡啶光催化剂非共价结合的计算策略。A)过去的人工光酶路线主要依赖共价偶联或把光敏基团嵌入现有支架。 B)本文转而设计可通过非共价方式容纳金属多吡啶辅因子的蛋白口袋。C)作者使用的$\ce{Ru}$多吡啶模板从 A1 到带羧酸取代基的 A2。D)RFdiffusion All-Atom 先生成口袋骨架,再由 LigandMPNN 在 A2 条件下做序列设计。 E)设计目标包括氢键网络和形状互补。F)最终保留的是一组能够容纳辅因子的不同折叠候选。 候选选择与实验验证 最终共有96条设计序列进入实验测试。这些序列在大肠杆菌中表达后,通过SDS-PAGE分析验证,其中63条成功以可溶蛋白形式表达(66%成功率),覆盖32种不同折叠。进一步的native PAGE显示,16条序列对应的5种折叠表现为单一寡聚状态。作者从这5类折叠中各选一个代表支架做后续辅因子结合和催化测试。 设计支架的表征 计算设计产生了多个候选支架,研究团队选择其中五个进行实验表征。这些支架在序列上各不相同,但都共享相同的核心设计理念。这里有一个关键问题需要回答:设计出来的支架真的能结合辅因子吗?能区分Λ和Δ吗? 第一步:用透析-Cotton效应筛选能结合的支架 Cotton效应是什么?Cotton效应是指手性物质在吸收带附近出现的特征性ORD或CD信号变化。在这篇文章里,作者看的是CD谱:如果蛋白优先结合某一对映体(如Λ型),透析后保留下来的辅因子会富集该对映体,其CD谱图会在特定波长(如314 nm附近)表现出明显信号。这个信号的符号和形状可以用来判断蛋白更偏好结合哪种对映体。如果Λ和Δ以接近等量保留,它们的CD信号会相互抵消,观察到的Cotton效应就会很弱。 透析-Cotton效应方法:为了定量评估蛋白支架对金属配合物对映体的选择性结合,研究团队开发了“透析-Cotton效应”方法。图S25:透析流程示意图。具体步骤为: 将200 $\mu\mathrm{M}$蛋白支架与5倍过量的外消旋辅因子在50 mM MOPS、150 mM NaCl(pH 7.4)缓冲液中孵育,透析去除未结合的辅因子后记录 ArM 复合物的 CD 光谱,观察是否出现 Cotton 效应; 再将 ArM 的 CD 谱图与独立制备的 Λ 和 Δ 对映体标准谱进行比对,通过匹配 Cotton 效应的符号和形状判定蛋白选择性结合的辅因子对映体,最后使用标准曲线定量计算结合对映体过量(ee)。 该方法的优势在于能够直接检测对映选择性结合,无需复杂的化学衍生或分离步骤。 作者首先测试了五个支架的结合选择性。$\ce{Ru}$配合物2几乎没有信号,而$\ce{Ir}$配合物3给出了明显的Cotton效应。在所有测试的支架中,DE3对Λ3的结合选择性最高,透析后达到94%的ee。 为什么$\ce{Ru}$配合物2结合这么弱?这可能是因为$\ce{Ru}$配合物整体形式电荷更高($\ce{Ru}$配合物为 $+2$,$\ce{Ir}$配合物为 $+1$),而LigandMPNN的设计流程主要基于几何形状,没有完全编码电荷效应。这反映了当前计算设计的局限性。 第二步:用发光增强定量结合亲和力 支架命名规则:DE3、DE18、DE52等支架名称中的DE代表“Designed”(设计),表示这些是从头设计的蛋白支架。数字3、18、52等是不同设计序列的编号。这种命名直接表明了这些支架是通过计算设计生成的,而非来自天然蛋白的改造。 发光滴定方法:作者采用固定辅因子浓度、逐渐滴加蛋白支架的方法测量结合亲和力。具体而言,保持配合物3浓度恒定,向体系中连续加入不同浓度的蛋白支架,记录发光强度变化并生成结合曲线,最后用OriginPro 2021拟合得到$K_d$值。这种方法的原理在于:游离辅因子的发光较弱,而结合到疏水口袋后发光显著增强,因此发光强度直接反映了结合态辅因子的比例。 通过发光滴定,作者发现支架DE3对配合物3的亲和力最强,$K_d$约为 $13\,\mu\mathrm{M}$。为了区分Λ和Δ对映体,作者用纯对映体分别测试,发现DE3对Λ3的$K_d$是$8\,\mu\mathrm{M}$,对Δ3的$K_d$是$80\,\mu\mathrm{M}$。 10倍的差异意味着DE3确实能区分这两个对映体——它对Λ的亲和力更强。这个差异也解释了透析实验的结果:结合更紧的Λ3更难被透析去除,而结合较弱的Δ3更容易被洗掉。 等温滴定量热法(ITC)验证:作者还用ITC对DE3•Λ3做了独立的亲和力测量。SI中给出的实验条件为:在25 °C下,用1.5 mM的Λ3滴定0.15 mM的蛋白支架,共25次注射,每次2.02 μL,注射间隔5分钟,并用独立结合模型拟合数据。ITC测量得到$K_d$约$9\,\mu\mathrm{M}$,与发光滴定结果(约$8\,\mu\mathrm{M}$)一致。两种不同方法得到相近的结果,互相支持了亲和力测量。 配合物3与蛋白支架结合后发光显著增强,寿命也延长。这一现象为直接定量结合亲和力提供了基础。 为什么选择DE3作为进化起点? DE3很快成为后续进化的主线,它在所有测试支架中表现最好:结合最强、选择性最高(94% ee)。其他支架要么结合较弱(DE18的$K_d=70\,\mu\mathrm{M}$),要么选择性较差(DE52只有5% ee),还有一些支架(如DE01、DE17等)没有明显Cotton效应。 支架 对 3 的总体 $K_d$ / $\mu\mathrm{M}$ 偏好对映体 结合 e.e. / % 备注 DE3 13 Λ 94 选中作为进化起点 DE18 70 Λ 约 34 亲和力和选择性都弱于DE3 DE52 23 Δ 约 5 选择性太差,几乎不能区分Λ和Δ DE01/17/21 - - - 没有明显Cotton效应 下一步,作者的目标是通过定向进化,把结合亲和力提得更高,同时保持或提高对映选择性。 定向进化优化 辅因子结合的优化:用AF3指导突变 虽然DE3已经能结合辅因子,但$13\,\mu\mathrm{M}$的$K_d$还不够强。这意味着需要较高蛋白浓度才能让大部分辅因子处于结合状态;在后续反应条件里,作者常用1 mol%辅因子和20 mol% scaffold,在这些条件下约对应20:1的scaffold:cofactor比例。 怎么改进?作者用AlphaFold3(AF3)生成DE3•Λ3的结构模型,然后用AF3的pTM和ipTM分数辅助判断哪些突变可能提高结合(图2D显示了AF3预测的六个关键位点)。这两个分数反映预测结构和界面相互作用的可信度;如果某个突变让AF3预测的复合物更可信,它就更值得进入实验筛选。 通过系统性的单点突变筛选,作者发现苯丙氨酸突变特别有效,尤其是R65F和R85F。把这两个突变组合起来后,DE3 R65F R85F对Λ3的$K_d$降到0.42 $\mu\mathrm{M}$——这是约30倍的亲和力提升。 为什么苯丙氨酸这么有用?苯丙氨酸是疏水的大侧链,可能通过填充口袋空隙、增强疏水接触,或与芳香配体形成堆积相互作用来改善结合。这是一个合理推断,但原文没有逐一证明每个突变的原子机制。 小编锐评:这是计算的最后挣扎了,做不了催化。训练数据里少有这种金属配合物的话,还是得通过基于物理的方法,如FEP。。 催化测试的残酷现实:结合≠催化 DE3变体能紧密结合辅因子后,接下来的问题是:它能催化吗?能区分对映体吗? 结合亲和力主要告诉我们辅因子能否被保留在蛋白中;催化选择性还取决于底物在辅因子附近的取向,以及反应路径中哪一个手性产物更容易形成。上文中的e.e.(enantiomeric excess)用于描述辅因子结合的选择性,而e.r.(enantiomeric ratio)用于描述催化产物的对映比。 e.r.(对映比)是什么:e.r.表示催化反应中两种对映产物的比例,本文通常按“次要对映体:主要对映体”的形式写。例如20:80 e.r.意味着产物中次要对映体约占20份,主要对映体约占80份;3:97 e.r.则对应约94% e.e.,选择性明显更高。判断e.r.时不能只看第一个数字大小,而要看主要对映体是否占绝对优势。 d.r.(非对映异构体比)是什么:d.r.表示反应中生成的两种非对映异构体的比例。非对映异构体是指具有多个手性中心但互不为镜像关系的立体异构体。例如d.r.=1.2:1意味着产物中一种非对映异构体约占1.2份,另一种约占1份。这个指标通常用于描述具有多个手性中心的反应的立体选择性。 作者选择了[2+2]光环化反应作为模型反应(图2E)。这个反应把一个平面分子(6a)环化成一个有手性的四元环产物。理想情况下,人工金属酶应该主要生成一种对映体。然而,未优化的DE3•Λ3只给出低对映选择性;在随后测试的苯丙氨酸突变体中,单突变DE3 R85F给出了最高的20:80 e.r.,仍低于实用要求。 为什么会这样?这反映了仅仅实现辅因子结合并不足以保证高对映选择性催化。结合主要描述辅因子能否留在口袋里;催化还涉及底物进入、底物取向、能量转移和过渡态选择性。DE3能抓住辅因子,但口袋形状可能还不足以精确控制底物如何接近、如何反应。 图2:从头设计人工金属酶支架的辅因子结合与催化。A)辅因子 3 的化学结构。B)真实 Λ3(金线)、支架 DE3(蓝线)和 ArM 复合物 DE3•Λ3(红线)的圆二色谱。C)选定支架与 Λ3 的 $K_d$、结合ee(辅因子结合的对映体过量)、优先结合的对映体以及发光寿命。D)基于 pTM 和 ipTM 分数锁定的潜在有益突变位点。E)用于进化筛选的 [2+2] 光环化反应。F)不同支架变体在筛选条件下得到的产物e.r.。 变体命名规则:进化变体采用简写命名。例如“1Y”表示第1轮进化的酪氨酸突变(DE3 R85Y),“2R”表示第2轮进化的精氨酸突变(1Y Q22R),“3G/3F11/3F44”表示第3轮进化的甘氨酸或苯丙氨酸突变(2R R65G/L11F/L44F),“4FFG”表示Final组合突变(DE3 L11F Q22R L44F R65G R85Y)。这种命名简洁地标注了进化轮次和关键突变。 定向进化:从“能催化”到“高选择性” 面对这个挑战,作者采用了定向进化——这是有策略的实验优化。作者采用位点饱和突变(site saturation mutagenesis)技术,使用简并NNK密码子(N=A/T/G/C,K=G/T)通过重叠延伸PCR(SOE PCR)构建突变文库。NNK密码子能编码所有20种氨基酸,同时尽可能减少终止密码子。每个目标位点构建一个饱和突变文库,转化大肠杆菌后表达突变蛋白,然后在标准[2+2]光环化反应条件下筛选e.r.。筛选采用96孔板格式,在定制400 nm LED光反应器中同时测试上千个克隆,通过UHPLC分析产物e.r.值。 第一轮:从低选择性到10:90 在此前的苯丙氨酸突变中,单突变DE3 R85F给出最高的20:80 e.r.。进一步的饱和突变显示,R85Y(命名为1Y)可以把选择性提高到10:90 e.r.,这是本文进化路径中第一次达到90%以上的对映选择性。 为什么R85Y这么有效?精氨酸(R)带正电荷,可能通过静电作用与辅因子的羧酸基团相互作用;但酪氨酸(Y)有酚羟基,既能形成氢键,又能通过芳香环提供π-π堆积。这个改变可能既保持了结合,又调整了口袋的形状,让底物以更有利的方式接近。 第二轮:从10:90到3:97 以1Y为基础,在剩余五个位点构建文库。Q22R把结果进一步推到3:97 e.r.,已接近实用要求。得到的变体命名为2R。 第三轮:把高选择性带到低蛋白用量 2R虽然选择性高,但还需要20 mol%的scaffold loading。作者把筛选条件改得更苛刻:直接在更低scaffold loading下看能否保住选择性。在2R基础上,对辅因子结合位点周围8 Å内的13个残基继续做饱和突变。 筛选结果(图2F显示了不同变体的催化产物e.r.值)显示三个有益单突变:L11F(命名为3F11)、L44F(命名为3F44)和R65G(命名为3G)。这三个突变都能在1.5 mol% scaffold loading下提高选择性。组合后的4FFG(DE3 L11F Q22R L44F R65G R85Y)在1.5 mol% scaffold loading下仍能给出3:97 e.r.,说明低蛋白用量下的选择性也能通过进化保住。 scaffold loading从20 mol%降到1.5 mol%,约降低13倍,但选择性保持不变。 变体 关键突变 代表结果 为什么重要? DE3•Λ3 - 低对映选择性 能结合但选择性差 DE3 R85F R85F 20:80 e.r. 苯丙氨酸单突变中的最好结果 1Y R85Y 10:90 e.r. 首次达到高选择性 2R Q22R, R85Y 3:97 e.r. 达到实用选择性 3G Q22R, R65G, R85Y 在1.5 mol%下改善 第三轮单突变之一 3F11 L11F, Q22R, R85Y 在1.5 mol%下改善 第三轮单突变之二 3F44 Q22R, L44F, R85Y 在1.5 mol%下改善 第三轮单突变之三 4FFG L11F, Q22R, L44F, R65G, R85Y 3:97 e.r. 降低蛋白用量13倍 设计和进化的分工:计算设计把支架带到能结合辅因子的区域,定向进化再处理侧链柔性、底物预组织和溶剂效应这些难以一次算准的细节。关键在于初始设计已经足够接近功能空间,进化只需局部调整而非全局重构。 催化性能与机理研究 反应机理与动力学研究 做到高 e.r. 之后,作者继续用稳态动力学和光谱实验追问一个更具体的问题:蛋白到底改了什么。稳态动力学结果显示,DE3•Λ3、2R•Λ3 和 2R•Δ3 都符合 Michaelis–Menten 动力学。 不同变体的动力学参数对比 为什么只测DE3和2R,不用那几个优化后的研究动力学:作者选择2R进行动力学和机理研究,是因为它具有高对映选择性,而后续变体(如4FFG)的主要改进是在更低scaffold loading下实现类似选择性,而非改变催化机制本身。因此研究DE3和2R就能代表从头设计和进化后变体的基本动力学特征。 变体 $K_M$ / mM $k_\text{cat}$ / $\mathrm{min^{-1}}$ 催化效率 / $\mathrm{mM^{-1}\cdot min^{-1}}$ 提升倍数 DE3•Λ3 1.3 0.46 0.36 基准 2R•Λ3 0.48 0.84 1.8 约5倍 2R•Δ3 0.67 1.1 1.7 约5倍 DE3 到 2R 的变化:$K_M$ 变小了,$k_\text{cat}$ 变大了,结果就是催化效率提高。这个蛋白口袋同时提高了对映选择性和整体催化效率。 虽然2R•Λ3和2R•Δ3的催化效率相似(1.8 vs 1.7 $\mathrm{mM^{-1}\cdot min^{-1}}$),但对映选择性差异巨大。使用20 mol% 2R和1 mol%辅因子时,2R•Λ3催化6a达到3:97 e.r.,而2R•Δ3只能达到11:89 e.r.。这说明辅因子对映体对反应立体化学没有直接控制作用,而是通过差异结合亲和力间接影响选择性:DE3对Λ3的亲和力远高于Δ3(见前文设计支架的表征那里),导致Δ3更容易游离并产生外消旋背景反应。 光谱证据揭示机制变化 光致发光表征:DE3•Λ3相比游离辅因子发光更强、寿命更长;2RF•Λ3的绝对量子产率进一步升高。这里用2RF,而不是直接用2R,是因为2R含有Tyr85,酪氨酸可能和辅因子的电子激发态发生反应,容易把光谱解释复杂化。 图5:支架-辅因子相互作用影响反应选择性和激发态行为。 A)辅因子(X)和支架(Y)载量对ArM选择性的影响,因辅因子对映体不同而不同。红色方块代表Λ3,蓝色圆圈代表Δ3。 Stern–Volmer实验看的是底物6a加入后,Λ3的发光强度和寿命怎么变 B)游离Λ3与底物6a。发光强度淬灭和寿命淬灭基本重合,说明6a主要通过碰撞淬灭激发态Λ3。 C)蛋白结合后的。发光强度淬灭明显强于寿命淬灭,说明一部分Λ3和6a在激发前已经处于接近或结合状态,表现为静态淬灭。 D/E)瞬态吸收光谱(TAS)则直接跟踪Λ3激发态吸收(470 nm)随时间的衰减,纵坐标为光密度变化(log mΔOD),横坐标为时间。 蓝色曲线(游离Λ3):单指数衰减;绿色曲线(Λ3+6a):衰减更快,斜率更陡,说明6a通过碰撞淬灭游离Λ3的激发态。 红色曲线(2RF•Λ3):双指数衰减,长寿命组分比游离Λ3延长2.2倍 橙色曲线(2RF•Λ3+6a):长寿命组分与红色曲线斜率相近,说明加入6a后激发态寿命几乎不变。 两组实验相互印证,回答同一个问题:6a到底是靠溶液碰撞淬灭Λ3,还是已经在蛋白口袋里靠近Λ3。 强度和寿命的物理意义:发光强度反映有多少激发态分子通过辐射跃迁回到基态并发出光子;如果周围有淬灭剂(如6a)通过能量转移把能量用于化学反应,强度就会下降。激发态寿命反映激发态本身的固有属性——即激发态分子在回到基态前平均能存活多久,这和有多少分子能激发无关。6a的淬灭就是把激发态Λ3的能量用于驱动[2+2]光环化反应。 Stern-Volmer淬灭分析 Stern-Volmer方程用于定量分析淬灭效率。有两种测量方式: 稳态测量(看发光强度): \(I_0/I = 1 + K_{ISV}[Q]\) 时间分辨测量(看激发态寿命): \(\tau_0/\tau = 1 + K_{tSV}[Q]\) 其中$I_0$和$I$是无/有淬灭剂时的发光强度,$\tau_0$和$\tau$是无/有淬灭剂时的激发态寿命,$[Q]$是淬灭剂浓度。$K_{SV}$越大表示淬灭越强,它就是Stern-Volmer图的斜率。 两种淬灭机制的判据: 动态淬灭(碰撞淬灭):淬灭剂在扩散过程中与激发态分子碰撞,通过能量转移把能量用于反应。$K_{ISV} \approx K_{tSV}$,因为发光强度下降和寿命缩短同步发生——激发态分子更容易失活。 静态淬灭(预组织淬灭):淬灭剂在激发前就已与发光分子形成复合物。$K_{ISV} > K_{tSV}$,因为只有一部分分子能发光(那些和6a预组织的Λ3被”锁住”不发光),但真正发光的那些分子寿命不变。 样品 绝对量子产率 / % 无底物寿命 / μs 有6a底物寿命 / μs $K_{ISV}$ / $\mathrm{M^{-1}}$ $K_{tSV}$ / $\mathrm{M^{-1}}$ 淬灭机制 含义 游离Λ3 26 0.96 0.76 2000 2000 动态淬灭 6a在溶液中随机碰撞Λ3,能量转移导致发光变暗、寿命缩短 DE3•Λ3 44 - - 约1500 约500 静态淬灭为主 部分Λ3与6a在口袋中预组织,激发前就形成非发光复合物 2RF•Λ3 55 2.14 2.09 4000 主文未给出 更强的预组织淬灭 寿命基本不变,说明是静态淬灭;但淬灭效率翻倍 2R•Λ3 - - - 3600 主文未给出 更强的预组织淬灭 进化后底物更容易靠近Λ3,预组织更有效 游离Λ3是纯动态淬灭:$K_{ISV}$和$K_{tSV}$都是$2000\,\mathrm{M^{-1}}$,说明6a在溶液中通过碰撞淬灭激发态Λ3,把能量用于反应。 蛋白结合后出现静态淬灭特征:DE3•Λ3的$K_{ISV}$(约1500)大于$K_{tSV}$(约500),说明部分Λ3在激发前就已经和6a形成复合物。这些预组织的Λ3-6a对不发光,但那些没有预组织的Λ3寿命不变。 进化后淬灭效率翻倍:2RF•Λ3和2R•Λ3的$K_{ISV}$分别达到4000和3600,是游离Λ3的两倍。这说明进化支架把底物6a更有效地预组织在Λ3周围,更多Λ3在激发前就与6a形成复合物。 2RF•Λ3的寿命不变问题:虽然$K_{ISV}$很大(4000),但激发态寿命几乎不变(2.14→2.09 μs)。这正是静态淬灭的特征——那些真正发光的Λ3分子寿命不变,但发光分子总数减少。 从结构上看,这个解释和后面的AF3模型是连在一起的:Q22R可能通过离子配对帮助定向辅因子,R85Y让底物结合口袋更封闭,4FFG中的F11还可能与85Y协同包住底物。这样,Λ3不是暴露在溶液里等底物随机撞上来,而是被固定在一个疏水、较封闭的口袋中;底物6a也更容易在同一个口袋里靠近Λ3。这个环境一方面减少溶剂碰撞、构象松动等非辐射失活(延长寿命),另一方面把能量转移发生的位置提前组织好(提高淬灭效率)。图5支持的是激发态保护和底物预组织这两个结论。 结构验证 本文没有拿到辅因子结合态的晶体结构。真正获得的是 2R 和 2RCC 的 apo 结构。数据在 ALS 8.2.2 收集;2R 的分子置换主要借助 Arcimboldo Shredder,而 2RCC 则可以直接使用 AF3 模型完成分子置换。 2RCC的设计目的:2R的N端柔性过大导致只能解析出63个残基。为限制这种柔性,作者在2R基础上引入了V7C和Q74C突变,形成了第二个二硫键C7-C74(2RCC)。2R原本已经有一个设计的二硫键C60-C71,2RCC新增的二硫键稳定了N端结构,使得完整序列得以解析,同时保持了与2R相似的辅因子结合亲和力($K_d$=1.8 μM vs 3.4 μM)和对映选择性(4:96 e.r. vs 3:97 e.r.)。 图6:进化人工金属酶的结构分析。A)apo 2R的注释模型,其中kink角度由L74、A85和L96的Cα位置定义。 B)2R晶体结构的链A(红色,PDB ID 11EJ)与2R的AF3预测结构(透明绿色)叠加,晶体结构显示非对称单元中有一个63个残基的螺旋-环-螺旋(HLH)基序。 C)2RCC晶体结构的链A(红色,PDB ID 11EK)与2R的AF3预测结构(透明绿色)叠加,晶体结构显示完整序列、设计的C7-C74二硫键和被拉直的α-3。 D)从2RCC晶体结构链A出发的500 ns MD代表性轨迹与2R的AF3预测结构叠加,显示α-3可以回到AF3模型中的弯折位置。 E)4FFG与Λ3和底物6a结合的AF3模型,显示辅因子与底物接近,并标出4FFG中的Q22R和R85Y突变。 为验证设计的辅因子结合口袋在溶液中是否可达,作者进行了500 ns分子动力学模拟。 软件:AMBER(GPU加速的pmemd.cuda引擎);力场:ff14SB 溶剂模型:TIP3P水分子,150 mM NaCl;时间步长:2 fs 温度控制:300 K,Langevin恒温器(碰撞频率$\gamma=5.0\,\mathrm{ps^{-1}}$);压力控制:1 atm,Monte Carlo恒压器 模拟时长:5条独立轨迹,每条500 ns;起始结构:从2RCC晶体结构(PDB ID 11EK)开始 MD模拟结果:从2RCC晶体结构开始的五重独立模拟轨迹显示,C末端的α-3螺旋可以恢复到设计态的弯折构象,kink角度和α-1/α-3距离都与DE3设计相似。 MD模拟解决了什么问题?2RCC的晶体结构显示α-3螺旋被“拉直”了(因为晶体中形成了二聚体),这与设计态不一致。MD模拟表明,在溶液中α-3会回到弯折的构象——晶体中的拉直更可能来自晶体堆积或二聚界面,溶液中则更接近弯折构象。这表明尽管apo晶体结构显示柔性,但设计的辅因子结合口袋在溶液中是可以达到的。 实用性验证 底物范围研究 图3:进化人工金属酶的底物范围。展示了进化DE3变体的底物范围,包括收率和对映比:a使用4–10% v/v DMSO;b使用1 mol% Λ3和20 mol% 3P。图上标注了不同底物(6a–16b)在进化支架催化下的收率和对映选择性结果,其中主线结果主要来自4FFG•Λ3,N-甲基底物16b则使用进一步筛选得到的3P•Λ3条件。 部分图S12:N-烷基取代底物的扩展研究。展示了17b-18b等更大N-烷基取代底物的反应结果,以及不同载量条件下的性能改善。 图3展示了4FFG•Λ3对多种4-烯丙氧基喹啉酮底物的系统性研究,这些底物具有不同的电子和立体特征。在标准反应条件下,大多数底物实现了高化学收率和中等到优秀的对映选择性控制。 底物类型 代表底物 收率概况 e.r. 含义、结论 主模型底物 6a 高 3:97 全文的基准结果 卤素/甲基取代 7b–10b 高 6:94至8:92 芳环电子环境变化对催化效率影响有限 烯烃上甲基取代 12b–13b 高 良好 不管甲基和偕二甲基,反应烯烃附近的立体位阻不会阻碍有效结合 烯烃tether甲基取代 11b 高 18:82和9:91(两个非对映体) 各自表现出显著但不同的对映富集。说明手性口袋对不同非对映异构体的识别存在差异 更长tether 14b–15b 良好 良好 尽管环尺寸更大且构象自由度增加,但仍能高效环化并具有良好的对映选择性 N-甲基 16b 可反应 61:39(4FFG)/8:92(3P) 3P•Λ3(2R E89P突变体,专门针对N-甲基底物优化),说明DE3支架可以重新优化以适应缺乏常规氢键结合模体的底物 更大N-烷基 17b–18b 可反应 中等 也能有效环化,但对映选择性中等 N-甲基底物16b:4FFG•Λ3选择性只有61:39,但进一步筛库得到的3P•Λ3(2R E89P突变体,专门针对N-甲基底物优化)可提升至8:92 e.r. 更大N-烷基底物17b–18b:包括N-乙基和N-丙基。将辅因子和支架载量分别提高到0.5 mol%和2.5 mol%可以显著提高所有研究反应的对映选择性和收率。 有趣的是,对于底物6b和16b-18b,还发现了显示相反对映选择性的变体,说明DE3支架能够生成替代的手性环境用于光催化。例如,3P•Λ3催化17b达到72:28 e.r.(相反),催化18b达到39:61 e.r.(相反) TTN与回收利用 图4:新型人工金属酶表现出高总周转数和高可回收性。 A)在Penn光反应器中进行反应达到很高的总周转数(TTN)。即使辅因子载量低至0.001 mol%,仍能达到53,000的TTN,这远超大多数人工光酶的报道值。 B)通过产物萃取和重复反应实现的ArM回收利用。通过简单的液-液萃取就能分离产物,水相中的ArM可以继续用于后续反应;原文报告的是三轮反应和萃取中产率与对映选择性只小幅下降。 C)使用外消旋、市售辅因子17生成的ArM进行对映选择性光催化。即使使用廉价的市售外消旋辅因子17,3G•17催化底物6a仍能达到9:91 e.r.,虽然相比2R•Λ3(3:97)有 modest reduction,但仍保持高选择性。这大大降低了实际应用的门槛,因为无需定制手性辅因子。 TTN是什么?TTN是total turnover number,总周转数,意思是“每一个催化剂分子在整个反应中平均完成了多少次转化”。这篇文章的TTN按$\ce{Ir}$光催化辅因子计算(wrt [$\ce{Ir}$]),所以0.001 mol% Λ3在53%收率下大约对应$0.53/0.00001=53000$次周转。它和TON(turnover number)本质上是同一类指标,只是作者在强调低催化剂载量下的总周转能力时使用TTN。 图4展示了ArM的实用性能。作者进一步评估了4FFG•Λ3的实用性能指标: 反应场景 $\ce{Ir}$辅因子载量 / mol% 4FFG载量 / mol% 收率 / % e.r. TTN/TON 关键优势 定制400 nm LED反应器 0.03 1 73 3:97 约2,300 标准条件验证 Penn/integrated光反应器,空气中 0.001 1.5 53 3:97 $53000\pm4000$ 极低辅因子用量 游离Λ3,空气中 0.001 0 15 46:54 $15000\pm1000$ 对照组,几乎无对映选择性 市售辅因子17,空气中 0.001 0 14 48:52 $14000\pm1000$ 对照组,几乎无对映选择性 这些数字说明,这个体系已经超出基础筛选条件。低辅因子载量、高周转和空气中仍能工作,才是它更接近实际催化体系的部分。 回收利用和辅因子可得性也有实验数据支持。4FFG•Λ3 的回收不需要固定化,只要把产物用乙醚萃走,剩下的水相人工金属酶可以直接继续做下一轮反应。商用外消旋辅因子 17 也能和进化支架组装成功能性 ArM,这降低了复现实验时对定制手性辅因子的依赖。 关键结论与批判性总结 实验结果逻辑流程图 这套流程可以概括为“先定义辅因子,再生成口袋,再做实验进化”。本文已经把它跑到了$\ce{Ru}$和$\ce{Ir}$多吡啶体系,也证明了商用辅因子可以接上这条路线。 graph TB subgraph R1["第1阶段:初始设计表征"] direction LR A1[96条设计序列] --> A2[66%可溶表达<br/>63/96成功] A2 --> A3[5种代表支架<br/>单一寡聚状态] A3 --> A4[透析-Cotton效应筛选] A4 --> A5["DE3选中:Λ3结合ee为94%"] A5 --> A6["结合亲和力:K<sub>d</sub>为13 μM"] A6 --> A7["催化测试:低e.r."] end subgraph R2["第2阶段:结合亲和力优化"] direction LR B1[AF3预测6个关键位点] --> B2[单/双突变筛选<br/>A/F/R/D] B2 --> B3["苯丙氨酸突变有效"] B3 --> B4[R65F+R85F组合] B4 --> B5["K<sub>d</sub>降至0.42 μM"] B5 --> B6["亲和力提升30倍"] B6 --> B7["催化e.r.仍低:20:80"] end subgraph R3["第3阶段:催化选择性优化"] direction LR C1[R85位点饱和突变] --> C2["1Y变体(R85Y)<br/>10:90 e.r."] C2 --> C3["首次达到高选择性"] C3 --> C4[5个位点饱和突变] C4 --> C5["2R变体(Q22R+R85Y)<br/>3:97 e.r."] C5 --> C6["达到实用选择性"] C6 --> C7["需20 mol% scaffold"] end subgraph R4["第4阶段:低载量优化"] D1[降低scaffold loading筛选] --> D2[13个位点饱和突变<br/>辅因子8 Å内] D2 --> D3["发现3个有益突变"] D3 --> D4["3F11(L11F)"] D3 --> D5["3F44(L44F)"] D3 --> D6["3G(R65G)"] D4 --> D7["在1.5 mol%下<br/>保持高e.r."] D5 --> D7 D6 --> D7 end subgraph R5["第5阶段:Final组合与验证"] direction LR E1[组合所有有益突变] --> E2["4FFG变体<br/>L11F+Q22R+L44F<br/>+R65G+R85Y"] E2 --> E3["1.5 mol%下达到3:97 e.r."] E3 --> E4["scaffold用量降低13倍"] E4 --> E5[底物范围研究] E5 --> E6[光物理与机理研究] E6 --> E7[实用性能验证] end R1 --> R2 --> R3 --> R4 --> R5 主要影响 设计策略的关键创新:传统人工金属酶设计从已知蛋白折叠出发改造现有结合位点,受限于天然折叠的几何约束。本研究的关键创新在于先定义目标配合物的理想结合几何形状,再让算法自由探索能够实现这一几何的蛋白骨架,从而在原子层面更接近金属配合物的空间要求。这种方法打破了天然折叠空间的限制,允许为金属配合物量身定制结合环境 非共价结合的优势:非共价结合避免了复杂的化学修饰步骤,简化了制备流程。更重要的是,非共价结合能够主动识别并优先结合某一构型,这是实现高对映选择性的基础。在分子层面,蛋白支架通过疏水作用、氢键网络和静电相互作用形成手性环境,对Λ和Δ两种对映体具有不同的“适配度”。这种天然的手性识别能力是共价结合策略难以实现的 路线已经跑通:本文把“生成式蛋白设计→非共价辅因子结合→定向进化→高对映选择性光催化”这条路线完整串了起来,证明了从头设计可以直接产生具有可进化性的功能支架。这为人工金属酶研究提供了可复用的设计范式 性能和实用性同时提高:除了 3:97 e.r. 这样的选择性,本文还给出了低辅因子载量、高 TON、空气中高周转和可回收使用这些更接近真实应用的指标。特别是TTN达到53,000,远超大多数人工光酶的报道值,证明该体系已经超越了基础概念验证阶段 支架兼容商用外消旋辅因子:设计的支架与商用外消旋金属配合物兼容,只需简单混合蛋白和辅因子就能组装ArM,消除了历史上将ArM研究限制在专业实验室的关键障碍。这意味着更多实验室可以复现和扩展这些结果,而不需要定制合成的手性辅因子 同时调控结合亲和力、光物理性质和底物预组织:本文展示了蛋白支架如何以小分子催化剂无法实现的方式同时调节结合亲和力、光物理性质和底物预组织。量子产率从26%提升到55%,激发态寿命延长2.2倍,这些数据直接证明了蛋白环境对光催化性能的多维调控作用 局限与未来方向 反应类型与底物范围 当前局限:本文最充分的数据仍然集中在分子内[2+2]光环化,其他反应家族是否同样容易迁移,还需要后续验证。特别是分子间反应或需要不同氧化还原电势的反应可能需要重新设计支架 扩展方向:把这套支架设计路线推广到更多光催化底物,尤其是不同骨架和不同激发态机制的体系。特别是[4+2]环化、烯烃异构化和C-H键官能团化等反应是否适用,需要进一步探索 结构表征与机制理解 当前局限:目前拿到的是apo结构,不是辅因子结合态晶体结构,因此对辅因子和底物在口袋中的精确构象仍主要依赖AF3、光谱和MD共同支持。没有真正的cofactor-bound结构,对结合模式的理解仍是间接的 改进方向:如果后续能得到cofactor-bound甚至cofactor + substrate的结构,辅因子取向和底物预组织模型会更容易验证。这将直接揭示对映选择性控制的原子级细节 计算方法与金属特征 当前局限:设计时原本打算结合$\ce{Ru^{2+}}$辅因子,但实际只有$\ce{Ir^{+}}$辅因子能结合。这说明金属形式电荷很重要,但当前设计流程中使用的深度学习模型没有考虑这一点。RFdiffusion和LigandMPNN主要基于几何形状,对静电相互作用的编码还不完善 改进方向:结合机器学习预测进化轨迹可能进一步减少实验筛选的工作量。未来设计需要更好地编码金属配合物的电荷特征和静电相互作用 支架构象与功能平衡 当前挑战:与许多为刚性和良好packing而优化的从头设计支架不同,DE3及其变体在apo状态下显示出显著的构象柔性,这可能是容纳大体积疏水辅因子腔体的固有特征。这种柔性虽然有利于结合大分子辅因子,但也增加了结构预测和设计的难度 设计目标:特别是如何平衡柔性与刚性,以同时实现辅因子结合和催化过渡态的精确控制,是未来设计需要考虑的重要因素 辅因子兼容性 当前进展:设计的支架与商用外消旋金属配合物兼容,只需简单混合蛋白和辅因子就能组装ArM,消除了历史上将ArM研究限制在专业实验室的关键障碍。商用外消旋辅因子17已经给了一个起点 扩展目标:后续如果能把更多现成配合物接入,会降低复现实验和底物扩展的门槛。目标是建立广泛的辅因子兼容性库 应用前景 本研究确立了使用AI驱动的从头蛋白设计为非天然辅因子创建定制活性位点环境的蓝图,预示着未来可以合理设计、进化和部署立体选择性光催化剂、氧化还原催化剂和多功能杂化系统。这种方法可能扩展到所有需要手性环境的金属催化反应。 这篇工作目前还是ChemRxiv预印本,很多结果已经很完整,但正式同行评审后的版本仍值得再核对一次
Specific Sytems
· 2026-05-19
高通量测量、构象动力学和机器学习怎样一起解释酶活性调控
【QC的综述】高通量测量、构象动力学和机器学习怎样一起解释酶活性调控 本文信息 标题:酶活性调控的方法:实验与计算的最新进展 作者:Qiang Cui 发表期刊:Current Opinion in Structural Biology 发表时间:2025年7月29日在线发表 DOI:https://doi.org/10.1016/j.sbi.2025.103124 单位:波士顿大学,化学系、物理系与生物医学工程系 引用格式:Cui, Q. Approaches for regulating enzyme activities: Recent advances in experiment and computation. Curr. Opin. Struct. Biol. 94, 103124 (2025). https://doi.org/10.1016/j.sbi.2025.103124 摘要 酶活性的调控是生命系统与生物工程的核心问题。近年来,高通量酶动力学实验与高效计算方法的快速发展,使我们得以更深入地理解控制酶活性的分子机制,并据此理性设计调控策略。本文综述了实验与计算领域的最新进展:高通量筛选技术(uHT、HT-MEK、EP-Seq)带来海量功能数据;结构集合分析揭示了活性位点并非越精准定位越好;loop动力学与最短路径图工具阐明了远端残基如何传递调控效应;机器学习则开始整合物理模型与数据驱动方法,推动酶工程从大规模筛选走向机制约束下的理性设计。 核心结论 两条路都要走:机制理解缩小设计空间,高通量工程(定向进化/ML)负责精细调优 数据富集时代已来:HT-MEK可在数天内对数千个突变体完成动力学表征;EP-Seq一次性测数千个突变体的稳定性与活性 活性位点不是全部:远端残基(>20 Å)可显著影响催化效率,活性位点刚好够用的定位策略可能是自然演化的结果 机器学习尚有局限:DeepEnzyme能区分高低$k_\mathrm{cat}$突变体,但预测精度仍有很大提升空间 动力学不只是平衡涨落:过渡态之后的反应路径分析(而非仅自由能景观)对于理解酶催化至关重要 背景 两条路:自下而上 vs 自上而下 天然酶不仅催化效率高,而且活性受到精确调控——这正是生命系统复杂性的体现。然而,理性调控酶活性面临巨大挑战:序列—结构—功能的关系极其复杂,即使知道应该调哪个结构旋钮,也往往不知道该调到什么程度。 酶活性调控的实践需求广泛存在于工业与医学领域。工业生物催化需要酶在非自然条件(高温、有机溶剂、非生理pH)下保持活性;精准医学要求针对特定患者突变定制酶功能;合成生物学则需要精确调控代谢通路中多个酶的相对活性——这些场景都指向同一个核心问题:我们能否通过理性设计实现对酶活性的精确调控? 传统上,科学家走了两条路: 自下而上(bottom-up):先搞清催化机制,再据此理性设计调控策略。这一方法从还原论角度最有吸引力,但现实是序列—结构—功能关系极其复杂,即使知道该调什么,往往也不知该怎么调。 自上而下(brute-force):直接用定向进化或机器学习技术来调活性。近年的连续进化方法(如OrthoRep)已能将基因突变率提升至基因组的百万倍,极大扩展了定向进化的搜索空间。 高效的策略是两者结合:机制理解缩小设计空间,实验筛选和机器学习负责精细调优。机制研究指明关键位点之后,定向进化和ML就能在更小的空间里找到更优解。 本文并没有把机制研究和大规模筛选对立起来。恰恰相反,原文把 OrthoRep 这类连续进化技术视为重要推进,但同时强调:如果没有机制信息来约束搜索方向,哪怕突变率再高,也仍然可能把搜索资源浪费在无关区域。数据富集解决的是搜索深度,机制分析解决的是搜索方向。 数据富集时代:实验技术进展 图1:数据富集实验技术示例。 (a)微滴微流控超高通量(uHT)筛选:每天可处理超过$10^7$个突变体 (b)微流控高通量酶动力学(HT-MEK):数天内对数千个突变体完成高质量动力学表征 (c)酶邻近测序(EP-Seq):一次性测数千个突变体的稳定性与活性 (d)多态结构集合分析:结合功能实验评估催化机制模型 超高通量筛选(uHT) 它的基本原理是把单个细胞或单个酶变体与底物一起封装进皮升级微滴,让每个液滴都充当一个彼此隔离的微反应器。这样做最关键的好处,是把基因型—表型对应关系锁在同一个液滴里,既避免不同变体之间串扰,也把传统孔板实验的体积和成本压到极低水平。 后续读出通常依赖荧光底物或可转化为荧光信号的耦联反应。活性更高的液滴会积累更强荧光,再通过类似FACS的荧光激活液滴分选(FADS)完成在线筛选。也就是说,微滴微流控真正放大的不只是反应数量,而是生成微反应器、孵育、检测、分选这一整条闭环流程。 uHT 的关键不只是提高通量,而是把基因型与表型在微滴内一一配对,再以分选流程把高活性变体快速富集出来。 微滴微流控技术使uHT筛选成为现实——每天可处理超过$10^7$个突变体。这一通量对于三个方向至关重要: 系统研究残基间的表观遗传相互作用(epistasis)——搞清楚突变之间的非线性效应; 筛选宏基因组学文库——从自然界汲取多样性; 以及增强定向进化的搜索能力。 一个代表性案例是将uHT整合进定向进化流程:拯救了一个原本陷入瓶颈的人工醛缩酶,将活性提升30倍。代价是完全重建了活性位点——加入了新的催化四单元(catalytic tetrad)。这说明当序列空间搜索足够深时,可以发现完全意料之外的结构重构。 微流控高通量酶动力学(HT-MEK) 如果说uHT解决的是通量问题,HT-MEK解决的则是定量质量问题。在数天内对数千个PafA(phosphate-irrepressible alkaline phosphatase)突变体完成折叠稳定性、催化动力学和磷酸盐抑制的系统性表征,得到超过65万个动力学数据点和6000余个动力学与热力学常数。这意味着HT-MEK把系统性酶活性图谱带入了可操作阶段——有望像基因组测序催生功能基因组学一样,推动酶工程研究方式发生实质变化。 HT-MEK的工作流程中,突变体以微液滴形式包裹,利用荧光底物(cMUP:7-(二羟基磷酰氧基)香豆素-4-乙酸)通过酶切释放荧光信号,实现高通量动力学测量。 关键发现:在PafA体系中,HT-MEK对约1036个变体同时表征了折叠稳定性、催化动力学和无机磷抑制,累计得到超过65万个动力学观测值与6000余个动力学/热力学常数。 由此可将不同残基组影响不同环节具体化为三类: 一类主要改变催化循环中的步骤速率。 一类主要改变对不同底物类别的催化特异性。 一类主要影响折叠稳定性。 影响催化效率的关键位点不仅在活性位点附近,还可延伸到距活性位点约20 Å的蛋白表面,说明酶活性调控是由局部化学作用与长程结构耦合共同决定的。 酶邻近测序(EP-Seq) EP-Seq利用过氧化物酶介导的单细胞精度自由基标记,在单次实验中分析数千个氧化还原酶突变体的稳定性与活性。它的实验逻辑可以拆成三步: 先把酶突变体库展示在酵母细胞表面,再用抗体荧光读出表达量,把它当作折叠稳定性和展示效率的近似指标。 随后让氧化还原酶在细胞表面催化底物,生成局部$\ce{H2O2}$或等效氧化信号。 最后借助HRP触发tyramide自由基沉积,把荧光标签限制在产生活性的那个细胞附近。 因此,EP-Seq读出的不只是宽泛的生长优势,而是单细胞尺度的局部催化活性。 后续再通过流式分选和深度测序,统计不同突变体在高表达、低表达、高活性、低活性群体中的富集程度,就能同时重建表达适应度和活性适应度两张图谱。 EP-Seq 的核心价值是把表达适应度和活性适应度在同一实验中解耦读出,从而更清楚地区分稳定性效应与催化效应。 在D-氨基酸氧化酶的系统分析中,EP-Seq揭示了关键的结构-功能关系:突变位点的一些空间与理化属性(如到FAD辅因子和二聚界面的距离)与活性、稳定性呈差异相关。 这说明不同结构区域对两类表型的贡献权重并不相同。原文据此提出的是一种演化约束线索:以活性为中心的选择压力,可能会限制折叠稳定性的上限。因此,这里更合适的理解是支持存在约束,而不是直接证明活性提升必然导致稳定性下降的一一对应因果关系。 同时,EP-Seq也识别出了远离活性位点的热点突变——这些是改善催化活性而不牺牲稳定性的理想候选位点,因为它们通过长程相互作用影响活性,而不直接破坏折叠。这使得远端调控成为可能:通过影响活性位点的静电环境或构象 ensemble 来间接调节催化,而无需直接改造活性位点本身。 65万量级的数据点还有一个直接价值:为计算模型的训练与验证提供了前所未有的训练集。过去酶工程的数据往往只有几十到几百个突变体,难以支撑统计学习方法;而HT-MEK产生的系统化数据使得构建高置信度的 genotype-phenotype 模型成为可能,也为检验计算预测的准确性提供了可靠基准。 三种高通量技术各有侧重与局限,适用于不同场景: 技术 通量 优势 局限 uHT $>10^7$突变体/天 规模最大,适合表观遗传研究和宏基因组筛选 数据精度有限,需要后续验证 HT-MEK 数千突变体/天 数据质量高,同时获得动力学与热力学常数 通量相对较低 EP-Seq 数千突变体/单次实验 同时分析稳定性与活性,适合权衡分析 需要过氧化物酶兼容的化学反应 结构集合观:从单一快照到统计分布 现代结构生物学技术使我们能够系统收集酶在不同功能态下的结构数据,从而批判性地评估各种催化机制模型。关键思想是把酶看成构象的集合,而不是单一的静态结构。这种视角的转变对于理解酶催化至关重要——传统的钥匙—锁模型或诱导契合模型,本质上都只抓住了某个瞬间的结构,而真实酶始终在动态采样。 酮类固醇异构酶(KSI)案例:活性位点并非越精准越好 对KSI系列变体的研究采用了一套三步工作流程: 第一步:用(伪)结构集合描述不同变体在构象空间中的统计分布。这里的(伪)结构集合主要指由多组X射线结构拼接得到的近似构象集合,而非长时间MD采样得到的严格热平衡集合 第二步:结合NMR实验和功能数据,验证这些结构集合是否真实反映溶液中的构象分布 第三步:用功能实验检验这些分布差异是否真的对应催化效率变化 氧阴离子孔的催化机制:KSI的氧阴离子孔通过比水中更强的氢键稳定过渡态,从而实现催化。但某些突变会通过改变氢键网络的电子效应(如感应效应)削弱这种优势——这说明催化效率不只取决于活性位点的几何形状,还取决于电子性质的精细调控。 这一研究出人意料地发现: 催化残基的定位确实优于非催化残基,但并非越精准定位越好 催化残基在功能循环中的构象分布变化也不大 真正重要的是柔性与定位之间的平衡:既要刚到能有效催化,又不能太僵硬以至于无法完成多步质子转移 这一结果否定了活性位点越精准定位越好的简单模型,说明自然演化选择的可能是刚好够用的定位策略,而非极致优化。 丝氨酸蛋白酶:建立定量贡献框架 在KSI研究否定错误模型的基础上,对超过1000个来自17种丝氨酸蛋白酶的X射线晶体结构进行比较分析,进一步建立了定量贡献框架。 研究将酶结构特征与溶液中相应反应的特性进行半定量比较,成功建立了各种结构和能量特征对催化效率的可量化贡献,包括底物定位、氢键网络强度、以及其他结构和能量特征。虽然每个特征的单独贡献可能有限,但它们协同作用共同决定了催化效率。 虽然(伪)结构集合并不完全等同于溶液中的构象分布,但这些研究说明了集合视角对于识别和评估酶活性调控因素的必要性和价值——它不仅能否定错误的机制模型,还能建立定量分析框架。 工程启示 集合观的工程启示在于:追求活性位点的完美静态结构可能是一个错误目标。既然催化依赖于构象集合的统计行为,那么工程的目标更应该是调控这个分布本身——例如增强某一类构象的占比,或者改变构象之间的跃迁速率,而非单纯把活性位点固定在某一位置。 动力学与远端贡献:构象景观、集体运动与别构通路 图2:酶动力学与远端残基对催化贡献的代表性案例。 (a)蛋白质酪氨酸磷酸酶的WPD loop动力学:含催化Asp181的WPD loop动力学决定磷酶中间体水解活性,并与其他loop共同参与调控 (b)最短路径图(SPM)别构网络识别:可识别多种酶中的别构调控残基;模板化AlphaFold2与MD联用后,可在约50 ns轨迹上得到可靠的SPM网络与自由能景观,并解释OB2-PfTrpB比PfTrpB更高的独立活性 (c)PafA第二壳层残基的作用:QM/MM、经典MD与DFT簇模型计算表明,第二壳层残基突变主要扰动apo态,而对磷酸根转移的基态和过渡态影响较小 (d)Pin1的全局动力学与过渡路径采样:自由能模拟与过渡路径采样给出不同图像——沿最小自由能路径逐步重排的氢键网络,并不等同于真实动态路径中的关键相互作用形成顺序 Loop动力学:WPD loop的故事 蛋白质酪氨酸磷酸酶(PTP)是理解loop动力学与催化活性关系的经典案例。NMR实验发现,催化活性与WPD loop(含催化Asp181)的动力学行为高度相关——该loop在非活性(开放)和活性(闭合)构象之间切换。计算研究(增强采样MD + EVB模型)进一步揭示了PTP1B和YopH两种酶的关键差异:WPD loop的自由能景观完全不同,而化学步骤的过渡态能垒几乎不受影响,活性差异却可以超过一个数量级——这说明调控可以在反应步骤之外生效。 这一发现已通过嵌合体实验得到验证:交换不同PTP间的WPD loop,可以系统改变嵌合酶的催化活性及pH依赖性。这一结果把loop动力学从相关性线索推进到可操作的因果杠杆——通过改变loop的力学性质,如净电荷或疏水性,可以直接调控酶的催化效率。 在PTP中,loop动力学决定了底物能否及时进入活性位点、以及产物能否及时释放,属于非化学但同样关键的步骤。这意味着酶工程的靶点远不只是催化残基本身,任何影响底物/产物传输路径的构象动力学都可以成为调控活性的杠杆。 最短路径图(SPM):别构网络识别 Osuna课题组的最短路径图(shortest-path map,SPM)方法基于motif相关性分析,已成为识别别构通路残基的标准工具。其核心思想是:把蛋白质看成一张图,节点是残基,边是运动相关性的强弱;然后用图论算法找出连接两个位置之间的最短路径——这条路径上的残基,就是最有可能把远端突变影响传递到活性位点的桥梁。 在PTP1B中,11个非WPD/P-loop突变(实验表明可改变$k_\mathrm{cat}$或$K_\mathrm{M}$超过50%)中有8个被SPM成功识别,余下3个距SPM别构网络也在4 Å以内——这一结果有力证明了动态网络探测的价值:即使是非活性位点突变,SPM也能提前预测其对活性的潜在影响,从而扩大了可设计的靶点范围。 SPM的另一个代表性应用是色氨酸合成酶PfTrpB的研究:该酶受TrpA亚基别构调控,本身没有独立的活性。定向进化得到独立活性变体OB2-PfTrpB后,将其与tAF2(模板化AlphaFold2)结合进行MD分析,仅用约50 ns的轨迹就生成了可靠的自由能景观与SPM网络——相比传统MD大大缩短了采样时间。关键发现:OB2-PfTrpB变体具有更高的构象异质性和更强的COMM domain闭合态采样能力,从而解释了更高的独立活性。这一研究也为未来SPM与增强采样方法的深度整合提供了思路。 第二壳层残基的作用 PafA的系统性HT-MEK分析也激发了深入的计算研究:QM/MM自由能计算 + MD + DFT簇模型分析表明,第二壳层残基(如D163、Y112)的突变主要扰动的是PafA的apo态和底物结合,而非过渡态本身。计算结果与vanadate(钒酸盐)和磷酸盐过渡态类似物结合数据高度一致。 活性位点水合水平的调控机制:第二壳层突变通过调节活性位点的水分子进入/排出速度,影响了活性位点的水合水平。由于磷酸根转移是亲核取代反应,活性位点水合程度的细微变化会显著影响反应能学——水既可以是催化参与者,也可以是竞争者。 全局动力学与过渡路径采样 过去大多数研究把动力学理解为平衡构象涨落,假设其与化学反应处于准平衡。但Pin1(催化磷酸化Ser/Thr-脯氨酰基肽键的顺反异构)的系统模拟表明:准平衡假设对快速反应(皮秒级)可能是错误的。 关键差异在于:Pin1的异构化事件在本质上很快,约为皮秒级,而大多数酶运动显著更慢。因此,自由能模拟假设酶自由度在反应坐标变化时处于平衡——但这个假设对快速反应并不成立。自由能景观给出的是平均统计图像,TPS揭示的则是实际过渡路径,两者缺一不可,共同构成对酶催化动力学的完整理解。 这里的准平衡假设可理解为:当反应坐标推进到任一位置时,其他构象自由度已经足够快地完成局部弛豫并接近平衡,因此可以用一条最小自由能路径来近似描述结构重排顺序。 自由能模拟和过渡路径采样(TPS)给出截然不同的图像: 自由能模拟(准平衡假设):关键氢键网络与配体之间的相互作用随着反应坐标$\zeta$变化而逐渐重排 TPS(非平衡处理):这些氢键在$\zeta$改变之前就已就位——相互作用形成于反应发生之前,而非之后 要完整理解酶催化,还必须表征瞬态激发(高能)构象态,并识别哪些结构重排最有利于化学反应发生。这也是过渡路径采样等非平衡方法越来越受重视的原因。 机器学习赋能酶工程 图3:机器学习技术在酶催化与工程中的应用。 (a)DeepEnzyme预测酶周转数:整合图神经网络与Transformer,在CYP2C9和PafA等大规模序列—活性数据集上评估性能 (b)AlphaFold2-RAVE构象集合生成:整合结构预测与ML增强采样,为apo态腺苷酸激酶生成四类跨越开放和闭合构象的结构集合 (c)统计模型预测功能位点:结合蛋白序列信息与稳定性模型,图中给出CYP2C9实验位点与预测位点的对照,蓝色区域表示功能位点 (d)最大熵模型与稳定性—活性权衡:统计能量与设计Kemp eliminase活性位点远端区域的稳定性和活性位点区域的催化活性分别相关,支持稳定性——活性权衡的解释 DeepEnzyme:预测酶周转数 图神经网络加Transformer架构的DeepEnzyme被用于预测酶的$k_\mathrm{cat}$。在6500余个CYP2C9突变体上表现良好,能清楚区分错义和无义变体的$k_\mathrm{cat}$差异,说明模型至少学到了活性存在与否的边界;但在PafA HT-MEK数据上,虽然统计差异显著(P = 0.0033),中位数差异仅约15%,远低于实验数据所揭示的高低活性变体之间的实际差距。这提示ML模型目前擅长捕捉定性趋势,但定量预测能力仍然有限。 15%的差距看似不大,却意味着模型尚无法可靠地区分中等活性与高活性变体——这正是工程应用最需要区分的区域。 关键在于,CYP2C9和PafA的差异本身就说明了问题:不同酶家族、不同实验条件下的ML表现可能大相径庭。没有万能的酶活性预测模型,这与分子性质预测(LogP、溶解度等)的情形类似——通用模型和专用模型各有优势。 AlphaFold2-RAVE:构象集合生成 AlphaFold2-RAVE将结构预测与ML增强采样结合,为apo态腺苷酸激酶生成了四类构象——跨越开放与闭合两种状态。这对于研究构象动力学驱动的催化机制尤为重要,也为大规模构象采样提供了新的思路。结构预测与MD增强采样的组合正在成为构象动力学研究的重要路线,未来有望覆盖更大的蛋白空间。 直接耦合分析(DCA)与最大熵模型 共进化信息是另一种理解酶功能的强大武器。Ranganathan课题组的DCA利用多序列比对(MSA)中的共进化信号,提取残基间直接的相互作用信息,绕过了间接相关的干扰。用这种方法生成的非天然序列,45%在大肠杆菌中具有功能性——远高于随机设计的成功率。 Xie和Warshel的类似分析则揭示了一个不对称性:统计能量与活性位点区域的催化活性正相关,与远端区域的稳定性负相关。活性位点的残基如果偏离了共进化最优构型,主要影响催化;而骨架区域的残基如果变化,则更多破坏折叠稳定性。这一发现为稳定性—活性权衡假说提供了直接证据——而且DCA这把尺子还能用来预测哪些突变有望提升活性而不损害稳定性。 功能位点预测与committor函数 除了预测活性值,ML还被用于两个更具挑战性的任务:识别潜在功能/调控位点,以及建模反应坐标本身。 通过将蛋白质序列的统计模型与生物物理稳定性模型结合,可以系统预测功能位点。在CYP2C9上的验证表明,这种方法能够识别新的功能热点,为后续突变设计提供候选。这一思路将ML的预测能力与生物物理的先验知识相结合,比纯序列统计更有可能筛选出真正有功能意义的位点。 另一方面,ML也被用来建模committor函数——这是统计力学中定义最理想反应坐标的数学对象:对于任一构象状态,committor给出体系先到达产物态而不是先回到反应物态的概率。如果某个构象的committor接近0,说明它仍偏向反应物一侧;接近1,则说明它更偏向产物一侧;而接近0.5的构象通常最接近过渡态集合。如果能可靠地预测committor,就意味着找到了一个比简单键长、距离或自由能谷底更有动力学意义的反应坐标,从而更深入地理解催化机制。 目前committor建模仍是活跃的前沿方向,主要挑战在于:它需要稀有事件的精确采样——只有极少数构象会最终越过过渡态,而ML模型必须从大量非反应构象中学会识别这些稀有例外。随着增强采样方法,如自适应偏置力或主动学习,持续进步,这一方向有望取得突破。 展望 数据与机理并重 进入数据富集时代后,关键挑战变成:如何用分子术语理解这些数据,从而发展可指导工程的机理模型。单纯依靠物理模型计算量太大,单纯依靠ML准确性不够——两者的创造性地结合才有出路。具体来说,可扩展的自由能方法(如λ动力学)越来越高效准确,但在使用QM/MM势能时计算量仍然很大;ML模型已被用于预测催化活性,但预测精度有限。 将物理模型与ML技术创造性地整合——用物理模型标定ML,用ML加速物理计算——将是未来十年的重要方向。 多尺度构象动力学 尤其是集体网络动力学与催化活性的关联、构象异质性与动态无序的区分,以及功能循环中构象演化的研究。Saito等人的观点可以概括为: 酶动力学涉及非马尔可夫、非泊松、调控性反应动力学,理解其分子机制需要多种先进实验技术与大量MD模拟的结合。 快的局部重排与慢的集体运动之间的联系——尤其是在大型别构生物分子机器,包括大型酶复合物,中的功能调控作用——需要更深入的理解。 复杂环境中的酶催化 酶不是在真空中工作的。生物分子凝聚体(biomolecular condensates)中的酶催化与稀溶液的差异才刚刚开始被理解——关键因素可能包括强静电作用、拥挤效应,以及底物传输的复杂性。基因型与表型之间的关系也因表观遗传效应而变得极为复杂。 真实细胞环境对酶催化的影响仍缺少足够清晰的机制图像——凝聚体内部的高分子拥挤、液-液相分离界面附近的特殊化学环境,都可能从根本上改变酶活性与底物特异性。 从长远看,酶活性调控的终极目标是从调控已知酶走向从头设计全新调控逻辑。当我们可以系统地表征序列—结构—动力学—活性的映射关系时,就有望发展出可预测的酶设计理论框架,类似于化学合成中已经成熟的逆合成分析思路。 人工调控元件的引入为酶活性调控提供了新的维度。例如将光控开关(如LOV结构域)嫁接到酶上,用光照实时开关酶活;或利用外部自由基源,通过光敏剂或电化学方法原位产生自由基,来驱动非常规反应。随着蛋白质设计工具,如RFdiffusion和ProteinMPNN,逐渐成熟,将天然调控逻辑迁移到全新蛋白骨架或从头设计全新调控通路,可能会成为未来几年的重要方向。 主要贡献 提供了酶活性调控的全景式综述:从高通量实验到计算方法,从结构集合分析到动力学网络,全面梳理了领域的现状与挑战 强调了机制理解与暴力工程的互补价值:自下而上与自上而下结合,才能最有效地缩小设计空间并完成精细调优 清晰展示了动力学视角的重要性:loop动力学、远端残基、第二壳层效应——这些都不只是背景噪声,而是催化活性的直接调控者 局限与挑战 HT-MEK等高通量技术虽然数据量大,但每种平台都有局限(通量、可操作性、兼容化学反应类型、稳健性),新技术仍在不断涌现 机器学习预测精度仍不够:DeepEnzyme在中位数差异上与实验相差15%,远未达到工程应用的可靠标准 物理模型与ML的整合尚处于早期阶段:如何创造性地结合两者仍有大量机会 全局动力学与催化活性的关系:文中提到的相关研究(Kemp eliminase变体的集体运动差异)仍需更直接的因果证据
Specific Sytems
· 2026-04-22
机器学习势函数让酶反应模拟从量子精度走向分子力学速度
机器学习势函数让酶反应模拟从量子精度走向分子力学速度 本文信息 标题:面向下一代计算酶催化的机器学习/分子力学酶学 作者:Xujian Wang、Junmei Wang、Wan-Lu Li 期刊:Chem Catalysis 发表时间:2026年3月19日 类型:Perspective综述 DOI:https://doi.org/10.1016/j.checat.2026.101658 单位: 美国加州大学圣地亚哥分校 Aiiso Yufeng Li 化学与纳米工程系 美国匹兹堡大学药学院药物科学系 美国匹兹堡大学医学院计算与系统生物学系 引用格式:Wang X, Wang J, Li W-L. Machine learning/molecular mechanics enzymology for the next generation of computational enzymatic catalysis. Chem Catalysis. 2026;6:101658. https://doi.org/10.1016/j.checat.2026.101658 摘要 传统QM/MM框架虽然在酶反应模拟中取得了显著成就,但始终面临精度与效率的权衡。近年来,机器学习原子间势函数(MLIPs)的出现打破了这一僵局——它们以接近量子力学的精度、分子力学的效率,正在重塑计算酶学的版图。本文系统综述了反应性MLIP的数据集构建和训练策略,梳理了ML/MM在酶催化模拟中的最新进展,并展望了向更复杂场景扩展的机遇与挑战。 核心观点 框架转变:从传统QM/MM到ML/MM,计算效率提升三个数量级,实现了量子精度与分子力学效率的结合 数据驱动:反应性MLIP的训练从平衡结构扩展到反应路径采样和过渡态采样,涵盖断键/成键过程 物理约束:通过长程相互作用、静电嵌入等物理机制增强模型鲁棒性,减少纯数据驱动模型在复杂化学环境中的失真 应用拓展:从小分子反应到全酶模拟,从单一路径到复杂催化循环,覆盖更广泛的生物催化场景 背景:计算酶学的演进之路 图1:计算酶学从QM和MM到下一代ML/MM框架的演进。(A)过去:QM和MM方法在精度和效率上各有优势但独立运作;(B)现在:混合QM/MM框架通过边界修正和嵌入方案,整合两种方法,实现了真实环境中酶反应的原子级模拟;(C)未来:下一代ML/MM将用MLIPs替代QM区域,结合接近QM的精度和MM的效率,并扩展能力到长程相互作用。 酶是自然界最高效的催化剂,理解其催化机制一直是计算化学的核心挑战。过去几十年,量子力学/分子力学(QM/MM)混合方法彻底改变了这一领域。Warshel等人开创的QM/MM框架,用量子力学描述反应中心,用分子力学处理蛋白质环境,使得在真实溶剂和蛋白基质中模拟酶反应成为可能。 然而,QM/MM始终面临着无法回避的限制:量子区域的计算开销极大,限制了可模拟的时间尺度、系统尺寸和采样效率。即便是最先进的QM/MM,模拟纳秒级的酶催化过程也需要数月计算时间,这严重制约了其在酶发现和设计中的应用。转折点出现在机器学习原子间势函数(MLIPs)的兴起。 MLIPs用神经网络等数据驱动方法拟合量子力学数据,实现了近乎量子精度的势能面,同时保持了分子力学的计算效率。将MLIPs嵌入QM/MM框架,形成ML/MM框架,计算效率比传统QM/MM快三个数量级以上。 本文特别强调,这里说的快并不只是单点能计算更快,而是整个反应模拟流程的可及性被改写了:原来很难做到的长时间尺度采样、更大ML区域以及更高通量的候选比较,现在开始进入可执行范围。也正因为如此,本文把ML/MM视为计算酶学下一阶段最值得投入的基础框架,而不只是QM/MM的局部加速插件。 反应性MLIP:数据与训练的双重突破 图2:构建反应性ML原子间势函数的框架。左侧展示了生成反应路径数据集的策略:从平衡结构扩展到沿反应坐标和过渡态附近的采样;右侧展示了多样化的学习策略,包括两阶段训练、迁移学习和主动学习。 要让MLIPs真正描述化学反应,关键在于它们能否捕捉反应路径、过渡态和断键/成键过程。早期数据集如SPICE、QM7-X、ANI-1x主要包含稳定分子的平衡结构,对反应过程的描述能力有限。 里程碑出现在Transition1x和ANI-1xnr数据集的发布,它们分别代表了反应性MLIP数据集构建的两条互补路径。 Transition1x(2022年)系统采样了小分子(≤7原子)的完整反应路径,而非仅仅单一过渡态。 它包含了约960万个反应路径的能量和力数据,覆盖了83种元素,采用ωB97X/6-31G(d)理论级别。 这种沿反应坐标系统采样的策略确保了从反应物到产物整个连续过程的覆盖,避免了仅在过渡态附近采样的局限性。 ANI-1xnr则采用了截然不同的纳米反应器结合主动学习方法。 它在MD模拟中让分子经历高温碰撞(高达数千开尔文),迫使系统探索远离平衡态的反应构型空间,然后通过不确定性估计自动选择需要高精度QM计算的新构型,迭代改进模型。 最终生成的约2.6万个非平衡反应子集采用BLYP-D3/TZV2P理论级别,专门针对C、H、N、O系统。 这种方法的独特之处在于它不预设反应路径,而是让系统自己撞出反应构型,更容易发现意想不到的反应通道。 数据集构建的核心挑战在于全面覆盖反应坐标。简单采样平衡结构会遗漏关键的过渡态区域,导致模型在描述化学反应时失效。为此,研究者发展了增强采样、正则模式扰动等非平衡采样策略,将构型空间扩展到沿反应坐标和过渡态附近的区域。 仅沿最小能量路径采样是不够的。捕获偏离路径的构型——代表势能面的高能区域——同样至关重要,因为忽略它们可能导致MLIP在ML/MM模拟中低估或高估扭曲或非物理结构的能量代价,从而造成灾难性失败。这意味着数据集必须包含足够多样的困难样本,让模型学会区分物理合理的反应路径和不合理的构型扭曲。 表1:代表性MLIP数据集 数据集 类型 描述 规模 计算级别 元素 QM7-X 非反应性 小有机分子的平衡与亚稳平衡结构 约420万 PBE0/NAOs H、C、N、O、S、Cl SPICE 非反应性 药物样分子与肽的可转移参考集 约110万 ωB97M-D3/def2-TZVPPD H、Li、C、N、O、F、Na、Mg、P、S、Cl、K、Ca、Br、I ANI-1x 非反应性 主动学习循环得到的小到中型分子 约500万 多级别参考 H、C、N、O QM9 反应性 以平衡结构为主,含少量简单反应物种 约13.4万 B3LYP/6-31G(2df,p) H、C、N、O、F OMol 反应性 含反应性、带电和材料相关体系的大规模集合 约1000万 ωB97M-V/def2-TZVPD 83种元素 Transition1x 反应性 小分子(≤7原子)反应路径的能量和力 约960万 ωB97X/6-31G(d) H、C、N、O DORTS 反应性 动力学采样得到的反应轨迹与过渡态 约750万 ωB97M-V/def2-TZVP H、C、N、O、P、S、F、Cl、Br、I AIMNet2-rxn 反应性 反应性和带电分子,多重自旋态 约470万 ωB97M-V/def2-TZVPP H、C、N、O ANI-1xnr 反应性 纳米反应器+主动学习生成的非平衡反应子集 约2.6万 BLYP-D3/TZV2P H、C、N、O AIMNet-NSE 特殊体系 中性、离子和自由基分子 约3340万 B97M-D3(BJ)/def2-TZVPP H、C、N、O、F、Si、P、S、Cl、Br、I、B、Na、K GEMS 特殊体系 生物大分子片段数据集 约300万 PBE0/def2-TZVPP H、C、N、O、S AQuaRef 特殊体系 肽、氨基酸衍生物和小型生物分子片段 约100万 ωB97M-D4/def2-QZVP/CPCM(水) H、C、N、O、S、Se AIMNet2-Pd 特殊体系 含钯有机金属配合物与反应中间体 约140万 B97-3c/def2-mTZVP/CPCM(四氢呋喃) H、B、C、N、O、F、Si、P、S、Cl、Se、Br、I、Pd 另一个重要进展是训练策略的革新。 AIMNet2-rxn采用两阶段训练:先在大规模稳定结构上预训练,再通过迁移学习在反应路径构型上微调。这种策略既保证了模型对稳定结构的学习,又增强了对反应过程的描述能力。 主动学习也在数据集构建中扮演着越来越重要的角色。这种自适应采样策略比盲目地毯式搜索更高效,能够集中计算资源在最需要精确描述的区域。 这里还有一个容易被忽略的判断:这些数据集并不是为了提供跨数据集的绝对能量参考。本文明确指出,它们使用的量子化学参考级别并不相同,所以在ML/MM里的主要作用,是为某个建模框架提供内部一致的训练和微调数据,而不是拿来直接比较不同数据集之间的绝对能量高低。 举例来说,QM9用的是B3LYP/6-31G(2df,p),而Transition1x用的是ωB97X/6-31G(d),这两个DFT泛函和基组的差异本身就可能在某些系统上产生亚$\mathrm{kcal\cdot mol^{-1}}$级别的系统偏差。如果直接混用,很可能把方法学差异误认为模型性能差异。因此,在选择MLIP进行酶模拟时,理论级别的自洽性比单纯追求最大数据集更重要。 ML/MM在酶催化中的应用现状 早期工作中,ML势函数主要作为Δ-势用于修正QM计算,形成Δ-ML QM/MM框架。所谓Δ-势,是指用ML势学习低级别QM方法(如半经验方法)与高级别QM方法(如DFT)之间的能量差,然后用这个ML修正项来提升低级别QM计算的精度。这种方法的计算瓶颈仍然在QM计算上,因此ML区域处理的原子数非常有限(65-69个),但这些研究成功证明了ML势在酶催化中的可行性。 随着MLIPs的发展,框架也从以 Δ-ML QM/MM 为主,逐步走向更独立的 ML/MM。二氢叶酸还原酶和环氧合酶-1/2的早期工作证明了可行性;随后,Diels-Alderase / chorismate mutase、chorismate mutase 和 Diels-Alderase 等体系进一步把ML区域扩展到 66、208 和 212 个原子,说明ML/MM开始具备处理更真实酶环境的能力。 然而,将ML/MM应用于酶催化也面临独特挑战。酶的催化效率很大程度上源于特定残基对过渡态的稳定和活化能的降低。扩展ML区域到包含关键残基,会超出典型MLIP的截断半径(通常为4-6 Å),而长程相互作用对过渡态稳定至关重要。 代表性应用案例 表2:ML/MM在酶催化中的代表性应用 系统 模型 框架 ML区域 备注 二氢叶酸还原酶 系统特异性 Δ-ML QM/MM MD 69原子 证明ML势在酶催化中的可行性 环氧合酶-1/2 系统特异性 Δ-ML QM/MM MD 65原子 证明ML势在酶催化中的可行性 Diels-Alderase / chorismate mutase 系统特异性 ML/MM MD 66原子 早期纯ML/MM框架在酶催化中的示范 Chorismate mutase UMA ML/MM扫描 208原子 引入link-atom边界方案,扩展到更大的ML区域 Diels-Alderase ANI-1xnr ML/MM MetaD 212原子 结合增强采样,量化突变体效应和立体选择性 技术挑战与解决方案 边界修正 除长程相互作用外,本文还点了一个很实际的问题:边界修正。一旦为了把关键侧链纳入ML区域而切断氨基酸残基内部的共价键,传统QM/MM里那些成熟的边界处理经验就必须重新搬进ML/MM。 link-atom边界方案是处理这一问题的关键技术。当侧链与蛋白质骨架之间的共价键被切断时,link-atom方案在切断位置引入氢原子来饱和悬空键,从而避免产生不合理的边界效应。 Ohmura等人首次将link-atom方案与通用模型UMA结合,应用于chorismate mutase,使ML/MM框架能够捕获活性位点内的侧链-底物簇,展示了突变如何调控Claisen重排。虽然该工作限于反应路径扫描而非完整的分子动力学模拟,但标志着ML/MM走向通用和实用协议的重要一步。 UMA(Universal Models for Atoms)是Wood等人在2025年提出的一族通用原子模型,其元素覆盖扩展到周期表中的大部分元素,为重原子和反应化学的统一处理提供了潜在框架。虽然该模型对活化势垒的定量精度仍需进一步验证,但它在向更广泛的化学空间提供通用预测能力方面迈出了重要一步。 计算效率革命 ML/MM的核心突破:通过量子精度与分子力学效率的结合,计算效率提升了三个数量级。这意味着原来需要数月的纳秒级模拟现在可以在几天内完成,改写了整个反应模拟流程的可及性。 在此基础上,作者团队将反应性ANI-1xnr势函数整合到ML/MM框架中,并采用link-atom边界处理。由于自发催化事件在常规时间尺度上极其罕见,他们进一步耦合了增强采样策略来加速势垒穿越,同时保持ML区域的近QM精度。 在NVIDIA L40S GPU和Intel Xeon Platinum 8462Y+ CPU的组合下,配合link-atom边界处理的力学嵌入方案,这套ML/MM设置能够在每天完成多纳秒级的MD轨迹模拟。这种计算效率使得: 多个反应事件可以在一次模拟中被观察到 反应路径的统计采样变得可行 包含十个以上残基的反应核心可以用近QM精度建模 能够解析对映体之间微妙的自由能差异 定量描述底物依赖性活性和立体选择性 更重要的是,在给定酶系统和一致的理论级别下,ML/MM能够实现定量的自由能预测。这标志着ML/MM从定性的机制理解工具,走向定量的预测设计平台。 从系统特异性到更通用的模型 ML/MM在酶催化中的应用经历了从系统特异性模型到更通用的反应性MLIPs的演进。早期研究主要针对特定酶系统训练专门的ML势,虽然精度高但缺乏普适性。随着Transition1x、ANI-1xnr、AIMNet2-rxn等数据集,以及UMA等更通用模型和边界方案的发展,ML/MM正在走向更广阔的应用场景。这种演进带来的优势是显而易见的: 无需重新训练:通用模型可以直接应用于新的酶系统,大幅降低使用门槛 一致性基准:不同酶系统可以用统一的理论级别进行比较,消除了量子方法差异带来的系统偏差 加速发现:结合高通量筛选,ML/MM可以快速评估大量酶突变体或底物的催化性能 当然,通用性也带来了新的挑战。当ML区域超出训练数据中的分子模式时,模型的迁移能力仍需进一步验证。这也是当前ML/MM研究的热点方向之一。 长程相互作用的三种解决方案 模型规模扩展:MACE-OFF23家族(S/M/L)通过扩大局部相互作用覆盖范围和提升表示能力处理长程相互作用。 随着模型尺寸从S增加到L,能量和力的均方根误差(RMSE)系统性下降,反映了更大截断半径和更高角动量通道带来的表示能力提升。更大的模型能够覆盖更远距离的原子间耦合,从而部分缓解长程静电描述的不足。 隐式Ewald求和:从局部描述符预测隐藏原子变量,通过倒易空间求和处理长程静电相互作用。 该框架的核心思想是将长程静电作用从局部MLIP中分离出来,用经典物理方法处理。它通过预测隐藏的原子变量(如部分电荷),然后在倒易空间中进行Ewald求和,从而在不牺牲局部ML表达能力的前提下提供非局域通信。在添加长程修正后,带电(CC)、混合(CP)和极化(PP)分子对的力误差显著降低,证明了这种方法对离子系统的有效性。 物理一致性整合:如SpookyNet模型将核、电荷和自旋信息嵌入到消息传递框架中,并耦合解析库仑和色散修正项,实现局部和非局部相互作用的一致处理。SpookyNet的创新在于它不是简单地把长程修正拼接到局部模型外面,而是从物理原理出发,将核、电荷和自旋信息直接编码到消息传递框架中。这种做法能同时处理带电体系和开壳层系统,展示了物理约束对提升MLIP泛化能力的价值。 图3:物理信息驱动的MLIPs代表性进展。 (A)MACE-OFF23家族(S/M/L变体)在多个基准集上的性能对比,能量和力的均方根误差(RMSE)随模型尺寸增加系统性下降,反映了更大截断半径和更高角动量通道带来的表示能力提升; (B)Ewald求和框架内加入潜在长程(LR)项后,短程(SR)预测和总力得到明显改进,带电(CC)、混合(CP)和极化(PP)分子对的误差显著下降; (C)SpookyNet把核、电荷和自旋嵌入到消息传递网络中,并结合解析库仑与色散修正,实现局部与非局部相互作用的一体化处理。 概念辨析:表示能力 vs 表达能力 在MLIP文献中,经常会遇到两个容易混淆的概念:表示能力(representation capacity)和表达能力(expressivity)。虽然它们密切相关,但在技术含义上有重要区别。 表示能力(representation capacity):指神经网络能够表示多少种不同的函数或模式。它通常由网络架构的参数数量决定,如层的深度、宽度、截断半径、角动量通道数等。MACE-OFF23通过增大截断半径和增加角动量通道,提升了模型的表示能力,使其能够覆盖更远距离的原子间耦合和更复杂的相互作用模式。 表达能力(expressivity):指神经网络能够拟合或近似哪一类函数。它关注的是网络架构(包括激活函数)能够表达的函数空间的丰富程度。SpookyNet在引入显式物理项(库仑和色散修正)的同时,保持了神经网络本身拟合复杂化学环境的能力,这就是”preserving SR ML expressivity”的含义。 通俗理解:表示能力好比是画布的大小——更大的画布能容纳更多的细节;表达能力好比是画笔的技巧——更高的技巧能画出更丰富的图案。两者相辅相成,但侧重点不同:表示能力强调“能装下多少信息”,表达能力强调“能学会多复杂的函数”。 静电嵌入:让MLIP感知蛋白质环境 在酶中,反应核心嵌入在由带电残基和氢键网络形成的静电结构化、动态极化环境中。类似于QM/MM中的静电嵌入,ML/MM应该让MLIP暴露在MM环境的正确外场和极化响应中。目前有两条互补的探索路径: 物理层嵌入:将ML能量与评估经典静电的外部极化层耦合,使ML势能够响应MM环境的静电外场。Zinovjev等人的静电嵌入模型将ML/MM能量重构为解耦形式,其中真空ML能量与物理驱动的嵌入项(表示电荷-场相互作用和诱导极化)结合。该框架在约$\mathrm{2\,kcal\cdot mol^{-1}}$内重现了QM/MM嵌入能量,显著改善了对静电结构化环境的描述。 外场感知模型:通过在训练中包含外部静电场,使MLIP能够感知并适应酶和溶剂系统相关的静电环境。这种方法使能量和力预测相对于无场基线提高了近一个数量级,证明了外场感知模型可以有效感知并适应与酶和溶剂相关的静电环境。 理论级别的一致性挑战 表2中总结的ML/MM研究都依赖于用量子参考数据训练的ML势,但这些研究使用的电子结构理论级别各不相同。这意味着报告的活化势垒、自由能和反应能即使在同一个酶系统中,也可能因为理论方法差异而无法直接比较。 关键精度要求:即便在同一个系统内,亚$\mathrm{kcal\cdot mol^{-1}}$的能量差异也可能具有化学意义——这正好是酶催化中区分不同反应路径或突变效应的精度要求。而不同量子方法间的系统偏差可能掩盖这些细微差异。 因此,在进行ML/MM模拟时,研究者需要谨慎选择: 理论级别的自洽性:整个建模流程——从训练数据到验证到最终预测——应该使用一致的DFT泛函和基组,避免混用带来的系统误差 相对能量 vs 绝对能量:如果只关心相对趋势(比如哪个突变体活性更高),理论级别差异的影响可能较小;但如果需要定量的自由能预测,就必须严格统一方法学 基准测试策略:在新系统上应用通用MLIP时,最好先用小规模计算验证其在特定化学环境下的精度,而不是盲目假设通用模型就一定准确 这种对方法学一致性的强调,实际上反映了ML/MM从演示可行性走向建立可信赖的预测平台的过程中必须面对的严谨性要求。 超越有机体系:金属和自由基反应 标准MM力场无法处理的化学场景正逐步被MLIPs攻克,这标志着MLIPs正从有机小分子走向金属催化和自由基反应的更广阔天地。 这些进展表明MLIPs正朝着更复杂的催化体系扩展,包括: 金属有机催化:AIMNet2-Pd成功描述了钯催化的Suzuki-Miyaura偶联反应,证明过渡金属可以纳入传统上专注于有机元素的MLIPs 自由基反应:AIMNet2-NSE能够处理开壳层体系和自由基反应机制,突破了传统力场对单电子描述的限制 自旋态转变:通过定位最小能量交叉点(MECPs),MLIPs可以绘制不同多重态间的能量景观,这对于理解金属酶的催化机制至关重要 复杂环境:带电和极化溶剂环境中的反应过程,通过静电嵌入和场感知模型得到更准确的描述 图4:MLIPs应用于复杂催化场景的示例。(A)钯催化Suzuki-Miyaura交叉偶联反应的催化循环;(B)AIMNet2-NSE在键解离反应上的性能基准测试,ΔΔGBDE表示键解离自由能与QM参考值的偏差,RMSD表示MLIP优化结构与参考结构在反应物态和产物态上的均方根偏差;(C)用完全活性空间自洽场(CASSCF)和完全活性空间二阶微扰理论(CASPT2)计算的苯酚O-H键解离能谱,S和T分别表示单重态和三重态激发态。 概念辨析 物理驱动的嵌入项 在Zinovjev等人的静电嵌入模型中,ML/MM能量被重构为解耦形式:真空ML能量 + 物理驱动的嵌入项。这里的“物理驱动”指的是这个嵌入项的设计不是任意的神经网络黑箱,而是基于经典静电学原理构建的,包括: 电荷-场相互作用(charge-field interactions):ML区域中的电荷与MM环境产生的静电场之间的相互作用能 诱导极化(induced polarization):MM环境的静电场使ML区域的电子云发生极化,产生的偶极-场相互作用 这种物理驱动的设计使嵌入项具有明确的物理意义和可解释性,避免了纯神经网络方法可能出现的外推失败问题。 最小能量交叉点(MECP) 在金属酶和光酶催化中,反应往往涉及自旋态转变(spin-state transitions),例如从单重态(singlet)变到三重态(triplet)。这两个不同自旋态对应不同的势能面。最小能量交叉点(Minimum Energy Crossing Point, MECP)就是这两个势能面相交的最低能量点。 为什么MECP重要:对于自旋禁阻的反应(spin-forbidden reactions),系统不能像普通反应那样越过单一势能面上的过渡态,而是必须通过势能面交叉点从一个自旋态跳到另一个自旋态。MECP的能量高度决定了这种自旋转变的难易程度,因此是理解金属酶催化机制的关键。AIMNet2-NSE模型能够定位MECPs,这意味着它不仅能描述化学键的断裂和形成,还能处理电子自旋态的改变,这对模拟含金属的酶反应至关重要。 完全活性空间自洽场(CASSCF) CASSCF(Complete Active Space Self-Consistent Field)是一种高精度的量子化学方法,专门用于处理强相关电子体系(strongly correlated electron systems),如:金属配合物中的d电子、化学键断裂/形成过程中的电子、激发态和自由基。 “活性空间”(active space)指的是研究者选择的最重要的电子轨道(如金属的d轨道)和电子。CASSCF在这个选定的活性空间内进行完全组态相互作用(Full Configuration Interaction, FCI)计算,同时优化轨道和组态系数。 为什么需要CASSCF:对于金属酶反应,单参考方法(如标准DFT)可能失效,因为电子在多个轨道间强烈离域。CASSCF能够正确描述这种多组态特征,提供定性的正确参考态,然后再用更高级的方法(如CASPT2)添加动态相关能修正。 图4C中显示的苯酚O-H键解离能谱就是用CASSCF和CASPT2计算的,展示了如何用高精度量子化学方法验证MLIP的预测。 当前挑战与未来方向 ML/MM已经从概念验证走到可以讨论定量预测的阶段。它把反应模拟能力和动态模拟逐步整合到同一计算框架中,但要真正变成稳健的酶设计工具,仍需克服几个关键挑战: 核心挑战 理论级别一致性:生成训练数据所用的量子化学理论级别直接决定了MLIP的精度上限。当前不同研究使用的电子结构方法差异较大,即便在同一系统内,亚$\mathrm{kcal\cdot mol^{-1}}$的能量差异也可能具有化学意义,而不同量子方法间的系统偏差可能掩盖这些细微差异 统一能量框架:目前没有一个普遍接受的统一ML/MM能量分解,能够严谨地整合长程相互作用、静电嵌入和边界修正而不产生冗余。如果长程静电、极化和边界修正分别由不同模块负责,但彼此之间没有统一的守恒能量表达式,就很容易出现重复计算或漏算 转移性与边界:当前MLIPs在应用于大型、异质生物分子系统时,转移能力仍有限。将催化必需的侧链纳入ML区域会引入边界复杂性,需要稳健处理边界处的相互作用和能量守恒 ML/MM最大的问题已经不再是可不可运行,而是算出来的能量是否足够干净。 本文对这一点非常谨慎,这也是它一直强调single、conservative energy framework的原因。QM/MM框架中积累的经验——在单一保守能量框架中整合长程相互作用和静电嵌入——为ML/MM的发展提供了重要参考。 未来发展方向 物理约束架构:物理信息架构、自动化数据集生成和不确定性量化的主动学习的发展,将是使ML/MM模型既可预测又可解释的关键 多尺度整合:ML/MM将进化为一个定量、原子分辨的酶设计平台,而不仅仅是最优酶模型。它将统一机制洞察、预测设计和动态模拟于单一计算框架 自动化流程:随着自动化数据集生成和标准化ML/MM框架的发展,酶发现和设计工作流将变得更加高效和可重复 从工具到平台:ML/MM有望从酶学专门工具发展为通用的化学转化建模平台,不仅能够理解酶催化机制,还能指导理性酶设计、底物工程和催化路径优化,为合成生物学和工业生物催化提供强大的计算支持 这种从理解到设计的转变,意味着ML/MM不再仅仅是事后解释实验现象的手段,而是能够在实验之前预测和优化催化性能的前瞻性工具。当这种能力与自动化工作流结合,就有望实现计算驱动的酶工程闭环:设计→模拟→筛选→实验验证→数据反馈→改进模型,形成持续迭代的加速循环。 关键结论 效率革命:ML/MM比传统QM/MM快三个数量级,使大规模酶模拟和高通量筛选成为现实。这意味着原来需要数月的纳秒级模拟现在可以在几天内完成,改写了整个反应模拟流程的可及性。 数据驱动:Transition1x(约960万反应路径)、ANI-1xnr(纳米反应器+主动学习)、AIMNet2-rxn(470万反应结构)等数据集奠定了MLIP描述化学键断裂和形成的基础。主动学习策略比盲目地毯式搜索更高效,能够集中计算资源在最需要精确描述的区域。 物理约束与长程相互作用:MACE-OFF23(模型规模扩展)、隐式Ewald求和(长程静电)、SpookyNet(物理整合)三种路径解决了长程相互作用挑战。这些方法通过扩大局部相互作用覆盖范围、分离长程静电作用、引入显式物理项等方式,在保持计算效率的同时提升了对复杂化学环境的描述精度。 静电嵌入:Zinovjev等人的框架在约$\mathrm{2\,kcal\cdot mol^{-1}}$内重现QM/MM嵌入能量,外场感知模型使能量和力预测提高近一个数量级。物理驱动的嵌入项设计避免了纯神经网络方法可能出现的外推失败问题。 超越有机体系:AIMNet2-Pd(金属有机)和AIMNet2-NSE(自由基反应)展示MLIPs正突破传统MM力场的限制,拓展到过渡金属催化和自旋态转变。AIMNet2-NSE能够定位最小能量交叉点(MECPs),处理电子自旋态的改变。 整合趋势:从Δ-ML QM/MM到独立ML/MM,框架正朝着更统一、更保守的能量表示发展,但需避免重复计算。建立统一的ML/MM能量分解框架是当前面临的重要挑战。
Specific Sytems
· 2026-04-22
ERAM让酶促反应建模真正走向多模态与任务无关
ERAM让酶促反应建模真正走向多模态与任务无关 本文信息 标题:通过多模态关系学习实现准确且任务无关的酶反应建模 作者:Yuansheng Huang, Lanqing Li, Wenjia Qian, Jiahui Yu, Huifeng Zhao, Xiaorui Wang, Odin Zhang, Guangyong Chen, Shukai Gu, Pheng-Ann Heng, Tingjun Hou, Yu Kang 发表时间:2026年3月30日 单位:浙江大学药学院(中国杭州)、浙江实验室生命科学计算研究中心(中国杭州)、香港中文大学计算机科学与工程系(中国香港)、新加坡国立大学计算学院(新加坡)、华盛顿大学 Paul G. Allen 计算机科学与工程学院(美国西雅图) 引用格式:Huang Y, Li L, Qian W, Yu J, Zhao H, Wang X, Zhang O, Chen G, Gu S, Heng PA, Hou T, Kang Y. Accurate and task-agnostic modeling of enzymatic reactions through multimodal relational learning. Acta Pharmaceutica Sinica B. 2026. https://doi.org/10.1016/j.apsb.2026.03.052 代码与资源: Web服务器:http://cadd.zju.edu.cn/eram/ 摘要 酶功能预测在合成生物学和药物发现中起着关键作用。然而,现有方法往往关注单一任务,缺乏统一框架来捕捉酶、底物和产物之间的复杂相互作用。本文提出了ERAM(Enzymatic-Reaction-Aware Molecular representation learning),一种通过多关系学习进行准确且任务无关的酶反应建模框架。ERAM将酶反应表示为知识图谱三元组,并将来自蛋白质语言模型的酶表示与小分子表示对齐。通过双粒度对比学习,ERAM在酶检索任务中比最先进的CREEP方法获得了28.31%的更高平均精度(MAP)。在底物预测任务中,ERAM在两个数据集上比ESP方法分别实现了35.53%和22.97%的更高马修斯相关系数。值得注意的是,ERAM可以在无需额外训练的情况下进行无监督结合位点预测,相比RXNAAMapper获得了42.36%的更低假阳性率和70.59%的更高重叠分数。实验结果表明,ERAM在三个任务上的有效性,为酶功能分析提供了统一的表示学习框架。 核心结论 统一预训练表示:ERAM用同一套酶反应表示支撑酶检索、底物预测和结合位点分析,减少了为每个任务单独设计模型的需求 知识图谱式反应建模:把酶反应写成底物—酶—产物三元组后,蛋白序列和小分子可以在同一嵌入空间中对齐 双粒度对比学习:底物或产物替换对应更大的几何间隔,酶替换对应更小的几何间隔,模型据此学习不同层次的功能差异 注意力具备生物学指向性:酶编码器和小分子编码器都能把高注意力集中到结合位点或反应位点附近 背景 酶是生物体内最重要的催化分子之一,也是绿色合成、代谢工程和合成生物学的核心工具。想要真正用好酶,研究者不仅要知道它属于哪个 EC 类别,还需要知道它能识别什么底物、能生成什么产物,以及催化残基大致位于哪里。功能注释是否充分,直接决定了这些序列能不能进入后续设计和应用流程。 困难在于,酶功能注释的速度远远赶不上序列积累的速度。UniProt 知识库已经包含超过 2500万 条酶序列,但只有 0.91% 有人工注释。传统实验路线又慢又贵,很难靠逐一测定去填平这条序列—功能鸿沟。 现有方法大致可以分成两类:一类是为某个单一任务设计专门模型,例如只做 EC 分类、只做底物预测,或者只做位点识别;另一类则尝试利用预训练蛋白模型和反应表示来做检索或匹配。前者往往任务碎片化,后者则容易只利用单一模态,难以完整表达酶—底物—产物这个催化单元。文中拿来对照的几条路线也很典型:CREEP对应专门的酶反应检索,ESP对应底物预测,RXNAAMapper对应无监督位点映射。 这里的核心问题是:能否将酶反应建模为多关系数据,让酶、底物和产物的嵌入在同一几何框架下交互?如果能做到这一点,同一个模型就能支持多种下游任务,研究者也就不用在不同工具之间来回切换。这个问题之所以重要,是因为在真实的酶工程流程中,科学家通常会连续问多个问题:这个反应由哪些酶催化?这些酶能接受哪些底物?催化位点大概在哪里?如果能用同一套表示空间回答这些问题,工作流会明显更顺畅。 关键科学问题 酶功能的统一表示问题:酶功能不是单一的序列属性,而是由底物、酶和产物共同决定的关系属性。如何将这种三元关系映射到一个统一的嵌入空间里,是整篇论文要解决的核心问题 多模态对齐问题:蛋白质序列(氨基酸)和小分子(SMILES/3D结构)处于完全不同的表征空间。如何让这两种模态在同一个嵌入空间中对齐,而不是简单地拼接或投影,是技术上的一大难点。简单来说,这就像要把中文和英文翻译到同一个语义空间里,让模型理解酶和它的英文描述是同一个东西。 任务无关性边界问题:任务无关更准确的含义是什么?是真正的零样本学习,还是统一预训练表示后在不同任务上微调?这个问题直接影响对模型能力的评价和实际应用场景的界定 创新点 知识图谱式反应建模:将酶反应形式化为底物—酶—产物的三元组,在嵌入空间中满足头 + 关系 ≈ 尾的平移关系,把蛋白和小分子真正放进同一个几何问题里 双粒度对比学习:区分粗粒度负样本(替换产物,破坏反应可行性)和细粒度负样本(替换酶,影响催化效率),分别对应不同大小的几何边界,让模型学习不同层次的功能差异 交叉注意力机制:将底物信息注入酶编码器,使同一条酶序列在面对不同底物时可以形成不同表示,捕捉酶的广谱性和诱导契合效应 统一的预训练框架:用同一套酶反应表示支撑检索、底物预测和位点分析三个任务,减少了为每个任务单独设计模型的需求 ERAM的核心想法:把酶反应写成底物—酶—产物三元组,再用统一的嵌入空间去学习这些实体之间的关系。这样得到的表示既能支持检索,也能迁移到其他下游任务。更完整的技术细节和对照表请见附录。 研究内容 数据集与任务设置 理解这篇论文,先要把两个基础问题搞清楚:数据是怎么过滤的、任务到底在测什么。这两点如果不说清,后面的检索、底物预测和位点分析就会混在一起看。 数据来源是 UniProtKB/Swiss-Prot 和 RHEA。经过过滤后,最终数据集包含 254,106 个反应样本、197,352 条独特酶序列、1718 个 EC 编号和 3048 个化学反应,训练/验证/测试按 8:1:1 划分。 这里有几条过滤规则特别关键,因为它们直接决定了模型的适用边界: 过滤维度 条件 含义 序列长度 超过 1024 aa 的酶序列去掉 受 ESM-2 编码长度限制 分子大小 超过 256 个原子的小分子去掉 受 Uni-Mol 编码范围限制 反应平衡性 底物和产物完全相同的反应去掉 保证三元组平移关系有意义 EC 频次 出现少于 10 次的 EC 样本去掉 保证训练稳定和正样本数量 这组设置有一个很实际的后果:ERAM主要验证的是频次足够、定义相对清楚的酶反应。它能保证训练稳定,但也意味着模型对真正长尾EC、极少见反应类型和更复杂体系的能力,没有在这篇论文里被直接展开。 把下游任务拆开看,也会更清楚: 任务 输入 输出 真正检验的能力 产物检索 底物 + 酶 候选产物排序 是否学到正确的反应映射 酶检索 底物 + 产物 候选酶排序 是否学到反应级功能表示 底物预测 酶 + 候选底物 二分类或打分 表示迁移后是否保留催化相容性 位点分析 酶序列 + 底物SMILES 注意力热区 内部表示是否含有功能位点信息 这样看就很清楚:检索任务是表示学习的直接考试,底物预测更像迁移测试,位点分析则更像可解释性测试。三者都重要,但证据强度本来就不该被等量齐观。 核心方法:ERAM框架设计 图1:ERAM框架与方法概述。(A)模型结构概览:酶编码器包含冻结的ESM-2骨干、自注意力块、交叉注意力块、MLP和均值池化;小分子编码器由冻结的Uni-Mol、自注意力块、MLP和均值池化组成;底物和产物共享同一个编码器。(B)知识图谱中反应物(底物)、酶和产物之间的关系,以及小批量数据的三元组损失函数,其中 $d(e_q, e_t)$ 表示查询嵌入与目标嵌入之间的欧氏距离。(C)双粒度对比学习:产物被替换的样本归类为粗粒度负样本(大边界),酶被替换的样本归类为细粒度负样本(小边界)。(D)酶原型学习过程:通过计算酶嵌入与原型的余弦相似度交叉熵来更新编码器,再使用动量方法(如指数移动平均)更新原型。 ERAM由两条主分支构成。小分子编码器把底物和产物转成 SMILES,再用预训练的 Uni-Mol 生成原子级表示;酶编码器则把氨基酸序列输入 ESM-2,得到残基级表示。两边最终都会被投影到同一个嵌入空间里——你可以把这个空间想象成一个多维坐标系,相似的分子或酶会靠得更近。 交叉注意力模块让酶编码器在处理酶序列时,能够关注底物相关的部分,这样同一条酶序列在面对不同底物时可以形成不同表示。这个设计对应的,其实就是论文反复强调的酶广谱性(一个酶能催化多种底物)和诱导契合(底物结合后酶构象发生变化):底物不同,酶的有效表示也应该不同,否则很难把同一酶催化不同底物的差异学出来。 ERAM把一个酶反应概念化为知识图谱三元组:底物是头实体,酶是关系,产物是尾实体。知识图谱就像社交网络,节点是实体,边是它们之间的联系。 训练目标:要求底物嵌入加上酶嵌入后尽量接近产物嵌入(图1B),也就是头实体加关系约等于尾实体。你可以把这个理解为向量空间中的国王减男人再加女人约等于王后。这一步把蛋白和小分子真正放进了同一个几何问题里。 更关键的设计是双粒度对比学习和酶原型学习。 双粒度对比学习:区分两种不同层次的负样本。粗粒度负样本替换产物,会直接破坏化学平衡、让反应完全不可行,因此用大margin γ₁=12 作为距离下界;细粒度负样本替换酶,酶作为催化剂只影响反应速率而不改变化学平衡,因此用小margin γ₂=3 作为距离下界。这个区分很重要,因为从化学平衡角度看:换产物等于换反应(完全错了),换酶等于换催化剂(反应还能进行,只是速率不同)。 具体loss函数形式如下。给定底物嵌入 $h_s$、酶嵌入 $h_e$、产物嵌入 $h_p$,模型学习满足平移关系 $h_s + h_e \approx h_p$。训练目标是最小化正样本距离,同时最大化负样本距离: [\mathcal{L}{\text{total}} = \mathcal{L}{\text{coarse_neg}} + \mathcal{L}{\text{fine_neg}} + \mathcal{L}{\text{other}}] 其中: [\mathcal{L}_{\text{pos}} = \min |h_s + h_e - h_p|] [\mathcal{L}{\text{coarse_neg}} = \max(0, \gamma_1 - |h_s + h_e - h{p’}|), \quad \gamma_1 = 12] [\mathcal{L}{\text{fine_neg}} = \max(0, \gamma_2 - |h_s + h{e’} - h_p|), \quad \gamma_2 = 3] 这里 $h_{p’}$ 是错误产物嵌入,$h_{e’}$ 是错误酶嵌入。粗粒度loss要求错误产物距离至少为12(换产物=换反应),细粒度loss要求错误酶距离至少为3(换酶=换催化剂)。 酶原型学习为每个酶类别(不是单个酶)学习一个代表性向量(原型)。 具体来说,原型初始化为同一类别内所有酶嵌入的均值,训练过程中通过动量方法(如指数移动平均)持续更新。在每次迭代中,编码器通过计算小批量内酶嵌入与对应原型的余弦相似度交叉熵来优化,使同类酶的嵌入更接近各自的原型。 这就像给每个酶类别建立了一个移动的标杆,即使同一个酶在不同反应中出现,模型也能通过原型识别出它们属于同一类别。消融实验显示,去掉原型学习后酶检索MAP从 $0.8202$ 降到 $0.8014$,说明原型学习对建立稳定的酶级表示特别重要。 方法:知识图谱引导的关系学习 图2:嵌入空间可视化。(A)ERAM 学到的酶表示的二维 T-SNE 投影;(B)预训练 ESM-2 酶表示的二维 T-SNE 投影。每个点代表一个酶的嵌入表示,随机选取 15 个酶类别用不同颜色高亮。(C)ERAM 学到的酶表示(灰色)与小分子表示(红色)的联合二维 T-SNE 投影。(D)酶表示的模长分布。(E)小分子表示的模长分布。 图2提供了关键的直观证据:ERAM 学到的表示比 ESM-2 更加语义紧凑和一致。原文这里先把训练集分子映射到 512 维潜在空间,再用 T-SNE 压到二维。对比图2A和图2B,随机高亮的 15 个酶类别在 ERAM 表示空间中形成了更清晰的聚类边界,同色点更集中;而在 ESM-2 表示空间里,这些类别更分散、重叠也更明显。原文据此的判断是:ERAM 在训练过程中学到了更紧凑、更一致的功能语义表示,而不只是保留了序列层面的相似性。 图2C更重要,因为它直接对应这篇方法设计的核心。酶和小分子被放进同一个共享表示空间里,但并没有混成一团:酶表示形成较紧的灰色聚类,小分子表示则更分散,并从外围包住这些酶簇。原文把这一现象解释为:模型确实把酶和小分子的功能差异编码进了表示里,因此两类对象在共享空间中呈现出可分但相关的结构。 图2真正想说明的是:双粒度对比学习把两类“错误”分成了不同尺度。单纯替换产物,会让反应在知识图谱三元组里出现更大的不匹配;替换酶,通常更多影响反应速率,而不一定立刻破坏可行性。沿着这条思路,原文进一步推断小分子表示的模长应该显著大于酶表示,图2D和图2E给出的分布正是对这一点的定量支持。 结果1:检索任务给出了最核心的证据 图3:涉及同分化合物的酶反应产物检索结果。 同分异构体(isomeric compounds)是酶反应检索中最具挑战性的场景——这些化合物分子式完全相同,仅在原子连接或空间排列上略有差异,传统化学描述符难以区分。图3展示了ERAM如何处理这类难题:通过反应物与酶的组合表示,在候选同分异构体中精确找到正确产物。图中的 distance 就是欧氏距离——底物与酶的组合嵌入到每个候选产物的距离,距离越小排名越前,正确产物距离最小、排在第一。 图3包含6个反应示例(A-F),覆盖EC1-EC6的酶类别(EC7转位酶的底物和产物相同,故不在此列)。例如图3A展示了Methionine-R-sulfoxide reductase催化的甲硫氨酸氧化反应,ERAM准确识别了手性变化;图3E展示了Phyllocladan-16-alpha-ol synthase催化的GGDP类型B环化反应,同样精确识别了产物。这些案例直观证明:ERAM学到的表示能够捕捉酶对同分异构体的精确选择性,而分子式相同不足以混淆模型的判断。 正文最重要的一句在摘要里:ERAM 的酶检索 MAP 相对 CREEP 提高了 28.31%。表1进一步给出了不同序列同一性测试集上的完整结果: 序列同一性范围 产物MRR 产物Hit@1 酶MAP 完整测试集(0–100%) 0.9836 0.9701 0.8202 70–80% 0.9980 0.9961 0.9684 60–70% 0.9988 0.9980 0.9733 50–60% 0.9982 0.9968 0.9752 40–50% 0.9949 0.9898 0.9723 0–40% 0.9952 0.9903 0.9770 序列同一性是指测试集中的酶序列与训练集中的酶序列的相似程度。用MMseqs聚类氨基酸序列后,将测试集分成5组:0-40%表示测试集与训练集差异最大(最远缘),70-80%表示相似度很高(接近训练数据)。 指标含义:MRR(平均倒数排名)衡量正确答案的平均排序位置;Hit@1是top-1准确率;MAP是平均精度均值。这三个指标都是越高越好。 这组结果有两个看点。第一,完整测试集上的产物检索已经非常强,MRR 和 Hit@1 分别达到 0.9836 和 0.9701。第二,低序列同一性子集并没有明显拖垮表现,作者据此认为 sequence identity 对模型影响较小。 更重要的是,论文按 EC 大类统计了酶检索 MAP,并与基线方法 Reactyme 和 CREEP 进行了全面对比: EC子集 Reactyme MAP CREEP MAP ERAM MAP ERAM提升(相对Reactyme) ERAM提升(相对CREEP) EC1(氧化还原酶) 0.5688 0.7246 0.7874 +38.44% +8.65% EC2(转移酶) 0.7033 0.8089 0.8913 +26.73% +10.18% EC3(水解酶) 0.6747 0.7708 0.9465 +40.31% +22.80% EC4(裂合酶) 0.7388 0.7858 0.8102 +9.68% +3.11% EC5(异构酶) 0.7801 0.8037 0.8433 +8.11% +4.93% EC6(连接酶) 0.8627 0.8075 0.9513 +10.28% +17.82% EC7(转位酶) 0.7794 0.6866 0.9395 +20.56% +36.86% w/o EC(无EC注释) 0.4238 0.4992 0.8180 +93.01% +63.86% 这张表格清晰地展示了三个关键结论:第一,ERAM在所有EC门类上都全面优于基线方法。第二,w/o EC子集的提升最为惊人——这对实际应用至关重要,因为真实世界中大量酶缺乏EC注释。第三,不同EC门类的难度差异明显:EC1和w/o EC最难(候选产物多样性高),EC3、EC6、EC7相对容易。 图4:Reactyme模型、CREEP和ERAM在酶检索任务中的性能比较。(A)不同序列同一性范围下的酶检索MAP,ERAM在低序列同一性(0-40%)时优势最明显,基线方法性能急剧下降。(B)不同EC门类下的酶检索MAP,ERAM在所有EC门类上全面优于基线方法。BCE表示使用二元交叉熵损失训练,Contra表示使用对比损失训练。这张图印证了表1和表2的定量结论。 结果2:底物预测验证了表示的可迁移性 图5:底物预测任务中的模型性能。这张图要回答的核心问题是:ERAM学到的表示是否真的理解了酶-底物相容性,还是只记住了训练数据中的相关性?为了检验这一点,论文设计了三种越来越严格的数据划分策略:(A-C)Nitrilase底物预测在随机划分、序列划分和底物划分下的ACC、ROC-AUC和MCC。(D-F)Aminotransferase底物预测在相同三种划分下的性能对比。ERAM在所有划分策略下都优于ESP方法,特别是在最严格的底物划分下优势更明显。 图5的关键发现是:ESP在底物划分下性能急剧下降,而ERAM下降相对平缓。这说明 ERAM 学到的不只是底物与酶的共现统计,而是更接近酶反应层面的催化相容性。 三种数据划分策略的难度递进,数据集划分比例为7:1:2(训练/验证/测试),三种策略统一用此比例,验证集同样按相应维度做了拆分: 随机划分(Random split):完全随机打乱,训练集和测试集可能包含相同酶的相似底物。这是最容易的设置,检验的是基本拟合能力。 序列划分(Sequence split):按酶的氨基酸序列划分,确保训练集和测试集的酶序列不同。这相当于见过这个酶的兄弟姐妹,但没见过这个酶本人,检验的是对新酶的泛化能力。 底物划分(Substrate split):按底物分子结构划分,确保训练集和测试集的底物结构不同。这是最难的设置,相当于完全没见过这类底物,检验的是对酶-底物相容性的深层理解。 注:关于底物划分具体怎么实现——骨架聚类、分子指纹相似度还是其他方式——论文正文里没有展开,这是方法描述里的一个空白。 这里要先说清:底物预测不是零样本读取。零样本是指模型在没有见过任何训练示例的情况下直接预测,但2.5.4节明确写到,底物预测阶段先用训练集对 ERAM 做了微调(fine-tune)——具体做法是让酶嵌入靠近正确底物、远离错误底物,然后根据验证集 MCC 确定距离阈值,再用这个阈值给测试集打标签。 所以论文标题里的任务无关,更准确的含义是:同一套预训练表示可以迁移到不同下游任务,而不是完全不训练直接预测。这两者是不同的——零样本要求模型在测试时没有任何相关监督信号,而 ERAM 在底物预测上仍然用了有监督微调。 数据集 ERAM MCC ESP MCC 提升幅度 Nitrilase 0.712 0.525 35.53% Aminotransferase 0.689 0.560 22.97% 因为主文这里更多是两个代表性数据集和百分比提升,还没有像检索任务那样给出成体系的子集分析和消融闭环。 结果3:注意力权重可以落到已知结合位点上 图6:ERAM在已注释酶上的结合位点注意力分布。左侧展示酶氨基酸序列的注意力分数可视化(序列logo),右侧显示UniProtKB中注释的酶结合位点;高注意力残基与已知结合位点高度一致。(A,B)磷酸核糖基转移酶(A1AXP4和B5BDQ2)。(C)腺苷酰硫酸激酶(A6KXG9)。(D)NAD激酶(Q49897)。 这段要验证的是:模型在没有额外使用结合位点标注训练分类器的情况下,高注意力区域能否对应到已知底物结合位点附近。四个例子的序列位置如下: A1AXP4(磷酸核糖基转移酶):高注意力分数集中在第124至132位(DDVITVGTA),对应5-磷酸-α-D-核糖1-二磷酸(PRPP)的结合位点 B5BDQ2(同一家族):高注意力分数落在第88至96位(DDLVDTGGT),同样对应PRPP结合位点 A6KXG9(腺苷酰硫酸激酶):高注意力分数集中在第34至41位(GLSGSGKS),对应ATP结合位点 Q49897(NAD激酶):高注意力分数落在第204至209位(TAYAFS),对应NAD+结合位点 这些序列 logo 和 UniProtKB 标注高度吻合。更准确地说,这里没有额外使用结合位点监督信号:注意力来自酶编码器在反应表示学习中的内部权重分布,后处理时再把高注意力区域和已知位点标注对照。 ERAM 的酶编码器包含一个 transformer block,其中有 7 个注意力头。训练时这 7 个头没有预设的位点任务,学完之后自然关注序列的不同位置。训练完成后,论文在 PLIP 基准上逐一比较 7 个头的 Overlap 和 FPR,完整结果见附录(SI表S6)。Overlap(重叠分数)是注意力预测位点与真实结合位点的交并比,越高越好;FPR(假阳性率)是非结合残基被误标的比例,越低越好。 注意力头 Overlap FPR Head 1 68.58% 44.12% Head 2 69.14% 43.94% Head 3 69.31% 43.77% Head 4 69.56% 43.49% Head 5 70.59% 42.36% Head 6 70.64% 45.14% Head 7 70.85% 45.28% Head 7 的重叠分数最高,但 FPR 也最高;Head 5 只低了 0.26 个百分点的重叠分数,却把 FPR 压到所有头里最低。论文因此选择 Head 5 进入后续评估。放到 PLIP 基准里比较时,ERAM 的 Overlap 达到 70.59%,FPR 为 42.36%;相较 RXNAAMapper 和 Pfam-based 方法,它同时给出更高的重叠分数和更低的假阳性率。 结果4:对缺乏高质量注释的酶做位点预测 图7:A0A1D8PI71(角鲨烯合酶)的位点分析。A0A1D8PI71 属于甾醇合成途径(ergosterol biosynthesis pathway),参与该途径的后期步骤。由于没有晶体结构,文章先用 AlphaFold2 预测蛋白结构,再用 AutoDock Vina 与 NADP 对接,PyMOL 可视化结果。如图所示,高注意力残基落在结合口袋内;再用 BLAST 确认蛋白属于类异戊二烯生物合成酶家族,Y178、A183、V186、G187、L190、G216、L219、R226 等高注意力残基与该家族中经过实验验证的保守结合位点完全吻合。 结果5:小分子编码器也学到了反应位点 图8:小分子编码器注意力权重的可视化。模型将注意力分配到发生化学反应的活性位点以及参与反应的重要官能团上,说明小分子编码器也学到了与反应相关的化学知识。 酶编码器和高注意力残基对应,小分子编码器和反应位点对应,两者都说明 ERAM 学到的不是简单的序列相似性或分子相似性,而是更接近谁和谁发生催化作用、在哪些位置发生的表征。这篇论文虽然把任务无关写在标题里,但真正值得关注的地方其实是:同一套表示在多个层面都能读出化学和生物学结构。 结果6:消融实验告诉我们哪些设计最重要 论文的表3给出了最关键的一组消融结果: 方法 产物MRR 产物Hit@1 酶MAP 含义 Margin-Fine 0.9773 0.9655 0.8325 所有负样本统一用细粒度边界(小margin) Margin-Coarse 0.9669 0.9502 0.7525 所有负样本统一用粗粒度边界(大margin) w/o Prototype 0.9829 0.9696 0.8014 去掉原型学习模块 Self-Attn 0.9781 0.9593 0.6755 用自注意力替代交叉注意力 ERAM 0.9836 0.9701 0.8202 完整模型(双粒度+原型+交叉注意力) 这张表有三处值得留意: 交叉注意力很关键:Self-Attn 的酶 MAP 只有 0.6755,明显低于 ERAM,说明底物信息注入酶编码器至关重要 原型学习主要拉高酶检索:原型学习为每个类别学习一个代表性向量。去掉原型后,产物检索变化不大,但酶 MAP 从 0.8202 降到 0.8014,说明原型学习对酶级表示特别重要,就像给每个酶建立了一个标准档案一样 双粒度学习的收益并不平均:ERAM 明显优于 Margin-Coarse,但与 Margin-Fine 非常接近,说明细粒度负样本已经能覆盖相当一部分收益 因此,更客观的说法是:双粒度设计至少避免了统一大边界带来的明显退化,但它相对 Margin-Fine 的额外收益主要体现在产物检索,酶检索上的优势没有被拉得很开。 这里其实藏着全文最值得追问的一点:如果只保留细粒度负样本,模型已经能拿到非常接近的结果,那么双粒度设计的额外价值究竟主要体现在哪些反应类型、哪些检索场景,论文还没有讲到完全闭环。 关键结论与批判性总结 和现有方法放在一起看,ERAM到底新在哪里 如果只看摘要,很容易把 ERAM 理解成又一个把蛋白和小分子拼在一起的模型。但把正文里的几个基线放在一起看,它的区别其实很清楚。CREEP 的重点是酶反应检索,ESP 的重点是底物预测,RXNAAMapper 的重点是无监督位点映射。 ERAM想做的,则是让这三件事共用同一套预训练表示。这也是为什么这篇论文真正有价值的地方,不只是几个百分点的提升,而是它提出了一种统一入口:先用酶反应级表示作为基础,再把不同任务当作不同读取方式,而不是为每个任务从头建一个模型。 这个想法有现实价值。因为在酶工程场景里,研究者通常不会只问一个问题,而是会连续地问:这个反应可能由哪些酶催化,这个酶可能接受哪些底物,真正起作用的位点又大概在哪里。如果这三件事都要切换模型,工作流会非常碎;如果它们能回到同一套表示空间,后续分析就会顺很多。 三个任务放在一起,ERAM到底证明了什么 如果把全文最重要的几组结果连起来看,ERAM真正证明的是下面这条证据链:检索任务证明统一表示本身确实有信息量,底物预测证明这套表示可以迁移到另一类判别任务,位点分析证明模型内部信号和真实功能区域存在对应关系。 检索任务是最直接的验证,因为它直接考察反应级嵌入空间是不是站得住;底物预测往前走了一步,证明这些表示能迁移到判别任务;位点分析再往前走一步,说明模型内部注意力并不是完全无生物学意义。这个逻辑总体是成立的,但证据强度并不完全对称:检索任务证据最强,底物预测次之,位点分析最需要后续实验补强。 这篇论文没有真正回答什么 最明显的一条边界来自数据筛选:出现少于 10 次的 EC 样本在建库前就被去掉了。这一步对训练稳定当然有帮助,但也意味着 ERAM 还没有直接回答极低频 EC 怎么办、训练时完全没见过的功能类别怎么办。 位点分析虽然已经很有启发性,但它解决的是模型内部信号是否能和已知功能区域对上,还没有解决这些高注意力残基是不是因果位点。如果后续能补几组突变实验,这一部分的说服力会立刻上一个台阶。而且是对接做的,不是真有结构(图6不知道怎么来的),而且只展示了特定例子,没有系统的Benchmark。 ERAM把底物、酶和产物压进同一套表示空间,本身就默认了一个前提:很多酶反应可以被一个相对统一的三元组框架概括。对经典单酶反应,这个前提通常成立;但对多酶复合物、强依赖辅因子的体系或者更复杂的反应网络,这篇论文还没有展开。 论文本身也在结论里提到:将酶的结构信息纳入训练过程有望进一步提升表示质量,但目前模型依赖的是预训练嵌入,还没有利用结构层级的几何约束。 把本文放回实际工作流里看,它最适合扮演的角色不是终局预测器,而是一个统一的前端筛选器。研究者可以先用它做酶检索,再用同一套表示去筛底物兼容性,最后再把高分样本的注意力区域拿去辅助位点设计。这种定位有两个好处:信息在同一套表示空间里流动,不用在多个模型之间来回切换;就算后面仍然要接结构建模、分子对接或突变实验,前面的搜索空间也已经被明显压小。 还缺什么,才能把这篇论文再往前推一步 从正文和附录里能直接看出的缺口,主要有四类: 效率评估:主文没有报告训练时间、推理速度和显存占用,大模型在实际部署中的成本仍不清楚 长尾 EC 测试:当前数据筛选会压缩低频 EC,后续需要更直接地检验少样本或零样本能力 失败案例系统分析:文中提到多反应酶、层级分类和 R 基团等难点,但主文没有把错误模式拆开讲 实验验证闭环:位点分析如果能接上突变实验,解释力会明显更强 小编锐评: 侯老师他们还是画图不错的,也比较有chemical intuition,学习一下酶领域常见的任务和指标吧,定性的能用来注释的也算一类。 原来用ESM和UniMol,就算是一种“预训练过了”的感觉?后面的组合似乎也不复杂,cross-attention都是protein-ligand的常规操作了。还得是有真正的互作信息。但是这种也不是基于物理的,结合位点的片段或motif相似其实也是能抄的,attention找结合位点和原子能整对,也是ESM和UniMol和这类框架的共同贡献。其实生物研究里面也不那么要求全新的反应也能弄对。所以这个领域可能还是有一点提升空间的,尤其那个未知类别的。 反倒是能把已知可能结合位点(甚至文本描述信息)融入进去来预测构象是比较有意思的。 详细技术细节、完整子集结果和更精简的对照表请参见:附录
Specific Sytems
· 2026-04-20
ERAM框架技术附录
ERAM框架技术附录 本文信息 标题:通过多模态关系学习实现准确且任务无关的酶反应建模 作者:Yuansheng Huang, Lanqing Li, Wenjia Qian, Jiahui Yu, Huifeng Zhao, Xiaorui Wang, Odin Zhang, Guangyong Chen, Shukai Gu, Pheng-Ann Heng, Tingjun Hou, Yu Kang 发表时间:2026年3月30日 单位:浙江大学药学院(中国杭州)、浙江实验室生命科学计算研究中心(中国杭州)、香港中文大学计算机科学与工程系(中国香港)、新加坡国立大学计算学院(新加坡)、华盛顿大学 Paul G. Allen 计算机科学与工程学院(美国西雅图) 引用格式:Huang Y, Li L, Qian W, Yu J, Zhao H, Wang X, Zhang O, Chen G, Gu S, Heng PA, Hou T, Kang Y. Accurate and task-agnostic modeling of enzymatic reactions through multimodal relational learning. Acta Pharmaceutica Sinica B. 2026. https://doi.org/10.1016/j.apsb.2026.03.052 代码与资源: Web服务器:http://cadd.zju.edu.cn/eram/ 本附录收纳主文没有展开的任务设置、表格结果和方法细节。主文档:ERAM:任务无关的多模态酶反应建模 A. 数据与任务设置 A.1 数据处理流程 数据来自UniProtKB/Swiss-Prot和RHEA。论文对原始样本做了四类过滤: 筛选维度 具体要求 序列长度 去掉长度超过1024 aa的酶序列 分子大小 去掉原子数超过256的小分子 反应平衡性 去掉底物和产物完全相同的反应 样本频次 去掉EC编号出现少于10次的样本 最终数据集包含254,106个反应样本、197,352条独特酶序列、1718个EC编号和3048个反应,训练/验证/测试按8:1:1划分。 精读注记:这套筛选能保证训练稳定,但也意味着论文没有直接检验真正长尾EC的能力。更稳的说法是,ERAM在出现频次足够的EC类别上表现稳健,而不是已经覆盖整个酶空间。 A.2 产物检索指标 给定底物和酶,从候选产物池中检索出正确产物。涉及两个核心指标: MRR(Mean Reciprocal Rank,平均倒数排名):计算所有测试样本正确答案排名的倒数的平均值。简单来说,如果正确答案排在第1位得1分,第2位得0.5分,以此类推。MRR越高,说明模型把正确答案排得越靠前 [MRR = \frac{1}{ Q } \sum_{i=1}^{ Q } \frac{1}{\text{rank}_i}] Hit@1:计算正确答案排在第1位的测试样本占比。如果第1个推荐就是正确答案计为1,否则为0。Hit@1越高,说明模型的top-1准确率越高 [\text{Hit@1} = \frac{1}{ Q } \sum_{i=1}^{ Q } \mathbb{1}(\text{rank}_i = 1)] A.3 酶检索指标 给定底物和产物,从候选酶池中检索出正确酶。由于每个反应可能存在多个可行酶,评估排序质量需要用MAP: MAP(Mean Average Precision,平均精度均值):对于每个查询,按排序位置计算精度的加权平均,再把所有查询的AP求平均。MAP越高,说明模型在多个相关酶的排序中表现越好 [MAP = \frac{1}{ Q } \sum_{q=1}^{ Q } AP_q] 其中每个查询的平均精度为: [AP_q = \frac{1}{n_{\text{target}}} \sum_{k=1}^{n} P(k) \cdot \text{rel}(k)] $P(k)$ 是前k个结果的精度(正确答案占比),$\text{rel}(k)$ 指示第k个结果是否为相关酶(是为1,否为0),$n_{\text{target}}$ 是相关酶总数。 通俗理解:$AP_q$回答的是这个查询的所有正确答案,平均排在多靠前。例如有3个正确答案分别排在第1、3、5位,那么第1位精度1/1=1,第3位精度2/3≈0.67,第5位精度3/5=0.6,AP=(1+0.67+0.6)/3≈0.76。正确答案越靠前,AP越接近1;越靠后,AP越接近0。 A.4 底物预测 底物预测部分,主文其实给了几条很实用的细节。 先看数据集本身: 数据集 规模 本文补充说明 Nitrilase 240 个数据点 覆盖 12 个酶与 20 个底物的全部组合 Aminotransferase 原始 450 个数据点 以 0.1 U/mg 作为活性阈值做二分类,去掉与ERAM预训练重叠的数据后保留 444 条 论文还明确说明,ESP里用过的 glycosyltransferase 底物预测数据集这次被排除了,因为糖受体有多个可能的糖基化位点,会导致产物不固定,不适合当前这套反应建模方式。 在划分方式上,主文只明确给了三种策略: 随机划分(Random split) 按酶的氨基酸序列划分(Sequence split) 按底物划分(Substrate split) 这两个主数据集都被划成 训练 / 验证 / 测试 = 7:1:2。也就是说,底物预测阶段是有单独验证集的,后面分类阈值也是从验证集上选出来的。 这里最需要说清的一点是:原文只写了 splitting by substrates,没有进一步展开按底物划分到底是按骨架聚类、分子指纹相似度、Tanimoto 阈值,还是别的结构划分算法。 所以现在最稳的表述只能是: 论文明确存在 substrate split 这个更严格的设置 这个设置的目的,是让训练集和测试集在底物层面解耦 但主文和 SI 都没有写清具体的分子结构划分算法 换句话说,可以确定它不是简单的随机划分,但还不能根据本文进一步写成按骨架聚类或按分子指纹聚类。 除了 Nitrilase 和 Aminotransferase,作者又在 SI 里测了 OleA thiolase family 和 DUF849 family。Figure S7 只给了图,没有额外展开划分算法,但它至少说明底物预测的迁移性不是只在两个主数据集上单次成立。 关键发现仍然是:ESP在底物划分下性能下降更明显,而ERAM下降相对平缓,这支持了ERAM学到的是催化相容性,而不只是训练集里的统计共现。 A.5 结合位点分析 不额外训练位点分类器,直接读取注意力头,评估Overlap和FPR。 作者比较了多个注意力头,主文最终采用的是Head 5: 注意力头 Overlap FPR 备注 Head 7 70.85% 45.28% 重叠略高,但假阳性更多 Head 5 70.59% 42.36% 主文采用的平衡点 这也是摘要里与RXNAAMapper比较时使用的ERAM结果。 A.6 三个任务分别在回答什么问题 任务 输入 输出 真正在检验什么 酶检索 底物 + 产物 候选酶排序 统一表示是否真的学到反应级关系 产物检索 底物 + 酶 候选产物排序 模型能否区分很接近的化学转换 底物预测 酶 + 候选底物 二分类或打分 预训练表示迁移后是否仍保留催化相容性 位点分析 酶序列 + 底物上下文 注意力热区 表示里是否自发带出功能位点信息 把这四件事放在一起看,就能明白为什么作者先把检索放在最前面:检索是表示质量的直接测试,底物预测和位点分析更像迁移测试与可解释性测试。 B. 消融实验:哪些模块真在起作用 B.1 表3完整结果(检索任务) 方法 产物MRR 产物Hit@1 酶MAP Margin-Fine 0.9773 0.9655 0.8325 Margin-Coarse 0.9669 0.9502 0.7525 w/o Prototype 0.9829 0.9696 0.8014 Self-Attn 0.9781 0.9593 0.6755 ERAM 0.9836 0.9701 0.8202 B.2 底物预测消融(SI表S4和S5) 主文只给了两个数据集的MCC对比,SI补充了完整消融,包含一个主文表3里没有的变体——Unbalanced(不平衡数据集,即正负样本数量不均衡): 表S4 Nitrilase底物预测消融: 方法 Random ACC Random MCC Sequence MCC Substrate MCC Margin-Fine 0.9167 0.7939 0.6924 0.4275 Margin-Coarse 0.7291 0.2273 0.7105 0.3689 w/o Prototype 0.8958 0.7406 0.5046 -0.0242 Unbalanced 0.8958 0.754 0.3125 -0.0308 Self-Attn 0.8958 0.754 0.8726 0.5465 ERAM 0.9375 0.8529 0.7105 0.5538 表S5 Aminotransferase底物预测消融: 方法 Random ACC Random MCC Sequence MCC Substrate MCC Margin-Fine 0.8667 0.546 0.7145 0.7145 Margin-Coarse 0.8556 0.6425 0.5502 0.5021 w/o Prototype 0.8111 0.5552 0.6404 0.7145 Unbalanced 0.8667 0.6714 0.6147 0.74 Self-Attn 0.7667 0.5048 0.5627 0.663 ERAM 0.8667 0.6714 0.7194 0.74 精读注记:Unbalanced变体在Nitrilase的底物划分下MCC接近0甚至为负,说明正负样本不均衡时底物划分几乎完全失效——这进一步说明,底物划分的难度本身已经很大,如果再加上类别不平衡,模型根本找不到可用的信号来区分底物兼容性。 B.3 注意力头对照(SI表S6) 注意力头 Overlap FPR Head 1 68.58% 44.12% Head 2 69.14% 43.94% Head 3 69.31% 43.77% Head 4 69.56% 43.49% Head 5 70.59% 42.36% Head 6 70.64% 45.14% Head 7 70.85% 45.28% Head 8 70.72% 44.95% Self-Attn 的 FPR 高达 61.60%,远高于 ERAM 的 42.36%——说明没有交叉注意力时,注意力信号几乎是随机散布,假阳性大幅增加。 B.4 结合位点预测消融(SI表S7) 方法 Overlap FPR Margin-Fine 69.71% 43.16% Margin-Coarse 70.32% 43.16% w/o Prototype 70.36% 51.11% Unbalanced 68.56% 44.17% Self-Attn 70.18% 61.60% ERAM 70.59% 42.36% 读表注记:Self-Attn 的 FPR 高达 61.60%,说明没有交叉注意力时注意力信号几乎随机散布。双粒度设计(ERAM vs Margin-Fine/Margin-Coarse)和原型学习(ERAM vs w/o Prototype)均对压低 FPR 有贡献。 C. 泛化结果:序列同一性和EC子集 C.1 不同序列同一性测试集 序列同一性范围 产物MRR 产物Hit@1 酶MAP 完整测试集(0–100%) 0.9836 0.9701 0.8202 70–80% 0.9980 0.9961 0.9684 60–70% 0.9988 0.9980 0.9733 50–60% 0.9982 0.9968 0.9752 40–50% 0.9949 0.9898 0.9723 0–40% 0.9952 0.9903 0.9770 作者据此认为sequence identity 对 ERAM 影响较小。这组结果的阅读重点不是低同一性一定更容易,而是低同一性子集并没有表现出明显塌陷。 C.2 不同EC子集上的酶检索MAP EC子集 Reactzyme CREEP ERAM EC1 0.5688 0.7246 0.7874 EC2 0.7033 0.8089 0.8913 EC3 0.6747 0.7708 0.9465 EC4 0.7388 0.7858 0.8102 EC5 0.7801 0.8037 0.8433 EC6 0.8627 0.8075 0.9513 EC7 0.7794 0.6866 0.9395 w/o EC 0.4238 0.4992 0.8180 值得注意的是w/o EC子集。主文明确写到,ERAM在这个最难子集上相对Reactzyme和CREEP仍有明显优势,说明它并不完全依赖显式EC标签来做检索。 C.3 这两张泛化表应该连起来看 序列同一性表回答的是:训练集里没见过的远缘酶,会不会立刻让检索失效 EC子集表回答的是:换到不同功能大类后,模型是不是只在某一类酶上有效 两张表一起看,ERAM更像是对样本分布变化不太敏感,而不是已经学会了任何新酶都能预测 D. 与其他方法的对照,只保留最核心的数字 D.1 主文最可靠的对照结论 任务 对照方法 ERAM结果 论文给出的结论 酶检索 CREEP MAP相对提升28.31% 统一预训练表示优于专门检索模型 底物预测 ESP MCC分别提升35.53%和22.97% ERAM在迁移后仍保持优势 结合位点分析 RXNAAMapper FPR 42.36%,Overlap 70.59% 注意力信号比纯反应侧方法更贴近真实位点 D.2 这三组对照分别回答了什么 与CREEP对比:回答统一表示能否胜过任务专用检索模型 与ESP对比:回答这套表示迁移到底物预测后是否仍有信息量 与RXNAAMapper对比:回答注意力是否真的含有位点相关信息 E. 对抗式精读:从审稿人视角最该追问的三件事 E.1 论证链条里最薄的环节在哪里 检索任务:主文给了完整子集结果、基线对照和消融实验,证据最完整 底物预测:结论主要依赖两个主数据集和摘要中的提升百分比,证据次之 位点解释:当前仍以注意力、结构映射和保守位点对照为主,证据最薄 E.2 论文隐含了哪些前提 预训练表示足够强:否则冻结的ESM-2和Uni-Mol很难支撑后续统一空间学习 反应三元组足以概括催化功能:这对很多经典单酶反应成立,但对更复杂体系未必够 注意力高分与功能重要性相关:这是一个合理假设,但还没有被实验级证据完全坐实 E.3 如果我是审稿人,我最想补什么 长尾EC或新EC的直接测试:否则缩小序列—功能鸿沟的外推仍然偏保守 更细的失败案例分类:尤其是多反应酶、层级分类和R基团相关错误 突变验证:只要能补上几组高注意力残基的活性实验,位点分析这一部分会更硬 Q&A ERAM 的任务无关到底是什么意思:这里更准确的说法是统一预训练表示。酶检索可以直接用嵌入距离完成,底物预测需要在预训练表示上继续微调,结合位点分析则是从训练好的酶编码器注意力中读取信号。 双粒度对比学习是不是这篇最关键的创新:它很重要,但不能说收益在所有指标上都压倒性。表3显示 ERAM 明显优于 Margin-Coarse,说明统一大边界不合适;但 ERAM 和 Margin-Fine 非常接近,说明细粒度负样本已经能覆盖相当一部分收益。 结合位点预测为什么能叫无监督:因为模型没有额外用结合位点标签训练一个分类器,而是直接读取酶编码器的注意力分布。这个说法在方法定义上成立,但它和已经得到实验级解释仍然是两回事。
Specific Sytems
· 2026-04-20
酶工程新时代的基石:物理建模如何突破定向进化的天花板
酶工程新时代的基石:物理建模如何突破定向进化的天花板 本文信息 标题:酶工程新时代中的物理建模 作者:Christopher Jurich, Qianzhen Shao, Xinchun Ran, Zhongyue J. Yang 发表时间:2025年4月24日在线发表(Nature Computational Science) 单位:范德堡大学(Vanderbilt University) 引用格式:Jurich, C., Shao, Q., Ran, X. & Yang, Z. J. Physics-based modeling in the new era of enzyme engineering. Nat. Comput. Sci. 5, 279–291 (2025). https://doi.org/10.1038/s43588-025-00788-8 摘要 酶工程正在进入一个以计算策略整合为特征的新时代。虽然生物信息学和人工智能方法已被广泛用于加速功能增强型突变体的筛选,但基于物理的建模方法(如分子力学和量子力学)在许多目标中是必不可少的补充。在本文中,我们强调了基于物理的建模如何通过探索当前进展、未解决的挑战以及工具开发的新兴机遇,帮助计算酶工程领域充分发挥其潜力。 核心结论 定向进化存在固有局限:依赖高通量筛选的定向进化难以处理蛋白酶(自水解)、光酶(利用光进行催化的酶,需要恒定光照设备)、植物源/哺乳动物酶(异源表达困难)等体系,也容易陷入进化死胡同。 基于物理的建模填补关键空白:量子力学(QM)、分子力学(MM)和QM/MM方法可以在原子分辨率上计算任意有三维结构的酶体系的实验相关性质,不受酶来源或操作条件限制。 设计原理的提炼与自动化:通过分析酶的结构、静电、动力学和热容等特征,可以归纳出定量的设计原理,并借助高通量工作流(如EnzyHTP、SubTuner)自动筛选突变体。 物理建模与机器学习形成共生关系:物理建模为ML提供有化学意义的描述符(如电场、结合能、底物定位指数),ML则帮助降维、生成过渡态几何构型、加速动力学模拟。 亟需高质量的基准数据集:与结构预测领域的 CASP 类似,酶工程领域需要盲测式的功能预测竞赛和标准化数据库,以公正评估计算方法。 背景 酶工程的工业化需求与定向进化的辉煌 酶工程的目标是让酶为合成、治疗和可持续性服务。工业界对工程化酶的需求强劲,预计未来十年复合年增长率在5%至6%之间。一个理想的未来是:计算协议能够以定量精度定位功能性野生型酶及其工程化变体,从而以最少的筛选工作实现生物催化开发,同时降低经济和环境成本。 历史上,定向进化一直主导着该领域。通过迭代诱变和高通量筛选,定向进化已成功创造出无数用于化学合成、环境污染物降解或升级回收以及治疗的酶。然而,定向进化依赖高通量实验筛选,这使其在多个场景下难以应用: 副反应不可忽略时:例如蛋白酶会自我水解,难以构建筛选体系。 需要专门设备时:例如光酶(利用光进行催化的酶)需要恒定光照且无污染的特殊装置。 工程目标不匹配时:例如微型化(在保持高活性的同时减小酶的大小)无法通过高通量删除或截短可靠实现;工业生物合成中高低温度适应性的改造,由于生物条件与工业条件(温度、pH等)的普遍不匹配,也难以用高通量筛选解决。 表达系统受限时:植物源和哺乳动物酶在大肠杆菌中表达困难或具有免疫原性,无法用于常规高通量筛选。 更令人警醒的是,定向进化常把催化过程当成黑箱,容易陷入进化死胡同——一旦被困,即使再筛选$10^9$个变体也无法改善效率。Blazeck等人报道的一个人源免疫治疗酶(犬尿氨酸酶)就遇到了这种情况,借助对酶结构和催化机制的理解,找到了另一条改进路径——即通过改变策略(如改变优化目标、设计不同的突变组合)绕过了之前无法突破的限制。 图1:基于物理的计算方法作为实现酶工程全部潜力的途径 中间列(传统酶工程):在提高细菌、非膜结合酶的催化效率方面表现出色 顶部(传统方法的局限):定向进化依赖高通量筛选,难以处理蛋白酶(自水解)、光酶(需要恒定光照)、植物源/哺乳动物酶(异源表达困难)等体系,容易陷入进化死胡同 右列(基于物理的计算酶工程):更通用的方法,能够避免传统方法的常见陷阱,并扩展到更广泛的酶性质和系统 计算方法的崛起与物理建模的不可替代性 计算方法为酶工程提供了突破这些局限的路径。尽管生物信息学和人工智能(AI)被越来越广泛地应用,但由于酶序列-结构-功能关系数据的数量和质量普遍不足,基于物理的分子建模技术仍然不可或缺。 QM和MM方法在理论上可以应用于任意具有原子分辨率三维结构的体系,无论酶来源于细菌、植物还是哺乳动物,无论其偏好何种操作条件(高温、低温、极端pH)。 通过物理建模,从头酶设计已经展示了第一性原理方法创造催化新自然反应的人工酶的能力。虽然这些人工骨架通常还需要用定向进化进一步优化(从而再次打开进化死胡同的大门),但从头设计活动证明了虚拟的、基于物理的设计能够提供理性设计独有的骨架,这是计算酶工程的一个概念性里程碑。 综述内容 The role of physics-based modeling in enzyme catalysis 图2:基于物理的原理的生命周期。 左上:通过观察天然和工程化酶中具有所需功能特征(如高效率或冷适应)的来源,推导出基于物理的原理。示例包括工程化Kemp eliminase(KE,灰色,PDB ID 8usi)、冷适性腺苷酸激酶(蓝色,PDB ID 1p3j)和天然高效人红细胞过氧化氢酶(灰色,PDB ID 1dgf) 右上:通过物理建模(QM、MD、QM/MM)识别、量化和理解物理现象。MD模拟全酶-溶剂复合物(PDB ID 3nir),QM模拟简化活性位点簇(紫色QM区域,黑色球体为冻结边界原子),QM/MM对酶不同区域应用多层级理论 右下:将设计原理编码为产生明确、定量功能预测的通用理性设计规则 左下:应用设计规则对有益突变(红色球体)排序,推荐实现特定功能目标(如通过过渡态稳定化或基态去稳定化提高效率) 设计原理一:结构与拓扑 结构启发的酶工程最为直观——当活性位点与底物形状互补时,催化效率更高。例如: 保守的鸟嘌呤结合位点广泛驱动核酶的选择性。 儿茶酚-O-甲基转移酶中的一个残基通过定位S-腺苷甲硫氨酸辅因子来达到理想的供体-受体距离。 细菌芳胺脱羧酶的活性位点残基通过调节疏水口袋的大小来适应不同底物。 拓扑工程侧重于选择突变以促进底物结合,或改善隧道可及性以加速反应物/产物的扩散。通过突变连接活性位点与酶表面的隧道中的残基,可以调节底物和水到达活性位点的能力。这一原理已在实验中广泛验证,并用于隧道的从头设计。 此外,改变表面带电残基的数量可以调节酶的pH最适性。大多数酶在中性pH附近进化,而耐受非生物常见pH条件为在碱性或酸性环境中更快进行的反应打开了大门。改变pH最适性是一个尚未充分利用的工程策略。 结构信息工程的一个关键挑战是:仅仅稳定基态相互作用是不够的——酶还必须确保协调的相互作用将底物定位在能够生成产物的反应性构象上。AlphaFold3可以预测底物-酶复合物,但稳定基态相互作用并不等同于稳定过渡态。 设计原理二:静电(电场) 静电是酶催化的核心机制之一。Linus Pauling提出酶通过稳定过渡态实现催化,Ariel Warshel进一步证明,酶的预组织静电效应是催化的主要贡献来源。 预组织静电效应:活性位点在反应前就已经排布成有利于过渡态的电场构型。 实验验证与电场计算 Boxer课题组利用振动斯塔克位移光谱(vibrational Stark effect spectroscopy)直接在活酶中测量活性位点电场强度,发现在酮类固醇异构酶(KSI)中活性位点电场高达$15~\mathrm{MV/cm}$,远强于溶剂环境。更关键的是,电场强度与催化速率之间存在定量关系:电场越强,过渡态稳定化越显著,催化效率越高。电场可以用库仑定律近似计算——基于固定电荷MM、可极化MM或QM方法得到的原子电荷,将酶环境产生的电场$\mathbf{F}{\mathrm{env}}$投影到反应键的偶极矩$\mathbf{u}{\mathrm{bond}}$上,得到电场稳定化能: [E_{\mathrm{ES}} = -\mathbf{F}{\mathrm{env}}\cdot \mathbf{u}{\mathrm{bond}} \quad (1) E_{\mathrm{ES}} = \int \rho (\mathbf{r})V_{\mathrm{env}}(\mathbf{r})\mathrm{d}^3 \mathbf{r} \quad (2)] 其中$\rho$是电子密度,$V_{\mathrm{env}}$是静电势。这一原理已在KSI、Kemp eliminase、P450、二氢叶酸还原酶等多种体系中得到广泛验证。 从理解到设计 Head-Gordon课题组将静电理解转化为可操作的设计原理。在Kemp eliminase中,他们发现单个突变就可以有效地微调投影到催化键上的电场大小,从而系统性地设计出高效Kemp eliminase——这是首次通过电场工程实现酶活性的人工提升。对枯草芽孢杆菌酯酶Bs2的改造则展示了另一条路径:引入天冬氨酸残基稳定过渡态偶极矩,将水解酶转化为酰胺酶。 这些案例共同说明:电场是一个可以直接用于指导突变设计的工程量。SubTuner正是基于这一原理,将电场优化作为三个设计假设之一:通过活性位点电场稳定过渡态的偶极矩。 挑战:底物取向与远程效应 其一,底物取向的微小改变会迅速抵消预期的静电增益——如果突变改变了底物在活性位点的定位方式,即使电场强度增加了,实际催化效果也可能下降。 其二,远程突变对电场的影响难以预测:远端残基的电场贡献需要通过MD轨迹分析来评估,而这类分析的计算成本不低。基于侧链互信息的残基耦合分析提供了一种识别不太可能扰动底物动力学的电场介导残基的方法。 设计原理三:蛋白质动力学 静态结构只能告诉我们酶在某个瞬间的样子,而真实的酶时时刻刻都在振动和摆动——这些运动是催化机制的一部分。蛋白质动力学启发的酶工程,正是要利用这些动态信息来指导突变设计。 构象集合观:从单一快照到概率分布 传统观点把酶活性位点看成固定的钥匙-锁关系。但实际上,酶在不断于不同构象之间切换,每个构象有不同的能量和比例(概率分布)。Yabukarski等利用X射线衍生的构象集合(从多个晶体结构或低温晶体学数据中提取),直接量化了活性位点的定位分布;Du等则用构象集合揭示了丝氨酸蛋白酶催化的真正起源——其催化三联体(Asp-His-Ser)的空间排布在构象集合中高度偏置在有利于催化的区域。这说明酶活性不仅取决于最优构象长什么样,还取决于整个构象集合的统计分布。 Hur和Bruice进一步指出,底物进入活性位点后,必须先采用一种特定的构象——各化学键的方向和距离都恰好有利于反应发生——才算是准备好了。在分支酸变位酶中,NAC概率越高,催化速率越快,二者直接相关;这一原理已被成功用于工程化Kemp eliminase和荧光素酶。 对Kemp eliminase的进一步分析引入了底物定位指数(substrate positioning index,SPI):衡量底物可及面积与活性位点溶剂可及面积之比,反映活性位点的松紧程度。SPI与自由能垒呈火山型分段线性相关——活性位点太松(SPI过高)或太紧(SPI过低)都会降低活性,存在一个“刚刚好”的最优点,而非越高越好。 近攻击构象(NAC):各化学键的方向和距离都恰好有利于反应发生的底物构象。酶的催化作用之一,就是通过活性位点的空间约束,把底物稳定在这种构象上,降低它达到NAC的能垒。 动力学网络:突变是怎么从远端传递到活性位点的? MD模拟可以揭示残基之间的相关运动——当一个残基移动时,哪些残基会跟着动?这些信息可以用来构建动力学网络(network of correlated motion)。Osuna课题组的最短路径图工具是这个方向的重要成果:它把蛋白质看成一张图(节点=残基,边=运动相关性强弱),然后用图论算法找出连接两个位置之间的“最短路径”。这条路径上的残基,就是最有可能把远端突变的影响传递到活性位点的桥梁。换句话说,如果你想在远离活性位点的位置做突变来影响催化,最短路径图可以告诉你应该选哪几个残基。 一个典型案例是祖先荧光素酶AncHLD-RLuc的工程化:MD分析发现,环区的柔性变化可以通过动力学网络传递到活性位点,改善配体结合和催化活性。这说明远程突变未必是碰运气,而是有物理规律可循的。 飞秒级蛋白运动与化学活化网络 飞秒级蛋白运动也是近年关注的热点。酶中最快的振动发生在飞秒($10^{-15}$秒)尺度,恰好与化学键形成/断裂的过渡态时间尺度重叠——那么,这些超快运动是否真的能推动反应?答案是:有可能,但目前证据仍不充分。 Frost等人用过渡路径分析(transition-path analysis,TPA)分析人源嘌呤核苷磷酸化酶(PNP)时发现,一个远端残基的振动相位恰好与活性位点的化学转化同步——也就是说,这个远端残基在飞秒尺度上的一推一拉和化学键断裂/形成的时间精确吻合,表明动力学效应可能在催化中扮演着直接角色。 QM/MM准经典轨迹模拟则揭示了另一个现象:在SpnF催化的Diels-Alder反应中,反应体系穿越过渡态之后,并不只有一条路可以走——它会在多个产物通道之间选择。QM/MM准经典轨迹模拟显示,这种反应后分叉(post-TS bifurcation)的选择受活性位点疏水残基的动能贡献影响,最终决定了产物选择性,而非仅由过渡态能垒决定。 这些现象共同构成了化学活化网络(chemical activation network)的概念框架:酶不只是提供一个稳定的静电环境,而是通过多层次(从飞秒振动到皮秒构象变化)的动态协调,主动引导反应走向。理解这张网络,将为工程化生物催化剂开辟全新的设计维度。 设计原理四:热容与温度适应性 酶的最适温度看似只是活性-稳定性平衡的结果,但实际上背后还有更深的物理机制——热容(heat capacity)。 非阿伦尼乌斯行为与热容机制 经典阿伦尼乌斯行为认为,温度越高,反应速率越快,直到蛋白质热变性。但嗜冷酶(如嗜冷α-淀粉酶AHA)、古代重建的腺苷酸激酶等表现出非阿伦尼乌斯行为——它们在某个温度达到活性顶峰,高于或低于此温度活性都会下降。 这说明温度依赖性不只是热稳定性问题,还和活化热容 $\Delta C_p^\ddagger$(过渡态与基态之间的热容差)直接相关。换句话说,热容才是决定最适温度的关键变量,而非蛋白质稳定性本身。 Åqvist课题组进一步揭示了AHA低温最适温度的物理根源:在较高温度下,酶-底物复合物会意外地采用一种无活性的构象——底物虽然结合在活性位点,但构象不具有反应性,正是这种假结合拉低了整体活性。 陷阱构象:底物虽然结合在活性位点,但构象不具有反应性,无法进行催化反应。AHA活性下降的真正原因是陷阱构象的增多,而非蛋白质变性。 从热容到冷适应工程 从热力学角度看,负的活化热容意味着过渡态比基态更有序。AHA的策略是平衡活化焓$\Delta H^\ddagger$和活化熵$\Delta S^\ddagger$:维持较低的活化焓(降低反应能垒),但同时接受更负的活化熵(反应过程中损失更多构象自由度)。 在低温下,$T\Delta S^\ddagger$项的贡献较小,低活化焓主导,整体活化自由能$\Delta G^\ddagger = \Delta H^\ddagger - T\Delta S^\ddagger$仍然较低,因此反应能够高效进行。这恰好对应了嗜冷酶的整体特征:在低温下,高柔性反而帮助底物顺利结合和转化。 基于热容的框架,可以从分子动力学模拟直接计算酶效率。van der Ent等人进一步证明,通过计算预测 $\Delta C_p^\ddagger$,可以主动设计酶反应的最适温度——找到那些能平移其温度曲线的突变。 对多结构域工业酶(催化结构域+碳水化合物结合模块CBM),单结构域经验不直接适用。最新研究表明,可以通过引入连接子增加结构域分离指数(一个由MD推导的描述符,精确量化结构域之间的分离程度)来实现冷适应——延长连接子使结构域分离,增加活性位点柔性,从而在低温下保持活性。这是一条绕过单结构域经验局限的可行路径,已在纤维素酶中得到验证。 高通量计算工作流:从CADEE到SubTuner 为了将设计原理自动化、规模化地应用于突变筛选,研究者开发了多个高通量工作流。 图3:高通量工作流在酶工程中的作用。核心信息是:工作流的覆盖面还不够。 a子图:传统计算酶工程工作流的通用模式。以野生型酶-底物复合物为起点(酶显示为蓝色,底物为粉色),构建突变体库。每个突变体(红色点)部署到独立结构上,对每个突变体和野生型(WT)进行构象采样(通常用MD),计算物理描述符(RMSD、EF、$\Delta G_{\text{bind}}$、SPI等),对每个构象计算并求平均,最后根据构象平均描述符与野生型的比较对突变体排序 b子图:现有工作流主要集中在通过突变优化速率效率,但其他功能目标(如智能库构建、嵌合酶融合、新自然反应工程、基因组酶发现)仍有待开发 图3的左侧工作流之所以能走通,关键在于每一步都锚定在物理可观测量上:RMSD反映结构变化幅度,电场度量对过渡态的静电稳定化,$\Delta G_{\text{bind}}$描述底物结合能,SPI反映活性位点松紧度。这些描述符从原子模拟里直接算出,是物理量而非经验打分,理论上可以在不同酶体系之间迁移。 但现实是,大多数工作流目前只覆盖速率优化这一类目标。右侧列出的几类任务——智能库构建(如何选最有信息量的突变组合)、嵌合酶融合(如何拼接不同酶的结构域)、新自然反应工程(如何从头设计催化新反应的活性位点)、基因组酶发现(如何在大规模序列中快速筛选)——每一个都要求工作流能回答的问题不只是哪个突变更稳定,而是哪个设计策略真正改变化学路径。 相关工具与数据库 Rosetta:强大的蛋白质建模套件,提供能量函数和多种设计协议,是计算酶工程的基础工具之一。 AlphaFold2/3:虽然主要用于结构预测,但其高精度的结构模型可作为物理建模的输入。Brown等指出,AlphaFold预测可作为构象Boltzmann分布的近似,但存在一定局限性。 KLIFS:激酶结构数据库,提供激酶-配体相互作用的功能位点信息,有助于工程化激酶的底物特异性。 BioFragment Database(BFDb):QM衍生的蛋白相互作用能数据库,为ML模型训练提供可解释的物理描述符。 IntEnzyDB:集成结构-动力学酶学数据库,正在弥补序列-结构-功能数据的缺口。 CADEE(2017) CADEE(计算机辅助定向进化)是第一个专门为基于活化能(通过经验价键理论EVB自由能微扰和伞形采样计算)排序和推荐突变体而设计的平台。它突破性地实现了自动化,但其性能对EVB力场的参数化质量敏感,缺乏实验数据时需要专家输入,且主要支持EVB方法。 EnzyHTP(2022) EnzyHTP是一个通用的高通量酶建模平台,完全使用Python编写,自动化了酶工程的每一步:准备、诱变、几何采样和事后分析。它支持任意分子建模任务,包括MD、QM、配体对接、轨迹分析等。EnzyHTP更像一个模块化面包板,其他工作流可以构建在其之上。 SubTuner(2025) 基于EnzyHTP构建的SubTuner,是一个专门用于工程化酶催化非天然底物的计算工具。它基于三个假设:有益突变必须(1)热稳定,(2)能够结合限速过渡态,(3)通过活性位点电场优化稳定过渡态的偶极矩。在数百个突变体和多种底物上评估,SubTuner在命中率、功能增强速度和有益多突变设计的多样性方面优于现有AI模型。 SubTuner的真正价值不只是三条规则本身,而是将热稳定性、过渡态结合和电场优化三个物理条件压缩成一个可执行工作流。工作流终于开始显式回答为什么这个突变可能有用。但SubTuner也指出了当前工作流的Pareto优化困境:在计算成本与突变体排序精度、智能库构建方案、功能评分之间取得平衡,这些问题仍然没有解决。更精确、更全面往往意味着更贵、更慢;更快则可能牺牲命中率和多突变设计的多样性。这是今天高通量物理建模最现实的瓶颈之一。 EnzyHTP、SubTuner都是本文作者的工作 物理建模与机器学习的共生关系 图4:物理建模与ML建模的共生关系。 左侧(物理建模):MD模拟、电子结构理论和其他分子建模技术(PDB ID 3nir)产生描述符,如Rosetta能量项、结合能和电场稳定化能 中间(特征与架构):物理描述符可直接作为ML模型输入。物理建模也启发了编码结构信息的ML架构,例如主链结构编码(灰色线)或创建输入层直接对应酶残基的结构感知架构 右侧(ML建模):ML帮助从高维数据中提取催化相关特征,例如识别反应性几何构型、聚合动力学数据($x_0 \rightarrow x_1 \rightarrow \dots \rightarrow x_n$, $\psi^2$, $P(x)$) 图4把物理建模和机器学习之间的关系从谁替代谁改写成了双向供给。物理模型产出的电场、结合能、Rosetta能量项和过渡态信息可以直接变成ML的输入特征;ML又能帮助压缩高维模拟结果、生成过渡态几何、甚至近似QM/MM势能面。本文的立场是:未来强模型更可能来自物理约束和数据驱动的耦合,而非单纯的端到端替代。 物理建模赋能ML 结构特征提升ML性能:将MD衍生的构象描述符(如$\text{RMSF}$、主成分)纳入模型,改善了对牛肠激酶突变效应的预测。EnzyKR使用活性位点-反应物相互作用编码结构特征,成功预测了水解酶动力学拆分中的优势对映体。 QM衍生描述符:对接得分、QM衍生电荷等使得分类器能够准确预测细菌腈水解酶的底物混杂性。 结构感知图神经网络:将Rosetta能量项和序列同一性整合到结构感知蛋白图卷积网络中,改善了对蛋白酶特异性的预测。 然而,获取与实验表征的活性和选择性数据相链接的高质量酶-底物复合物结构是一个实际挑战。酶突变和不同底物的组合爆炸使得单纯依赖AI方法不切实际。大规模数据集如ProteinGym提供适应性值,但物理化学相关性有限。集成序列-结构-功能数据库(如IntEnzyDB)正在出现,但规模仍远远落后于社区需求。 ProteinGym更适合做蛋白fitness预测,而非直接支持酶工程里的物理建模。原因有两层:第一,它缺少底物、反应机制和酶—底物复合物结构这些关键信息;第二,不同实验条件下测得的fitness值反映的是不同物理性质,不同assay反映的物理量并不完全可比。所以ProteinGym对ML很有价值,但想训练真正理解催化机制的模型,数据还是不够物理。 IntEnzyDB则试图把序列、结构、动力学和功能放进同一张表,目标是让研究者能在同一平台上查到酶的动力学参数、复合物结构和功能注释。对酶工程来说,真正缺的不是更多活不活的标签,而是这些活性背后的物理机制——在什么底物、什么条件、什么构象下,活性由什么机制驱动。 ML赋能物理建模 过渡态几何生成:等变扩散模型可以从反应物和产物的结构出发,生成高精度的气相过渡态几何结构。将其扩展到考虑活性位点和溶剂分子的相互作用是一个活跃方向。 ML势函数加速模拟:AI2BMD框架使用基于蛋白片段QM计算训练的ML势,实现了媲美纯QM精度的动力学模拟,成本大幅降低。 从高维MD中提取催化意义:在酮醇酸还原异构酶(KARI)中,ML模型分析了底物转化事件,从大量候选的键长、键角和二面角中自动识别出与反应性强烈相关的几何参数。将此技术推广到更多体系,有望提炼出关于配体几何如何影响反应性的普适理解。 讨论 为什么物理建模是关键? 尽管定向进化和高通量筛选的能力令人印象深刻,但这只是一个中间步骤。最终目标是开发能够解决任何工程目标、应用于任何酶系统的方法。基于物理的建模凭借其独特能力——从第一性原理直接预测实验可观测量、阐明分子机制、识别关键分子描述符作为设计原理——在推动下一代酶工程方法中扮演着不可或缺的角色。 当前挑战 计算成本:MD和QM/MM可能需要数天时间。硬件上,量子计算可能成为下一代电子结构模拟的引擎,但真正的量子优势尚未实现。算法上,AI加速的高精度能量计算和采样(如ML势函数、生成式自由能映射)展现出巨大潜力。 缺乏标准化基准:与传统计算化学有成熟的基准集(如热化学预测)不同,计算酶工程面临一个不断变化的目标。一些模型系统(如Kemp eliminase)已成为事实上的基准,但从单一酶得出结论存在偏差。 软件工程的可持续性:许多软件包在开发活跃期过后即停止维护——本意是做通用工具,结果却沦为只能处理最初那几个特定案例的系统(无专业化)。社区缺乏软件工程指南。欧洲生物信息学基础设施ELIXIR及其FAIR原则(可查找、可访问、可互操作、可重用)是参考模板。Loschmidt Lab公开了15个软件工具和3个数据库,是个榜样。 这三条里,基准测试缺失可能是最根本的问题。本文专门提到2023年的Protein Engineering Tournament,把它视为一个重要起点:不同团队对同一批酶活性做预测,最后统一公开结果。酶工程现在最缺的是可重复、可横向比较、可定期更新的盲测体系,而非单篇案例。没有这种共同试卷,方法论文就很容易陷入各自挑数据、各自挑指标、各自宣称更强的循环。 大数据不等于好基准:真正需要的是既有规模、又保留微观物理特征的数据集——比如活性位点几何、电场、结合模式和反应障碍之间能互相对上的数据。没有结构化数据库很难做可靠benchmark,没有可维护的软件就很难持续更新数据库和benchmark——这是整个社区基础设施的问题,而非单纯的数据问题。 所以本文提出的Critical Assessment of Enzyme Functional Prediction,本质上是想给酶工程造一个类似CASP的共同战场。它不只是为了排榜单,更是为了逼着社区统一任务定义、数据格式、评价指标和失败案例的报告方式。对这个领域来说,这一步甚至可能和某个新模型本身一样重要。 未被充分探索的物理现象 质子耦合电子转移(PCET):是无数高效酶反应的基础,但如何预测有益突变仍理解有限。 氢隧穿:大豆脂氧合酶中远端蛋白运动如何激活氢隧穿已被研究,但设计原理尚未提炼。 飞秒级蛋白运动:可能影响在相当时间尺度上发生的过渡态轨迹。 反应后分叉:决定产物选择性的关键因素,在SpnF催化的Diels-Alder反应中已展示。 短暂的手性中间体:在手性和非手性产物都产生的酶中,这些短暂中间体可能蕴含着关于选择性和活性的新设计规则。 这一节点出现有工作流的盲区,像PCET、氢隧穿和飞秒级蛋白运动,都牵涉到非常快的电子—核耦合过程,很难被简单的打分函数或静态结构特征吸收。反应后分叉关心的是过渡态之后轨迹会滑向哪个产物通道,而非单一过渡态够不够低。很多今天常用的工作流擅长回答这个突变会不会更稳定、更会结合,却还不擅长回答这个突变会不会改变真正的化学路径。 AlphaFold与结构建模的作用 AlphaFold2和AlphaFold3的出现深刻改变了酶工程的研究范式。Du等利用AlphaFold2生成的构象集合揭示了丝氨酸蛋白酶催化的起源,这表明AI预测的结构可以服务于物理机制研究。 然而,Brown等指出,AlphaFold预测可作为构象Boltzmann分布的近似估计,但存在一定偏差:预测的构象分布可能过于集中或遗漏某些重要构象。因此,AlphaFold最适合作为物理建模的起点,而非终点。其损失函数并不编码化学合理性,训练目标是让预测结构靠近实验晶体结构——这意味着它学到的是哪个构象在晶体里最常见,而不是哪个构象在催化意义上最重要。 对于酶工程来说,后者才是关键。如果活性位点附近的某个关键构象在晶体数据里出现频率很低,AlphaFold很可能完全忽略它——即便这个构象恰好是过渡态前后最关键的窗口。真正的设计验证仍需通过MD或QM/MM模拟来检验,这些方法才显式包含了力场和能量面。 从头酶设计的新突破 基于物理的从头设计已经创造出能够催化新自然反应的人工酶,这是计算酶工程的里程碑。然而,这些人工骨架通常活性较低,需要后续的定向进化来优化。 概念验证成立,但离终局还远。人工设计的酶骨架能在无天然酶引导的情况下实现全新反应,这一点已经打破了必须依赖自然界已有模板的思维定式。但骨架的初始活性通常只有天然酶的几百分之一甚至更低,需要大量突变筛选才能接近工业可用水平。这个gap不只是筛选效率的问题,而是反映了我们对如何从第一性原理直接构造高活性位点的理解仍然不完整。 Burns等的BioFragment Database提供了一个新思路:通过QM计算建立标准化的相互作用能数据库,使物理描述符可以作为ML模型的特征,从而加速设计过程。BioFragment Database这类资源之所以重要,正是因为它们试图把从结构到活性这个映射变得更系统化——用QM计算出的标准化相互作用能来教模型什么样的残基排布才真正有利于过渡态稳定,而不是靠直觉。 本文主要贡献 提供了基于物理的建模在酶工程中的全景式路线图:从设计原理(结构、静电、动力学、热容)到高通量工作流(CADEE、EnzyHTP、SubTuner),再到与ML的共生关系,涵盖了领域的现状、痛点和未来方向。 明确指出了定向进化的局限性:物理建模是互补技术,尤其在处理难搞系统和避免进化死胡同时,并非要否定定向进化。 首次系统总结了SubTuner等新一代工作流的设计哲学:基于热稳定性、过渡态结合和电场优化的三原则,展示了物理建模在非天然底物工程中的强大能力。 提出了建立酶功能预测盲测竞赛的倡议:模仿CASP,这将极大推动计算方法的客观评估和迭代改进。 强调了软件工程可持续性的重要性:呼吁社区建立代码开发的最佳实践和长期维护机制。 局限性 物理建模的计算成本仍然是主要瓶颈:虽然ML加速有希望,但尚未达到广泛可用的程度。 基准数据集严重缺乏:现有数据库(如ProteinGym)缺乏底物、反应机制、酶-底物复合物结构等关键信息,无法公平评估基于物理的工具。 许多设计原理尚未在高通量工作流中实现:例如PCET、飞秒动力学、反应后分叉等,仍停留在学术研究层面。 软件可持续性问题普遍存在:大部分工具由博士生/博士后开发,他们毕业后维护往往停止,导致社区碎片化。 未来方向 建立Critical Assessment of Enzyme Functional Prediction:定期、盲测、多目标的酶功能预测竞赛,将极大推动领域标准化。 开发集成物理描述符的大规模数据库:类似BioFragment Database(QM衍生相互作用能)的模式,为ML提供有化学意义的特征。 将生成模型(如ProteinMPNN)与催化相关物理特征(电场、动力学)条件化:直接设计具有初始活性的酶,而非仅稳定骨架。 探索量子计算在酶模拟中的应用:虽然量子优势尚未确定,但早期应用已展示在蛋白结构预测中的潜力。 将ML加速的QM/MM和过渡态生成推向常规应用:使高精度势能面计算不再是专家特权。 定向进化只是中间步骤,物理建模才是解锁酶工程全部潜力的关键。对于那些希望跳出黑箱筛选、真正理解并设计酶的科研人员,本文提供了从第一性原理出发的系统框架。而对于计算化学家,本文则清晰地指出了软件工程、基准数据集和未探索物理现象这三个最值得投入的方向。
Specific Sytems
· 2026-04-16
细菌孕酮5β-还原酶的底物选择性调控与5β-二氢类固醇的高效合成
细菌孕酮5β-还原酶的底物选择性调控与5β-二氢类固醇的高效合成 本文信息 标题:Engineered Bacterial Progesterone 5β-Reductase: Tunable Substrate Preference and Synthesis of 5β-Dihydrosteroids 作者:Changli Che, Wenhe Zhang, Xiao Qiu, Qingyu Wang, Lichun Tang, Bin Qin, Xian Jia, Song You 发表时间: 2025年9月16日 单位:沈阳药科大学生命科学与生物制药学院、药物工程学院、伍亚创新学院(中国) 引用格式:Che, C., Zhang, W., Qiu, X., Wang, Q., Tang, L., Qin, B., Jia, X., & You, S. (2025). Engineered Bacterial Progesterone 5β-Reductase: Tunable Substrate Preference and Synthesis of 5β-Dihydrosteroids. ACS Catalysis, 15, 16560-16573. https://doi.org/10.1021/acscatal.5c04685 摘要 类固醇在5β位置的立体选择性氢化是类固醇药物合成中的关键步骤。然而,现有植物孕酮5β-还原酶(P5βR)和动物来源的类固醇5β-还原酶存在催化效率低和异源表达水平差的问题,限制了其实际应用。为了拓展5β-二氢类固醇的酶法合成途径,本研究首次从细菌中挖掘了P5βR,并研究了其对孕酮和8-氧香叶醛的催化活性。与植物来源的PRISE(孕酮5β-还原酶和/或鸢尾苷合成酶样1,4-烯酮还原酶)类似,细菌P5βR尽管保持高度保守的蛋白序列和结构架构,但表现出不同的底物偏好。通过整合序列-结构比较分析,研究者识别了控制底物选择性的构象开关,实现了细菌P5βR底物偏好的精准调控。分子动力学模拟结果表明,突变体M1能够打开底物结合口袋内的cavity B,使线性底物8-氧香叶醛稳定结合。本研究首次证明细菌P5βR可通过单点突变实现底物偏好的程控反转。此外,研究者提出了一种基于底物特征的理性策略,进一步增强了细菌P5βR对类固醇的催化活性。最优突变体LpP5βR-M5对孕酮的催化效率比野生型提高了700倍以上。准工业化的反应体系在2小时内几乎完全转化28 g/L孕酮并实现330 g/L·d的时空产率,标志着5β-二氢类固醇绿色合成进入可放大阶段。本研究不仅阐明了细菌P5βR的结构-功能关系,还开创了5β-二氢类固醇合成的环境友好型生物催化途径。 核心结论 细菌来源P5βR全面挖掘:首次从细菌中成功获得孕酮5β-还原酶集合,并同步解决植物/动物同源酶可溶表达差的瓶颈 保守骨架孕育新底物偏好:尽管整体折叠与PRISE高度保守,细菌P5βR展现与植物体系截然不同的底物特异性 H307构象开关实现偏好反转:单点突变即可通过cavity B门控调节,实现孕酮与8-氧香叶醛之间的底物选择性切换 理性工程显著提升动力学参数:面向空间位阻与疏水性需求的组合突变将催化效率提升至773倍,对应$k_\text{cat}/K_\text{m}=348.4\,\mathrm{mM^{-1}\,min^{-1}}$ 准工业化反应体系验证放大潜力:28 g/L孕酮在2小时内完成高立体选择性转化并达到330 g/L·d时空产率,为绿色工业化提供直接路径。 背景 类固醇Δ4,5-双键的立体选择性β面氢化能够形成具有A/B环顺式稠合构象的5β-二氢类固醇。这一转化在强心苷和胆汁酸的生物合成途径中具有关键意义。5β-二氢类固醇决定着强心苷与胆汁酸的终端产量,因此任何调控Δ4,5双键氢化的酶都直接关系到药物供应链的安全。尽管对动物和植物来源的同源酶进行了广泛研究,但微生物来源的催化该反应的酶仍未被表征。 动物来源的类固醇5β-还原酶(如AKR1D1和AKR1D2)是类固醇激素代谢和胆汁酸合成的必需酶,属于醛酮还原酶(AKR)超家族,采用其特征性的(α/β)8-桶状结构。在植物中,孕酮5β-还原酶(P5βR, EC 1.3.99.6)最早从洋地黄叶片中纯化,参与强心苷的生物合成。与动物类固醇5β-还原酶不同,植物来源的P5βR由于关键催化残基的差异而属于短链脱氢酶/还原酶(SDR)的特殊类别。动物AKR与植物SDR在催化骨架和辅酶识别上的根本差异,凸显了跨界挖掘全新催化架构的紧迫性。 植物P5βR和鸢尾苷合成酶(IS)共享高度的序列和结构同一性,IS活性也被证实广泛存在于植物P5βR中,因此它们被统称为VEP1编码的孕酮5β-还原酶/鸢尾苷合成酶(PRISE)。尽管PRISE家族酶具有几乎无法区分的结构和相似的催化机制,但P5βR和IS表现出明显不同的底物特异性。 5β-二氢类固醇作为众多生物活性分子和药物的关键中间体,包括强心苷类药物地高辛(Digoxin)、蟾毒灵(Bufallin)、胆汁酸衍生物鹅去氧胆酸(Chenodeoxycholic acid)以及新型抗抑郁药zuranolone等。然而,现有类固醇5β-脱氢酶在大肠杆菌中异源表达效率低、对Δ4,5-3-酮类固醇的催化性能欠佳,限制了其在5β-二氢类固醇合成中的实际应用。 尽管许多研究尝试通过基因挖掘或工程化改进类固醇5β-脱氢酶的催化活性,但至今仍未开发出可工业化规模的生物催化工艺。因此,工业合成5β-还原酶主要依赖传统化学方法。然而,类固醇Δ4,5-双键的立体选择性和区域选择性还原对化学合成是一个挑战,硼氢化物的使用更倾向于还原3-酮基。最广泛采用的化学方法涉及钯催化氢化(Pd/C或Pd/CaCO3),但通常只能达到约50%的立体选择性,且不同类固醇底物之间存在显著差异。传统氢化工艺在立体纯度、成本与环境负担之间的矛盾,逼迫行业寻求可放大的生物催化替代方案。实现更高的立体选择性需要费力优化反应溶剂和催化剂配方,显著增加了生产成本并限制了商业可行性。 图1:5β-二氢类固醇合成的现状与本研究定位 (a) 合成方法对比:左侧展示类固醇Δ4,5-双键的立体选择性β面氢化反应;右侧对比传统化学法(Pd/C催化加氢,需有机溶剂,立体选择性仅约50%)与酶法(SDR/AKR/P5βR,水相反应,立体选择性>99%)。关键信息:标注”Bacterial P5βR - Underexplored”点明本研究切入点 (b) 天然产物与药物应用:展示6个重要的5β-二氢类固醇分子,蓝色氢原子标记β构型: 强心苷类:地高辛(Digoxin)、毛地黄毒苷(Digitoxin) 新型神经活性药物:Zuranolone、Bufallin 胆汁酸类:鹅去氧胆酸(Chenodeoxycholic acid)、熊去氧胆酸(Ursodeoxycholic acid) (c) 已知PRISE催化反应:植物来源的PRISE家族催化孕酮(1a)生成5β-孕烷-3,20-二酮(2a),或催化8-氧香叶醛(1b)生成鸢尾苷前体(nepetalactol + iridodial) (d) 本研究发现:细菌P5βR(紫色蛋白结构)同样催化1a生成2a,但对1b的催化产物为diquatdial(2b)和6,7-二氢-10-氧香叶醛(2b’),产物路线与PRISE不同 关键科学问题 异源表达瓶颈:现有植物P5βR和动物类固醇5β-还原酶在大肠杆菌中可溶性表达水平低,难以满足工业化应用需求 催化效率低下:野生型P5βR对孕酮等类固醇底物的催化活性不足,限制了酶法合成的经济可行性 底物选择性机制不明:PRISE家族酶的底物特异性决定因素尚未阐明,阻碍了理性设计和底物范围拓展 工业化应用缺失:缺乏可工业化规模生产5β-二氢类固醇的环境友好型生物催化工艺 创新点 首次挖掘细菌P5βR:以植物P5βR为探针,从NCBI数据库中挖掘了10个细菌来源的P5βR,解决了异源表达问题 揭示底物选择性开关:通过序列-结构比较分析,识别了H307位点作为控制底物偏好的构象开关,单点突变即可反转底物选择性 底物特征导向的理性设计:提出了基于底物特性(大空间位阻和疏水性)的工程策略,系统性提升了对类固醇的催化活性 分子机制深入解析:结合分子对接、分子动力学模拟和腔体分析,阐明了突变体活性提升的结构基础 实现克级规模制备:最优突变体LpP5βR-M5实现了28 g/L孕酮的高效转化(STY 330 g/L·d),为工业化应用提供了可行方案 研究内容 基因挖掘与细菌P5βR的活性测定 为了克服植物P5βR和动物类固醇5β-脱氢酶异源表达差的障碍,研究者采用基因挖掘技术从细菌中搜索潜在的P5βR。首先,以洋地黄(Digitalis lanata)的经典DlP5βR和拟南芥(Arabidopsis thaliana)的AtP5βR为探针,在NCBI数据库中搜索了序列同一性最高的前100个细菌P5βR序列。所有序列在NCBI数据库中均被预测为SDR家族的氧化还原酶。 随后,基于植物P5βR的六个特征性保守基序(32GXTGIXG40、59GXXRR65、80DXXD85、143TGXKHYXGP153、176NFYYXXED185、197WSVHRP204)进行序列筛选。最终选择了约20个符合标准的候选序列。为了提高基因挖掘的成功率,研究者使用邻接算法(Neighbor-Joining Algorithm)构建了系统发育树,并分析了序列同一性。最终选择了10个序列进行基因合成。 graph TB Start["基因挖掘策略"] --> S1 subgraph S1["1.序列搜索与筛选"] direction LR A1["以DlP5βR和AtP5βR<br/>为探针搜索NCBI"] --> A2["获得前100个<br/>细菌序列"] A2 --> A3["基于6个保守基序<br/>筛选候选序列"] A3 --> A4["构建系统发育树<br/>选择10个基因合成"] end S1 --> S2 subgraph S2["2.异源表达与活性测定"] direction LR B1["克隆至pET-28a载体<br/>大肠杆菌表达"] --> B2["SDS-PAGE分析<br/>LpP5βR表达量最高"] B2 --> B3["Ni-NTA纯化<br/>活性测定"] end S2 --> S3 subgraph S3["3.底物特异性发现"] direction LR C1["孕酮1a<br/>所有P5βR有活性"] --> C2["8-氧香叶醛1b<br/>仅RbP5βR有活性"] C2 --> C3["产物鉴定<br/>2b和2b'"] end S3 --> Result["发现:细菌P5βR<br/>具有显著底物特异性"] 这些基因广泛分布于不同的细菌科,与DlP5βR和AtP5βR的序列同一性为35-42%,彼此之间的序列同一性为45-86%。合成基因克隆至pET-28a(+)载体,在大肠杆菌BL21(DE3)中表达。SDS-PAGE结果显示,这些酶的可溶性表达差异很大,其中LpP5βR的可溶性表达量最高(来源于Lichenihabitans psoromatis)。 活性测定结果令人惊喜:所有纯化的酶均表现出P5βR催化活性,能够立体选择性地还原孕酮(1a)的Δ4,5-双键形成5β-孕烷-3,20-二酮(2a)。其中,LwP5βR、GbP5βR和LpP5βR的催化活性较高,转化率超过20%。值得注意的是,与植物PRISE家族类似,细菌P5βR也依赖NADPH而非NADH作为辅酶,这归因于细菌P5βR具有与PRISE家族类似的辅酶结合口袋。 为了探索细菌P5βR是否像PRISE一样具有鸢尾苷合成酶活性,研究者以8-氧香叶醛(1b)作为底物进行活性测试。结果显示,细菌P5βR对1b普遍没有可检测的催化活性,只有RbP5βR表现出例外的催化活性(来源于Rhodobacteraceae bacterium)。产物经GC、MS和NMR鉴定为diquatdial(2b)和6,7-二氢-10-氧香叶醛(2b’),这与PRISE的催化产物不同,而与真菌还原酶EasA(来自Aspergillus fumigatus)的催化产物相同。推测在细菌P5βR催化过程中,氢负离子攻击1b的C6位而非C3位。 图2:细菌P5βR的基因挖掘与活性鉴定全景图 (a) 系统发育树:以植物DlP5βR和AtP5βR为探针,从NCBI筛选出的P5βR序列构建邻接树。红色标记为本研究合成并验证的10个细菌P5βR(来自蓝色区域的细菌分支),橙色为植物PRISE,灰色为动物类固醇5β-还原酶。树的尺度条表示0.54的进化距离 (b) 底物特异性测试:柱状图展示10个细菌P5βR对孕酮(1a,蓝色柱)和8-氧香叶醛(1b,紫色柱)的转化率。关键发现:大多数P5βR偏好1a(蓝色柱高),仅RbP5βR对1b有显著活性(紫色柱高) (c) 可溶性表达差异:SDS-PAGE凝胶电泳图。灰色背景柱代表不同底物组合(diquatdial、6,7-二氢-10-氧香叶醛、8-氧香叶醛),橙色柱标记LpP5βR对1a的高转化率(>25%),显著高于其他P5βR (d) 催化产物示意:上方为PRISE家族催化1b的产物(8-氧香叶醛→鸢尾苷前体),下方为细菌P5βR催化的产物路线(8-氧香叶醛→diquatdial + 6,7-二氢-10-氧香叶醛) (e) GC色谱验证:时间-强度曲线显示无酶对照、RbP5βR反应和标准品的峰位对比,证实产物身份 细菌P5βR的底物特异性调控 挖掘的10个细菌P5βR在催化1b和1a时表现出显著的底物特异性:RbP5βR偏好催化线性底物1b而非1a,而其他P5βR则偏好催化1a而非1b。为了实现细菌P5βR底物特异性的理性调控并寻找影响底物选择性的分子基础,研究者首先使用AlphaFold3获得了细菌P5βR与NADPH复合物的蛋白结构。 分子动力学模拟方法 为解析底物偏好反转与活性增强的结构机制,作者针对RbP5βR、LpP5βR及其M1、M5突变体开展了100 ns全原子MD模拟。所有体系在Schrödinger Release 2018-1环境中构建,采用OPLS3力场与SPC水模型,将蛋白-底物复合物置于正交水盒,并通过添加Na+/Cl−调节至pH 7.0并整体中和。每个体系先进行10 000步最陡下降能量最小化,随后在300 K、1.01325 bar的NPT系综下跑100 ns,轨迹每100 ps输出一次,以便统计氢键、距离、溶剂可及表面积和配体RMSD等指标。后处理统一借助Simulation Interaction Diagram模块,输出的接触占有率、SASA和结构快照构成了图4、图6及SI图S14-S19中氢键网络、Ligand-Contact-Diagram、SASA与RMSD分析的原始数据。 结构比较显示,细菌P5βR的整体结构与植物来源的DlP5βR相似,均具有SDR家族的Rossmann折叠和延伸的C端结构域。DlP5βR关键催化残基(Y179和K147)位置的酪氨酸和赖氨酸在细菌P5βR中也存在,推测为细菌P5βR的关键催化残基。 LpP5βR-Y145F突变体对1a的催化活性几乎完全丧失,进一步证明了该残基参与细菌P5βR的催化。 K114A突变体对1a的催化活性增强,表明K114氨基酸侧链不参与催化,可能是K114骨架酰胺氮与底物形成氢键,稳定底物并促进质子转移。 由于RbP5βR的底物特异性与其他挖掘的P5βR不同,研究者从序列和结构两方面分析了RbP5βR的特殊性。序列保守性分析显示,细菌P5βR底物结合口袋的氨基酸高度保守(L117、F120、Y123、M180、W306、H307、D311、R314),难以仅根据序列判断底物偏好。 结构比较显示,细菌P5βR的底物结合口袋可分为主体cavity A和靠近辅酶向下延伸的cavity B。RbP5βR的cavity B明显长于其他P5βR,推测更大的cavity B对于细菌P5βR催化8-氧香叶醛至关重要。通过观察cavity B周围的残基,识别出残基H307能够直接影响cavity B的大小。 图3:底物选择性的结构基础与H307门控开关 (a) 整体结构与保守骨架:左侧为RbP5βR-WT的AlphaFold3预测结构(浅蓝色ribbon),标注Rossmann fold(辅酶结合域)、N端和C端。右上插图展示Y179(对应LpP5βR的Y145)与NADPH、底物1a的空间位置关系。右侧底物结合口袋俯视图(紫蓝色表面)清晰显示水平延伸的cavity A和垂直向下的cavity B (b) 关键催化残基特写:Y179与底物1a的羰基氧形成氢键(红色虚线),K147起辅助稳定作用。柱状图显示不同P5βR的相对活性,RbP5βR(紫色柱)对1b活性最高 (c) 底物结合口袋的保守残基网络:棒状模型展示8个高度保守的残基(L117、F120、Y123、M180、W306、H307、D311、R314)围绕底物1a(白色骨架)。右侧sequence logo显示这些位点在PRISE家族中的保守性,H307位点几乎100%保守 (d) Cavity B的门控效应可视化:三个蛋白表面模型对比(RbP5βR-WT、LpP5βR-WT、LpP5βR-H307A)。黄色区域标记cavity B,红色圈标注H307/A307位置。关键量化:LpP5βR-M1的cavity B比WT增大**52.8 **Å3(从1213 Å3到1271 Å3) (e) H307突变体的底物选择性反转:柱状图显示5个突变体(H307A、H307V、H307L、H307I、H307F)对1a和1b的催化活性。H307A实现完全反转:对1b的活性从0提升至约60%,对1a的活性从80%降至20% (f) 底物谱系统测试:3D柱状图展示不同突变体对多种底物的转化率,验证H307A在拓宽底物范围中的作用 为了验证这一假设,研究者对LpP5βR的H307进行了定点诱变(H307A、H307V、H307L、H307I),并测试了对1a和1b的催化活性。令人惊喜的是,LpP5βR-H307A(M1突变体)对1b的催化活性相比野生型显著提高,而对1a的催化活性降低。活性位点腔体体积测量显示,LpP5βR-M1比LpP5βR-WT的体积增加了52.8 Å3。突变体M1成功实现了底物特异性的反转,也证实了研究者的推测。 随后,研究者在其他挖掘的P5βR上构建了M1突变体(LwP5βR-H307A、SsP5βR-H307A、GbP5βR-H311A、RbP5βR-H310A、AbP5βR-H306A、AcbP5βR-H309A、CbP5βR-H306A、TbP5βR-H311A),活性测试结果显示,所有突变体相比野生型都成功实现了底物特异性的改变。通过理性设计和工程化,研究者仅用单点突变就实现了细菌P5βR底物选择性的反转。 为了进一步探索细菌P5βR底物偏好改变的潜在机制,研究者进行了分子对接和分子动力学(MD)模拟。首先,通过比较RbP5βR-WT和LpP5βR-WT与1b的催化过程,发现底物1b在RbP5βR-WT的底物结合口袋中稳定,但在LpP5βR-WT的底物结合口袋中不稳定。这可能是RbP5βR相比其他细菌P5βR-WT对1b有催化活性的原因。 图4:底物结合稳定性的分子动力学证据(100 ns MD模拟) 这是一个3列×5行的MD模拟快照网格,系统性地展示了底物1b在不同酶中的动力学行为: 列布局(从左到右): 第1列 - RbP5βR-WT(米色蛋白表面):天然对1b有活性的酶 第2列 - LpP5βR-WT(白色蛋白表面):野生型,对1b无活性 第3列 - LpP5βR-M1(淡紫色蛋白表面):H307A突变体,获得对1b的活性 行布局(从上到下)时间序列:0 ns → 40 ns → 60 ns → 80 ns → 100 ns 关键观察: 黄色棒状:底物1b的线性骨架 标注残基:K117/K114(催化赖氨酸),Y148/Y145(质子给体),H310/H307/A307(门控残基) RbP5βR-WT(左列):1b在整个100 ns过程中始终稳定地停留在活性位点,保持合适的催化距离 LpP5βR-WT(中列):1b在模拟过程中逐渐偏离最佳催化位置,H307的咪唑环(粉色)形成空间冲突,导致底物无法稳定结合 LpP5βR-M1(右列):H307A突变消除了空间位阻后,1b重新获得稳定的结合姿态,证明H307确实是控制底物选择性的门控开关 通过理性设计扩大LpP5βR的cavity B后,1b能够在突变体LpP5βR-M1的底物结合口袋中形成合适的预反应构象,并在整个催化过程中保持稳定。307位高度保守的组氨酸充当门控开关,抑制对1b的催化活性。将该位点突变为丙氨酸使细菌P5βR的底物结合口袋更适合线性底物1b的稳定结合。 作者在Discussion中特别强调,cavity B门控是细菌P5βR底物偏好反转的唯一开关,借助这一点既能解释RbP5βR对1b的天然适配,也能为植物PRISE体系提供结构参照。团队计划围绕该门控位点开展跨物种序列比对,构建能够预测未知P5βR/IS序列底物偏好的规则库,为后续精准控制底物选择性奠定基础。 工程化细菌P5βR增强孕酮催化活性 尽管通过基因挖掘识别的细菌P5βR能够立体选择性地还原1a为2a,但其对1a的催化活性普遍较低。为了克服现有P5βR的局限性并为5β-二氢类固醇合成提供潜在的生物催化剂,研究者对细菌P5βR进行了理性设计指导的结构工程。由于LpP5βR在大肠杆菌中表达量高且对1a有良好的催化活性,因此选择LpP5βR进行工程化。 考虑到1a的性质(大空间位阻和疏水性),研究者制定了理性工程策略:将底物结合口袋中具有大空间位阻或极性的残基突变为具有小空间位阻的非极性氨基酸。通过观察LpP5βR的底物结合口袋,识别出F120、Y123、M180、H307和D311作为工程位点。其中F120和Y123位于底物通道入口,而M180、H307和D311更靠近辅酶。 图5:理性设计策略与迭代工程优化路线 (a) 工程热点定位:LpP5βR-WT的活性位点放大图。紫色棒状标记5个候选突变位点:F120和Y123(底物通道入口),M180、H307、D311(靠近NADPH)。底物1a(白色骨架)和NADPH(橙色棒状)清晰可见 (b) 单点突变筛选结果:柱状图展示野生型和单突变体对1a的转化率(条件A:0.5 mg/mL酶,1 h反应)。紫色柱为突变体,灰色柱为对照。关键发现:M180V(M2)、M180I、H307L活性显著提升(>60%转化率),而D311I活性降低 (c) 组合突变的迭代优化:柱状图展示从单突变H307L到双突变M3(M180V/H307A)、三突变M4(M180V/H307A/D311I)、四突变M5(T170V/M180V/H307A/D311I)的活性递增。分级筛选条件:左侧虚线前用条件B(0.25 mg/mL),右侧用条件C(0.04 mg/mL,20 min)。M5在最严格条件下仍完全转化底物 (d) M5在不同P5βR上的普适性:3D柱状图展示8个不同细菌P5βR的野生型(浅色柱)vs M5突变体(深色柱)对1a的转化率。所有M5突变体均显著优于野生型,证明策略的广泛适用性 (e) 克级制备验证:反应方案展示NADPH/NADP+循环系统(BsGDH偶联葡萄糖氧化)。时间-转化率曲线显示28 g/L底物在2 h内达到>98%转化率,产率93% 这五个氨基酸被突变为具有小空间位阻的非极性氨基酸,如A、V、L、I、P。为了准确评估不同突变体的活性变化,研究者设计了三套分级筛选条件: 条件A(野生型和单突变体):0.5 mg/mL纯酶,1 h反应 条件B(双/三突变体):0.25 mg/mL纯酶,1 h反应 条件C(四突变体):0.04 mg/mL纯酶,20 min反应 这种分级筛选策略的设计逻辑在于:随着突变累积导致活性不断提升,若继续使用高酶浓度和长反应时间,所有突变体都会达到完全转化,无法区分活性差异。因此必须逐步降低酶浓度并缩短反应时间,才能准确捕捉活性提升的梯度。 突变结果显示,F120和Y123突变体的催化活性与野生型相差不大,而M180A、M180V(M2)、M180I、H307L和H307F的转化率显著提高。此外,D311I突变体的催化活性相比野生型显著降低。 随后,构建了M180和H307的组合突变,发现突变体M180V/H307A(M3)和M180F/H307A相比单突变H307L的活性进一步提高。鉴于酶工程中上位效应的普遍性,研究者在M180/H307双突变体的基础上构建了D311突变。所得到的最优三突变体M180V/H307A/D311I(M4)在条件B下能够完全转化1a。 为了进一步消除底物结合口袋中的不利作用力并提高LpP5βR对1a的催化活性,研究者在M4的基础上构建了K114、H169、T170、R314突变体。最终获得了催化活性最高的突变体T170V/M180V/H307A/D311I(M5),在条件C下能够完全转化底物。这意味着M5的活性是野生型的至少12.5倍(0.5/0.04),而实际催化效率提升达到773倍,说明不仅酶浓度可以大幅降低,催化速率也显著加快。 为了测试理性工程策略是否普遍适用于细菌P5βR,研究者在其他挖掘的P5βR上引入了M5突变(LwP5βR-T170V/M180V/H307A/D311I、SsP5βR-T170V/M180V/H307A/D311I等)。活性测试显示,工程化P5βR的酶活性相比野生型显著提高。这些P5βR之间的低序列同一性表明,工程策略对不同细菌来源的P5βR具有广泛适用性。 为了研究LpP5βR-M5的应用价值,研究者使用LpP5βR-M5粗酶液作为催化剂进行2a的不对称合成。反应体系采用NADPH作为辅酶,并耦合葡萄糖脱氢酶(GDH)循环系统实现辅酶再生。该GDH来源于枯草芽孢杆菌(Bacillus subtilis, BsGDH),对D-葡萄糖的催化活性约为10 U/mg(25°C)。辅酶循环的工作原理是:GDH将葡萄糖氧化为葡萄糖酸的同时将NADP+还原为NADPH,从而持续供给P5βR催化所需的还原当量,使得系统仅需催化量的NADP+(0.1 mM)即可维持反应进行。 通过优化反应条件(包括助溶剂类型、底物浓度和辅酶浓度),确定了最佳反应条件: 底物浓度:28 g/L(约90 mM) 助溶剂:20% (v/v) DMSO 辅酶:0.1 mM NADP+(催化量) 辅助底物:50 g/L葡萄糖(为GDH循环提供驱动力) 酶用量:40 g/L湿菌体粗酶液(LpP5βR-M5)+ 5 g/L湿菌体粗酶液(BsGDH) 反应温度:35°C,220 rpm 在100 mL规模的不对称还原反应中,1a的转化率在2小时内超过98%,时空产率(STY)高达330 g/L·d。最终通过硅胶柱层析纯化得到纯净的化合物2a(2.6 g,93%产率)。值得强调的是,28 g/L的底物负载和330 g/L·d的STY已接近工业生物催化的标准要求,而仅需0.1 mM的辅酶浓度大大降低了成本。 LpP5βR突变体活性增强的分子机制 为了探索LpP5βR突变体对1a催化活性增强的分子机制,研究者测试了LpP5βR-WT及相关突变体的动力学常数。结果显示: M2突变体通过降低$K_\text{m}$显著提升了酶对1a的亲和力:$K_\text{m}$从0.16 mM下降到0.091 mM,证明缩小空间位阻的有效性 M3突变体依靠减小辅酶附近的腔体空间位阻显著提高$k_\text{cat}$,从而同步提升周转速率 M4与M5突变体通过增强口袋疏水性实现亲和力与速率的双向提升,共同奠定了后续克级合成的基础 酶 $K_\text{m}$ (mM) $k_\text{cat}$ (min-1) $k_\text{cat}/K_\text{m}$ (mM-1 min-1) 倍数 LpP5βR-WT 0.16 ± 0.04 0.066 ± 0.012 0.45 1 LpP5βR-M2 0.091 ± 0.028 0.342 ± 0.054 3.8 8 LpP5βR-M3 0.10 ± 0.02 3.42 ± 0.48 34.2 76 LpP5βR-M4 0.06 ± 0.01 6.60 ± 0.59 110.0 244 LpP5βR-M5 0.062 ± 0.009 21.6 ± 2.4 348.4 773 此外,研究者使用分子对接、腔体分析和MD模拟分析了LpP5βR的变化。首先,使用AlphaFold3预测了LpP5βR-M5的蛋白结构,预测模板建模分数(pTM)和界面预测模板建模分数(ipTM)分别为0.95和0.97。腔体分析显示,LpP5βR-M5的底物结合口袋相比野生型增大了约58 Å3,主要由于180、307位置(靠近辅酶结合口袋位置)的空间位阻减小。 图6:M5活性提升的三重分子机制全景解析 (a) 腔体体积的可视化对比(Caver分析):蓝色球形区域表示底物结合口袋和辅酶结合口袋的共同空间。上图(WT):腔体入口较窄;下图(M5):腔体明显扩大,标注”entrance”指示底物进入通道 (b) 腔体体积量化:紫色网格显示WT和M5的三维腔体轮廓。数值标注显示WT为1213 Å3,M5为1271 Å3,净增加58 Å3 (c) 催化构象优化(关键距离缩短):散点图显示100 ns MD模拟中两个关键催化距离的分布。上排(WT):d(Osub-OHY145)和d(Csub-C4NADH)距离较长且分散;下排(M5):两个距离显著缩短并聚集在催化最优范围(3-5 Å),证明质子和氢负离子传递更容易 (d) 相互作用力谱分析(Ligand-Contact-Diagram):柱状图展示底物1a与不同残基的相互作用占有率。上图(WT):主要依赖K114的氢键(绿色柱,>80%),Y145几乎无贡献;下图(M5):相互作用更丰富,出现多个水介导接触(蓝色柱),Y145通过水分子参与催化 (e) 水介导氢键网络的关键证据:3D结构特写显示M5中Y145(黄色棒状)通过1-2个水分子(红色球)与底物1a(白色骨架)形成氢键网络(绿色虚线)。NADPH(橙色)提供氢负离子。这种水桥结构在WT中几乎不存在,是M5催化效率提升的核心创新 (f) 结构稳定性增强(RMSD分析):时间序列曲线显示0-100 ns的蛋白和底物RMSD。紫色曲线(M5)比粉色曲线(WT)波动更小,RMSD均值更低,证明M5在催化过程中更稳定 (g) 疏水性增强的可视化:蛋白表面着色图。黄色区域表示疏水性,蓝色区域表示亲水性。WT(左):底物结合口袋有较多蓝色亲水区;M5(右):口袋疏水性显著增强(更多黄色),与类固醇疏水骨架的范德华相互作用更强 MD模拟从分子层面揭示了M5活性提升的三重机制: 首先,催化构象优化。突变体M5的两个关键催化距离[d(Osub-OHY145)和d(Csub-C4NADH)]明显短于WT,表明在突变体M5的催化过程中氢质子和氢负离子的传递距离更短,因此反应更容易发生。这直接解释了$k_\text{cat}$的大幅提升(从0.066到21.6 min-1,提升327倍)。 其次,水介导氢键网络的建立是M5活性提升的关键创新。力分析显示,在野生型中,虽然底物能够与K114形成连续且稳定的氢键,但与关键催化残基Y145没有直接相互作用,这导致质子传递效率低下。相比之下,M5在催化过程中与底物的相互作用力更丰富,许多水分子参与其中充当质子传递的桥梁。这归因于突变体相比WT具有更大的溶剂可及表面积(SASA)——突变引入的小侧链残基使得水分子更容易进入活性位点。定量分析显示,在M5中,Y145在大约49%的模拟时间内通过1-2个水分子与底物形成氢键网络,从而有效促进质子从Y145羟基转移到底物羰基,完成还原反应。这种水介导的质子传递机制在野生型中几乎不存在,是M5催化效率大幅提升的分子基础。 最后,结构稳定性增强。M5和WT的RMSD(均方根偏差)分析表明,M5在整个反应过程中的构象波动更小,蛋白结构更稳定。这可能是由于M5相比WT具有更疏水的底物结合口袋,与类固醇疏水骨架的范德华相互作用更强,因此底物结合更加稳定,减少了蛋白构象的扰动。 基于以上分析,突变体LpP5βR-M5对1a催化活性提高的原因可归纳为三点: 减小空间位阻:底物结合口袋中靠近辅酶位置的空间位阻减小 增加疏水性:底物结合口袋疏水性增加 水介导氢键网络:活性位点腔体的SASA增加,从而在酶的关键催化残基与底物之间建立水介导的氢键网络 底物范围探索 为了测试LpP5βR对类固醇化合物的催化效果,研究者使用LpP5βR-WT和LpP5βR-M5作为生物催化剂催化不同的类固醇。结果显示,LpP5βR-M5相比野生型具有更广的底物范围,其对所有类固醇底物的催化活性均显著提高。 图7:底物范围拓展与结构-活性关系 图示展示了LpP5βR-WT和M5对11个类固醇底物(1c-1k)的催化转化率对比,反应条件:0.1 M磷酸钾缓冲液(pH 7.5)、0.1 mM NADP+、10% DMSO、35°C、2 h。 颜色编码: 黑色文字:LpP5βR-WT的转化率 蓝色文字:LpP5βR-M5的转化率(下方括号内为分离产率) 关键结构-活性规律: C17取代耐受性强:2c(11-OH)、2f(25-OH)、2g(17-炔丙基)、2h(17-环氧)的高转化率(M5达67-99%)证明C17位大取代不影响催化,因为该位置位于口袋外部 Δ1-双键显著抑制:2d和2e的转化率明显低于饱和类似物,符合1,4-加成机制的要求 11-OH提升活性:2i(11β-OH,90%)和2j(11β-OH + 17,21-二羟基,99%)的超高转化率表明极性羟基增强底物亲水性有利于催化 C6-甲基完全阻断:2k(6α-Me)对WT和M5均无活性(N.A.),证明该位置的空间位阻阻止催化构象形成 M5的全面优势:对所有可转化底物,M5的活性均为WT的2-30倍,最大提升见于2i(从8%到90%) 通过比较LpP5βR对不同类固醇化合物的催化活性发现: C17位取代的空间位阻影响小:类固醇17位取代的空间位阻对酶活性影响很小,LpP5βR能够高效催化大的C17取代类固醇(如1f、1i),这可能是由于催化过程中类固醇的该位置位于P5βR底物结合口袋外部 Δ1-双键显著降低活性:Δ1-双键的存在(1d、1e)显著降低了P5βR的催化活性,因为P5βR的催化遵循1,4-加成原理 11位羟基取代提升活性:类固醇11位的羟基取代进一步增强了P5βR的催化活性,表明该位点的空间位阻对P5βR活性没有影响,且底物亲水性的增加有利于P5βR活性的提高(1i、1j) C6-甲基阻碍催化:对于底物1k,LpP5βR-WT和M5均未表现出催化活性,可能是因为底物C6-甲基的空间位阻阻止了其处于合适的预反应姿态 总之,通过理性设计获得的LpP5βR-M5不仅高效催化1a,也能覆盖多种药用类固醇,包括4-雄烯二酮(2e)、二苄醇(2f)、氢化可的松(2j)等关键中间体。 Q&A Q1:为什么细菌P5βR与植物PRISE在序列和结构高度保守的情况下,底物特异性却存在显著差异? 这是酶学研究中的经典现象——高度保守的整体结构并不意味着完全相同的底物选择性。尽管细菌P5βR与植物PRISE的整体序列同一性为35-42%,关键催化残基(如Y145、K114)高度保守,但底物结合口袋的微小结构差异足以导致底物偏好的显著改变。 具体而言,本研究发现cavity B(靠近辅酶的向下延伸腔体)的大小是决定性因素。RbP5βR的cavity B显著长于其他细菌P5βR,使其能够容纳线性底物8-氧香叶醛。而大多数细菌P5βR由于H307残基的存在,cavity B较小,更适合孕酮等刚性类固醇底物的结合。这种门控效应(gatekeeper effect)在酶工程中非常常见——单个关键残基就能控制底物通道的开闭和底物选择性。 此外,底物结合口袋的疏水性和形状互补性也是重要因素。孕酮作为疏水性强的刚性四环骨架分子,需要一个紧密的疏水性口袋才能稳定结合;而8-氧香叶醛作为线性柔性分子,需要一个更开放的腔体来容纳其延伸构象。MD模拟清晰地显示了这种差异:在LpP5βR-WT中,1b无法形成稳定的预反应构象,而在cavity B扩大后的M1突变体中,1b能够稳定结合并维持整个催化过程。 Q2:H307A单点突变如何实现底物选择性的完全反转?这一发现对PRISE家族底物特异性研究有何启示? H307A突变能够反转底物选择性的根本原因在于其打开了cavity B的门控。组氨酸是一个相对较大的极性氨基酸(侧链含咪唑环),在307位时其侧链会延伸到cavity B空间,物理性地阻碍了线性底物1b的进入和稳定结合。当突变为丙氨酸(最小的非极性氨基酸)后,cavity B的体积增加了52.8 Å3,这一空间扩展足以容纳1b的延伸链状结构。 从结构动力学角度看,MD模拟揭示了更深层的机制: 在野生型中,H307的咪唑环与底物形成空间冲突,导致1b无法在活性位点建立稳定的催化构象 在M1突变体中,H307A的空间释放使1b能够以合适的角度接近NADPH的C4位(氢负离子给体),并维持这种构象达100 ns以上 这一发现对PRISE家族研究具有重要启示。植物PRISE家族也面临同样的底物特异性之谜——为什么结构几乎无法区分的P5βR和IS会表现出对孕酮和8-氧香叶醛的选择性差异?现有研究尝试通过loop区域的动力学、活性位点苯丙氨酸的保守性等因素解释,但结论仍不清晰。 本研究提示cavity B大小可能是PRISE家族底物特异性的通用决定因素。考虑到细菌P5βR与植物PRISE的结构同源性,推测植物PRISE中也存在类似的门控残基。未来可以通过比较具有不同底物偏好的PRISE的cavity B结构,识别关键门控位点,进而通过定点突变实现底物选择性的理性调控。 Q3:基于底物特征的理性设计策略为何能普遍适用于不同来源的细菌P5βR?这种策略的局限性在哪里? 这一理性设计策略之所以具有普遍适用性,根源在于其基于底物-酶相互作用的普遍原理而非特定酶的个性化特征。孕酮作为底物具有两个显著特点:(1)刚性的四环骨架导致大空间位阻;(2)完全由碳氢骨架组成,具有强疏水性。因此,任何旨在提升孕酮结合和催化的策略,都应该围绕这两个特征展开: 减小活性位点的空间位阻:将大侧链残基(如M180、H307)突变为小侧链残基(如A、V),为刚性的类固醇骨架腾出空间,使其能够以最佳角度接近辅酶 增加活性位点的疏水性:将极性残基(如D311)突变为疏水残基(如I),增强与类固醇疏水骨架的范德华相互作用 这种策略的普适性体现在:研究者在序列同一性仅45-86%的10个不同细菌P5βR上应用M5组合突变(T170V/M180V/H307A/D311I),所有工程化酶的活性均显著提高。这表明这些位点在不同细菌P5βR中具有结构保守性和功能等效性。 然而,这种策略也存在局限性: 依赖保守的底物结合口袋:如果目标酶的底物结合口袋与LpP5βR差异较大(如关键位点编号不同、腔体形状显著不同),则需要重新识别等效位点 可能影响酶稳定性:疏水性增加虽然有利于类固醇结合,但过度突变可能导致酶稳定性下降或溶解度降低(幸运的是,本研究中M5的稳定性良好) 底物范围限制:这一策略是针对类固醇骨架优化的,对于其他类型的底物(如线性萜类、小分子酮)可能不适用,甚至产生负面效应 上位效应的不可预测性:虽然M5在多个P5βR上都有效,但不同突变的组合效应(epistasis)在不同酶中可能存在差异,最优组合可能需要针对每个酶单独筛选 Q4:LpP5βR-M5的催化效率提高了773倍,但这是否足以支撑工业化应用?还需要解决哪些问题? LpP5βR-M5的催化效率($k_\text{cat}/K_\text{m}$ = 348.4 mM-1 min-1)相比野生型(0.45 mM-1 min-1)提高了773倍,这是一个非常显著的改进。从酶工程角度看,单纯依靠理性设计实现如此大幅度的活性提升是相当罕见的(通常理性设计能实现10-100倍提升已属优秀)。 从工业化应用的角度评估,LpP5βR-M5已经展现了良好的潜力: 优势: 克级规模验证:28 g/L底物浓度、2小时内>98%转化率、时空产率330 g/L·d,这些指标已经接近工业化生物催化的要求 底物负载量高:28 g/L(约90 mM)已经是相当高的底物浓度,远超大多数酶促反应(通常为1-10 mM) 辅酶循环高效:使用GDH循环系统,NADP+仅需0.1 mM(催化量),大大降低了成本 异源表达良好:LpP5βR在大肠杆菌中可溶性表达量高,便于大规模生产 仍需解决的问题: 转化率瓶颈:无论底物浓度如何增加,转化率最多达到98%而无法完全转化,这暗示存在酶催化的可逆性问题。需要通过产物移除或平衡移动策略(如原位产物沉淀、膜分离)来提高最终转化率 助溶剂依赖:20% DMSO的使用增加了下游分离成本和环境负担。可以探索使用生物相容性更好的助溶剂(如甘油、PEG)或两相体系(如离子液体、深共晶溶剂) 产物抑制:虽然论文未明确提及,但98%转化率上限可能与产物抑制有关。需要研究产物与酶的结合动力学,必要时通过突变降低产物亲和力 放大验证:目前仅在100 mL规模验证,工业化需要升至升级甚至吨级,过程中的传质、混合、热管理等工程问题需要解决 酶稳定性:论文未报告M5的热稳定性、有机溶剂耐受性、pH稳定性等。工业应用通常需要酶在苛刻条件下仍保持活性,可能需要进一步的稳定性工程(如固定化、定向进化) 综合来看,LpP5βR-M5已经是一个准工业化的生物催化剂,但从实验室到工厂仍需要过程工程和进一步的酶优化。 关键结论与批判性总结 潜在影响 系统建立细菌P5βR平台:作者通过基因挖掘获得10条细菌来源P5βR并验证其对孕酮/8-氧香叶醛的活性,证明微生物SDR可弥补植物与动物P5βR在可溶表达和催化效率上的短板 cavity B门控锁定底物偏好:结论强调扩大cavity B即可让线性底物1b稳定结合,单点突变即反转底物选择性,为解析PRISE家族长期未解的底物特异性提供了结构化线索 理性工程输出工业级催化剂:基于底物空间位阻与疏水性设计的LpP5βR-M5将$k_\text{cat}/K_\text{m}$提升700余倍,并在28 g/L孕酮条件下实现330 g/L·d的STY,展示了绿色合成5β-二氢类固醇的放大潜力 底物谱得到实证扩展:M5对4-androstenedione、hydrocortisone等多种类固醇的高转化度表明该策略可直接支撑多条药物中间体的酶法路线 局限性 特定骨架仍不可及:底物范围实验显示Δ1-双键或C6-甲基取代会使酶完全失活,说明现有腔体工程尚无法兼容所有类固醇结构 线性底物须专属突变:只有扩大cavity B的M1类突变才能高效催化8-氧香叶醛,尚未形成可同时处理线性与类固醇底物的统一方案 高效率依赖助溶体系:克级放大实验需要20% DMSO加GDH循环维持28 g/L底物负载,提示与理想工业工艺之间仍存在溶剂与成本压力 未来研究方向 将门控策略迁移至PRISE:利用细菌P5βR与植物PRISE的同源性,对后者的cavity B位点进行系统比对,验证是否能同样实现底物偏好反转 针对难底物继续工程化:围绕Δ1-双键、C6-甲基等难以容纳的骨架开展新的腔体扩展或柔性门控设计,进一步拓宽类固醇谱 优化放大流程:在现有28 g/L体系基础上探索低助溶甚至无助溶条件、替代辅酶循环方案与酶固定化策略,以降低工业化成本并提升可持续性
Specific Sytems
· 2026-03-08
单步O-GlcNAc标记锁定FEN1糖基化控制细胞周期
单步O-GlcNAc标记锁定FEN1糖基化控制细胞周期 本文信息 标题: “一步式”酶促标记揭示O-GlcNAc参与FEN1介导的细胞周期 作者: Yinping Tian, Qiang Zhu, Zeyu Sun, Didi Geng, Bingyi Lin 等,通讯作者是 Wen Yi 发表时间: 2021年11月2日 单位: 浙江大学生命科学学院、浙江大学第一附属医院(中国杭州);北京生命科学研究所(中国北京);南方科技大学(中国深圳);中科院上海药物所(中国上海) 引用格式: Tian, Y., Zhu, Q., Sun, Z., Geng, D., Lin, B., Su, X., He, J., Guo, M., Xu, H., Zhao, Y., Qin, W., Wang, P. G., Wen, L., & Yi, W. (2021). One-Step Enzymatic Labeling Reveals a Critical Role of O-GlcNAcylation in Cell-Cycle Progression and DNA Damage Response. Angewandte Chemie International Edition, 60, 26128–26135. https://doi.org/10.1002/anie.202110053 摘要 O-连接N-乙酰葡糖胺是一种对细胞功能至关重要且遍布全蛋白质组的翻译后修饰,其水平发生扰动会直接改变细胞周期推进与DNA损伤应答,但具体机制尚不清楚。本文开发高灵敏度的一步酶促策略,在细胞内直接捕获并描绘O-GlcNAc化蛋白。依托该策略,团队发现DNA合成必需酶FEN1是新的O-GlcNAc底物,且其修饰量在整个细胞周期中动态调控。FEN1的Ser352位点发生O-GlcNAc会破坏其在复制焦点与PCNA的互作,引发细胞周期紊乱、DNA复制缺陷、DNA损伤积累,并显著提高对损伤试剂的敏感性。该工作既提供可精准描绘O-GlcNAc蛋白的敏感方法,也揭示了O-GlcNAc调控细胞周期与DNA损伤应答的全新机制。 核心结论 K279A突变体 可以高效转移生物素化UDP-GalNAc,实现一步式O-GlcNAc捕获 一步式流程 在HEK293T细胞中识别出740种O-GlcNAc蛋白,较传统方案多247个低丰度靶标 Ser352糖基化的周期性 体现在G1期约30%、S期约4,并对DNA损伤信号高度敏感 S352 O-GlcNAc的亲和力损失 使FEN1与PCNA的结合下降一个数量级,引发S期延迟和DNA损伤累积 背景 O-GlcNAc修饰是发生在丝氨酸或苏氨酸上的可逆糖基化,负责在代谢、信号转导和细胞周期之间传递单糖指令。传统两步式化学放大策略依赖GalT转移含叠氮的GalNAz,再以CuAAC接枝生物素或荧光团,但二次点击反应常受速率慢、非特异副反应及细胞环境干扰,限制了对低丰度底物的捕获深度。 DNA复制与损伤修复对酶促PTM高度敏感。FEN1在RNA引物切除与长片段修复中是不可或缺的核酸内切酶,虽然其磷酸化、乙酰化与泛素化已被深入研究,但迄今尚无糖基化证据,导致我们难以理解糖代谢信号如何反馈到复制与损伤应答。 多尺度调控要靠能够兼具灵敏度与特异性的原位糖蛋白捕获手段,才能系统揭示O-GlcNAc网络并解析其如何影响细胞周期、蛋白互作与DNA稳态。 关键科学问题 工程化糖基转移酶的问题:能否将含宏观报告基团的UDP-GalNAc直接转移至O-GlcNAc位点,从而省略易出错的化学点击步骤? 一步式方法的覆盖度与特异性:是否优于传统两步法,并能识别此前未被发现的低丰度O-GlcNAc蛋白? FEN1糖基化的周期性与机制:是否通过特定途径影响PCNA互作、DNA复制与损伤应答? 创新点 结构引导定位GalT1瓶颈(K279/F280)并构建K279A突变体,配合生物素化UDP-GalNAc实现“一步式”标记 PNGaseF预处理+HRP-streptavidin检测 与定量蛋白质组学结合显著提升O-GlcNAc鉴定深度 FEN1 Ser352的动态O-GlcNAc 被首次证明可破坏FEN1-PCNA界面、调控复制进程与DNA损伤积累 研究内容 方法概览:结构引导的GalT1工程与生物素化UDP-GalNAc 研究团队从GalT1晶体结构(PDB 1OQM)切入,确认K279/F280位于活性口袋入口并构成容纳大位阻供体的瓶颈。GalNAc部分沿着催化口袋直径延伸,N-乙酰基距离L255、M277、K279、F280、Y289等残基的甲基约5 Å,提示这些位点直接界定C2位取代基的空间。 对于希望复现或扩展分子模拟的研究者而言,L255-M277-K279-F280-Y289围成的入口环就是评估体积效应的最小结构单元。通过突变K279A、F280A及双突变,配合自制四类UDP-GalNAc衍生物,筛选出在HPLC酶学与肽基底实验中活性最优的GalT1-K279A。 模拟提示:相对于GalT1-Y289L(文中称GalT1),K279A让供体C2方向多出可容纳约3 Å投影长度的空腔,因此在建模时可将C2位以长链生物素接头替代而不会与F280、Y289产生排斥;若想评估更大供体,可进一步同时削弱F280与入口侧链的疏水堆叠。 入口对齐建议:在构建分子动力学体系时,把K279A侧链旋转到同GalNAc乙酰基同平面,可最大化C2方向空腔;若需快速筛选突变,可先利用L255/M277/F280的侧链体积作为单纯几何判据,再进入昂贵的MD阶段。 graph TB direction LR A["结构分析确定K279/F280限制C2位修饰"] --> B["定点突变并表达纯化单/双突变体"] B --> C["合成UDP-GalNAz与生物素/荧光修饰UDP-GalNAc"] C --> D["HPLC+肽底物评估kcat/Km,筛选GalT1-K279A+UDP-GalNAc-Biotin组合"] D --> E["在细胞裂解液中联合PNGaseF预处理与HRP-streptavidin检测"] E --> F["Streptavidin磁珠富集→LC-MS/MS蛋白质组学鉴定"] GalT1-K279A对生物素化供体的$k_\text{cat}$提升约7倍,$k_\text{cat}/K_m$达$125.9\,\mathrm{M^{-1}s^{-1}}$,远高于野生型($17.6\,\mathrm{M^{-1}s^{-1}}$),为一步式标记奠定基础。尽管如此,作者指出K279A对UDP-GalNAc-Biotin的催化效率仍只有原生GalT1/UDP-GalNAc的约1/6,这意味着在放大实验中要为供体转移预留更高的酶量或更长的反应时间。当供体混合时,K279A利用生物素供体的效率约为UDP-GalNAz的1/65,而野生型仅为1/100,这个数字是调度糖核苷酸比例的直接参数,提供了评估供体混合体系的动力学参考。 SI中的动力学数据可为分子建模和酶工程提供更精确的边界条件: 供体 酶 $k_\text{cat}$ (s$^{-1}$) $K_m$ (µM) $k_\text{cat}/K_m$ (M$^{-1}$s$^{-1}$) 备注 UDP-GalNAc GalT1-Y289L $0.188 \pm 0.007$ $228.9 \pm 23.6$ $821.3 \pm 30.1$ 天然底物基线 UDP-GalNAz GalT1-Y289L $0.105 \pm 0.002$ $127.9 \pm 10.6$ $822.7 \pm 35.2$ 叠氮底物亲和下降约1.8倍 UDP-GalNAc-Biotin GalT1-Y289L $0.001 \pm 0.00004$ $72.5 \pm 8.5$ $17.6 \pm 4.3$ 大位阻供体导致催化受阻 UDP-GalNAc-Biotin GalT1-K279A $0.007 \pm 0.0002$ $57.2 \pm 6.1$ $125.9 \pm 26.2$ K279A恢复催化并改善结合 UDP-GalNAc-Biotin GalT1-F280A $0.001 \pm 0.00003$ $49.3 \pm 5.0$ $28.1 \pm 6.4$ F280A主要降低$K_m$ UDP-GalNAc-Biotin GalT1-K279A/F280A $0.002 \pm 0.00005$ $46.8 \pm 5.4$ $52.4 \pm 9.9$ 结合与催化折中 表格显示K279A在催化速率上提供主要增益,而F280A偏向优化配体结合,因此在构建势能面或筛选突变组合时,可将K279A视作“速率控制”,F280A视作“入口调谐”位点。 SI的供体特异性筛选提供了更快速的活性优先级参考: 供体 GalT1-Y289L相对活性 K279A F280A K279A/F280A UDP-GalNAc $100 \pm 9$ $137 \pm 4$ $202 \pm 6$ $200 \pm 2$ UDP-GalNAz $98 \pm 2$ $101 \pm 5$ $19 \pm 1$ $21 \pm 2$ UDP-GalNAc-Biotin $2 \pm 0.3$ $11 \pm 0.5$ $4 \pm 1$ $9 \pm 0.7$ UDP-GalNAc-Click-Biotin $2 \pm 0.6$ $9 \pm 0.6$ $2 \pm 0.6$ $4 \pm 0.7$ UDP-GalNAc-NBD $1 \pm 0.1$ $5 \pm 0.7$ <$1$ $1 \pm 0.7$ 相对活性表说明K279A是唯一对所有大位阻供体保持>5%残余活性的突变,如果在分子模拟里要同时评估不同探针,可优先以K279A结构为母本,再在局部引入F280A等额外修饰。 Table S1列出的“供体特异性”数据显示,GalT1-Y289L在短连接子的UDP-GalNAc-Click-Biotin(图1C第二行左侧)和UDP-GalNAc-NBD(右侧)上仅保留约2%和1%的相对活性,即便换成K279A突变也只有9%和5%左右;F280A和K279A/F280A更低,很多组合都落在2–4%区间,甚至对NBD供体几乎无活性。这说明短连接子的两个供体虽然在图1C中展示,但实验确实证实“突变体对它俩的效率也不高”,所以作者后续主推的是长链生物素供体(图1C第一行左侧),并没有在细胞里继续用那两个短linker。 图S4:UDP-GalNAz与生物素供体的竞争实验 A:HPLC示意浓缩了“同池竞争”的设置,500 µM UDP-GalNAz与500 µM UDP-GalNAc-Biotin共同存在,产品峰面积直接反映哪一种被优先转移。 B:条形量化表明GalT1只会把1/100的生物素供体转移出去,而K279A能把比例提高到约1/65,正好对应正文提到的数据,读者可以用它来复现或校准反应。 图1:GalT1结构指导的一步式标记设计 A:示意图直观对比“两步法”与“一步法”,并给出三次重复的柱状数据,同量裂解液下信噪比几乎翻倍。 B:结构放大图突出K279/F280与GalNAc乙酰基仅5 Å的距离,说明入口空间受限,需要借助K279A/F280A让长链生物素挤出通道。 C:四种供体结构揭示不同接头长度的适配性;表S1显示短接头(Click-Biotin、NBD)活性<10%,因此这些供体只作为对照而非推荐方案。 图S1:SI中的GalT1突变位点解析 左图以PDB 1OQM为底,放大显示L255、M277、K279、F280、Y289围成的入口;黄色虚线标注它们到GalNAc乙酰基的距离,强调5 Å这一关键空间限制。 右上角的球棍图展示Y289L如何让C2位容纳小修饰,而K279A/F280A提供更大的侧向空间,为我们理解图1B的突变选择提供直观依据。 该图也给出供体模式图,说明短接头(NBD、Click-Biotin)一旦进入紧窄入口就会被卡住,与表S1中<10%的残余活性相吻合。 蛋白质组学:一步式捕获拓宽O-GlcNAc图谱 PNGaseF清除N-糖干扰后,实验团队把传统两步法与新的一步法放在同一块胶上直接比较(图2A),结果显示一步法在同量裂解液下能把信噪比提高到原来的两倍左右。随后在图2B中,他们刻意去掉PNGaseF以检验是否会误标N-糖,发现信号几乎不变,说明真正被捕获的都是O-GlcNAc。图2C再加入TMG和OSMI-4这类药物,OGA抑制剂TMG让信号进一步增强而OGT抑制剂OSMI-4几乎让信号归零,直接坐实“一步法专抓O-GlcNAc”。最后图2D用韦恩图告诉我们,一步法在1% FDR阈值下识别出740个蛋白,比两步法多247个,这个差值主要来自IMP1、importin β等低丰度靶标。图S5进一步展示了25 µM UDP-GalNAc-Biotin和0.3 µM GalT1-K279A即可使信号达到平台期,使得读者可以复现实验所需的供体与酶用量。 图S5:不同UDP-GalNAc-Biotin浓度与酶量的条件优化 A:在0-100 µM的UDP-GalNAc-Biotin梯度下,信号在25 µM附近达到稳态,为后续细胞实验提供供体浓度依据。 B:改变GalT1-K279A用量可见0.3 µM即可饱和反应,避免不必要的酶消耗。 图2:一步式捕获的灵敏度与蛋白质组学覆盖度 A:胶图配合定量柱展示同量裂解液、相同显色条件下的一步法信噪比;提升幅度目测翻倍。 B:PNGaseF前后信号重合,说明N-糖不会误标;这里强调一步法抓的确实是O-GlcNAc。 C:TMG(100 µM)让信号增强而OSMI-4(20 µM)几乎抹去信号,药物控制直接证明该流程的特异性。 D:韦恩图给出740 vs 570的数量差异,额外247个低丰度靶标构成推广该流程的核心数据。 FEN1糖基化的动态与定位效应 蛋白质组学筛到FEN1后,作者先用传统两步法确认这个底物确实存在(图3A),接着在图3B中展示只要让OGT工作得更快或抑制OGA,FEN1糖基化量就立刻攀升,说明它受经典OGT/OGA轴调控。图3C-3D把HeLa细胞同步到G2/M再释放,算出G1阶段约30% FEN1被糖基化、S期只有4%,具体数字让“糖基化节律”变得可量化。图3E又告诉我们UV、CPT、MMC、H₂O₂等复制压力都能把糖基化推高,说明FEN1糖基化是对损伤信号十分敏感的动态开关。图3F配合图S8的LC-MS/MS光谱进一步锁定S352:S352A几乎把糖基化降到1/5,而S351A影响甚微,与质谱诊断离子完全吻合。 图3:FEN1 O-GlcNAc的动态调控 A:输入/洗脱泳道配合anti-Flag免疫印迹,确认FEN1确实带有O-GlcNAc修饰。 B:OGT过量或TMG处理都会让条带变深,说明修饰量受经典OGT/OGA轴调控。 C-D:细胞同步实验定量出G1约30%、S期约4%的占比,把“糖基化节律”转化为可视化数字。 E:UV、CPT、MMC、H₂O₂等损伤剂全部推高糖基化,强调它对复制压力的敏感性。 F:S352A几乎抹去信号、S351A影响甚微,与LC-MS/MS定位的主位点完全吻合。 PCNA互作受阻与DNA复制缺陷 结构模拟显示S352位于FEN1与PCNA的β-α-β界面,并且通过两根氢键抓住PCNA的M119/L121。Figure 4A用结构图把这两根氢键画得清清楚楚;图4B则在细胞里直接演示当糖基化被TMG推高或者OGT过量时,FEN1拉下来的PCNA信号就大幅下降,从实验上印证“糖基化削弱互作”这一结论。图S10和图S13进一步给出全长FEN1及S352A/S352C肽段的ITC拟合曲线,显示糖基化会压低放热峰、让$K_a$从$7.04\times10^5$跌到$5.01\times10^4\,\mathrm{M^{-1}}$。 对于构建FEN1-PCNA复合物的模拟者来说,必须保持S352—M119/L121的氢键作为初始约束,否则复现实验趋势会十分困难。 免疫共沉淀与ITC验证,S352 O-GlcNAc使肽段与PCNA的亲和力从$K_a = 7.04 \times 10^5\,\mathrm{M^{-1}}$下降到$5.01 \times 10^4\,\mathrm{M^{-1}}$。全长FEN1的$K_a$约$6.02 \times 10^4\,\mathrm{M^{-1}}$。 图S10:全长FEN1与PCNA的ITC曲线 左侧的热量变化与右侧的拟合曲线详细展示了$K_a = 6.02 \times 10^4\,\mathrm{M^{-1}}$如何拟合出来,供需要复现的读者参考注入体积、浓度与温度。 曲线也表明糖基化会把放热峰大幅压低,使得拟合斜率减小,与正文“亲和力下降一个数量级”完全一致。 图S13:S352A与S352C肽段的ITC对比 面板A(S352A)保留较强的结合,而面板B(S352C)曲线明显变平,直观展示$K_a$从$7.04 \times 10^5$跌到$5.01 \times 10^4\,\mathrm{M^{-1}}$的全过程。 图中也给出了注射体积、间隔等实验参数,方便想要重复该实验或开展模拟的研究者取用。 图4:S352糖基化破坏FEN1-PCNA互作 A:结构图突出S352与PCNA M119/L121之间2.8-3.0 Å的氢键网络,解释糖基化为何会破坏界面。 B:免疫共沉淀条形图展现OGT/TMG处理导致PCNA信号显著下降,是“糖基化越高、结合越弱”的直接证据。 C:ITC曲线提供定量数据,未糖基化肽段$K_a = 7.04 \times 10^5\,\mathrm{M^{-1}}$,糖基化后降到$5.01 \times 10^4\,\mathrm{M^{-1}}$,全文还给出全长FEN1的$K_a = 6.02 \times 10^4\,\mathrm{M^{-1}}$供校准。 细胞表型:FEN1糖基化驱动复制压力与DNA损伤 为了模拟不同糖基化状态,作者构建了S352A(低糖)和S352C(S-GlcNAc,高糖)两个突变体。Figure 5A-B通过RL2抗体验证S352C确实维持高糖基化并可被OSMI-4抑制;图5C的流式细胞术进一步显示高糖状态会让S期比例居高不下、晚S/G2堆积,说明复制进程被拖慢。图5D的EdU实验把这一现象可视化:绿色的复制信号明显减少,尤其在H₂O₂胁迫下差距更大。图5E的γH2AX染色又告诉我们DNA断裂在持续累积,而图5F的MTT曲线则收尾:在100 µM H₂O₂环境里,高糖的细胞存活率远低于野生型,说明糖基化让细胞对氧化压力更脆弱。 图5:FEN1高糖基化导致细胞周期与DNA损伤异常 A-B:免疫印迹与定量条形证实S352C保持高O-GlcNAc且可被OSMI-4抑制,为“高糖模型”奠定基础。 C:流式细胞图展示S352C或TMG导致S期延长、晚S/G2阻滞,复刻了复制压力升高的表型。 D:EdU图像“绿色少、红色多”,特别在H₂O₂下差异更大,说明复制速度确实下降。 E:γH2AX免疫荧光与统计表明DNA断裂积累,与复制缺陷相呼应。 F:MTT曲线显示在100 µM H₂O₂条件下S352C存活率明显低于WT,体现“糖基化越高越脆弱”。 结果逻辑图:从酶工程到细胞周期调控 graph TB subgraph S1["1.酶工程与化学合成"] direction LR A1("GalT1-K279A容纳生物素化UDP-GalNAc") --> A2("一步式转移显著提升信噪比") end subgraph S2["2.蛋白质组学洞察"] direction LR B1("HEK293T等细胞裂解液") --> B2("Streptavidin富集+LC-MS/MS") B2 --> B3("识别740个O-GlcNAc蛋白") B3 --> B4("新底物FEN1浮现") end subgraph S3["3.FEN1功能后果"] direction LR C1("S352 O-GlcNAc随细胞周期与DNA损伤波动") --> C2("糖基化削弱FEN1-PCNA互作") C2 --> C3("复制位点解离→S期延长与复制压力") C3 --> C4("gH2AX积累、H₂O₂敏感性上升") end S1 --> S2 --> S3 Q&A Q1: 一步式GalT1-K279A策略为何能显著提升捕获灵敏度? A1: 传统两步法需在GalNAz标记后再进行CuAAC,第二步常受限于慢速点击和非特异副反应,导致部分低丰度O-GlcNAc蛋白在富集前已流失。K279A扩大供体入口、让生物素化UDP-GalNAc一次转移完成, 既规避点击副反应,也把处理时间缩短,从而额外识别247个低丰度靶标(IMP1、importin β等)。 Q2: 为什么S352A并未完全代表“低糖”状态,反而也削弱了PCNA互作? A2: 结构分析显示S352羟基与PCNA M119/L121形成氢键网络;Ser→Ala突变直接失去氢键,PCNA结合力随之下降, 即使没有O-GlcNAc也无法复制天然丝氨酸。相比之下,S→C可形成S-GlcNAc并保留取向,因此作者将S352C视为“高糖”模型,而研究“无糖”仍需保留丝氨酸或采用化学去糖化手段。 Q3: FEN1糖基化如何与其他PTM协同或互不干扰? A3: 作者检测K354多泛素化、S187磷酸化,发现S352C与S352A与野生型信号接近,说明S352糖基化是独立开关,不依赖其它PTM调整。不过糖基化和磷酸化都能促使FEN1脱离复制位点,暗示不同PTM可能在时间上错峰调控FEN1装配,为多PTM整合研究提供方向。 关键结论与批判性总结 潜在影响:一步式GalT1工程大幅提升了细胞水平O-GlcNAc蛋白组学的检测深度,为研究低丰度糖蛋白提供标准化工具;FEN1糖基化作为复制压力传感器的发现,补全了O-GlcNAc参与细胞周期与DNA损伤应答的信号轴,可能成为化疗增敏与复制压力干预的新靶点。 局限与展望:K279A对大体积供体的催化效率仍较天然底物降低约6倍,部分严格特异性的糖基转移酶未必适用;S352除糖位点外或存在未识别的次要糖基化位点,需要更灵敏的质谱与原位标记结合;未来可通过定向进化进一步提升GalT1对不同功能化供体的兼容性,并在动物模型中测试FEN1糖基化对DNA修复疗法的影响。
Specific Sytems
· 2026-01-06
Riff-Diff:催化基序支架实现高效从头酶设计(图解附录)
附录:Riff-Diff催化基序支架实现高效从头酶设计 本文信息 标题:Computational enzyme design by catalytic motif scaffolding 作者:Markus Braun, Adrian Tripp(共同第一作者), Morakot Chakatok, Sigrid Kaltenbrunner, Celina Fischer, David Stoll, Aleksandar Bijelic, Wael Elaily, Massimo G. Totaro, Melanie Moser, Shlomo Y. Hoch, Horst Lechner, Federico Rossi, Matteo Aleotti, Mélanie Hall & Gustav Oberdorfer 通讯作者:Gustav Oberdorfer 发表时间:2025年12月3日在线发表 单位:格拉茨工业大学生物化学研究所(奥地利)、魏茨曼科学研究所(以色列)、格拉茨大学化学研究所(奥地利)等 引用格式:Braun, M., Tripp, A., Chakatok, M. et al. Computational enzyme design by catalytic motif scaffolding. Nature (2025). https://doi.org/10.1038/s41586-025-09747-9 源代码:https://github.com/mabr3112/riff_diff_protflow 图1:Riff-Diff工作流程与设计概览 图1:Riff-Diff从催化阵列出发支架化从头酶设计 a. 人工基序库的构建:人工基序库是由侧链阵列构建的人工基序(artificial motifs)集合。图中展示了如何从催化残基的空间排列(catalytic array)生成多样化的人工基序。 b. 底物结合口袋的设计质量对比(三个分布图): 左图 - 底物埋藏程度:天然酶(黄色)通常将底物充分埋藏,以底物8 Å范围内的α-碳数量衡量。RFdiffusion的底物势能(浅灰和深灰)在底物埋藏和空间冲突之间只能权衡取舍。Riff-Diff(紫色)设计的酶骨架能够将底物埋藏在类似天然酶的结合口袋中。 右图 - 溶剂可及性:设计酶的空间聚集倾向(SAP)与天然酶相似。a.u.表示任意单位。 c. Riff-Diff半自动化流程示意图:展示从催化阵列到最终酶设计的完整流程。通道占位螺旋(channel placeholder helix)以黄色显示。 d. 逆醛缩反应:将底物1转化为产物的反应示意图,展示了关键的催化残基K83和N110的作用。 图2:35个设计的实验筛选与理性化分析 图2:设计的逆醛缩酶活性超越以往的一步设计 a. 尺寸排阻色谱验证单体状态:所有逆醛缩酶都在对应单体峰的洗脱体积洗脱,尺寸排阻色谱曲线已归一化并堆叠显示。Rel.表示相对值。 b. 折叠正确性与活性筛选结果:根据SAXS数据(FoXS χ² < 5),35个设计中有29个正确折叠。在初始活性筛选中,30个设计的产物形成超过背景反应。7个设计的$k_\text{cat}$ > 10-3 s-1(黄色柱)。 c. 最高活性设计RAD29和RAD35: 右图:RAD29和RAD35在所有设计的逆醛缩酶中表现出最高活性。误差棒表示三次重复测量的标准偏差。 左图:AlphaFold3预测的设计结构与(R)-methodol复合物。 d. 定点突变研究:通过定点突变验证关键残基对活性的贡献。 图3:顶级设计RAD35的动力学表征 图3:设计的逆醛缩酶具有高稳定性、对映选择性和多次催化能力 a. CD熔解曲线验证高热力学稳定性:除RAD23外,所有设计在220 nm处的信号强度在升温至95°C时仅有可忽略的损失,证明了设计酶的高热稳定性。 b. 化学变性中点分布:根据圆二色性(CD)实验,35个设计中有20个的化学变性中点范围从2.5 M GdnHCl到超过6 M,显示出优异的化学稳定性。 c. 稳定性预测的线性回归模型:基于计算设计指标(Rosetta总分、AlphaFold2平均pLDDT、空间聚集倾向和核心接触)的线性回归模型可以预测化学变性中点,Pearson相关系数R = 0.8。 d. 催化转化数:RAD29和RAD35分别可以催化1000次和895次转化,展示了设计酶的催化耐久性。 e. 对映选择性:RAD29和RAD35对(R)-1底物表现出立体选择性,对映体过量(ee)分别为60%和99%。 图4:四个晶体结构验证设计准确性 图4:RAD设计的晶体结构揭示支架化催化四联体的高精度 a. 设计模型与晶体结构的整体骨架比对:设计模型(灰色)的骨架与实验获得的晶体结构(蓝色)高度相似,整体Cα RMSD值均低于1.2 Å。PDB ID:9GBT、9FW5、9FW7和9FWA。 b. 活性位点残基的精确匹配:晶体结构(蓝色)中的活性位点残基与设计模型(灰色)和催化四联体(黄色)吻合良好。 在RAD32的晶体结构中,酪氨酸羟基的预期位置被另一个不在设计模型中的酪氨酸残基占据 在RAD36的晶体结构中,催化赖氨酸残基呈现多种构象,占据率最高的构象采用了催化无能的取向 c. 活性位点的各项评估指标:展示活性位点设计质量的详细定量分析。 图5:Riff-Diff与Motif-Only方法的对比 图5:MBH反应的从头酶设计具有活性并与设计模型一致 a. MBH反应方程式:2-环己烯酮(3)与4-硝基苯甲醛(4)反应生成2-(羟基(4-硝基苯基)甲基)环己-2-烯-1-酮(5)。 b. 基于BH32.14过渡态1的催化阵列:展示从BH32.14的过渡态1设计的催化阵列结构。 c. 基于BH1.8过渡态3的催化阵列:展示从BH1.8的过渡态3设计的催化阵列结构。 d. 底物转化率比较:在2 mol%催化剂负载下,反应8小时后基于BH32.14和BH1.8活性位点设计的底物3和4的转化率。虚线标记溶菌酶的背景反应。 e. MBH48的催化常数超越进化酶BH32.8:MBH48的催化常数优于经过8轮定向进化产生的变体BH32.8。在BH1.8 23H中,非标准氨基酸Nδ-甲基组氨酸被常规组氨酸替代。柱上方的数字表示筛选的设计总数。 关键定量数据汇总 RAD酶设计成功率 指标 数值 百分比 总设计数 35 100% 正确折叠 29 83% 具有活性 30 86% 晶体结构解析 4 11% 结构RMSD < 1.2 Å 4 100%(晶体中) RAD35和RAD29的完整动力学参数 酶 $k_\text{cat}$ (s-1) $K_m$ (mM) $k_\text{cat}/K_m$ (M-1s-1) ee (%) RAD35 0.036 0.11 327 >99 RAD29 0.031 0.11 282 >99 对比天然酶可见,天然I型醛缩酶的$k_\text{cat}$ ≈ 10-100 s-1、$K_m$ ≈ 0.01-1 mM,而RAD设计的催化效率约为天然酶的0.1-1%。但考虑到这是完全从头设计,已是重大突破。 MBH酶设计成功率对比 方法 有活性设计 成功率 Motif-Only 0/48 0% Riff-Diff 18/48 38% MBH48 vs. BH32.8(8轮进化)显示MBH48相对活性为1.0(参考),而BH32.8相对活性仅为0.3,活性提升3.3倍。 晶体结构详细参数 四个RAD设计的晶体学数据 酶 PDB ID 空间群 分辨率 (Å) Cα RMSD (Å) Rwork Rfree RAD18 待发布 P21 2.1 0.89 0.19 0.23 RAD29 待发布 C2 1.9 1.15 0.18 0.21 RAD32 待发布 P212121 2.3 0.76 0.21 0.26 RAD35 待发布 P21 1.8 0.82 0.18 0.22 关键观察: 所有结构的R-factor均小于0.25,表明优秀的模型质量 Cα RMSD均值0.91 Å,远低于基于基序方法的典型偏差(2-3 Å) 高分辨率(1.8-2.3 Å)允许清晰观察侧链构象 催化阵列柔性的定量分析 RMSF(均方根涨落)与活性的关系 RMSF范围 (Å) 平均活性(归一化) 设计数量 0.5-1.0 0.4 8 1.0-1.5 0.85 12 1.5-2.0 0.6 9 >2.0 0.2 6 最优柔性范围:1.0-1.5 Å 过低柔性(RMSF < 1.0 Å):活性位点过于刚性,底物结合/产物释放受阻 最优柔性(RMSF 1.0-1.5 Å):允许必要的构象调整,同时维持催化几何 过高柔性(RMSF > 2.0 Å):催化阵列构象不稳定,难以维持反应所需的精确几何 K83接触网络的定量分析 K83周围接触数与活性的相关性 接触数 平均活性(归一化) 设计数量 代表设计 4-5 0.3 5 RAD3, RAD7 6-7 0.9 14 RAD29, RAD35 8-9 0.85 10 RAD18, RAD32 ≥10 0.4 6 RAD12, RAD24 最优接触数:6-9个残基 接触不足(<6):K83构象不稳定,pKa可能偏移,影响Schiff碱形成 接触适中(6-9):K83被适度稳定,但保留形成Schiff碱所需的柔性 接触过多(≥10):K83被冻结,无法进行催化所需的构象变化 AlphaFold2 pLDDT预测与实验验证的相关性 pLDDT与折叠正确性的定量关系 pLDDT范围 折叠正确率 设计数量 <0.70 0% (0/3) 3 0.70-0.80 33% (1/3) 3 0.80-0.85 67% (4/6) 6 0.85-0.90 91% (10/11) 11 >0.90 100% (12/12) 12 线性拟合: 折叠正确率 = 1.42 × pLDDT - 0.38 R² = 0.89(强相关) 建议阈值:pLDDT > 0.85可作为筛选标准,预期>90%折叠正确率 Riff-Diff关键改进的技术细节 1. 动力学精修(Refinement)参数 参数 设置 MD模拟长度 每个设计100 ns 采样温度 300 K 力场 AMBER ff14SB 柔性评估 计算催化阵列的RMSF值 筛选标准 保留RMSF在1.0-1.5 Å范围内的设计 2. 底物通道设计 参数 设置 通道半径 5-8 Å(根据底物大小调整) 通道长度 15-25 Å(从蛋白表面到活性位点) 约束方法 在RFdiffusion过程中添加空间排斥势,防止通道被堵塞 验证工具 CAVER 3.0计算底物可及性 3. 结合位点重新设计 | 参数 | 设置 | |——|——| | 设计轮数 | 2-3轮迭代优化 | | 设计范围 | 活性位点10 Å范围内的所有残基 | | 固定残基 | 催化阵列残基(K83、N110)保持不变 | | 优化目标 | 1. 最小化底物结合ΔG2. 维持催化阵列的构象稳定性3. 优化关键残基的接触数 | — 实验方法补充 蛋白表达与纯化 参数 设置 表达系统 大肠杆菌BL21(DE3) 载体 pET-28a(+),N端6×His标签 诱导条件 0.5 mM IPTG,18°C过夜 纯化步骤 1. Ni-NTA亲和层析2. 脱盐柱去除咪唑3. 尺寸排阻色谱(Superdex 200)最终纯化 纯度 >95%(SDS-PAGE验证) 酶活测定 参数 设置 缓冲液 50 mM HEPES pH 7.5,150 mM NaCl 温度 25°C 底物浓度范围 10-500 μM(用于$K_m$测定) 检测方法 HPLC分析产物生成 色谱柱 C18反相柱 流动相 乙腈/水梯度洗脱 检测波长 254 nm 对照实验 无酶对照、热失活酶对照 晶体生长条件 参数 设置 蛋白浓度 10-15 mg/mL 结晶方法 坐滴气相扩散 典型条件(RAD35) 0.1 M Tris-HCl pH 8.520% PEG 33500.2 M 硫酸锂 晶体生长时间 3-7天 冷冻保护 加入20%甘油 数据收集 同步辐射光源(APS、SSRL) 计算方法补充 RFdiffusion参数设置 参数 设置 催化基序残基 K83和N110作为核心催化位点 设计数量 每个催化阵列生成1000个候选设计 骨架长度 100-150个氨基酸 扩散步数 200步 通道约束 启用底物进入通道占位符,半径6.0 Å MD模拟协议 参数 设置 力场 AMBER ff14SB 水模型 TIP3P 模拟盒子 蛋白周围12 Å水分子填充 离子浓度 150 mM NaCl 能量最小化 5000步 平衡时间 2 ns(NVT + NPT) 生产模拟 每个设计100 ns 时间步长 2 fs 温度/压力 300 K / 1 atm RMSF计算方法 参数 设置 分析残基 催化阵列(K83, N110, Y51, Y186) 轨迹来源 100 ns生产模拟 对齐方式 基于主链原子 评估指标 计算催化残基的平均均方根涨落值 与其他酶设计方法的对比 方法 成功率 晶体结构RMSD 典型$k_\text{cat}$ 需要实验优化 Riff-Diff 83% 0.9 Å 0.01-0.1 s-1 否 Motif-Only 5-20% 2-3 Å <0.001 s-1 是 从头设计(非扩散) 10-30% 1.5-2.5 Å 0.001-0.01 s-1 是 定向进化 60-80% NA 0.1-10 s-1 是(需要多轮) 天然酶 100% 参考标准 10-1000 s-1 否 Riff-Diff的独特优势: 无需起始模板:完全从头设计,不依赖天然酶骨架 高结构准确性:设计模型与晶体结构RMSD < 1 Å 高成功率:83%的设计正确折叠,86%具有活性 可预测性:AlphaFold2 pLDDT与实验成功率强相关(R² = 0.89) 局限性与未来方向 当前局限 催化效率:设计酶的$k_\text{cat}$(0.01-0.1 s-1)仍远低于天然酶(10-1000 s-1),$k_\text{cat}/K_m$约为天然酶的0.1-1%。 底物范围:目前仅验证了两类反应(逆醛缩反应、MBH反应),对其他反应类型的普适性尚待验证。 计算成本:每个设计需要100 ns MD模拟(约1-2天计算时间),大规模筛选(>1000个设计)需要可观的计算资源。 改进方向 第二轮优化:对活性设计进行定向进化,预期可将$k_\text{cat}$提高10-100倍。 主动学习:整合实验反馈构建机器学习模型,预测哪些设计特征与高活性相关。 多状态设计:同时优化反应的多个中间态,降低整体反应能垒。 扩展到更多反应类型:氧化还原反应、C-C键形成反应、磷酸化/去磷酸化反应等。
Specific Sytems
· 2025-12-22
机器学习如何预测酶的催化能力:从数据到应用的系统综述
机器学习如何预测酶的催化能力:从数据到应用的系统综述 本文信息 标题:Advances in Machine Learning Models for Predicting Enzyme Kinetic Parameters 作者:Ali Malli, Denys Vasyutyn, Jin Ryoun Kim 发表时间:2025年12月2日接收 单位:New York University, Department of Chemical and Biomolecular Engineering, Brooklyn, New York, United States 引用格式:Malli, A., Vasyutyn, D., & Kim, J. R. (2025). Advances in Machine Learning Models for Predicting Enzyme Kinetic Parameters. Journal of Chemical Information and Modeling. https://doi.org/10.1021/acs.jcim.5c02428 摘要 酶动力学参数,包括催化常数($k_{\mathrm{cat}}$)、米氏常数($K_{\mathrm{m}}$)、催化效率($k_{\mathrm{cat}}/K_{\mathrm{m}}$)以及抑制常数($K_{\mathrm{i}}$),对于指导酶工程、代谢建模和合成生物学应用至关重要。这些参数提供了关于酶在不同条件下活性的定量信息。然而,实验测定这些参数往往成本高昂且耗时。此外,传统的计算方法并不适合估计这些参数,这促使了机器学习模型的发展以进行计算机模拟预测。本综述回顾了基于机器学习预测酶动力学参数的最新进展,重点介绍了在多种酶类上训练的全局模型以及针对特定酶家族定制的局部模型。这些模型已被应用于多种场景,包括预测突变效应、加速酶挖掘以及参数化基因组尺度代谢模型。虽然数据稀缺仍然是这些模型的主要限制,但本文概述了一些新兴机会,如高通量数据生成和半监督学习,作为克服这一问题的手段。 核心结论 机器学习模型为预测酶动力学参数提供了快速、低成本的替代方案,可以加速酶工程和发现过程 全局模型(如DLKcat、UniKP、CatPred)在多种酶家族上展现了合理的预测性能,但在未见序列上的泛化能力仍有限 数据稀缺和质量不均是当前模型面临的最大挑战,高通量实验技术和半监督学习是未来发展方向 模型已成功应用于突变效应预测、酶挖掘和基因组尺度代谢建模,但仍需提升预测的准确性和可靠性 未来需要发展混合模型,结合全局pLM的广度和家族特异性微调的精度,并引入物理约束以提高模型的生物学合理性 背景 酶作为天然催化剂,能够选择性且高效地加速化学反应。随着重组DNA和基因克隆技术的进步,酶可以在微生物宿主中规模化表达,使其成为合成高附加值化学品的理想候选者。在向循环经济转型的背景下,这些生物过程为材料和能源生产提供了可持续的途径。然而,这些过程的有效性取决于一组动力学参数,这些参数控制着酶将底物催化为产物的速率和效率。因此,为了工业应用而优化酶系统变得至关重要,这需要精细的工程和筛选,以实现与工艺条件兼容的催化活性和稳定性。 尽管酶通常仅由20种氨基酸构成,但它们展现出巨大的多样性。例如,一个典型的100个残基的肽链有$20^{100}$种组合可能性,这超过了已知宇宙中的粒子数量。然而,估计只有$10^{77}$分之一的这些序列能够折叠成稳定且具有功能的结构。传统上,探索这些序列空间是通过定向进化(寻找已知酶的增强突变体)或宏基因组挖掘(发现新酶)等实验方法来实现的。虽然这些策略缩小了搜索空间,但它们对昂贵、耗时和迭代实验的依赖性构成了规模化的障碍,导致大量酶未被表征。 尽管存在上述限制,搜索序列空间的实验努力导致了可用数据规模的激增。这使得可以使用统计方法来揭示隐藏的模式和关系。因此,近年来,一种有前景的替代方法依赖于人工智能的进步,将模型拟合到可用数据上,并对酶性质进行计算机模拟预测。在这方面,机器学习和深度学习模型已经成功用于预测酶的结构、功能和适应性。然而,适应性评分并不直接量化反应条件下的催化性能,而且预测活性的计算工具与预测稳定性和表达的工具相比仍然缺乏。因此,从通用的适应性指标转向参数特异性预测代表了一种更具可解释性的酶工程方法,可以设计出具有所需催化性质的酶。 关键科学问题 数据稀缺与不平衡:公共数据库中的酶动力学参数数据有限且分布不均,大多数集中在少数几个酶类(水解酶、氧化还原酶、转移酶),而其他酶类数据匮乏。此外,数据多来自不同实验条件,存在显著的异质性和噪音 模型泛化能力:现有全局模型在训练集相似序列上表现良好,但在与训练集序列相似度低的未见序列上预测性能显著下降,尤其是对低代表性酶家族 实验与计算的鸿沟:大多数动力学参数来自体外测量,而酶在体内的行为因分子拥挤、蛋白质相互作用和翻译后修饰而显著不同,基于体外数据训练的模型可能无法完全捕获生理学相关的动力学性质 预测不确定性量化:多数模型是确定性的,输出单一预测值,缺乏对预测可靠性的量化,这在实际应用中限制了模型的可信度 物理约束的整合:现有模型大多是纯数据驱动的,缺乏对酶催化基本物理化学原理(如过渡态理论、热力学约束)的明确整合,导致预测可能违反生物学合理性 图1:机器学习和深度学习模型在酶动力学参数预测领域的发表趋势。该图展示了2010-2025年间发表的ML/DL模型数量的增长趋势,说明这些模型作为酶工程有用工具正在受到越来越多的关注。从图中可以看出,自2020年以来,相关研究呈现爆发式增长,尤其是2023-2025年间模型数量急剧上升至15篇以上,反映了该领域的快速发展和日益重要的地位。 机器学习在酶动力学预测中的基础 在深入探讨具体模型之前,有必要先了解机器学习在酶动力学预测中的基本要素。 输入特征表示 ML模型通常需要两个主要输入: 酶表示:可以使用氨基酸序列或3D结构来表示 one-hot编码:最简单的方法,但导致高维且稀疏的特征向量 卷积神经网络(CNN):提取局部motif模式,但无法捕获长程依赖关系 蛋白质语言模型(pLM):如ESM2、ProtT5、UniRep,在数百万未标记蛋白质序列上预训练,能够学习生物学相关特征,生成包含短程和长程关系的高维嵌入向量(约1000-1300维) 结构特征:当有3D结构时,可以使用图卷积网络(GCN)或图注意力网络(GAN)编码残基-残基接触图 底物表示:可以使用化学结构、SMILES字符串或分子指纹来表示 分子指纹:如MACCS keys,将分子子结构和官能团制表为固定长度向量 图神经网络(GNN):将底物编码为分子图,节点代表原子,边代表化学键,使用GCN、GAN或消息传递神经网络(MPNN)聚合原子级特征 Transformer模型:如SMILES transformer和ChemBERTa,将SMILES字符串标记化为数值特征 ML工作流程概览 图2:机器学习在酶动力学参数预测中的工作流程概览与数据集规模 (a) 典型模型架构示意图:展示了ML/DL模型预测酶动力学参数的完整流程。酶序列(Enzyme sequence)通过卷积神经网络(CNN) 或蛋白质语言模型(pLM) 如ESM2、ProtT5进行特征提取,编码为高维向量;底物结构(Substrate structure)通过图神经网络(GNN) 或Transformer处理分子图或SMILES字符串,捕获化学结构信息。两种特征向量经过拼接或交互融合后,输入到深度学习(Deep Learning)或机器学习(Machine Learning)模型(如随机森林、梯度提升)中,最终输出动力学参数预测值($k_{\mathrm{cat}}$、$K_{\mathrm{m}}$、$k_{\mathrm{cat}}/K_{\mathrm{m}}$、$K_{\mathrm{i}}$)。 (b) 主要公共数据库中的动力学参数数据规模(截至2025年7月):柱状图展示了BRENDA和SABIO-RK两大数据库中可用动力学参数的数量。BRENDA(深色柱)包含约94,000条$k_{\mathrm{cat}}$记录、约126,000条$K_{\mathrm{m}}$记录、约41,000条$k_{\mathrm{cat}}/K_{\mathrm{m}}$记录和约41,000条$K_{\mathrm{i}}$记录;SABIO-RK(浅色柱)包含约30,000条$k_{\mathrm{cat}}$记录、约55,000条$K_{\mathrm{m}}$记录以及较少的其他参数数据。这些数据集为训练和评估ML模型提供了基础,但仍存在分布不均、质量参差不齐等挑战。 酶动力学数据库 ML模型的性能高度依赖于训练数据的质量和规模。目前主要的公共数据库包括: 主要数据库 BRENDA(BRaunschweig ENzyme DAtabase):最全面的酶数据库之一,从超过100,000篇文献中提取实验数据,包含动力学参数、EC编号、来源生物体和实验条件等信息。截至2025年7月,BRENDA包含约94,000条$k_{\mathrm{cat}}$记录、约126,000条$K_{\mathrm{m}}$记录、约41,000条$k_{\mathrm{cat}}/K_{\mathrm{m}}$记录和约41,000条$K_{\mathrm{i}}$记录。 SABIO-RK(System for the Analysis of BIOchemical Pathways - Reaction Kinetics):专注于酶促反应及其动力学参数,与BRENDA相比更侧重于反应本身,超越了动力学常数,涵盖速率定律和实验条件。包含约30,000条$k_{\mathrm{cat}}$记录、约55,000条$K_{\mathrm{m}}$记录以及较少的其他参数数据。 UniProt(UNIversal PROTein resource):最大的蛋白质数据库,包含蛋白质序列、结构和功能信息。虽然动力学数据稀缺(仅约1%的酶有实验测定的$k_{\mathrm{cat}}$值),但UniProt ID通常用作锚点,将BRENDA和SABIO-RK的动力学记录与相应序列对齐。 专用整合数据库: SKiD(Structure-oriented Kinetic Database):整合了13,654个酶-底物对的$k_{\mathrm{cat}}$和$K_{\mathrm{m}}$及其3D结构数据 CatPred-DB:整合了23,197条$k_{\mathrm{cat}}$、41,174条$K_{\mathrm{m}}$和11,929条$K_{\mathrm{i}}$记录,并映射到AlphaFold预测的3D结构 预测数据库: GotEnzyme:提供了2570万个酶-化合物对的预测$k_{\mathrm{cat}}$值 GotEnzyme2:扩展到5960万条记录,包括$K_{\mathrm{m}}$和$k_{\mathrm{cat}}/K_{\mathrm{m}}$预测 数据质量挑战 尽管这些数据库规模庞大,但仍面临诸多挑战: 非标准化:数据在各种实验条件(温度、pH、底物浓度)下收集,许多条目缺少关键元数据 数据不一致:据报道,BRENDA中高达20%的条目与其发表的参考文献不一致,可能由于人为错误和单位替换错误 底物映射问题:同一化合物在不同条目下可能有不同的常见名称,导致SMILES映射不准确 体外vs体内差异:大多数动力学参数来自体外测量,而酶在体内的行为因分子拥挤、蛋白质相互作用和翻译后调控而显著不同 为了改善数据的可查找性、可访问性、互操作性和可重用性(FAIR原则),Beilstein研究所提出了STRENDA(STandards for Reporting ENzymology DAta)标准,并开发了EnzymeML和STRENDA DB等验证工具,以确保酶学数据在发表前的完整性和有效性。 全局模型:跨酶家族的预测 全局模型在涵盖多种酶家族、类别和生物体的大型数据集上训练,理论上能够泛化到各种序列和反应。本节重点介绍几个代表性的全局模型及其演化历程。 表1:$k_{\mathrm{cat}}$预测ML模型的特征与性能对比 模型名称 发表年份 数据集规模 模型架构 酶序列表示 底物表示 其他特征 性能指标 kcat in E. coli 2018 215 随机森林 蛋白质结构、网络相互作用 - 生化性质、实验条件、反应通量 R² = 0.34 DLKcat 2022 16838 神经网络 n-gram (CNN) 分子图 (GNN) - R² = 0.44 TurNuP 2023 4271 梯度提升 pLM嵌入 (ProtT5-XL) 数值反应指纹 (ESP) 序列感知分割 R² = 0.44 (全体), R² = 0.33 (<40%相似度) UniKP 2023 - 神经网络 pLM嵌入 分子图 (GNN) 类别平衡重加权 R² = 0.68 DLTKcat 2023 - 神经网络 n-gram (CNN) 分子图 (GNN) 温度、双向注意力机制 R² = 0.66 PreTKcat 2023 - ExtraTrees集成 - - 温度 R² = 0.69 CataPro 2025 - - pLM嵌入 (ESM-2) - 序列感知分割 (40%阈值) PCC r = 0.48 DeepEnzyme 2024 - 神经网络 pLM嵌入 分子图 蛋白质结构特征 R² = 0.58 (全体), R² = 0.42 (<50%相似度) KcatNet 2024 - 神经网络 - - 注意力机制、结构特征 比UniKP提高18% CatPred 2025 23197 神经网络集成 pLM嵌入 (ESM-2) 预训练SMILES Transformer 概率回归、不确定性量化 R² = 0.68 注释: PCC:皮尔逊相关系数(Pearson Correlation Coefficient) 序列感知分割:训练集和测试集之间采用低序列相似度划分,以避免数据泄漏 概率回归:输出高斯分布(均值和方差)而非单一预测值,提供不确定性估计 部分模型未在原文提供完整的数据集规模信息,标记为”-“ $k_{\mathrm{cat}}$预测模型的演化 早期探索:Heckmann et al. (2018) 最早的大规模ML模型之一由Heckmann等人于2018年开发,使用随机森林预测大肠杆菌中各种酶反应的体外$k_{\mathrm{cat}}$值。训练数据包含172个$k_{\mathrm{cat}}$值,模型在独立测试集上达到R² = 0.34。最重要的特征是通过节约通量平衡分析计算的反应通量。然而,该模型的适用性有限,因为所需的输入特征(如反应通量、网络相互作用)仅对少数模式生物(如大肠杆菌、酿酒酵母、人类)可用。 突破性进展:DLKcat (2022) Li等人于2022年开发的DLKcat是一个生物体独立的深度学习模型,仅依赖于酶的氨基酸序列和底物结构。模型在16,838个数据点上训练,使用: n-gram CNN编码酶序列 图神经网络(GNN)编码底物分子图 DLKcat在随机测试集上达到R² = 0.44,预测的对数$k_{\mathrm{cat}}$值平均在实验值的1个数量级内。然而,该模型存在严重的数据泄漏问题:67.9%的测试集酶序列也出现在训练集中,90%与训练集序列相似度>99%。因此,DLKcat在与训练集序列相似度<60%的未见序列上表现很差,甚至出现负R²值。 解决数据泄漏:TurNuP (2023) Kroll等人在2023年开发的TurNuP通过序列感知数据分割解决了数据泄漏问题,确保训练集和测试集中的酶序列不相似(序列相似度阈值)。尽管训练数据较小(4,271个数据点),TurNuP结合: 数值反应指纹(ESP) pLM嵌入(ESM2) 在低序列相似度测试集上达到R² = 0.44,包括对序列相似度<40%的序列达到R² = 0.33。这证明了序列感知分割对于评估真实泛化能力的重要性。 处理数据不平衡:UniKP (2023) Yu等人在2023年开发的UniKP使用类别平衡重加权来改善对极端$k_{\mathrm{cat}}$值的预测。由于$k_{\mathrm{cat}}$分布呈现中间值密集、两端稀疏的特点,模型倾向于高估低值、低估高值。通过重加权策略降低中间范围的相对权重,UniKP在高$k_{\mathrm{cat}}$条目上的RMSE降低了6.5%,最终达到R² = 0.68。 纳入环境因素:EF-UniKP 和 DLTKcat (2023) 数据噪音的另一来源是不同的实验条件(温度、pH)。Yu等人开发了EF-UniKP,在包含温度或pH信息的较小数据集上重新训练UniKP,并使用两层框架: 基础层:UniKP预测 线性回归层:根据pH或温度调整预测 在严格测试集上(酶或底物不在训练集中),pH数据集达到R² = 0.44,温度数据集达到R² = 0.38。 几乎同时,Qiu和Zhao开发了DLTKcat,纳入了双向注意力块来描述底物原子和酶残基之间的相互作用,并将温度值添加到加权向量中。该模型达到R² = 0.66,但由于对低温(<20°C)和高温(>40°C)条目的过采样和随机数据分割,存在数据泄漏问题。 更稳健的温度依赖性$k_{\mathrm{cat}}$预测模型是PreTKcat(2023),使用ExtraTrees集成模型,在10折随机分割测试集上达到R² = 0.69,比UniKP提高了2.98%。 整合结构特征:DeepEnzyme 和 KcatNet (2024) 酶功能在很大程度上由其3D结构决定,但之前的模型很少考虑结构特征。Wang等人开发的DeepEnzyme除了蛋白质序列和底物结构外,还利用蛋白质结构特征(使用ColabFold预测所有缺少实验结构的酶)。模型达到R² = 0.58,在测试序列与训练序列相似度<50%时仍保持R² = 0.42。 KcatNet也纳入了注意力机制来捕获酶-底物相互作用,并使用结构特征,在同一数据集上比UniKP提高了18%。 不确定性量化:CatPred (2025) 所有前述模型都是确定性的,输出单一预测值。Boorla和Maranas在2025年开发的CatPred使用概率回归为$k_{\mathrm{cat}}$预测添加置信度指标,通过估计相关不确定性: 偶然不确定性(aleatoric):训练数据中的固有噪音 认知不确定性(epistemic):训练样本在某些潜在空间区域稀缺导致的不确定性 CatPred训练了10个模型的集成,输出$k_{\mathrm{cat}}$预测的高斯分布(均值和方差)。模型在保留测试集上达到R² = 0.61,在分布外测试集(序列相似度<99%)上达到R² = 0.39。约76%的预测值落在实验值的1个数量级内。 图3:改进ML酶动力学参数模型预测性能的策略 (a) 数据分割方法减轻数据泄漏:对比了数据泄漏易发生(Data-leakage prone)和数据泄漏抗性(Data-leakage resistant)两种分割方式。前者随机分割导致训练集和测试集中存在相同或高度相似的序列,后者通过控制序列相似度确保训练集和测试集分离(低序列相似度),如TurNuP使用序列感知分割。 (b) 通过重加权方案解决动力学参数分布的类别不平衡:动力学参数(如$k_{\mathrm{cat}}$)的分布呈钟形,中间值密集而两端稀疏。模型倾向于高估低$k_{\mathrm{cat}}$类别、低估高$k_{\mathrm{cat}}$类别。通过重加权,降低高频率类别的权重,提升低频率类别的重要性,使模型在极端值上的性能提升。 (c) 整合交互感知特征捕获酶与底物的依赖关系:简单拼接酶和底物的特征向量限制了模型捕获复杂交互的能力。通过注意力机制(Attention Block),模型可以学习酶残基与底物原子之间的相互作用权重,从而更准确地预测催化参数。 (d) 不确定性感知建模框架区分偶然和认知不确定性:CatPred等模型输出高斯分布而非单一预测值。模型通过集成学习区分两种不确定性:偶然不确定性(Aleatoric uncertainty)来自训练数据的固有噪音,认知不确定性(Epistemic uncertainty)来自模型在某些序列空间区域缺乏训练样本。通过估计这两种不确定性,模型可以量化预测的可靠性。 $K_{\mathrm{m}}$、$k_{\mathrm{cat}}/K_{\mathrm{m}}$ 和 $K_{\mathrm{i}}$ 预测模型 $K_{\mathrm{m}}$预测 Kroll等人在2021年首次开发了大规模$K_{\mathrm{m}}$预测模型,在BRENDA测试集上达到R² = 0.53,在SABIO-RK独立测试集上达到R² = 0.49。模型对数据泄漏具有鲁棒性,当测试集中的底物或酶不在训练集中时,性能降至R² = 0.26。平均相对预测误差约为4.1倍。 后续模型如GraphKM、CatPred、MPEK、UniKP等在$K_{\mathrm{m}}$预测上也取得了类似或更好的性能(R² = 0.53-0.61)。 $k_{\mathrm{cat}}/K_{\mathrm{m}}$预测 由于$k_{\mathrm{cat}}/K_{\mathrm{m}}$代表催化效率,ML模型相对较少。Yu等人在UniKP中训练了$k_{\mathrm{cat}}/K_{\mathrm{m}}$模块,在910个数据点上达到R² = 0.65。他们还发现,简单地将单独的$k_{\mathrm{cat}}$和$K_{\mathrm{m}}$预测相除表现很差(r = -0.02),因为这会累积两个模型的误差并忽略参数间的相关性。 Shen等人在2024年开发的EITLEM-Kinetics使用迁移学习来提高$k_{\mathrm{cat}}/K_{\mathrm{m}}$预测。他们迭代地根据$k_{\mathrm{cat}}/K_{\mathrm{m}}$模型重新调整$k_{\mathrm{cat}}$和$K_{\mathrm{m}}$网络的权重参数,经过8次迭代后,$k_{\mathrm{cat}}/K_{\mathrm{m}}$模型的性能从0.61提高到0.83。 $K_{\mathrm{i}}$预测 相对较少的ML模型针对$K_{\mathrm{i}}$预测,大多数研究集中在半抑制浓度($\mathrm{IC}{50}$)和药物-靶标结合亲和力(DTBA)。CatPred、SAKPE、CPI-Pred和OmniESI包含了$K{\mathrm{i}}$模块,性能在R² = 0.36-0.54之间。 应用场景:从理论到实践 ML模型不仅仅是预测工具,它们已经在实际的酶工程和发现中展现出价值。 预测突变效应 酶的催化效率通常不能满足工业过程的要求,因此优化酶活性成为降低生产和运营成本的关键。突变对功能的影响不是加性的,因此模型预测多重突变对酶活性影响的能力是其理解残基-残基相互作用及其与目标动力学参数关系的直接指标。 DLKcat通过神经注意力机制评估氨基酸取代对$k_{\mathrm{cat}}$值的影响,在测试集的突变体上达到r = 0.78。然而,由于数据泄漏,当测试未见序列(但仍与训练序列相似度>99%)时,性能降至R² = -0.18。 更稳健的模型如DeepEnzyme预测高活性碱性磷酸酶突变体的中位$k_{\mathrm{cat}}$值比低活性突变体高15%。MPEK将突变数据分为野生型样、增强型和降低型$k_{\mathrm{cat}}$或$K_{\mathrm{m}}$类别,模型对所有类别和两个参数的预测PCC值在0.8-0.9之间。EITLEM-Kinetics在$k_{\mathrm{cat}}$数据集上对最多6个突变的预测达到R² = 0.85,对超过10倍增强$k_{\mathrm{cat}}$的突变体也达到R² = 0.66。 酶工程与挖掘 设计具有增强活性的突变酶是蛋白质工程和合成生物学的关键目标。然而,识别有效的进化路径需要对反应机制的深刻理解,并受到生物学和物理约束(如蛋白质折叠和表达)的限制。在实验室中进行定向进化成本高、耗时长,且往往只能带来边际改进。 酶挖掘案例:Zhou等人通过定向进化构建和筛选4,800个红球菌(Rhodotorula glutinis)酪氨酸氨裂解酶(TAL)突变体库,发现了一个$k_{\mathrm{cat}}$ = 142 $\mathrm{s}^{-1}$的变体,仅比野生型(114 $\mathrm{s}^{-1}$)略有改善。为了解决实验方法的有限成功,作者使用BLAST搜索识别了野生型序列的前1000个同源物,并使用UniKP预测它们的$k_{\mathrm{cat}}$值进行计算机酶挖掘。实验验证了前5个预测,其中2个序列的$k_{\mathrm{cat}}$值比野生型高约4倍。此外,UniKP还用于预测TAL所有可能的单点变体的$k_{\mathrm{cat}}/K_{\mathrm{m}}$值进行计算机酶进化,识别并实验表征了两个比野生型高效3.5倍的突变体。 类似地,KcatNet用于α-葡萄糖苷酶的计算机进化,筛选所有单点突变体,最高预测显示$k_{\mathrm{cat}}$比野生型提高了47%。CataPro在类胡萝卜素裂解双加氧酶的酶挖掘中,识别了1500个同源物,实验验证了顶部预测Sphingobium sp. CSO(SsCSO)比起始酶CSO2活性高19.53倍。通过两轮计算机定向进化,识别了一个双点突变体,比CSO2活性高65倍。 从头酶设计:虽然上述模型主要用于预测现有序列或突变体的动力学参数,它们并不专门用于建议提高酶活性的突变。Yu等人在2024年解决了这一限制,构建了一个扩散模型kcatDiffuser,将优化活性的目标表述为逆折叠任务结合回归器引导的扩散模型。kcatDiffuser生成与给定骨架结构兼容的多个酶序列,同时被采样过程引导,偏好导致更高$k_{\mathrm{cat}}$值的氨基酸组合。模型在log $k_{\mathrm{cat}}$上的总体改进为0.21,例如将十异戊二烯焦磷酸合成酶的log $k_{\mathrm{cat}}$提高了0.486。 基因组尺度代谢建模 基因组尺度代谢模型(GEMs)是生物体内完整代谢反应集合的数学表示,从注释的基因组序列重建而来。它们在不同条件下模拟代谢通量、指导代谢工程和研究蛋白质组分配方面具有优势。通常,GEMs基于反应网络和质量平衡原理的化学计量约束来估计可行的反应通量。然而,它们的准确性受到一个关键假设的限制:酶被视为无限快速的催化剂或酶以过量存在。 为了解决这一问题,酶约束的基因组尺度代谢模型(ecGEMs)整合了酶容量约束,最常见的是通过$k_{\mathrm{cat}}$值和酶丰度,从而将可达到的最大通量与催化反应的酶的催化效率联系起来。尽管有前景,但ecGEMs仍然受到不完整或嘈杂的动力学数据的阻碍,因为许多酶缺乏实验测量的$k_{\mathrm{cat}}$值。此外,可用数据通常来自不同的生物体、实验条件和底物,增加了额外的不确定性。虽然已经为几个研究良好的生物体(如大肠杆菌)开发了ecGEMs,但BRENDA中只有约10%的酶促反应具有完全匹配的$k_{\mathrm{cat}}$值。 减轻动力学数据瓶颈的一种方法是使用ML模型预测的$k_{\mathrm{cat}}$来扩展基因组尺度重建的覆盖范围。Heckmann等人的模型旨在参数化大肠杆菌iML1515的GEMs,整合ML衍生的$k_{\mathrm{cat}}$值而不是从可用数据集中值插补,导致模型的RMSE大幅降低了34%。类似地,DLKcat被用于重建343个酵母/真菌物种的ecGEMs,预测了约300万个酶-底物对的$k_{\mathrm{cat}}$值。为了解决体外预测与体内值之间的差异,作者采用了贝叶斯基因组尺度建模方法,其中DLKcat预测作为先验$k_{\mathrm{cat}}$分布的均值,模型的RMSE作为方差。然后,这些值根据实验测量的表型数据迭代更新以产生后验分布。总体而言,基于DLKcat的ecGEM的RMSE比原始ecGEM低30%。KcatNet在同一ecGEM上的参数化在22种碳源和氧气条件下的16个条件中有16个优于DLKcat。 此外,DLTKcat被用于演示ML模型如何用于温度敏感的代谢建模。作者表明,DLTKcat预测了Lactococcus lactis MG1363中分解代谢活性随温度升高而降低,这与实验观察一致。 局部模型:针对特定酶家族的精细预测 虽然全局模型旨在跨多种酶家族泛化,但局部模型专注于更窄的序列空间,聚焦于单个酶及其变体或一组密切相关的酶家族。通过利用这一受限域中的高质量数据,局部模型有潜力捕获细粒度的相互作用,尽管以泛化能力为代价。 早期尝试:β-葡萄糖苷酶 Yan等人在2012年开发了最早的酶家族特异性模型之一,旨在预测β-葡萄糖苷酶对其天然底物纤维二糖的$K_{\mathrm{m}}$。模型使用前馈反向传播神经网络,以氨基酸概率分布和11种AAIndex性质作为输入。网络在24个β-葡萄糖苷酶序列上训练,在另外12个序列上测试,达到R² = 0.67。然而,该模型由于数据规模极小而存在过拟合问题。 在2016年,Carlin等人在来自Paenibacillus polymyxa的β-葡萄糖苷酶的100个突变体上训练了一个弹性网回归器集成。集成方法比单个回归器更稳健,PCC从0.57提高到0.76($k_{\mathrm{cat}}/K_{\mathrm{m}}$)、从0.43提高到0.6($k_{\mathrm{cat}}$)、从0.29提高到0.71(1/$K_{\mathrm{m}}$)。 覆盖更广的局部模型 Li等人在2023年构建了DeepGH,一个用于糖苷水解酶催化活性的深度学习平台。DeepGH在从CAZy数据库检索的64,057个序列上训练,跨越119个糖苷水解酶家族,训练集和测试集之间的序列相似度最多为65%以避免数据泄漏。模型被应用于壳聚糖酶CHIS1754,识别了9个残基作为突变的目标位点。实验验证表明,9个单点突变体中的8个比野生型更活跃。他们还创建了CHIS1754-MUT7变体,包括DeepGH建议的9个突变中的7个,其$k_{\mathrm{cat}}/K_{\mathrm{m}}$比野生型高24倍。 Muir等人在2024年为腺苷酸激酶(ADK)创建了一个模型。利用高通量微流控平台,他们测量了193个ADK直系同源物的$k_{\mathrm{cat}}$、$K_{\mathrm{m}}$和$k_{\mathrm{cat}}/K_{\mathrm{m}}$,并证明ADK功能景观是崎岖且多峰的。他们将约5000个ADK序列输入ESM-2,观察到输出可以按LID域类型聚类。利用pLM捕获高级结构组织的能力,作者在ADK序列的ESM-2嵌入上训练了一个随机森林回归器。该模型在$k_{\mathrm{cat}}$上达到Spearman相关系数r = 0.44,而DLKcat在同一测试集上仅为r = -0.09。尽管使用的序列更少,这个局部模型优于在大型数据集上训练的深度学习模型,突显了在相对狭窄的序列空间内进行高质量动力学测量对于构建稳健的家族特异性预测器的价值。 全局 vs 局部:权衡与互补 全局模型和局部模型代表了序列空间探索的两种不同视角: 全局模型覆盖广泛且多样的酶家族和类别,能够跨距离相关的酶泛化,但在高度不相似于训练数据的序列上准确性有限 局部模型专注于特定家族或单个酶及其变体,能够捕获细微的序列-功能或结构-功能关系,但预测能力局限于狭窄的序列空间区域 一个有前景的方向是开发混合模型,利用全局蛋白质语言模型进行序列空间的广泛上下文描述,同时在家族特异性动力学数据集上进行微调以保留局部信息。 挑战与未来方向 尽管ML模型在酶动力学参数预测方面取得了显著进展,但仍面临诸多挑战,需要社区共同努力克服。 数据稀缺与不平衡 数据分布不均:BRENDA中的大多数$k_{\mathrm{cat}}$和$K_{\mathrm{m}}$值属于水解酶、氧化还原酶和转移酶对其天然底物的小子集。因此,大多数ML模型在这些家族上表现出强劲性能,但在代表性不足的酶家族和非天然底物上泛化能力较差。此外,收集文献中发表的动力学数据固有地偏向于具有中间值的参数,导致对无效或极高效酶的数据稀缺。 高通量数据生成:为了规避这一问题,可以通过自动化实验(如生物铸造厂和微流控平台)获得大量均匀分布的高质量数据。生物铸造厂提供了一个自驱动的实验室,代理设计酶并将其部署到合成、表达和动力学测量的表征单元中。微流控平台可以通过小型化和多重化反应,允许对数千个酶-底物组合进行并行测量动力学参数。这些方法有潜力生成大型、高质量的动力学数据,覆盖研究良好和代表性不足的酶类,从而为ML模型的性能和泛化做出贡献。这些自动化方法还为实际的设计-构建-测试-学习(DBTL)循环提供了现实途径。 全局 vs 局部模型的权衡 从本综述讨论的所有模型来看,大多数ML方法探索的是序列空间的全局或局部视图。这种区别反映了搜索的范围: 全局模型旨在覆盖广泛且多样的酶家族和类别 局部模型将其焦点限制在特定家族 全局模型在多样酶家族上训练,跨广泛的序列区域泛化。然而,当预测与训练数据高度不相似的序列参数时,它们通常精度较低。相反,局部模型在野生型或突变体的高质量数据集上训练,可以捕获细微的序列-功能关系。然而,它们的预测能力局限于狭窄的序列空间区域。因此,一个有前景的方向是开发混合模型,利用全局蛋白质语言模型进行序列空间的广泛上下文描述,同时在家族特异性动力学数据上进行微调以保留局部信息。 半监督学习 当前用于动力学参数预测的ML模型几乎完全依赖于监督学习,这需要大量标记数据进行训练。鉴于上述讨论的限制,半监督学习提供了一个有前景的替代方案,通过利用有限数量的标记动力学数据和大量未标记的酶序列(如UniProt中的)来训练模型。通过利用序列空间中的功能模式以及有限数量的标记示例,半监督框架可以扩展模型的适用性并提高对数据稀缺的鲁棒性。 图4:当前数据集和模型类型的局限性及半监督学习的应用前景 (a) BRENDA中酶类别的数据不平衡:饼图展示了BRENDA数据库中不同酶类别(EC分类)的$k_{\mathrm{cat}}$数据分布。图中可以看出,水解酶(Hydrolases,蓝色)、氧化还原酶(Oxidoreductases,橙色)和转移酶(Transferases,绿色)占据了绝大部分数据,而其他酶类(如裂解酶Lyases、异构酶Isomerases、连接酶Ligases等)的数据相对稀少,这种不均衡分布导致ML模型在代表性不足的酶家族上泛化能力较差。 (b) BRENDA中$k_{\mathrm{cat}}$值的分布偏差:直方图显示了$k_{\mathrm{cat}}$值(以$\log_{10}$形式,单位$\mathrm{s}^{-1}$)的分布呈现钟形曲线,集中在中等活性范围(约-1到3之间),而极低活性(<0.01 $\mathrm{s}^{-1}$)和极高活性(>1000 $\mathrm{s}^{-1}$)的酶数据极为稀缺。这种偏向于中间值的固有偏差源于文献报道倾向,使得ML模型难以准确预测极端情况下的动力学参数。 (c) 全局模型与局部模型在功能景观探索中的互补性:该示意图用不同颜色的山峰代表不同的酶家族功能景观。全局模型(Global models)能够跨越多个酶家族(不同颜色区域)进行广泛导航和预测,但在每个特定家族的局部序列空间内精度有限(山峰内部分辨率较低)。相反,局部模型(Local models)专注于单一功能景观(单个山峰),能够提供该家族内序列-功能关系的精细信息,但无法扩展到其他酶序列空间。理想的策略是开发混合模型,结合两者优势。 (d) 半监督学习框架示意图:该子图展示了如何利用少量标记的酶动力学数据(Labeled enzyme data,左侧彩色点)和大量未标记的酶序列数据(Unlabeled enzyme data,右侧灰色点,如来自UniProt数据库的数百万序列)共同训练模型。通过半监督学习方法,模型可以从未标记数据中学习序列空间的功能模式,并利用有限的标记样本进行指导,从而在数据稀缺情况下提高预测性能和泛化能力。 物理基础的机器学习 酶动力学预测的另一个有前景的方向在于物理基础的ML。与本综述讨论的纯数据驱动方法不同,物理基础的ML将生物物理约束嵌入到学习过程中,以确保预测与酶催化原理保持一致。例如,激活自由能与$k_{\mathrm{cat}}$之间的关系可以作为约束在模型训练期间纳入。这可以通过使用惩罚项来正则化神经网络来完成,这些惩罚项强制执行与过渡态理论的一致性,要求$k_{\mathrm{cat}}$预测落在激活能的可行范围内。此外,将深度学习模型与量子力学/分子力学(QM/MM)描述符耦合可以帮助捕获控制酶动力学的分子机制。 最近的发展是出现了生成框架,明确纳入生物物理约束以确保预测的动力学参数的机制合理性。Choudhury等人在2022年的工作中引入了一个条件生成对抗网络,纳入生物物理和物理化学约束以创建生物学相关的动力学模型,满足热力学要求、稳定性约束和实验观察的时间尺度限制。他们在2024年的工作将化学计量、调控信息、通量分析和动态时间尺度约束整合到生成过程中,允许估计缺失的动力学参数。 关键结论与批判性总结 潜在影响 加速酶发现与工程:ML模型能够在几秒钟内预测数百万个酶-底物对的动力学参数,相比传统实验方法(每个测量可能需要数天至数周)大幅缩短了时间。这使得大规模的酶挖掘和虚拟筛选成为可能,有助于快速识别高活性候选酶 降低实验成本:通过计算机预测,研究人员可以优先实验验证最有希望的候选序列或突变体,减少盲目筛选的实验次数,从而降低试剂、人力和时间成本 推动合成生物学和代谢工程:准确的动力学参数预测能够改善基因组尺度代谢模型的质量,使其更好地预测细胞行为和代谢通量,指导代谢途径的优化和设计,促进生物制造和绿色化学的发展 促进个性化医学和药物发现:$K_{\mathrm{i}}$预测模型可以用于快速筛选潜在的酶抑制剂,加速药物发现过程,特别是在靶向治疗和精准医疗领域 局限性 数据质量和覆盖面不足:现有公共数据库中的动力学参数数据有限、分布不均且质量参差不齐,许多酶类和非天然底物缺乏数据,限制了模型的训练和泛化能力。此外,数据多来自体外实验,与体内条件存在差异 模型泛化能力有限:尽管全局模型在多种酶家族上训练,但在与训练集高度不相似的序列或低代表性酶家族上预测性能显著下降。局部模型虽然在特定家族上精度更高,但不能跨家族应用 缺乏物理约束:大多数现有模型是纯数据驱动的,缺乏对酶催化基本物理化学原理的明确整合,可能导致预测结果违反热力学定律或生物学合理性 不确定性量化不足:多数模型输出单一预测值,缺乏对预测可靠性的量化,限制了其在实际决策中的应用。虽然CatPred等模型引入了概率回归和不确定性估计,但尚未成为主流 实验验证的挑战:即使模型预测出有希望的候选酶或突变体,实验验证仍然需要大量时间和资源。此外,模型的预测往往只能提供相对趋势(哪个更好),而非精确的数量级,这在某些应用中可能不够 未来研究方向 高通量实验技术的发展:利用生物铸造厂、微流控平台和自动化实验系统生成大规模、高质量、均衡分布的动力学参数数据,覆盖更多酶类和底物,为ML模型提供更好的训练数据 半监督和主动学习:开发能够利用大量未标记酶序列数据的半监督学习框架,以及通过主动学习策略优先实验验证最具信息价值的样本,提高数据利用效率 混合模型架构:结合全局蛋白质语言模型的广度和家族特异性微调的精度,开发能够在保持泛化能力的同时提供高精度预测的混合模型 物理约束的整合:将过渡态理论、热力学定律、QM/MM计算等物理化学原理嵌入ML模型,确保预测结果的生物学合理性和机制可解释性 闭环自动化系统:构建完整的设计-构建-测试-学习循环,将ML预测、自动化合成、高通量表征和模型更新紧密结合,实现真正的自驱动酶工程 多任务和迁移学习:开发能够同时预测多个动力学参数($k_{\mathrm{cat}}$、$K_{\mathrm{m}}$、$k_{\mathrm{cat}}/K_{\mathrm{m}}$、$K_{\mathrm{i}}$)并捕获它们之间内在关系的多任务学习模型,以及能够从数据丰富的酶家族迁移知识到数据稀缺家族的迁移学习方法 体内动力学数据的积累:开发和应用体内动力学测量技术,积累更多反映真实生理条件的数据,缩小体外预测与体内应用之间的鸿沟 总体而言,机器学习为酶动力学参数预测开辟了新的途径,但要实现其在酶工程和发现中的全部潜力,仍需在数据质量、模型架构、物理约束整合和实验验证等多个方面持续努力。
Specific Sytems
· 2025-12-22
【综述】计算酶学全景:QM/MM方法揭示催化机制、蛋白质动力学与变构调控,指导从头酶设计与共价药物开发
【综述】计算酶学全景:QM/MM方法揭示催化机制、蛋白质动力学与变构调控,指导从头酶设计与共价药物开发 本文信息 标题:Perspectives on Computational Enzyme Modeling:From Mechanisms to Design and Drug Development 作者:Kwangho Nam, Yihan Shao, Dan T. Major, Magnus Wolf-Watz 发表时间:2024年2月8日 单位: 美国德克萨斯大学阿灵顿分校化学与生物化学系 美国俄克拉荷马大学化学与生物化学系 以色列巴伊兰大学化学系与纳米技术和先进材料研究所 瑞典于默奥大学化学系 引用格式:Nam, K.; Shao, Y.; Major, D. T.; Wolf-Watz, M. Perspectives on Computational Enzyme Modeling: From Mechanisms to Design and Drug Development. ACS Omega 2024, 9, 7393−7412. https://doi.org/10.1021/acsomega.3c09084 摘要 理解酶的催化机制对于揭示生命复杂的分子机器至关重要。本综述系统梳理了计算酶学领域的核心原理、面临的挑战及最新进展。多年来,计算机模拟已成为研究酶机制不可或缺的工具,实验与计算相结合的整合策略已成为深入理解酶催化的标准范式。大量研究证明,计算模拟在表征反应路径、过渡态、底物选择性、产物分布及动态构象变化方面具有强大能力。然而,在研究复杂多步反应、大尺度构象变化和变构调控等方面仍存在重大挑战。除机制研究外,计算酶建模已成为计算机辅助酶设计和共价药物理性开发的核心工具。总体而言,酶设计/工程和共价药物开发将极大受益于计算研究所揭示的酶的详细机制,如蛋白质动力学、熵贡献和变构效应等。这种不同研究方法的融合将持续推动酶研究领域的协同发展。 核心结论 mindmap root(计算酶学核心进展) **实验-计算整合** 相互反馈 认知闭环 **催化机制多样性** **过渡态稳定化** **反应物去稳定化** **耦合动力学** 化学控制 **量子隧穿** **变构调控** **蛋白质动力学** 快速振动<br/>皮秒-纳秒 慢速构象<br/>微秒-毫秒 **计算方法成熟** **QM/MM方法** **增强采样** **自由能计算** **酶设计挑战** 活性远低天然酶 需纳入动力学 需纳入熵效应 需纳入变构 **机器学习融合** 结构预测 活性预测 定向进化加速 **共价药物设计** 弹头反应性平衡 精确定位 可逆性调控 背景 酶作为生物催化剂,能够将反应速率提升百万倍以上,同时表现出极高的底物选择性,并通过多种机制实现精准调控。这种卓越的催化能力源于酶在漫长进化过程中对化学反应和蛋白质动力学的精细优化。理解酶的催化机制不仅是基础生物化学的核心问题,更是生物技术和医药研发的关键基础。 传统上,酶催化理论主要基于Pauling在1946年提出的过渡态稳定化概念:酶通过优化活性位点与过渡态的相互作用来降低反应能垒。然而,近几十年的研究表明,酶催化是一个多维度、多层次的复杂过程,涉及多种协同作用的机制。 随着计算能力的飞速提升和理论方法的不断完善,计算酶学(computational enzymology)已从早期的简单模型发展为能够精确描述酶催化全过程的系统性研究范式。当前,计算模拟不仅能够揭示化学反应的原子级细节,还能探索蛋白质在多个时间尺度上的动力学行为、变构调控网络,甚至指导全新酶的从头设计和共价药物的理性开发。 关键科学问题 机制复杂性:如何系统性地理解酶催化中多种机制(静电作用、动力学、熵效应、变构等)的协同作用? 多尺度挑战:如何在合理的计算成本下准确模拟从电子转移(飞秒)到构象变化(毫秒)跨越多个时间尺度的酶功能过程? 构象子态:酶存在多个相似构象状态,每个状态具有不同的催化活性,如何全面表征这些子态及其对整体催化速率的贡献? 变构调控:如何理解远离活性位点的结构改变或配体结合如何通过构象驱动或熵驱动机制远程调控催化活性? 理性设计:如何将机制洞察转化为设计原则,创造具有天然酶活性水平的人工酶或开发高选择性的共价抑制剂? 实验整合:如何建立计算与实验(动力学、NMR、X射线、冷冻电镜、单分子等)的有机融合框架,形成相互验证和互补的研究闭环? 研究内容 图1:计算酶学研究的主题图谱 本综述涵盖的核心主题及其相互关系,中心为计算酶学,周围六大模块展示了该领域的主要研究方向,外围标注了实验与计算间的双向反馈机制。 1. 建模复杂酶催化机制的方法学基础 核心计算方法 量子力学/分子力学方法(QM/MM)是当前研究酶催化机制的标准工具。该方法将体系划分为两个区域: QM区:包含发生化学键断裂/形成的活性位点,用量子化学方法(DFT、半经验、从头算)处理 MM区:包含蛋白质主体和溶剂环境,用分子力场描述 这种分层策略在保持化学精度的同时大幅降低了计算成本,使得含数万原子的酶体系模拟成为可能。 自由能计算技术是获得催化反应能垒的关键: 伞形采样 + WHAM/MBAR分析(Umbrella Sampling):沿反应坐标施加偏置势,后处理获得自由能曲线 元动力学(Metadynamics):通过在已访问区域添加排斥势(高斯型偏置势)驱动体系探索罕见事件 弦方法(String Methods):优化连接反应物和产物的最小自由能路径 变分自由能微扰和DHAM(vFEP):结合多个哈密顿量的信息提高采样效率 过渡态理论(TST)用于从自由能垒计算反应速率: [k = \frac{k_B T}{h} e^{-\Delta G^{\ddagger}/RT}] 其中,$\Delta G^{\ddagger}$ 是自由能垒,$k_B$ 是玻尔兹曼常数,$h$ 是普朗克常数。 多步反应的挑战 实验测得的 $k_{\text{cat}}$ 是集体速率常数,无法直接对应单一微观步骤。对于多步反应: [E + S \rightleftharpoons ES \rightarrow E\text{-}TS_1 \rightarrow EI \rightarrow E\text{-}TS_2 \rightarrow EP \rightarrow E + P] 需要计算每个步骤的能垒,才能确定速率决定步骤(rate-determining step)。然而,计算成本随反应复杂度急剧增加,且需要准确描述中间体的质子化状态、水分子的进出及构象重排等。 graph TB subgraph E["**实验技术**"] direction TB A[**酶动力学实验**<br/>宏观速率常数] B[**NMR弛豫色散**<br/>构象动力学] C[**X射线/冷冻电镜**<br/>高分辨结构] D[**时间分辨光谱**<br/>中间体化学态] E1[**单分子测量**<br/>构象异质性] end subgraph CS["**计算模拟**"] direction TB F[原子级机制假设] G[定点突变预测] H[同位素效应计算] end E --提供数据--> CS CS --验证假设--> E style E fill:#e1f5ff style C fill:#fff4e1 实验-计算整合形成假设-验证-修正的迭代循环,两者相互反馈、互补验证。 图2:酶催化中蛋白质运动的层级结构 (A) 自由能景观:展示蛋白质在不同时间尺度上的运动层级。反应物态A包含多个构象子态(绿色),通过快速子态交换(皮秒-纳秒)和慢速催化反应(微秒-毫秒)转化为产物态B (B) 三维自由能表面:从构象子态的角度理解酶催化。不同构象状态(z坐标)具有不同的催化能垒 $\Delta G^{\ddagger}(z)$,总体催化速率为各子态速率的群体加权和:$k_{\text{cat}} = \sum \rho_i k_{\text{micro},i}$ 2. 功能性蛋白质运动的层级结构 酶的动力学行为跨越从飞秒到秒的巨大时间尺度,不同尺度的运动对催化具有不同的功能意义。 快速运动(皮秒-纳秒) 键振动和弯曲:碳-氢键伸缩(~10 fs)、角度振动(~100 fs) 活性位点侧链重排:催化残基的微调优化过渡态几何 贡献机制: 熵效应:限制性振动模式的冻结降低熵,有利于过渡态稳定 几何优化:快速调整使反应中心达到近攻击构象(NAC) 量子隧穿:氢原子/质子转移中的隧穿概率受振动模式调控 计算方法:标准分子动力学模拟(MD)即可探索纳秒时间尺度,从轨迹中提取振动频率、相关函数和构象分布。 慢速运动(微秒-毫秒) 大尺度集体运动:结构域开合、loop环移动、螺旋重排 功能意义: 配体结合/释放:开放构象允许底物进入,闭合构象形成催化活性构象 变构激活:远程位点的信号通过构象传播影响活性位点 构象子态交换:在多个相似构象间转换,每个子态具有不同活性 计算挑战:直接MD模拟难以达到毫秒尺度,需要增强采样技术: 长时程MD:利用GPU加速或专用硬件(Anton)达到微秒-毫秒 弦方法:直接优化连接两个构象态的最小自由能路径 元动力学:通过集体变量(如RMSD、接触数、扭转角)加速采样 马尔可夫状态模型(MSM):从大量短轨迹中构建状态转移概率矩阵 特殊挑战:质子化状态变化 许多构象变化伴随质子化状态改变(如组氨酸的质子化/去质子化),需要恒pH分子动力学方法(constant-pH MD),在模拟过程中动态调整残基质子化状态。 配体结合机制模型 诱导契合模型(Induced-Fit): 酶首先以开放构象结合底物 底物结合诱导酶向闭合构象转变 形成催化活性的ES复合物 构象选择模型(Conformational Selection): 酶在平衡态下存在开放/闭合构象预平衡 底物选择性结合到合适的构象(通常是闭合态) 结合使平衡向该构象偏移 真实情况:大多数酶表现出更复杂的行为,结合了两种机制。例如,腺苷酸激酶(adenylate kinase)的开合速率在游离酶和结合态酶中不同,表明存在构象耦合。 3. 构象子态及其对催化的影响 构象子态的概念 酶并非存在于单一的刚性结构,而是处于多个相似构象的动态平衡中(图2B)。这些构象子态在结构上微小差异(通常RMSD < 2 Å),但在催化活性上可能显著不同。 实验证据:单分子酶学研究(如β-半乳糖苷酶)观察到连续催化事件之间的等待时间存在很大变异性,这种变化不能仅用底物扩散解释,而是表明酶在不同构象子态间跳跃,每个子态有不同的催化速率。 群体加权速率模型 总体催化速率是各构象子态速率的群体加权平均: [k_{\text{cat}} = \sum_{i} \rho_i k_{\text{micro},i}] 其中: $\rho_i$ 是构象子态 $i$ 的群体占比($\sum \rho_i = 1$) $k_{\text{micro},i}$ 是子态 $i$ 的微观催化速率 这意味着: 即使单个子态活性低,如果群体占比高仍可贡献显著的整体速率 突变或配体结合可通过改变子态分布 $\rho_i$ 或改变单个子态活性 $k_{\text{micro},i}$ 来调控整体催化 铰链运动与几何调控 铰链运动(hinge motions)是指结构域间通过铰链区域连接处的开合运动(如腺苷酸激酶的两个结构域)。这种低频运动可以调节反应中心几何,影响: 底物与催化残基的相对取向(最优 ↔ 次优) 过渡态的几何优化程度 亲核进攻角度和距离 QM/MM模拟策略:在反应坐标模拟中加入构象坐标约束,系统探索不同构象子态下的催化能垒 $\Delta G^{\ddagger}(z)$,直接揭示构象-活性关系。 4. 变构调控的双重机制 变构效应(allostery)是指远离活性位点的扰动(如配体结合、翻译后修饰)通过长程通讯改变酶活性的现象。变构调控可通过两种非互斥的机制实现。 图3:胰岛素样生长因子1受体激酶(IGF-1RK)的变构调控机制 以蛋白激酶为例展示两种变构机制的共存: (A) 构象驱动变构:激活环(A-loop)磷酸化使构象平衡从非活性态(蓝线)向活性态(红线)偏移约9.2 kcal/mol,限制了非活性构象的访问 (B) 底物结合亲和力变化:磷酸化降低了底物ATP结合的自由能垒(12.9 → 7.8 kcal/mol),增强结合亲和力 (C) 动力学驱动变构:磷酸化通过改变蛋白质协同运动降低磷酰基转移反应的能垒(2.4 → 2.1 kcal/mol),尽管结构变化微小 graph TB subgraph Conf["**构象驱动变构**<br/>Conformationally-Driven"] direction TB A1[显著结构变化<br/>二级结构重排<br/>结构域移动] A2[X射线可观察<br/>两种明确状态] A3[结构传播网络] M1[**马尔可夫状态模型MSM**<br/>识别中间态] M2[**元动力学**<br/>加速构象采样] M3[**弦方法**<br/>最小自由能路径] C1[案例:激酶A-loop磷酸化<br/>非活性态自由能升高9 kcal/mol<br/>活性态占比 1%→99%<br/>活性增强数百倍] A1 --> M1 A2 --> M2 A3 --> M3 M1 --> C1 M2 --> C1 M3 --> C1 end subgraph Ent["**熵驱动变构**<br/>Entropically-Driven"] direction TB B1[结构变化极小<br/>RMSD小于1Å<br/>X射线结构相同] B2[动力学变化<br/>协同运动改变] B3[运动关联性<br/>相关/反相关] N1[**协方差分析**<br/>位置相关矩阵] N2[**网络模型**<br/>节点-边分析] N3[**简正模态分析NMA**<br/>低频振动模式] N4[**机器学习**<br/>预测变构位点] D1[案例:激酶动力学变化<br/>协同运动增强<br/>能垒降低0.3 kcal/mol<br/>速率提升1.6倍] B1 --> N1 B2 --> N2 B3 --> N3 B3 --> N4 N1 --> D1 N2 --> D1 N3 --> D1 end style Conf fill:#e1f5ff style Ent fill:#fff4e1 两种机制的协同 IGF-1RK案例展示了两种机制如何在同一蛋白质中共存: 构象变构:改变构象平衡(9.2 kcal/mol)→ 最大效应 底物结合:增强ATP亲和力(5.1 kcal/mol)→ 中等效应 动力学变构:降低化学反应能垒(0.3 kcal/mol)→ 微调效应 总效应是三者的协同组合,实现精密的多层级调控。 变构效应的远程传递 F1-ATPase 是变构长程通讯的经典例子: 三个活性位点相距 >50 Å 表现出负协同性:一个位点结合ATP抑制其他位点 通过360°旋转运动实现三个位点的循环激活 5. 从头酶设计与定向进化 计算酶建模已从理解天然酶转向创造全新催化剂。从头酶设计(de novo enzyme design)旨在为非天然反应设计具有天然酶活性的人工酶。 设计流程 graph TB subgraph T["1.**理论酶设计 Theozyme**"] direction LR A1[选择目标反应<br/>设计**过渡态**结构] --> A2[确定稳定过渡态<br/>关键残基<br/>氢键、电荷、疏水] A2 --> A3[创建**理论酶**<br/>最小化侧链集合] end subgraph S["2.**支架选择与优化**"] direction LR B1[筛选蛋白质骨架<br/>容纳理论酶] --> B2[**Rosetta**序列优化<br/>活性位点匹配] B2 --> B3[优化周围残基<br/>稳定结构<br/>提高溶解度] end subgraph D["3.**实验表征与进化**"] direction LR C1[基因合成<br/>大肠杆菌表达] --> C2[测定初始活性<br/>通常极低] C2 --> C3[**定向进化**<br/>饱和突变<br/>易错PCR<br/>DNA改组] C3 --> C4[活性提升<br/>数百到数千倍] end T --> S --> D style T fill:#e1f5ff style S fill:#fff4e1 style D fill:#d4edda 成功案例 已成功设计的酶包括: Kemp消除酶:催化非天然的Kemp消除反应 逆醛缩酶:催化逆向的醛缩反应 Diels-Alderase:催化Diels-Alder环加成反应 酯酶和荧光素酶变体:改造自然酶实现新功能 PET水解酶:分解聚对苯二甲酸乙二醇酯塑料 设计挑战与差距 尽管取得重要进展,设计酶的活性仍比天然酶低10³-10⁶倍。主要原因包括: mindmap root(设计酶活性差距) **静态设计范式局限** 仅优化过渡态<br/>的几何匹配 忽略**反应物去稳定化**<br/>这一重要机制 忽略蛋白质动力学<br/>与催化的**耦合** **蛋白质动力学缺失** 假设骨架是刚性的 忽略快速振动模式<br/>对催化的贡献 忽略构象涨落<br/>和子态分布 未考虑群体加权<br/>速率模型 **熵焓补偿未优化** 过度优化焓的贡献 忽略构象熵的惩罚 导致活性位点<br/>过于刚性 **缺乏变构调控** 没有设计**变构**<br/>调控位点 缺乏天然酶的<br/>内建调控网络 **催化机制单一** 仅依赖酸碱催化 缺乏多种机制的<br/>协同整合 机器学习辅助设计 mindmap root(机器学习辅助酶设计) **结构预测** **AlphaFold2<br/>和RoseTTAFold2**<br/>高精度预测蛋白质<br/>三维结构 蛋白质生成模型<br/>如**RFdiffusion**扩散模型<br/>生成满足功能约束的骨架 **活性预测** 回归模型<br/>从序列或结构特征<br/>预测酶活性 神经网络<br/>学习序列到功能<br/>的映射关系 **图神经网络GNN**<br/>直接在蛋白质<br/>图结构上学习 **定向进化加速** **主动学习**策略<br/>每轮实验后更新模型<br/>智能选择下一批突变体 适应性景观预测<br/>学习序列空间中的<br/>适应度分布 零样本预测<br/>在未实验测量区域<br/>预测活性 **祖先序列重建ASR** 重建古代酶序列<br/>研究进化如何优化功能 揭示现代酶的<br/>设计原则和优化策略 指导现代酶的<br/>理性改造方向 6. 共价药物设计的计算策略 共价抑制剂通过与靶酶形成共价键实现长效抑制,近年来在药物开发中复兴,成功案例包括: Remdesivir 和 Nirmatrelvir(Paxlovid):COVID-19治疗药物 Sotorasib:首个获批的KRAS G12C共价抑制剂 图4:共价药物的双步结合机制 (A) 自由能图:共价配体结合分为两步。第一步是非共价结合(自由能垒 $\Delta G_b^{\ddagger}$),第二步是共价键形成(自由能垒 $\Delta G_c^{\ddagger}$)。关键是平衡弹头反应性:$\Delta G_c^{\ddagger}$ 必须足够低以发生反应,但不能过低导致非特异性结合 (B) SARS-CoV-2主蛋白酶(Mpro)与N3抑制剂的复合物结构(PDB: 7BQY)。深青色显示催化二联体Cys145-His41,黄色是结合的N3配体,粉色是水分子,灰色是蛋白质表面。共价药物设计需要确保弹头(如Michael受体)正确定位于亲核残基(Cys145)附近 共价结合的双步机制 类似于Michaelis-Menten机制,共价抑制剂结合分为两步: [E + \text{药物} \xrightarrow{\Delta G_b^{\ddagger}} E:\text{药物(非共价)} \xrightarrow{\Delta G_c^{\ddagger}} E\text{-药物(共价)}] 第一步:非共价结合 由氢键、疏水作用、静电相互作用驱动 能垒 $\Delta G_b^{\ddagger}$ 决定初始识别和结合亲和力 第二步:共价键形成 弹头基团(warhead)与靶残基(通常是半胱氨酸)反应 能垒 $\Delta G_c^{\ddagger}$ 决定反应速率和可逆性 设计关键考量 mindmap root(共价药物设计要点) **弹头反应性平衡**<br/>Warhead Reactivity 反应性过低<br/>无法在合理时间内<br/>形成共价键 反应性过高<br/>导致非特异性反应<br/>和脱靶毒性 **最佳策略**<br/>使用弱亲电试剂<br/>如Michael受体、丙烯酰胺 **弹头精确定位**<br/>Positioning 必须将弹头定位到<br/>靶残基附近,小于5Å 反应角度和取向<br/>对能垒影响显著 优化连接臂linker<br/>的长度和柔性 **靶残基可及性**<br/>Target Accessibility **半胱氨酸**是最常见靶点<br/>pKa约8.5易去质子化 其他亲核残基<br/>丝氨酸、赖氨酸、酪氨酸 需评估残基暴露度<br/>和局部氢键网络 **可逆性与持久性**<br/>Reversibility **不可逆抑制剂**<br/>共价键稳定<br/>作用持久 **可逆共价抑制剂**<br/>存在解离平衡<br/>减少脱靶效应 用QM/MM计算<br/>逆反应能垒判断可逆性 计算方法在共价药物设计中的应用 mindmap root(共价药物计算方法) **QM/MM方法** 准确描述**共价键**<br/>形成的化学机制 计算反应能垒和<br/>**过渡态**几何构型 评估不同弹头的<br/>反应性和选择性 应用案例<br/>新冠病毒主蛋白酶<br/>Michael受体等抑制剂 **约束对接**<br/>Restrained Docking 传统对接方法<br/>无法处理共价键形成 引入约束确保<br/>弹头-靶残基距离角度合理 生成初始结合构象<br/>用于QM/MM精修 **机器学习辅助** 多层感知器MLP<br/>从对接打分预测亲和力 卷积神经网络CNN<br/>学习蛋白配体界面特征 图神经网络GNN<br/>直接预测反应性和选择性 **主动学习**策略<br/>智能筛选减少计算量 **过渡态分析**<br/>TS Analysis 计算非共价态到<br/>共价态的过渡态结构 评估反应能垒<br/>预测选择性 预测反应时间尺度<br/>秒级、分钟级或不可逆 共价药物设计的成功范式 SARS-CoV-2 Mpro抑制剂开发: 结构导向:利用高分辨率晶体结构(如PDB: 7BQY) 弹头筛选:测试Michael受体、醛类、酮酰胺等多种弹头 QM/MM优化:计算不同抑制剂的反应机制和能垒 结构-活性关系:系统优化P1-P4位点的侧链,提高选择性 临床成功:Nirmatrelvir(Paxlovid)成为首个口服COVID-19特效药 Q&A Q1:为什么设计酶的活性远低于天然酶?主要瓶颈是什么? A1:当前设计酶活性比天然酶低10³-10⁶倍,主要原因包括:静态设计范式仅优化过渡态几何,忽略蛋白质动力学;缺乏反应物去稳定化机制;熵-焓补偿未优化;单一催化机制而非多重机制协同;缺乏天然酶的变构调控网络 Q2:构象驱动和熵驱动变构可以通过哪些实验技术区分? A2:X射线晶体学可区分明显的结构差异(构象驱动);NMR弛豫色散探测动力学变化;氢氘交换质谱检测溶剂可及性;单分子FRET实时观察构象分布;计算协方差分析验证相关矩阵变化 Q3:共价药物如何避免脱靶毒性?计算能提供什么帮助? A3:使用弱亲电试剂平衡反应性;优化非共价结合特异性;选择靶蛋白特有的暴露残基;设计可逆共价键降低累积毒性。计算可通过QM/MM预测选择性,对接评估脱靶亲和力,机器学习预测ADMET性质 关键结论与批判性总结 主要贡献 系统整合了酶催化机制、蛋白质动力学、变构调控、从头设计和药物开发等多个子领域,构建了完整的计算酶学知识框架 超越传统过渡态稳定化理论,深入讨论反应物去稳定化、耦合动力学、量子隧穿等多重催化机制的协同作用 详细介绍了QM/MM、自由能计算、增强采样、变构分析等核心计算方法及其适用场景 明确指出计算酶学在酶工程、合成生物学和药物发现中的关键作用和未来发展方向 存在的局限性 精确的QM/MM自由能计算对复杂多步反应仍然昂贵,限制了大规模应用 毫秒尺度构象变化和罕见事件采样仍是挑战 MM力场参数对QM/MM结果有显著影响,特殊残基参数化仍不完善 多步反应中的质子化状态变化处理复杂 从头设计的酶活性仍远低于天然酶,机制洞察到设计原则的转化是开放问题 未来研究方向 开发统一的多尺度整合框架,连接电子结构到细胞尺度 将时间分辨实验技术(XFEL、冷冻电镜)与实时模拟结合 系统表征所有催化相关的构象子态及其对整体速率的贡献 将物理约束嵌入机器学习模型,提高预测可靠性 开发靶向变构位点的调控分子,超越活性位点抑制 将祖先序列重建的进化原则系统应用于现代酶改造
Specific Sytems
· 2025-12-14
预反应态vs自由态:用双态MD梳理SDR“葫芦口袋”精准打开大位阻芳香酮入口
预反应态vs自由态:用双态MD梳理SDR“葫芦口袋”精准打开大位阻芳香酮入口 本文信息 标题: Rational Design of Dehydrogenase/Reductases Based on Comparative Structural Analysis of Prereaction-State and Free-State Simulations for Efficient Asymmetric Reduction of Bulky Aryl Ketones 作者: Bing-Mei Su, Ze-Hui Shao, Ai-Peng Li, Muhammad Naeem, Juan Lin, Li-Dan Ye, Hong-Wei Yu 发表时间: 2019年12月4日 单位: 浙江大学生物工程研究所、福州大学化学工程学院、浙江工业大学药学院、西北工业大学生命科学学院(中国) 引用格式: Su, B.-M., Shao, Z.-H., Li, A.-P., Naeem, M., Lin, J., Ye, L.-D., & Yu, H.-W. (2020). Rational Design of Dehydrogenase/Reductases Based on Comparative Structural Analysis of Prereaction-State and Free-State Simulations for Efficient Asymmetric Reduction of Bulky Aryl Ketones. ACS Catalysis, 10(1), 864-876. https://doi.org/10.1021/acscatal.9b04778 摘要 本研究受分子动力学(MD)模拟中酶-底物复合物在距离限制条件下构象变化的启发,提出了一种基于T态(预反应态)与F态(自由态)模拟比较分析来识别工程改造靶点的策略。以短链脱氢酶/还原酶(SDR)突变体EbSDR8-G94A/S153L(Mu0)为例,该酶对大位阻芳香酮活性较低。通过比较两种模拟模式下的构象差异,H145和Y188被确定为工程改造靶点,因为它们在底物结合口袋C2入口处形成了阻碍底物进入的“横梁”结构。通过重构底物结合口袋并调节C1和C2两个空腔的相对大小,成功设计出能够高效不对称还原邻卤代苯乙酮、苯丙酮、芳香酮酯和二芳基酮的突变体,转化率大于99%、ee值大于98%。该设计策略的有效性还通过PpYSDR的成功改造得到验证,获得的变体能够高效将(4-氯苯基)2-吡啶基酮还原为S-产物,转化率大于99%、ee值达96%。 核心结论 通过T态与F态MD模拟的比较分析,可以直观地识别导致酶活性低下的关键残基 H145和Y188形成的“横梁”结构是阻碍大位阻底物进入活性位点的主要原因 根据Prelog规则调节C1和C2空腔的相对大小,可以同时优化活性和对映选择性 该策略具有普适性,成功应用于两种不同的SDR酶(EbSDR8和PpYSDR) 背景 手性醇是复杂化合物的重要构建单元,在制药、农业化学、香料和精细化学工业中有广泛应用。据统计,超过25%的药物分子含有手性醇结构单元,其中相当一部分是通过生物催化合成的。利用脱氢酶/还原酶进行前手性酮的不对称生物还原是制备手性醇的重要方法,具有反应条件温和、环境友好、对映选择性高等优点。 然而,对于工业上感兴趣的非天然底物,特别是那些具有较大位阻取代基的芳香酮类化合物,天然酶往往存在活性有限或对映选择性不足的问题。这一瓶颈严重限制了生物催化在合成复杂手性药物中间体中的应用。例如: 邻卤代苯乙酮类:重要的药物中间体,但邻位卤素的位阻效应大大降低酶活性 二芳基酮类:如(4-氯苯基)2-吡啶基酮,是抗过敏药物贝泊替芬的关键前体 芳香酮酯类:在合成手性药物和香料中具有重要应用价值 蛋白质工程已证明其在改善酶催化性能方面的强大能力。对于通过蛋白质工程产生的突变体,计算分子动力学模拟被广泛用于解释酶活性、稳定性和对映选择性变化的机制。约束MD模拟的出现使得预反应态的分析成为可能,自此以来,预反应态形成的概率和稳定性差异被用于解释各种反应体系中的活性差异。 Prelog规则与Kazlauskas规则 短链脱氢酶/还原酶(SDR)是一类重要的氧化还原酶,其底物结合口袋通常呈葫芦形结构,包含两个相邻但大小不同的空腔: C1腔:通常较小,容纳底物羰基碳的小取代基 C2腔:通常较大,容纳底物羰基碳的大取代基 根据Prelog规则: 较大C1 + 较小C2 → R-选择性(anti-Prelog构型) 较小C1 + 较大C2 → S-选择性(Prelog构型) 类似的规则也存在于酯酶和脂肪酶中,被称为Kazlauskas规则。这些规则为酶的对映选择性预测和工程设计提供了重要指导,但其应用前提是底物能够顺利进入催化构象。 https://www.dalalinstitute.com/books/a-textbook-of-organic-chemistry-volume-1/asymmetric-synthesis-crams-rule-and-its-modifications-prelogs-rule/ Prelog规则的本质是辅因子NAD(P)H的氢负离子转移方向与底物羰基碳的立体化学之间的关系。在脱氢酶/还原酶催化的羰基还原反应中,辅因子NAD(P)H的C4位置携带一个pro-S氢和一个pro-R氢(根据Re/Si面命名规则,这也被称为pro-4R和pro-4S氢): Prelog选择性(S-构型产物):NADH的pro-S氢(4S-H)转移到底物羰基的Re面 Anti-Prelog选择性(R-构型产物):NADH的pro-R氢(4R-H)转移到底物羰基的Si面 https://www.nature.com/articles/s42004-023-01013-1/figures/1 这种选择性的分子基础在于: 辅因子结合方向:NAD(P)H在活性位点的结合构象决定了哪个面(pro-S或pro-R氢)朝向底物羰基 底物取向控制:底物结合口袋中C1和C2空腔的相对大小决定了底物的取向——大取代基被引导进入较大的空腔,小取代基进入较小的空腔 空间匹配原则:当底物以特定取向结合时,其羰基碳的Re面或Si面会暴露给NADH的相应氢原子,从而决定最终产物的立体化学 空腔大小与氢负离子转移方向的耦合: 当C2腔较大、C1腔较小时,底物的大取代基进入C2腔,小取代基进入C1腔,这种取向使得羰基碳的Re面暴露给NADH的pro-S氢,产生S-构型产物(Prelog选择性) 当C1腔较大、C2腔较小时,底物取向翻转,羰基碳的Si面暴露给NADH的pro-R氢,产生R-构型产物(anti-Prelog选择性) 非保守残基的协同调控:近年来的研究表明,除了空腔大小外,底物结合口袋中非保守残基的协同作用对立体选择性至关重要。因此,Prelog规则不仅仅是简单的空腔大小规则,而是辅因子结合、底物取向、氢负离子转移方向以及多个非保守残基协同作用的综合体现。这一认识为理性设计提供了更精确的指导:不仅要调节空腔大小,还需要考虑关键残基的化学性质和空间排布。 约束MD模拟与预反应态分析 预反应态(Prereaction State)是指酶-底物-辅因子复合物中,底物和辅因子处于可发生催化反应的空间构象。对于脱氢酶/还原酶,预反应态的形成需要满足两个关键距离条件: $d(\text{O}{\text{sub}}-\text{OH}{\text{Y156}}) \leq 2.8$ Å(质子转移距离) $d(\text{C}{\text{sub}}-\text{H18}{\text{NADH}}) \leq 3.0$ Å(氢负离子转移距离) 约束MD模拟通过施加外部谐振势约束这些关键距离,可以强制系统保持在预反应态附近采样,从而分析预反应态的稳定性。而自由态(Free-State)模拟则无约束,允许系统自然演化,反映底物在酶中的真实结合行为。 核心假设:如果底物结合口袋不适合目标底物,那么T态模拟和F态模拟中的结合模式会存在显著差异。通过分析这些差异,可以识别限制酶活性的关键残基,为理性设计提供靶点。 关键科学问题 如何在没有晶体结构的情况下,系统地识别限制酶对非天然底物活性的关键残基?传统的理性设计方法往往需要大量的试错,而本研究提出的T态/F态比较分析策略能够更直接地揭示导致低反应性的关键残基,从而更准确地确定工程改造靶点。 创新点 提出了T态与F态比较分析的新策略,用于识别酶工程改造的靶点残基 系统阐明了SDR酶底物结合口袋“葫芦形”结构与对映选择性的构效关系 结合Prelog规则,通过调控C1/C2空腔相对大小实现活性与对映选择性的同步优化 建立了从亲和力测定到能量分解的多层次机制解析方法 研究内容 方法概述 graph TB subgraph Input["输入准备"] direction LR A["同源建模<br/>EbSDR8: 4URF<br/>PpYSDR: 5WQO"] --> B["分子对接<br/>AutoDock 4<br/>选择催化构象"] end subgraph MD["MD模拟策略"] direction TB C["T态模拟<br/>预反应态约束<br/>d(Osub-OHY)≤2.8Å<br/>d(Csub-H18NADH)≤3.0Å"] D["F态模拟<br/>自由状态<br/>无距离约束"] end subgraph Analysis["比较分析"] direction TB E["构象差异分析<br/>识别关键残基"] F["能量分解<br/>MM-PBSA方法"] G["亲和力测定<br/>荧光猝灭法"] end subgraph Engineering["理性设计"] direction TB H["打破横梁结构<br/>H145/Y188突变"] I["调节空腔大小<br/>Prelog规则指导"] J["组合突变优化<br/>引入π-π相互作用"] end subgraph Validation["实验验证"] direction TB K["全细胞催化"] L["动力学参数"] M["对映选择性"] end Input --> MD MD --> Analysis Analysis --> Engineering Engineering --> Validation Validation --> N["成功突变体"] 方法要点: 模型构建: EbSDR8 以4URF(52%序列一致性)为模板,同法得到PpYSDR(模板5WQO,39%); AutoDock 4 选取满足催化几何的初始姿势,再用Amber18(FF14SB/GAFF2/TIP3P)补氢、加离子与溶剂。 两阶段MD: 完成三步能量最小化后,先运行T态(带约束的预反应态模拟):对$d(\text{O}{\text{sub}}-\text{OH}{\text{Y156}})$[$d(\text{O}{\text{sub}}-\text{OH}{\text{Y150}})$]和$d(\text{C}{\text{sub}}-\text{H18}{\text{NADH}})$[$d(\text{C}{\text{sub}}-\text{H18}{\text{NADPH}})$]施加2.8 Å/3.0 Å谐波约束(500 kcal·mol$^{-1}$·Å$^{-2}$) 依次完成0→300 K加热(50 ps,NVT)、等压平衡(50 ps,NPT)及8 ns NPT采样,使底物被“牵住”在催化距离。 F态诊断:直接从T态末帧解除约束,再跑8 ns NPT。 此时配体仍在口袋里,若空间/能量不合,则会“跑飞”到C1或溶剂区;、 若橙蓝(或青粉)轨迹重合,则表明酶在无外力下也能保持预反应态,是结构设计成功的信号。 催化判据与分析: $d(\text{O}{\text{sub}}-\text{OH}{\text{Y156}})\le 2.8$ Å 且$d(\text{C}{\text{sub}}-\text{H18}{\text{NADH}})\le 3.0$ Å 统计满足的帧的占比,再结合MM-PBSA能量分解和荧光淬灭测得的亲和力,判断哪些残基需要工程化。F态若频繁跑飞,就与后续低转化率或ee崩塌一一对应。 实验验证: 全细胞催化还原反应 动力学参数测定($K_m$、$k_\text{cat}$) 荧光猝灭法测定全酶/脱辅酶对底物的亲和力 问题诊断:Mu0对大位阻底物活性低下的原因 本研究涉及的底物结构如下: 编号 名称 结构特点 0a 苯乙酮 基准底物 1a 2’-氯代苯乙酮 邻位卤代 2a 2’-溴代苯乙酮 邻位大位阻卤代 3a 苯丙酮 乙基取代 4a 2-氧代-4-苯基丁酸乙酯 芳香酮酯 5a 3-氯丙酮 氯丙基取代 6a (4-氯苯基)2-吡啶基酮 二芳基酮 EbSDR8-G94A/S153L(Mu0)对简单苯乙酮类底物表现出优异的R-选择性还原活性,但对邻卤代苯乙酮(2a)、苯丙酮(3a)、芳香酮酯(4a)等大位阻底物活性很低或完全无活性。 实验证据: 在50 mM底物浓度的全细胞还原反应中: 2’-溴代苯乙酮(2a):转化率仅8.0% 苯丙酮(3a):转化率38% 芳香酮酯(4a):转化率35%,但对映选择性从R型反转为S型(67% ee) 3-氯代丙酮(5a)和二芳基酮(6a):完全无法还原 动力学参数分析揭示了更深层的原因: $k_\text{cat}$值极低:所有测试底物的$k_\text{cat}$均小于0.1 s$^{-1}$,或因严重底物抑制而无法测定 邻位效应显著:2a的活性显著低于1a,表明邻位卤素的位阻效应是活性的主要限制因素 取代基大小敏感:当邻位取代基从氯增大到溴时,$k_\text{cat}$急剧下降 这些结果表明,Mu0的底物结合口袋可能不适合容纳大位阻取代基,限制了对工业上重要的底物的催化能力。 图1:EbSDR8-G94A/S153L(Mu0)的重新设计策略。 关键残基以棍状显示,底物以球棍模型显示。绿色虚线代表氢键,黑色虚线代表氢负离子转移方向。图中展示了:(A)Mu0的“葫芦形”底物结合口袋结构,包含较大的开放腔C1和较小的封闭腔C2;(B)T态与F态模拟的比较分析策略;(C)通过打破H145-Y188“横梁”结构并调节C1/C2相对大小来优化活性和对映选择性。 T态/F态比较分析揭示了问题根源:为了深入理解Mu0对大位阻底物活性低下的分子机制,作者构建了Mu0全酶的预测模型。通过同源建模(模板:4URF,52%序列一致性)和MD模拟优化,模型质量评估显示:VERIFY值为96%(衡量3D-1D相容性,>80%为合格)、ERRAT值为93(评估非键原子间相互作用,>50为高质量)、Ramachandran图中>99%的残基位于允许区域(评估主链二面角合理性),表明模型合理可靠。 结构分析显示,Mu0的底物结合口袋呈典型的“葫芦形”结构: C1腔:较大的开放空腔,通常容纳底物羰基碳的小取代基 C2腔:较小的封闭空腔,通常容纳底物羰基碳的大取代基 催化三联体:S143、Y156、K160,分别负责底物稳定、质子转移和NADH结合 关键发现:H145和Y188通过氢键相互作用形成“横梁”结构($d(\text{OH}{\text{Y188}}-\text{NE2}{\text{H145}}) \leq 3.2$ Å的比例高达78%),阻挡了底物进入C2腔到达活性位点。 能量分解分析(MM-PBSA方法,见后文图3D)进一步证实了这一发现: 催化残基贡献小:S143、Y156、K160对2a$_{\text{ProR}}$结合的能量贡献极小 C1腔吸引力强:I93、A94、Y188、S199、Y202等C1腔残基对底物结合的能量贡献较大 非催化构象(noncatalytic conformation):底物被C1腔强烈吸引,但无法进入质子/氢负离子可转移的几何状态 这一发现解释了为什么Mu0对大位阻底物活性低下:底物虽然能够与酶结合,但无法形成有效的预反应态,因此无法完成催化反应。 突变设计与验证 图2:2a和6a与Mu0及其变体在T态和F态模拟中的结合模式。 (A)2a${\text{ProR}}$与Mu0的结合模式,橙色为T态、蓝色为F态;(B)2a${\text{ProR}}$与Mu1的结合模式;(C)6a${\text{ProR}}$与Mu0的结合模式;(D)6a${\text{ProR}}$与Mu14的结合模式;(E)2a$_{\text{ProS}}$与Mu14的结合模式,青色为T态、粉色为F态。黄色虚线表示氢键,黑色虚线和数值(Å)表示距离。 第一轮突变:将H145和Y188替换为较小残基(Ala、Gly、Cys) 突变体 描述 底物2a转化率 ee值 底物3a转化率 ee值 Mu0 E-G94A/S153L 8.0% >99%(R) 38% >99%(R) Mu1 Mu0-H145A >99% >99%(R) 92% >99%(R) Mu4 Mu0-Y188A 25% 22%(R) 95% >99%(R) Mu0(基线):图2A的橙蓝分离,2a${\text{ProR}}$在F态滑入C1腔,平均$d(\mathrm{O}{\text{sub}}-\mathrm{OH}{\text{Y156}})$/$d(\mathrm{C}{\text{sub}}-\mathrm{H18}_{\text{NADH}})$拉长至4.2/4.7 Å,0%轨迹落在催化窗口,对应表格中对大位阻底物的个位数转化率。 Mu1(H145A):图2B叠加列几乎重合,F态距离缩短到3.7/3.5 Å,5.6%构象满足催化限制,使2a、3a的转化率跃升至>90%,$k_\text{cat}$提高35倍以上。 Mu4(Y188A):虽然列表显示对3a的转化率达到95%,但C2腔被过度放大,2a的ee值跌到22%(R),提示即便橙蓝差异来自“过度扩腔”,也会导致对映选择性崩塌。 第二轮突变:针对二芳基酮6a 单点突变无法使酶还原更大的二芳基酮(4-氯苯基)2-吡啶基酮(6a)。通过组合突变和引入π-π相互作用: 突变体 描述 底物6a转化率 ee值 Mu10 Mu0-H145F/Y188A 94% 91%(R) Mu14 Mu0-G94Q/H145F/Y188A 99% 98%(R) 图2C对照显示,Mu0-6a$_{\text{ProR}}$在F态下完全偏离催化距离,必须通过重构C2腔与调节底物取向来恢复T/F一致性。 关键设计逻辑: H145F:提供π-π相互作用并稳定6a的大芳环,使图2D中橙蓝叠加的右列距离保持3.0 Å。 Y188A:释放C2腔空间,让p-氯苯环进入更大的空腔,消除图2C那种F态偏离。 G94Q:缩小C1腔、增加极性来吸引吡啶环,从而在图2D中维持R取向;图2E显示若底物试图以S构象结合(青粉分离,仅15%时间满足催化距离),就需要巨大结构波动,因而实验上仍检测到98% ee(R)。 Mu14(G94Q/H145F/Y188A):图2D的橙蓝完全对齐,F态有21%的时间处在绿色催化区域,对应表格里6a的99%转化率和98% ee(R)。 Mu14-2a$_{\text{ProS}}$:图2E青粉分叉,只能偶发性满足催化距离(15%),因此不会输出S产物。通过“叠加列对齐=自由态维持催化构象”这一判据,可以把图2、图3的理论分析与表格中的活性/ee数据串联起来,形成完整的诊断—设计—验证闭环。 机制解析 图3:F态轨迹分布与能量分解。 (A)Mu0-2a${\text{ProR}}$(红)与Mu1-2a${\text{ProR}}$(蓝)的F态采样;(B)Mu0-6a${\text{ProR}}$(红)、Mu14-6a${\text{ProR}}$(蓝)与Mu14-6a${\text{ProS}}$(粉)的采样;(C)P-6a${\text{ProR/S}}$与Mu17-6a${\text{ProR/S}}$的采样;(D-F)对应能量分解。绿色区域表示满足$d(\text{O}{\text{sub}}-\text{OH}{\text{Tyr}})\le 2.8$ Å和$d(\text{C}{\text{sub}}-\text{H18}_{\text{NAD(P)H}})\le 3.0$ Å的“催化窗口”。(感觉都没怎么满足。。) 图3把构象云图与能量贡献拆成三类体系: 图3A:Mu0(红)完全漂在绿色窗口之外,而Mu1(蓝)明显向窗口收敛,提示LOGO突变让自由态更容易进入催化几何。 图3B:Mu14-6a${\text{ProR}}$(蓝)集中在窗口内,Mu14-6a${\text{ProS}}$(粉)偏离窗口,Mu0-6a(红)几乎无法到达窗口,揭示组合突变只稳定R-构象。 图3C:PpYSDR(红/绿)对R/S采样差异不大;M85S(蓝/粉)把粉色点推入窗口,说明策略可推广到其它SDR。 图3D-F:从Mu0到Mu1或Mu14,催化残基及C2腔残基的能量贡献由正转负,开始稳定底物;Mu17也让Y150/K154对S-构象提供更多负能量。 第一轮突变:H145A如何拉近T/F轨迹 Mu1(H145A)对2a的活性提升: 构象收敛(图3A):Mu1-2a$_{\text{ProR}}$的蓝色轨迹侵入绿色窗口,预反应态比例由0增至5.6%。 距离优化:平均$d(\text{O}{\text{sub}}-\text{OH}{\text{Y156}})$从4.24 Å缩到3.7 Å,$d(\text{C}{\text{sub}}-\text{H18}{\text{NADH}})$从4.68 Å缩到3.5 Å。 能量重分布(图3D):S143/Y156/K160对底物的贡献从接近0变为-1.5~-2.0 kcal/mol,C2腔残基也转为稳定力。 催化效率提升:$k_\text{cat}$从0.030 s$^{-1}$提升到1.1 s$^{-1}$,35倍以上。 为什么简单的H145A突变能产生如此大的效果? H145A突变的成功在于: 消除空间位阻:组氨酸的咪唑环被较小的丙氨酸取代,消除了对C2腔入口的空间阻碍 打破氢键网络:H145与Y188之间的氢键相互作用被破坏, “横梁”结构被打破 增加柔性:A145比H145更灵活,允许底物更容易调整构象进入C2腔 非极性环境维持:丙氨酸的非极性侧链维持了C2腔的疏水环境,适合芳香底物结合 对映选择性反转机制(Mu4-4a) 底物4a的对映选择性反转现象:Mu0对4a表现为S-选择性(67% ee),但经过Y188A突变后,变体Mu4表现为R-选择性(>99% ee)。这一现象可以通过以下机制解释: 构象分布差异: Mu0-4a:底物在F态模拟中倾向于形成S-选择性构象,C1腔容纳羰基苯环,C2腔容纳乙酯基团 Mu4-4a:Y188A扩大C2腔后,乙酯基团在C2腔中的空间限制减弱,底物可以翻转,使苯环进入C2腔,乙酯基团进入C1腔,符合anti-Prelog规则的R-选择性 能量分解证据: Mu0:C1腔残基(I93、A94)对底物结合的能量贡献更大,倾向于将苯环定位在C1 Mu4:C2腔扩大后,C2腔残基的能量贡献相对增加,有利于乙酯基团占据C2腔 静电效应:乙酯基团的酯键与S143、Y156的静电相互作用在翻转构象中更有利 这一发现表明,通过调节两个空腔的相对大小,不仅可以影响底物结合,还可以完全改变对映选择性,为工程设计提供了精确的控制手段。 组合突变的协同效应(图3B、3E) 分子识别挑战: 空间位阻:6a包含4-氯苯基和2-吡啶基两个大芳环,需要重新分配C1/C2腔体积。 极性需求:吡啶环电子云不均,要求C1腔提供更强的极性配合。 构象限制:两个芳环限制底物转动自由度,需要诱导其以最有利的取向进入催化区。 三突变协同机制: H145F:提供π-π堆叠与刚性骨架,压制无意义的旋转,保持芳环在C2腔。 Y188A:释放C2腔空间、降低极性,容纳p-氯苯基。 G94Q:缩小C1腔并增强极性,引导吡啶氮与谷氨酰胺氢键配对,固定R-取向。 能量分解(图3E): Mu0-6a$_{\text{ProR}}$(红)主要依赖C1腔残基(I93/A94)稳定底物,催化残基贡献微弱,因而偏向S-构型。 Mu14-6a$_{\text{ProR}}$(蓝)让S143/Y156/K160和C2腔残基贡献转负,R-构象得以稳定。 Mu14-6a$_{\text{ProS}}$(粉)仍出现正值,说明S-取向在突变体中受排斥。 策略验证:PpYSDR的改造(图3C、3F) 为验证策略的普适性,对另一种SDR酶PpYSDR(来自Pseudomonas putida)进行改造: 酶 描述 底物6a转化率 ee值 P PpYSDR 44% 41%(S) Mu17 P-M85S >99% 96%(S) 图3C显示,野生型PpYSDR(红/绿)对R/S构象采样差异不大;M85S(蓝/粉)则让粉色点群进入绿色窗口。图3F进一步表明,M85S让Y150/K154对S构型提供负能量,而对R构型贡献仍为正,从而仅需扩张C1腔就能稳定S-产物。最终6a的转化率达到>99%,ee 提升至96%(S),$k_\text{cat}$提高约5倍,验证了“T态/F态比较+能量分解”在其他SDR上的可迁移性。 关键结论与批判性总结 主要贡献: 建立了T态/F态比较分析的系统方法论,为酶理性设计提供了新工具 深入阐明了SDR酶“葫芦形”结合口袋与对映选择性的构效关系 成功设计了多个高活性、高对映选择性的SDR突变体 局限性: 依赖于同源建模的准确性,对于无合适模板的酶可能受限 能量分解方法(MM-PBSA)存在固有的近似误差 主要关注底物结合,未深入探讨过渡态稳定化 未来方向: 结合机器学习方法,自动识别T态/F态差异显著的残基 扩展到其他氧化还原酶和非氧化还原酶体系 开发高通量计算筛选流程,减少实验验证工作量 小编锐评: MD跑得太短了,而且我以为free态应该是没有底物的。而且跑出底物翻转这种构象变化略难,还得靠先验知识建模,MD只是采个样relax一下(倒也确实不用太长。。) 学一下原理、讲故事角度(也不过是几何约束和能量分解)好了。原理和现实(模拟)还是有点差距的,不会完美对上,不然放结果就不会遮遮掩掩的。还好这篇有湿实验
Specific Sytems
· 2025-12-14
预反应态vs自由态:用双态MD梳理SDR“葫芦口袋”精准打开大位阻芳香酮入口(附录)
附录:预反应态vs自由态:用双态MD梳理SDR“葫芦口袋”精准打开大位阻芳香酮入口 本文信息 标题: Rational Design of Dehydrogenase/Reductases Based on Comparative Structural Analysis of Prereaction-State and Free-State Simulations for Efficient Asymmetric Reduction of Bulky Aryl Ketones 作者: Bing-Mei Su, Ze-Hui Shao, Ai-Peng Li, Muhammad Naeem, Juan Lin, Li-Dan Ye, Hong-Wei Yu 发表时间: 2019年12月4日 单位: 浙江大学生物工程研究所、福州大学化学工程学院、浙江工业大学药学院、西北工业大学生命科学学院(中国) 引用格式: Su, B.-M., Shao, Z.-H., Li, A.-P., Naeem, M., Lin, J., Ye, L.-D., & Yu, H.-W. (2020). Rational Design of Dehydrogenase/Reductases Based on Comparative Structural Analysis of Prereaction-State and Free-State Simulations for Efficient Asymmetric Reduction of Bulky Aryl Ketones. ACS Catalysis, 10(1), 864-876. https://doi.org/10.1021/acscatal.9b04778 Q&A Q1: 为什么选择T态/F态比较分析而不是直接的自由能计算? A1: T态/F态比较分析的优势在于能够直观地揭示哪些残基导致了预反应态难以形成。当两种模拟模式下的结合模式差异显著时,说明底物难以自发进入反应构象,而残基构象差异最大的位置就是改造靶点。这比复杂的自由能计算更直接、更易于指导实验设计。 Q2: 为什么$k_\text{cat}$提高的同时$K_m$也增加了? A2: $k_\text{cat}$和$K_m$的同时增加表明非催化构象(noncatalytic conformation)的占比降低。虽然$K_m$升高意味着底物亲和力降低,但在工业应用中高底物浓度可以弥补这一不足。更重要的是,高$k_\text{cat}$代表更高的催化效率,且较低的亲和力还可以缓解底物抑制问题。 Q3: 这种策略对其他类型的酶是否适用? A3: 该策略的核心思想——比较有/无约束条件下的底物结合模式差异——具有较好的普适性。对于任何具有明确反应几何要求的酶(如需要特定底物-辅因子距离),都可以应用类似的分析方法。但对于反应机制复杂或多步反应的酶,可能需要调整约束条件的设置。 Q4: 如何避免扩大结合口袋后对映选择性下降? A4: 关键是同步调节两个空腔的相对大小,而非单纯扩大其中一个。根据Prelog规则,需要在扩大容纳大取代基的空腔的同时,通过引入大残基或极性残基来调整另一个空腔的大小和化学环境,以维持或提高对映选择性。 完整突变筛选数据 Table 1:位点145和188的突变筛选(全细胞催化) 酶 描述 1a转化率 1a ee 2a转化率 2a ee E EbSDR8 >99% >99%(R) ND NA Mu0 E-G94A/S153L >99% >99%(R) 8.0% >99%(R) Mu1 Mu0-H145A >99% >99%(R) >99% >99%(R) Mu2 Mu0-H145C >99% >99%(R) >99% >99%(R) Mu3 Mu0-H145G >99% >99%(R) 93% >99%(R) Mu4 Mu0-Y188A >99% 89%(R) 25% 22%(R) Mu5 Mu0-Y188C 11% >99%(R) 12% 95%(R) Mu6 Mu0-Y188G >99% 87%(R) 14% 18%(R) 酶 描述 3a转化率 3a ee 4a转化率 4a ee E EbSDR8 4.0% >99%(R) ND NA Mu0 E-G94A/S153L 38% >99%(R) 35% 67%(S) Mu1 Mu0-H145A 92% >99%(R) >99% 51%(S) Mu2 Mu0-H145C 93% >99%(R) >99% 82%(S) Mu3 Mu0-H145G 74% >99%(R) >99% 40%(R) Mu4 Mu0-Y188A 95% >99%(R) >99% >99%(S) Mu5 Mu0-Y188C 63% >99%(R) >99% 94%(S) Mu6 Mu0-Y188G 84% >99%(R) >99% >99%(S) 酶 描述 5a转化率 5a ee 6a转化率 6a ee E EbSDR8 ND NA ND NA Mu0 E-G94A/S153L ND NA ND NA Mu1 Mu0-H145A 90% 94%(R) ND NA Mu2 Mu0-H145C ND NA ND NA Mu3 Mu0-H145G 59% >99%(R) ND NA Mu4 Mu0-Y188A 95% >99%(R) ND NA Mu5 Mu0-Y188C ND NA ND NA Mu6 Mu0-Y188G 92% 96%(R) ND NA ND = 未检测到;NA = 不适用 关键观察: H145位点突变(→A/C/G)显著提高对邻卤代苯乙酮(1a、2a)的活性 Y188位点突变虽然提高活性,但可能降低对映选择性(如2a的ee从>99%降至22%) 对于底物4a,H145G突变甚至导致对映选择性反转(从S变为R) 单点突变均无法使酶还原二芳基酮6a Table 3:针对6a的组合突变 酶 描述 6a转化率 6a ee Mu7 Mu0-H145A/Y188F 12% 62%(R) Mu8 Mu0-H145C/Y188F 4.4% >99%(R) Mu9 Mu0-H145G/Y188F 24% 11%(S) Mu10 Mu0-H145F/Y188A 94% 91%(R) Mu11 Mu0-H145F/Y188C ND NA Mu12 Mu0-H145F/Y188G 93% 84%(R) Mu13 Mu0-G94R/H145F/Y188A 37% >99%(R) Mu14 Mu0-G94Q/H145F/Y188A 99% 98%(R) P PpYSDR 44% 41%(S) Mu15 P-M85A 91% 93%(S) Mu16 P-M85G >99% 92%(S) Mu17 P-M85S >99% 96%(S) 设计逻辑: H145F保留芳香环以与底物形成π-π相互作用 Y188A/G扩大C2腔以容纳大取代基 G94Q/R调节C1腔大小和极性以优化对映选择性 完整动力学参数 Table 2:表观动力学参数 底物 酶 描述 $K_m$ (mM) $k_\text{cat}$ (1/s) $k_\text{cat}/K_m$ (1/mM/s) 1a E EbSDR8 0.22 0.020 0.11 1a Mu0 E-G94A/S153L 0.15 0.10 0.70 1a Mu1 Mu0-H145A 0.21 0.97 4.6 1a Mu2 Mu0-H145C 0.23 0.28 1.2 1a Mu3 Mu0-H145G 1.3 1.2 0.93 2a E EbSDR8 0.020 0.010 0.54 2a Mu0 E-G94A/S153L 0.70 0.030 0.050 2a Mu1 Mu0-H145A 0.090 1.1 12 2a Mu2 Mu0-H145C 0.040 0.15 3.7 2a Mu3 Mu0-H145G 2.0 0.69 0.35 3a E EbSDR8 0.10 0.010 0.14 3a Mu0 E-G94A/S153L 0.090 0.070 0.81 3a Mu1 Mu0-H145A 0.30 0.75 2.5 3a Mu2 Mu0-H145C 0.060 0.070 1.2 3a Mu4 Mu0-Y188A 0.55 0.51 0.91 4a E EbSDR8 NA NA NA 4a Mu0 E-G94A/S153L 0.010 0.030 5.5 4a Mu4 Mu0-Y188A 0.18 25 140 4a Mu6 Mu0-Y188G 0.40 52 130 5a E EbSDR8 0.030 0.020 0.63 5a Mu0 E-G94A/S153L 0.090 0.060 0.66 5a Mu4 Mu0-Y188A 0.54 1.23 2.29 6a E EbSDR8 0.030 0.010 0.42 6a Mu0 E-G94A/S153L NA NA NA 6a Mu10 Mu0-H145F/Y188A 2.0 4.2 2.1 6a Mu14 Mu0-G94Q/H145F/Y188A 1.6 2.2 1.3 6a P PpYSDR 0.44 0.23 0.53 6a Mu17 P-M85S 0.45 1.1 2.4 关键发现: Mu1对2a的$k_\text{cat}$比Mu0提高37倍(从0.030到1.1 s$^{-1}$) Mu4和Mu6对4a的$k_\text{cat}/K_m$达到约140 (1/mM/s),是Mu0的25倍以上 $k_\text{cat}$和$K_m$同时增加表明非生产性结合减少 亲和力测定数据 Table 4:脱辅酶和全酶对底物的解离常数 底物 酶 $K_d^{\text{apo}}$ (mM) $h_{\text{apo}}$ $K_d^{\text{holo}}$ (mM) $h_{\text{holo}}$ 1a Mu0 0.011 1.17 0.071 0.68 1a Mu1 0.010 1.45 0.0056 1.67 2a Mu0 0.0023 0.67 0.037 0.87 2a Mu1 0.0023 1.06 0.0055 1.69 3a Mu0 0.0094 0.93 0.028 1.06 3a Mu4 0.010 1.10 0.010 0.77 4a Mu0 0.011 1.04 0.022 0.80 4a Mu4 0.0059 0.91 0.0035 1.38 5a Mu0 0.0037 1.25 0.017 0.65 5a Mu4 0.0042 1.19 0.0075 1.28 6a Mu0 0.0078 1.57 NA NA 6a Mu14 0.012 1.35 0.022 1.14 $h$ = Hill系数;$h > 1$ 表示正协同效应;$h < 1$ 表示负协同效应 关键发现: 突变主要影响全酶对底物的亲和力,而不是脱辅酶 成功突变体的$K_d^{\text{holo}}$显著降低(亲和力提高) Hill系数从负协同($h < 1$)转变为正协同($h > 1$),表明结合行为改善 MD模拟方法细节 同源建模 酶 模板PDB 序列一致性 VERIFY值 ERRAT值 EbSDR8/Mu0 4URF 52% 96% 93 PpYSDR 5WQO 39% 88% 89 T态模拟约束条件 使用谐波势施加距离约束: [E_{\text{restraint}} = k \cdot (r - r_0)^2] 其中: $k = 500$ kcal/(mol·Å$^2$) $r_0(\text{O}\text{sub}-\text{OH}{\text{Y156}}) = 2.8$ Å $r_0(\text{C}\text{sub}-\text{H18}{\text{NADH}}) = 3.0$ Å 能量分解分析 使用MM-PBSA方法计算底物结合口袋(底物6 Å范围内)残基对底物结合的能量贡献。 Mu0 vs Mu1对2a$_{\text{ProR}}$的能量贡献比较 残基位置 Mu0能量(kcal/mol) Mu1能量(kcal/mol) 变化 I93 -2.5 -1.8 ↓ C1吸引减弱 A94 -1.8 -1.5 ↓ S143 -0.3 -1.5 ↑ 催化残基贡献增加 H145/A145 -0.8 -0.5 ↓ 空间位阻消除 Y156 -0.5 -2.0 ↑ 催化残基贡献增加 K160 -0.2 -1.0 ↑ 催化残基贡献增加 Y188 -2.0 -1.8 ↓ 解释:突变后,催化残基(S143、Y156、K160)对底物结合的能量贡献显著增加,表明底物能够更好地进入催化构象。 实验方法 全细胞催化 反应温度:Mu0及其变体37°C,PpYSDR及其变体30°C 反应体系:50 mM底物,25 mg湿细胞,25 μL异丙醇(辅底物),总体积500 μL 反应时间:2 h 检测方法:乙酸乙酯萃取后HPLC/GC分析 动力学参数测定 检测波长:340 nm(NADH/NADPH) 消光系数:NADH ε = 6.0/mM/cm,NADPH ε = 5.3/mM/cm 底物浓度范围:0.2-20 mM 荧光猝灭法测定亲和力 脱辅酶:测定底物结合后蛋白荧光猝灭 全酶:测定底物结合后NAD(P)H荧光变化 数据拟合:Hill方程
Specific Sytems
· 2025-12-08
GH161家族β-葡聚糖磷酸化酶:从肠道宏基因组到催化机制的结构解析
GH161家族β-葡聚糖磷酸化酶:Gate Loop动力学如何精准调控多糖合成 本文信息 标题: Structural and Functional Dissection of GH161 β-Glucan Phosphorylases: Molecular Specificities and Dynamics of Catalysis 作者: Mikel Urresti, Pedro A. Eyers 等 发表时间: 2025年11月12日 单位: University of Liverpool(英国) 引用格式: Urresti, M., et al. (2025). Structural and Functional Dissection of GH161 β-Glucan Phosphorylases: Molecular Specificities and Dynamics of Catalysis. ACS Catalysis, 15(8), 6182-6197. https://doi.org/10.1021/acscatal.4c07629 解析的结构: PDB: 9GEN, 9GEO, 9GEP, 9GEQ; EMDB: EMD-51581~EMD-51584 摘要 糖苷磷酸化酶(GPs)是一类独特的碳水化合物活性酶,它们利用无机磷酸盐代替水来切割糖苷键,从而生成糖-1-磷酸产物。在GH-Q clan中,GH161家族是最新发现且研究最少的成员。本研究从人类肠道宏基因组中鉴定并表征了三个GH161酶(GH161A、GH161B、GH161C),证明它们都是β-1,3-葡聚糖磷酸化酶,以α-D-葡萄糖-1-磷酸(αGlc1P)为供体合成β-1,3-连接的葡聚糖。通过冷冻电镜解析了GH161A的高分辨率结构(2.41 Å),揭示了一个关键的gate loop结构域如何通过开-闭构象变化调控底物进入和产物释放。3D变异性分析(3DVA)进一步揭示了二聚体催化过程中的反对称运动模式,为理解磷酸化酶的催化动力学提供了新见解。 核心结论 GH161家族酶是β-1,3-葡聚糖磷酸化酶,可高效合成长链β-葡聚糖 Gate loop的开-闭动力学是催化循环的核心调控机制 二聚体两个亚基呈现反对称运动,可能代表催化循环的不同阶段 GH161A具有最高的热稳定性($T_m$ = 74.8°C)和聚合活性 背景 糖苷磷酸化酶(Glycoside Phosphorylases, GPs)在碳水化合物代谢中扮演着独特角色。与糖苷水解酶使用水作为亲核试剂不同,GPs利用无机磷酸盐进行磷酸解反应,生成糖-1-磷酸和缩短的糖链。这种反应在热力学上是可逆的,使得GPs既能降解多糖,也能在逆向磷酸解模式下合成多糖。 β-葡聚糖是一类具有重要生物活性的多糖,广泛存在于谷物、真菌和细菌中。它们在生物材料、生物燃料、生物防治以及营养保健和制药领域展现出广泛的应用潜力。然而,β-葡聚糖的酶法合成一直面临挑战:传统的糖基转移酶需要昂贵的核苷酸糖(如UDP-葡萄糖)作为供体,限制了工业应用。 GH-Q clan是CAZy数据库中的一个糖苷磷酸化酶超家族,包含GH94、GH149和GH161三个家族。其中GH94主要作用于β-1,4-连接(如纤维二糖),GH149作用于β-1,3-连接的葡聚糖。GH161是2022年才建立的新家族,其成员的底物特异性和催化机制仍不清楚。 关键科学问题 GH161家族酶的底物特异性是什么?它们如何识别和加工β-葡聚糖底物?与同一clan中的GH94和GH149家族相比,GH161有何独特之处?解答这些问题需要高分辨率的三维结构信息,而此前GH161家族尚无任何实验结构。 创新点 首次解析GH161家族酶的原子分辨率结构 揭示gate loop的动力学行为及其在催化中的调控作用 发现二聚体的反对称运动模式,提出催化循环的动力学模型 系统比较GH-Q clan三个家族的结构与功能差异 研究内容 方法概述 graph TB subgraph S1["1.功能表征"] direction LR A["宏基因组序列挖掘"] --> B["大肠杆菌重组表达"] B --> C["底物特异性筛选"] C --> D["酶促动力学测定"] end subgraph S2["2.结构解析"] direction LR E["Cryo-EM数据采集"] --> F["单颗粒重构"] F --> G["模型构建与优化"] G --> H["3DVA动力学分析"] end subgraph S3["3.比较分析"] direction LR I["AlphaFold2建模"] --> J["GH-Q clan结构比对"] J --> K["进化与功能关联"] end S1 --> S2 --> S3 style D fill:#e1f5ff style H fill:#fff9c4 style K fill:#ffe0b2 酶的来源与表达:从人类肠道宏基因组数据库中鉴定了三个GH161序列(GH161A、GH161B、GH161C),在大肠杆菌BL21(DE3)中重组表达并纯化。 功能表征: 使用多种糖作为供体和受体进行活性筛选 通过MALDI-TOF质谱和NMR确定产物结构 测定稳态动力学参数和热稳定性 结构解析: 在Titan Krios上采集cryo-EM数据(300 kV) 使用RELION进行单颗粒重构 解析了四种状态:apo态、与αGlc1P复合物、与昆布三糖(laminaritriose,LM3,三个葡萄糖通过β-1,3键连接)复合物、与葡萄糖/磷酸根复合物 使用CryoSPARC进行3D分类和3D变异性分析(3DVA):这是一种基于cryo-EM数据的计算方法,无需MD模拟即可从实验数据中直接提取蛋白质的构象异质性和动力学信息 一、功能筛选与底物特异性 图1:GH161酶的功能表征 (A)β-1,3-葡聚糖磷酸化酶的反应机制示意图,αGlc1P作为供体,β-1,3-葡聚糖作为受体 (B)供体筛选:三个酶都特异性使用αGlc1P,不接受其他糖-1-磷酸 (C)受体筛选:GH161A和GH161C偏好β-1,3-连接的寡糖,GH161B也能使用β-1,4-连接底物 (D)链长特异性:GH161A可合成长链产物(DP > 10),GH161B和GH161C产物较短 三个GH161酶都表现出β-1,3-葡聚糖磷酸化酶活性,但在底物偏好和产物链长上存在差异: 酶 最佳受体 最大产物长度 $T_m$ (°C) GH161A 昆布三糖 > DP10 74.8 GH161B 昆布二糖/纤维二糖 DP4-5 67.9 GH161C 昆布三糖 DP5-6 58.9 GH161A是最高效的聚合酶,能够将短链受体延伸成长链β-1,3-葡聚糖。这种高聚合活性使其成为β-葡聚糖生物合成的潜在工具酶。 二、GH161A的整体结构 图2:GH161A apo态的冷冻电镜结构 (A)二聚体整体结构,两个亚基以青色和深青色区分 (B)单体结构域组成:N端结构域(NTD)、催化结构域(TIM桶)、C端结构域(CTD) (C)与GH94纤维二糖磷酸化酶的结构比对,显示保守的TIM桶核心 (D)门控环(gate loop,残基348-369)的位置和构象 GH161A形成同源二聚体,每个亚基包含三个结构域: N端结构域(NTD):α/β折叠,功能尚不明确 催化结构域:经典的(α/β)₈ TIM桶结构,包含活性位点 C端结构域(CTD):α-螺旋束,参与二聚化 活性位点位于TIM桶的C端开口处,被一个关键的gate loop(残基348-369)所覆盖。这个gate loop在底物结合前后经历显著的构象变化。 三、底物结合与活性位点 图3:GH161A与底物的复合物结构 (A)与αGlc1P复合物的整体视图,显示供体结合在-1亚位点 (B)-1亚位点的详细相互作用:αGlc1P与Y204、R206、D138、H368等残基形成氢键 (C)gate loop关闭状态下的构象,H368和Y370插入活性位点 (D)昆布三糖复合物结构,受体结合在+1至+3亚位点 (E)+1/+2亚位点的相互作用网络 (F)磷酸根/葡萄糖复合物,代表催化后的产物态 (G)β-1,3-葡聚糖链在活性位点的延伸方向 供体结合位点(-1亚位点)的关键残基包括: D138:作为催化碱,活化进攻的羟基 R206:稳定磷酸根的负电荷 Y204、H368:与葡萄糖环形成堆积作用 受体结合位点(+1至+3亚位点)相对开放,解释了GH161A能够加工长链底物的能力。 四、Gate Loop的构象动力学 图4:底物结合诱导的构象变化 (A)3D分类揭示两类颗粒:Class 1(47%)为开-闭不对称态,Class 2(53%)为闭-闭对称态 (B)主成分分析(PCA)显示gate loop沿两种运动模式变化 (C)Morph动画显示gate loop从开放到关闭的过渡 Gate loop的开-闭转换是催化循环的核心: 开放态:gate loop远离活性位点,允许底物进入 关闭态:gate loop覆盖活性位点,H368定位αGlc1P的C1位置进行催化 这种不对称分布暗示两个亚基可能处于催化循环的不同阶段。 五、二聚体的反对称运动 图5:3D变异性分析揭示的动力学模式 (A)整体刚体运动(Mode 1) (B)反对称模式(Mode 2):一个亚基的gate loop开放时,另一个关闭 (C)对称模式(Mode 3):两个亚基的gate loop同时开放或关闭 (D)门控环运动的局部放大,显示H368残基的位移 3DVA分析原理:3D Variability Analysis(Punjani & Fleet, 2021)是一种基于主成分分析的cryo-EM数据处理方法。具体而言: 数据准备:对GH161A的61.9万(apo态)或49.2万(催化活性态)个单颗粒进行对称性扩展和局部优化 构象空间建模:将每个颗粒的3D密度图视为高维空间中的一个点,计算所有颗粒之间的协方差矩阵 主成分提取:通过类似PCA的降维方法,识别出解释数据变异性最大的几个主方向(即运动模式) 连续轨迹重建:沿每个主成分方向生成一系列连续的3D重构(如20帧),形成”分子电影” 这种方法的核心是从静态快照中恢复动态信息:尽管每张cryo-EM图像都是蛋白质某一瞬间的”冻结”状态,但通过统计分析成千上万张图像的集体行为,可以推断出蛋白质在溶液中的主要构象变化模式。 重要局限:3DVA只能识别出存在哪些构象以及它们之间的转换路径,但无法确定运动的方向性(A→B还是B→A)或转换速率。因此,本研究中gate loop”从开放到关闭”的动画方向是根据催化逻辑推断的(底物需要先进入活性位点),而非3DVA直接给出的时间序列。 这就像看一堆照片vs看视频: 3DVA = 从很多照片推断运动模式(但不知道拍摄顺序) MD = 真实的视频(但可能是”电影特效”而非纪录片) 所以最理想的研究策略是结合两者:用3DVA确定实验支持的构象空间,再用MD模拟探索这些构象之间的动力学转换。 3DVA分析揭示了三种主要的运动模式: 模式 特征 生物学意义 Mode 1 整体刚体运动 样品取向变化 Mode 2 反对称门控 交替催化机制 Mode 3 对称门控 同步开放/关闭 反对称运动模式的生物学意义: Mode 2(反对称模式)在催化活性态的数据集中占主导地位,提示这是GH161A的主要催化运动模式。这种模式展现了一个引人注目的特征:当一个活性位点关闭时,另一个活性位点开放,反之亦然。这与传统认为的”多聚体磷酸化酶的单体功能独立”观点形成鲜明对比。 作者提出,GH161A的两个原聚体(protomers)偏好以交替方式工作,这可能对催化有利。这一发现与Chen等人在2023年Chemical Reviews上发表的综述中讨论的二聚体酶正协同性(positive cooperativity)概念高度一致。该综述指出,影响二聚体酶协同性的因素包括: 空置vs占据活性位点的动力学差异 亚基-亚基相互作用的重要性 GH161A恰好展现了这些特征,提示两个活性位点之间可能存在某种信号传递通路(communication pathway)。 Communication Pathway假说: 作者尝试通过追踪两个不对称原聚体之间位移最大的区域来勾勒这条通路,发现信号可能从一个活性位点传递到对侧原聚体的gate loop。这立即引发了一个类似”先有鸡还是先有蛋”的生化悖论:gate loop的关闭是从gate loop本身启动,还是从活性位点启动? 答案是:两者都不是严格意义上的首先。正如文献57所述,loop关闭和跨二聚体的信号传递在能量上是耦合的,以协同方式(concerted manner)进行。也就是说,gate loop关闭和活性位点的底物结合是相互促进、同步发生的过程。 对称运动模式的含义: Mode 3展现了一种呼吸样运动(breathing-like motion):两个亚基同时向二聚体中心移动,然后再向外运动。虽然这种模式在催化活性态中不占主导,但在apo态和仅结合LM5的复合物中观察到。这提示: 对称运动可能代表酶在非催化状态下的构象涨落 反对称运动仅在同时存在供体和受体时被触发 值得强调的是,这些运动模式都是从实验数据中直接观察到的,而非通过计算机模拟预测的。这为理解磷酸化酶的催化动力学提供了坚实的实验基础 六、GH161家族的结构比较 图6:GH161A、GH161B和GH161C的结构比较 (A)GH161A实验结构(青色) (B)GH161B AlphaFold2模型(紫色) (C)GH161C AlphaFold2模型(橙色) 下方面板:gate loop区域的序列和结构差异 三个GH161酶的整体结构高度相似,但gate loop区域存在显著差异: GH161A:gate loop最长(22残基),包含关键的H368 GH161B:gate loop较短,缺少H368等效残基 GH161C:gate loop长度中等,K130和K132可能参与底物识别 这些差异可能解释了三个酶在底物特异性和聚合能力上的差异 七、GH-Q Clan的进化关系 图7:GH-Q clan三个家族的结构比较 (A)GH161A(本研究) (B)GH94纤维二糖磷酸化酶 (C)GH149 β-1,3-葡聚糖磷酸化酶 (D)GH94 β-1,2-寡糖磷酸化酶 下方面板:活性位点的关键差异 GH-Q clan的三个家族共享: (α/β)₈ TIM桶催化结构域 保守的催化残基(Asp作为催化碱) 二聚体或多聚体组装 但它们在连接特异性上有明显分化: GH94:β-1,4和β-1,2连接 GH149:β-1,3连接 GH161:β-1,3连接(本研究确认) GH161与GH149在底物特异性上重叠,但结构差异表明它们是独立进化的β-1,3-葡聚糖磷酸化酶 Q&A Q1:为什么GH161A的聚合活性比GH161B和GH161C高得多? A1:主要原因在于gate loop的结构差异: GH161A的gate loop包含完整的H368残基,能够精确定位供体糖 GH161A的受体结合通道更开放,允许长链产物的延伸 GH161A的热稳定性最高(74.8°C),在反应条件下保持更好的催化活性 Q2:反对称运动模式对催化有什么功能意义?这种协同性在其他磷酸化酶中观察到过吗? A2:反对称运动揭示了GH161A可能具有正协同性,这在糖苷磷酸化酶家族中非常罕见: 功能意义: 提高催化效率:交替工作模式可能避免两个活性位点同时处于能量不利的中间态 产物释放优化:一个亚基的产物释放可能促进另一个亚基的底物结合 能量耦合:一个亚基的gate loop关闭释放的能量可能帮助另一个亚基的gate loop开放 与其他磷酸化酶的对比: 大多数糖苷磷酸化酶的多聚体亚基被认为是功能独立的,没有明显的协同性 唯一例外:哺乳动物糖原磷酸化酶展现出变构调控和协同性,但其机制与GH161A不同 GH161A的反对称运动是首次在GH-Q clan中观察到的亚基间协调行为 需要进一步验证: 动力学实验(如底物浓度依赖曲线的Hill系数) 单分子FRET实验验证两个活性位点的动力学相关性 MD模拟探索communication pathway的分子机制 Q3:GH161酶在肠道微生物组中的生理功能是什么? A3:这些酶可能参与: 多糖降解:磷酸解β-葡聚糖获取能量 多糖合成:在特定条件下合成β-葡聚糖作为储能物质或生物膜成分 共生代谢:与宿主或其他微生物的碳水化合物代谢互作 Q4:为什么使用cryo-EM而不是X射线晶体学? A4:Cryo-EM的优势在于: 可以捕获蛋白质的多种构象态(如开放/关闭态) 不需要晶体,避免晶体堆积对构象的限制 3DVA分析可以揭示连续的构象动力学 本研究中确实观察到了2种不同的3D类别和3种运动模式 关键结论与批判性总结 主要贡献: 首次提供GH161家族的原子分辨率结构信息 揭示gate loop动力学是催化调控的核心机制 发现二聚体反对称运动模式,挑战了传统上认为多聚体磷酸化酶亚基功能独立的观点 提出亚基间存在“communication pathway”的假说,为GH-Q clan酶的协同催化机制带来全新视角 局限性: 仅有GH161A的实验结构,GH161B和GH161C依赖AlphaFold2预测 3DVA无法直接提供时间信息:运动方向和速率仍需结合生化动力学实验或MD模拟验证 协同性假说缺乏直接动力学证据:需要通过Hill系数、单分子FRET或双突变循环分析来量化亚基间的相互作用强度 缺乏与真实生理底物(长链β-葡聚糖)的复合物结构 Communication pathway的分子细节尚不清楚:Supporting Figure 13展示的路径仍是推测性的 未来方向: 验证协同性假说:通过稳态动力学(Hill系数)、预稳态动力学(突发相)、单分子FRET实验量化亚基间的功能耦合 鉴定communication pathway关键残基:结合MD模拟和双突变循环分析(double-mutant cycle analysis) 设计解耦突变体:破坏二聚化界面或communication pathway,测试单体酶的催化效率 设计具有更高聚合活性的GH161突变体用于工业生产 解析GH161B和GH161C的实验结构,验证AlphaFold2预测 研究gate loop突变对催化动力学的定量影响 探索GH161在肠道微生物组中的生态功能 更广泛的影响: 本研究展示了cryo-EM在捕获酶催化动力学快照方面的独特优势。结合3DVA分析,研究者无需晶体化即可揭示蛋白质在溶液中的构象异质性。这为研究其他动态酶系统(如变构酶、马达蛋白)提供了方法学启示。 GH161A的反对称催化模式也提醒我们:多聚体酶的亚基可能并非简单的“功能拷贝”,而是通过协同作用实现更高的催化效率。正如作者引用的Chen等人的综述所言,二聚体酶的动力学远比我们过去认为的要复杂和精妙
Specific Sytems
· 2025-11-25
EnzyControl:酶设计方法的技术细节与算法深解
附录:EnzyControl:酶设计方法的技术细节与算法深解 核心方法:条件化酶骨架生成框架 总体数据流概览 EnzyControl的计算流程可以概括为三个阶段: [\text{输入初始化} \to \text{6层IPA迭代(每层注入底物信息)} \to \text{采样得到骨架}] 每一层的内部流程: [h_{k-1}, z_{k-1}, T_{k-1} \xrightarrow{\text{IPA}} h_k \xrightarrow{\text{EnzyAdapter}} c_k^{\text{new}} \xrightarrow{\text{EdgeUpdate}} z_k \xrightarrow{\text{BackboneUpdate}} T_k] 下面详细展开每个阶段。 graph TB subgraph Input["输入与表征"] direction TB R1["蛋白表征: 3D k-NN图<br/>节点=残基 边=相邻 帧=SE(3)"] A2["底物分子经过Uni-Mol编码<br/>冻结参数"] A3["投影器<br/>2层Linear"] B["功能位点 M<br/>MSA注释的催化残基"] A2 --> A3 end subgraph Init["初始化 k=0"] direction TB D["h₀: 节点特征<br/>残基索引+位置编码"] E["z₀: 边特征<br/>相对序列距离+时间步"] F["T₀: 刚体帧<br/>SO(3)旋转+R³平移"] G["S₀: 底物嵌入<br/>投影器输出"] end subgraph Iter["迭代处理 k=1→6"] direction LR H1["IPA处理<br/>几何特征h_k"] H2["EnzyAdapter<br/>交叉注意底物"] H3["特征融合<br/>h_k^new"] H4["EdgeUpdate<br/>边特征z_k"] H5["预测增量<br/>ΔR Δr"] H6["帧累积<br/>T_k"] HT["Transformer<br/>全局依赖"] H1 --> H2 --> H3 --> H4 --> H5 --> H6 H3 -.-> HT H6 -.->|"k→k+1"| H1 end subgraph Output["最终输出"] direction TB Out["采样20条骨架<br/>T₆ 3D坐标+方向"] end subgraph Eval["评估流水线"] direction LR E1["ProteinMPNN<br/>逆折叠生序列"] E2["ESMFold<br/>序列→结构"] E3["多指标评估<br/>scTM scRMSD等"] E1 --> E2 --> E3 end Input --> Init --> Iter --> Output --> Eval style R1 fill:#e0f2f1 style A2 fill:#e0f2f1 style A3 fill:#e0f2f1 style B fill:#f3e5f5 style D fill:#fff9c4 style E fill:#fff9c4 style F fill:#fff9c4 style G fill:#fff9c4 style H1 fill:#f3e5f5 style H2 fill:#f3e5f5 style H3 fill:#ffe0b2 style H4 fill:#e8f5e9 style H5 fill:#e8f5e9 style H6 fill:#e8f5e9 style HT fill:#fff3e0 style Out fill:#c8e6c9 style E1 fill:#b3e5fc style E2 fill:#b3e5fc style E3 fill:#ffccbc 第一部分:输入与初始化(What flows in) 1.1 蛋白的三维表征:k-NN图与刚体帧 蛋白质在模型中的表征方式决定了生成的效率和质量。EnzyControl 采用3D k-NN图表示: 节点表示:每个氨基酸残基是一个节点,携带残基索引、位置编码等特征 边表示:空间上相邻的残基之间有边连接,使模型能感知残基的局部几何环境 帧表示:每个残基的3D位置和方向用SE(3)中的刚体帧 $T_n = (r, x)$ 表示,其中 $r \in SO(3)$ 是旋转矩阵,$x \in \mathbb{R}^3$ 是位置向量 这种表示方式是与序列无关的纯结构表示:输入只需拓扑信息(哪些残基相邻),不需要氨基酸序列;生成输出也是骨架的3D坐标和方向,序列由ProteinMPNN后续设计。 1.2 底物的化学表征:从分子图到特征向量 底物通过其分子图(不是3D构象)表示,原因是底物的3D位置通常未知。 编码过程: 输入分子图 $\to$ Uni-Mol预训练编码器(在209百万分子构象上预训练) $\to$ 分子特征向量 为防止11,100对数据上过拟合:冻结Uni-Mol所有参数(保留预训练知识) 仅训练轻量级投影器(2层线性 + LayerNorm)$\to$ 底物嵌入 $S_0 \in \mathbb{R}^{D_s}$ 将底物特征从分子表示空间映射到蛋白特征空间,既保留预训练泛化能力,又适配任务。 1.3 系统初始化:第0步的完整状态 在迭代开始前,系统初始化以下向量: 节点特征向量 $h_0 \in \mathbb{R}^{N \times D_h}$: $h_k$ 不是单个残基的特征,而是一个矩阵 $h_k \in \mathbb{R}^{N \times D_h}$,包含第k次迭代后所有 $N$ 个残基的特征向量。每个残基有一个维度为 $D_h$ 的向量,记录该残基在第k次迭代后的结构和化学信息。 初始化信息:残基索引 + 位置编码 边特征向量 $z_0 \in \mathbb{R}^{N \times N \times D_z}$: 每条边(残基对)是一个维度为 $D_z$ 的特征向量 初始化信息的三个成分: 相对序列距离:两个残基在氨基酸序列上的距离($ i-j $)。例如,相邻残基距离为1,间隔一个残基距离为2。这告诉模型哪些残基在序列上接近 时间步:当前生成过程中的时间信息(0→1,从噪声到真实结构)。用正弦和学习的位置编码表示,让模型知道”现在在生成过程的哪个阶段” 自条件信息:模型根据自己在前一步对Cα原子距离的预测,将这个预测的距离矩阵(离散化为22个bin)作为额外信息反馈。这种”自我监督”机制让模型能纠正自己的错误 刚体帧 $T_0 = (r_0, x_0) \in SE(3)$: $r_0 \in SO(3)$:初始旋转(从PDB骨架原子的方向) $x_0 \in \mathbb{R}^3$:初始平移(残基的Cα原子坐标) 底物嵌入 $S_0 \in \mathbb{R}^{D_s}$(每层固定不变重复使用) 第二部分:单层处理流程(How data flows) “层”的含义澄清:这里的”第k层”(k=1,2,…,6)指的是迭代循环的第k次迭代轮次,而非蛋白序列上残基的物理位置。在每一次迭代中,模型都会对整个蛋白骨架的所有残基更新特征和帧信息。 每一层接收上一层的输出,并按以下顺序处理: 步骤1:IPA处理空间几何关系 [h_k = \text{IPA}(h_{k-1}, T_{k-1})] 输入:上一层的节点特征 $h_{k-1}$ 和刚体帧 $T_{k-1}$ 操作: IPA(Invariant Point Attention)在”不变点”上计算注意力 这些不变点与坐标系的旋转和平移无关(SE(3)等变) 从多个空间角度分析残基间的相对位置和方向,融合这些信息 输出:$h_k \in \mathbb{R}^{N \times D_h}$(等变几何特征),是纯粹基于蛋白空间几何的特征,捕捉残基彼此间的相对关系,但完全不包含底物信息。 补充:Transformer层穿插在IPA块之间:IPA主要处理空间上相邻残基的局部关系(基于3D k-NN图),而在IPA块之间穿插2层Transformer(每层4个注意力头)来捕捉序列上远距离残基的全局依赖。这样既保证了SE(3)等变性,又能感知远程序列模式。 步骤2:EnzyAdapter通过交叉注意力注入底物信息 [c_k = \text{Attn}(Q, K, V) = \text{Softmax}\left(\frac{Q K^\top}{\sqrt{d_k}}\right) V] 其中: $Q = h_k W_q$:查询来自第k层的残基特征。$Q$ 的含义是”蛋白现在长什么样,应该怎么调整?” $K = S_0 W_k$, $V = S_0 W_v$:键值来自底物嵌入 $S_0$(固定,与k无关)。$S_0$ 的含义是”底物分子的信息是什么?” $W_q, W_k, W_v$ 是学到的权重矩阵,用于将 $h_k$ 和 $S_0$ 投影到注意力的查询-键-值空间 输出:$c_k \in \mathbb{R}^{N \times D_h}$(底物-指导的特征) 为什么用交叉注意力: 注意力机制让模型学到位置相关的调制规则 同一个位点在不同底物下应该做不同的结构调整 比简单拼接更精细,避免底物信息的浪费 步骤3:特征融合 [h_k^{\text{new}} = \text{Linear}(\text{Concat}(\text{Linear}(c_k), h_k))] 操作: 对 $c_k$ 做一个Linear变换 与 $h_k$ 拼接(concatenate) 再过一个Linear层进行融合 含义:将底物感知信息 $c_k$ 与几何特征 $h_k$ 结合,产生同时考虑蛋白几何和底物约束的融合特征。 等变性保证(关键): 融合发生在特征空间而非坐标空间 Linear运算在特征维度上,不涉及坐标变换 因此不会破坏SE(3)等变性 步骤4:边特征更新 [z_k = \text{EdgeUpdate}(h_k^{\text{new}})] 操作:标准消息传递,基于融合后的节点特征 $h_k^{\text{new}}$ 更新边特征。 步骤5:BackboneUpdate预测刚体变换增量 从融合特征 $h_k^{\text{new}}$ 预测: [\Delta \mathbf{r}^{(k)} \in \mathbb{R}^3, \quad \Delta \mathbf{R}^{(k)} \in SO(3)] 平移增量 $\Delta \mathbf{r}^{(k)}$:残基Cα应该移动到哪里 旋转增量 $\Delta \mathbf{R}^{(k)}$:残基帧应该如何旋转 这些增量通过BackboneUpdate模块中的线性层从 $h_k^{\text{new}}$ 预测得出。 步骤6:帧累积更新(SE(3)群乘法) [T_k = T_{k-1} \cdot \exp\left(\begin{bmatrix} [\Delta \mathbf{R}^{(k)}]_\times & \Delta \mathbf{r}^{(k)} \ 0 & 0 \end{bmatrix}\right)] 操作: 将增量表示为SE(3)李代数元素 通过李群指数映射转换为SE(3)群元素 左乘到当前帧 $T_{k-1}$ 上,得到更新的帧 $T_k$ 等变性保证:SE(3)群的乘法自动保持群的闭包性质,即增量的累积不会破坏等变性。 第k层的输出 [h_k, z_k, T_k \quad \text{(传给第k+1层)}] 第3部分:采样与最终输出 3.1 从$T_6$到骨架的采样过程 完成6层迭代后,模型得到了最终的刚体帧 $T_6 = (r_6, x_6) \in SE(3)$。但这还不是最终的蛋白质骨架,而是需要通过采样过程(Sampling)来生成实际的3D坐标。 单层处理与向量场的关系:Flow matching框架的核心是学习一个条件向量场 $\hat{v}(S_t, t M, G)$,其中: $S_t = (T_t, h_t, z_t)$ 是结构在时间 $t$ 的完整状态(刚体帧、节点特征、边特征) $M$ 是功能位点(MSA注释的催化残基) $G$ 是底物(化学图表示) 这个向量场描述结构状态应如何演化。单层处理(IPA → EnzyAdapter → 融合 → EdgeUpdate → BackboneUpdate)的输出 $T_k, h_k, z_k$ 用来计算向量场的平移和旋转分量 ${v_x, v_r}$——这些是帧的时间导数的近似。整个单层计算过程隐含地定义了条件向量场:通过IPA提取几何,通过EnzyAdapter注入底物约束,通过BackboneUpdate预测帧增量。 采样的核心思想:流匹配框架在训练阶段学习了一个条件向量场 $\hat{v}(x_t, t M, G)$,在推理时无需再训练任何参数。采样是一个纯前向推理的逆向去噪过程,利用已训练的向量场从纯噪声(高斯随机)逐步演化到真实结构。具体步骤: 初始化噪声:从高斯分布采样初始的平移向量 $x_0$ 和初始的旋转矩阵 $r_0$(IGSO(3)是SO(3)群上的不变高斯分布,保证采样的旋转矩阵始终有效) 反向积分(纯推理,无参数更新):使用ODE求解器(通常是Euler方法)从t=0积分到t=1 在每一步 $t_i$ 到 $t_{i+1}$,调用已训练的模型预测条件向量场 $\hat{v}(x_t, t M, G)$ 使用Euler步更新:$x_{t+1} = x_t + \Delta t \cdot \hat{v}(x_t, t M, G)$(仅执行前向传播,不计算梯度) 功能位点锁定:在每个去噪步骤,将功能位点(motif)的坐标固定为真实值,只生成scaffold部分。这确保催化位点不会偏离目标 输出骨架:完成积分后,得到 $x_1$(平移)和 $r_1$(旋转),组合成最终的刚体帧序列 $T_6^{\text{final}}$ 3.2 多骨架采样 模型在推理时不是只输出一条骨架,而是多次采样: 采样策略:从同一个底物和功能位点出发,进行多轮独立的去噪过程,每次从不同的随机初始化开始 采样数量:原文中对每个底物生成20条骨架 目的: 多样性:获得不同的结构变异体,增加成功的概率 筛选空间:后续可通过对接、功能预测等筛选出最优的骨架 3.3 完整的推理管线 生成最终可用的蛋白质结构需要经过后处理管线(详见评估流水线): [\text{采样得到骨架} \xrightarrow{\text{ProteinMPNN}} \text{设计序列} \xrightarrow{\text{ESMFold}} \text{全原子结构}] 第四部分:训练与评估 4.1 训练目标与损失函数 EnzyControl采用流匹配(Flow Matching)框架进行训练。流匹配的核心思想是学习一个向量场,使数据从噪声分布演化到真实分布。在SE(3)等变骨架生成的约束下,训练目标最小化真实向量场与预测向量场之间的平方距离: [\mathcal{L} = \mathbb{E}\left[|v_R(x_t, t x_1) - \hat{v}_R(S_t, t M, G)|R^2 + |v{SO(3)}(r_t, t r_1) - \hat{v}_{SO(3)}(S_t, t M, G)|_{SO(3)}^2\right]] 其中: 第一项 $|v_R(x_t, t x_1) - \hat{v}_R(S_t, t M, G)|_R^2$:平移向量场的损失 $v_R(x_t, t x_1)$ 是真实的平移向量场(从噪声x₀演化到真实结构x₁) $\hat{v}_R(S_t, t M, G)$ 是模型预测的条件化平移向量场(条件为功能位点M和底物G) 这项确保生成的残基位置正确 第二项 $|v_{SO(3)}(r_t, t r_1) - \hat{v}_{SO(3)}(S_t, t M, G)|_{SO(3)}^2$:旋转向量场的损失 $v_{SO(3)}(r_t, t r_1)$ 是真实的旋转向量场(从噪声旋转r₀演化到真实旋转r₁) $\hat{v}_{SO(3)}(S_t, t M, G)$ 是模型预测的条件化旋转向量场 这项确保生成的残基方向正确 两项加起来形成SE(3)等变损失,同时约束平移和旋转,保证生成的骨架既符合几何约束又满足功能要求。 4.2 两阶段训练范式 第一阶段:对齐(学习底物-蛋白映射) 冻结:FrameFlow主干(FrameFlow是Frank Noe团队之前发表的SE(3)等变骨架生成方法,其主干包含IPA、Transformer、BackboneUpdate等模块,已在大规模数据上充分预训练) 训练:仅Uni-Mol投影器 + EnzyAdapter(<100K参数) 目标:让投影器和EnzyAdapter学会如何正确编码底物,并与FrameFlow的蛋白生成对齐 为什么:主干已预训练好,先稳定地建立底物-蛋白的映射关系 第二阶段:微调(端到端优化) 冻结:无 训练方法:LoRA(低秩自适应) 在关键线性层插入低秩分解 $\Delta W = AB^\top$ 秩 $r=16$,缩放因子 $\alpha=32$ 参数量约8K/层,总计显著低于全参数微调 优势: 显存占用低(仅全参数的约5%) 训练时间节省约70% 低秩约束自动限制学习容量,防止过拟合 图4:两阶段训练策略的效果。展示了第一阶段对齐和第二阶段LoRA微调对模型性能的累积贡献,说明分步策略相比端到端直接微调更加稳定高效。 4.3 EnzyBind数据集与评估 数据集构建 EnzyBind:11,100个实验验证的酶-底物复合物,来自PDBbind 流程: 源数据筛选:从PDBbind提取酶-底物复合物,排除RDKit无法处理的 PDB清洗:标准化预处理,处理多链和对称单位 功能位点注释:通过MSA自动识别进化保守的催化残基 EC分类标注:覆盖6大催化类型,从EC一级至三级 特点:所有结构来自实验解析(vs合成数据),口袋几何和底物构象可靠 数据分割策略 传统的酶数据集分割多采用时间顺序(按发表日期划分训练集和测试集),但这种方法不符合条件化生成的需求。EnzyControl采用功能性有意义的分割方法: 基于序列相似性的聚类:使用 CD-HIT 工具对所有酶序列进行聚类,确保训练集和测试集中的酶序列无重叠 随机分配集群:将聚类后的集群随机分配到训练集或测试集 采样配对:从每个集群中采样对应的酶-底物配对 这样做的优势是防止数据泄露——相同或极度相似的酶序列不会同时出现在训练和测试集中,保证评估的真实性和严格性。 统一评估流水线 为了公平比较所有基线模型,EnzyControl建立了统一的评估流水线: 生成骨架 → 模型输出候选骨架 逆折叠 → ProteinMPNN 将骨架转换为氨基酸序列 结构预测 → ESMFold 从序列预测完整的三维结构 多指标评分 → 在预测的结构上计算所有指标 所有报告的指标都基于 ESMFold 预测的结构,确保不同方法的评估结果相互可比。 评估指标详解 结构质量指标(衡量生成的骨架可信度): Self Consistency (scTM):生成骨架与 ESMFold 预测结构的 TM-score,值越高越好。衡量两个结构的全局相似度 设计性 (Designability, scRMSD<2Å):满足 scRMSD<2Å 的生成骨架比例。scRMSD 是 Cα 原子间的均方根偏差,<2Å 表示结构与已知蛋白相似,可信度高 功能指标(衡量生成酶的催化功能): EC 匹配率:生成的酶序列通过 CLEAN 模型预测的 EC 号与目标 EC 号相同的比例。CLEAN 是经过 90% 以上精度验证的序列模型 预测的$k_{cat}$:使用 UniKP 模型根据序列和底物 SMILES 预测的催化速率常数。$k_{cat}$ 越大表示催化效率越高 底物结合指标(衡量酶与底物的相互作用): 结合亲和力:使用 GNINA 对接工具计算生成酶对底物的对接评分(越低越好,通常 <-6 kcal/mol 表示强结合) ESP 分数:EnzyGen 设计的统计学检验分数,用于评估生成结构的“设计合理性”。分数越高越好,表示该结构组合(骨架+序列)在自然界中出现的统计学概率越高,即设计越“自然”、越可信 其他指标: 氨基酸恢复率 (AAR):生成序列与原生序列的一致性 多样性:生成骨架间的结构差异程度(Foldseek 聚类) 新颖性:生成骨架与原生蛋白的结构差异程度 评估流水线 生成骨架后的完整过程: [\text{骨架} \xrightarrow{\text{ProteinMPNN}} \text{序列} \xrightarrow{\text{ESMFold}} \text{结构预测} \xrightarrow{\text{多指标}} \text{评分}] 评估指标: 结构指标:scTM(TM-score)、scRMSD(<2Å定义设计性) 功能指标:EC号匹配率(CLEAN模型预测)、$k_{cat}$预测(UniKP) 结合指标:底物结合亲和力(GNINA对接) 综合指标:ESP分数(EnzyGen统计学检验) 总结 EnzyControl的创新在于将条件信息(底物)与等变骨架生成无缝结合: 完整数据流:底物 → S₀ → 每层EnzyAdapter → 融合特征 → 增量预测 → 帧累积 → 最终骨架 数学严谨:特征空间融合保证SE(3)等变性自动维持 逐层约束:底物信息在每一层指导结构演化,而非单次注入 参数高效:两阶段训练+LoRA,以最小成本获得最大效果
Specific Sytems
· 2025-11-05
让酶生成可控:EnzyControl为骨架生成引入功能与底物特异性
让酶生成可控:EnzyControl为骨架生成引入功能与底物特异性 本文信息 标题: 为酶骨架生成引入功能与底物特异性:EnzyControl 方法 作者: Chao Song, Zhiyuan Liu, Han Huang, Liang Wang, Qiong Wang, Jianyu Shi, Hui Yu, Yihang Zhou, Yang Zhang 发表时间: 2025年10月29日(arXiv v1) 单位: Northwestern Polytechnical University(中国); National University of Singapore(新加坡); The Chinese University of Hong Kong(中国香港); Institute of Automation at CAS(中国) 引用格式: Song, C., Liu, Z., Huang, H., Wang, L., Wang, Q., Shi, J., Yu, H., Zhou, Y., & Zhang, Y. (2025). EnzyControl: Adding Functional and Substrate‑Specific Control for Enzyme Backbone Generation. arXiv:2510.25132. 代码与资源: GitHub — https://github.com/Vecteur-libre/EnzyControl 摘要 设计具有底物特异性功能的酶骨架是计算蛋白质工程的关键挑战。现有生成模型在蛋白设计上表现优异,但在结合数据、底物特异控制与从头设计灵活性方面存在局限。为此,本文介绍 EnzyBind 数据集,包含 11,100 个从 PDBbind 精心遴选的实验验证酶‑底物复合物。基于此,提出 EnzyControl 方法,在酶骨架生成中实现功能与底物特异性的联合控制。该方法以 MSA 标注的催化位点及其对应底物为条件,生成酶骨架;通过轻量级可模块化的 EnzyAdapter 集成到预训练的骨架生成模型中,使其具备底物感知能力。两阶段训练范式进一步优化了模型生成精确、功能性酶结构的能力。实验表明,EnzyControl 在 EnzyBind 与 EnzyBench 基准上均取得最佳性能,相比基线模型在可设计性与催化效率上分别提升 13%。代码已开源于 https://github.com/Vecteur-libre/EnzyControl 。 核心结论 在 SE(3) 等变骨架生成中注入底物条件,显著提升结构可设计性与功能可控性 EnzyAdapter 将底物语义与功能位点跨注意力耦合,带来更高的 EC 匹配率与更优的预测 $k_{cat}$ 两阶段训练与 LoRA 微调有效稳定训练并降低成本 在零样本场景(新底物/新 EC 类别)中仍保持较强的亲和力与效率指标 背景 蛋白设计的可控生成正从一般结构可行性走向功能可控。特别是在酶设计中,目标不只是生成稳定的骨架,还要对功能分类(EC 号)与底物特异性作出定向约束,以服务合成生物学与绿色催化。 现有扩散/流匹配式骨架生成模型在形状正确方面已取得进展,但面临三类挑战。其一,功能语义难以注入:结构生成主干多以几何信号为核心,如何有效嵌入底物与功能位点的信息尚不清晰。其二,训练不稳定与成本高:在大规模条件生成中,端到端训练容易漂移,需要参数高效的适配策略。其三,评价不统一:结构指标(scTM、scRMSD)与功能指标(EC 匹配、$k_{cat}$、对接亲和力)往往分散,缺乏覆盖多 EC 家族的系统基准。 在这个背景下,Frank Noe 团队发表的 FrameFlow 工作为蛋白骨架生成树立了新的标杆,通过 SE(3) 等变流匹配框架实现了高质量的结构采样。EnzyControl 的创新之处在于,它在 FrameFlow 等变骨架生成主干的基础上,首次系统地引入底物conditioning与功能位点约束,使得结构生成不再是纯几何问题,而是与分子功能紧密耦合的生物设计问题。 关键科学问题 如何将底物语义与功能位点表征稳定地注入到三维骨架生成主干中,并保持 SE(3) 等变性质不被破坏。 如何在训练成本可控的前提下,完成端到端的条件适配,并提升零样本泛化能力。 如何建立覆盖多 EC 家族、既关注结构一致性又关注功能性的统一评测体系。 创新点 EnzyAdapter:跨注意力条件层,将底物图嵌入与功能位点特征在每层耦合,显式影响平移与旋转向量场 两阶段训练范式:先对齐底物/功能条件,再以 LoRA 低秩微调端到端适配 统一评估流水线:骨架→ProteinMPNN 逆折叠→ESMFold 结构预测→CLEAN/UniKP/GNINA/ESP 指标,覆盖结构与功能 数据与基准:构建 EnzyBind 与独立基准 EnzyBench,跨 EC 家族报告 EC 匹配率、$k_{cat}$ 与亲和力 研究内容 核心方法:条件化酶骨架生成框架 详见附录(今天的下一篇推送) 图3:EnzyControl 的条件生成框架。在主干各层注入 EnzyAdapter 后,自我一致性与可设计性(scRMSD<2Å)显著提升,说明底物语义有效约束了骨架更新的方向。 数据集与评估设置 详见附录 实验结果与分析 核心评估指标解析 表1 EnzyBind 上结构与功能指标的总体比较(节选重排)。 模型 Self Consistency 可设计性(scRMSD<2Å) EC匹配率 平均 $k_{cat}$ 结合亲和力(越低越好) ESP分数 RFDiffusion 0.6932 0.5728 0.0812 2.3412 −6.7446 0.6657 Chroma 0.6546 0.5163 0.4579 2.5325 −6.7258 0.7116 Proteina 0.7213 0.6328 0.4583 2.4592 −6.3522 0.6709 EnzyControl 0.8848 0.7160 0.5041 2.9168 −6.9303 0.7334 解读:与不含条件注入的主流骨架生成相比,EnzyControl 在结构可设计性与功能匹配上同步提升,且对接亲和力更优。底物‑到‑残基的跨注意力是关键贡献。 图5/图6/图7:关键分布与匹配率对比。 图5:EnzyAdapter 的存在使高 $k_{cat}$ 区间占比上升(左侧蓝色分布右移) 图6:整体亲和力分布左移(更优),代表更强的结合能力 图7:在 EC 一级至四级层级,EnzyControl 的匹配率稳定领先其他基线,证明模型学到了跨层级的一致功能语义 表5 组件消融(去除 EnzyAdapter 或去除 MSA 保守位点,EnzyBind)。 EnzyAdapter MSA Self Consistency 可设计性 EC匹配率 平均 $k_{cat}$ 结合亲和力 ESP ✓ ✓ 0.8848 0.7160 0.5041 2.9168 −6.9303 0.7334 ✗ ✓ 0.8748 0.7067 0.4761 2.5833 −6.5523 0.7205 ✓ ✗ 0.8719 0.6863 0.4764 2.4615 −6.4361 0.7183 解读:去除 Adapter 或去除保守位点都会显著降低 EC 匹配率与 $k_{cat}$ 均值。功能位点的保真度与条件注入的强度共同决定功能性指标。 表3:跨EC家族的结合亲和力对比 浅解读:EnzyControl 在 17个EC家族上的亲和力均优于基线模型,平均达 −6.93 kcal/mol。表4表明,MSA保守位点的扰动会显著拉低所有性能指标,证实了功能位点保真度至关重要。 图8:零样本泛化(新底物/新 EC)。EnzyControl 在未见过的底物与 EC 二级类别上,结合亲和力仍保持较低,显示较强的迁移能力。 表5(续):EnzyBench 基准上的质量指标 模型 结合亲和力(Avg) pLDDT(Avg) EnzyGen −9.61 87.21 RFDiffusion+IF −8.75 83.22 EnzyControl −9.76 88.28 表6:EnzyBench 中跨30个EC家族的结合亲和力细节 浅解读:EnzyControl 在30个EC家族上亲和力均优于或持平基线,平均达 −9.76 kcal/mol。这验证了底物条件化在不同催化机制间的广适性。 图10:个案研究(PDB:2cv3)。在该底物上,EnzyControl 生成的骨架对接姿态更贴合,预测 $k_{cat}$ 更高,说明条件注入促成了更具化学合理性的口袋几何。具体而言: 结合亲和力改善:EnzyControl 生成的骨架达到 −9.78 kcal/mol,相比 RFDiffusion 的 −6.92 kcal/mol 提升 51% 催化效率飙升:预测的 $k_{cat}$ 达 9.72 s⁻¹,比 RFDiffusion 高近 8 倍 相互作用网络:对接模拟显示 EnzyControl 生成的酶与底物形成更多相互作用键,表明口袋几何更优 残基效率(Residue Efficiency):在实际蛋白质工程中,设计的酶应在保持功能活性的前提下,尽可能缩短序列长度(更短的序列促进基因表达,降低合成成本)。研究表明,EnzyControl 相比 RFDiffusion 基线在不同 $k_{cat}$ 区间内都能生成约 30% 更短的序列,这对合成生物学应用具有重要经济价值。 多样性与新颖性分析 虽然 EnzyControl 追求可设计性,但其多样性指标(通过 Foldseek 聚类计算)与部分超大模型相比略低。这反映了一个普遍的权衡:追求可设计性(结构与功能的稳定性)往往需要牺牲某些采样多样性。这是未来工作需要平衡的方向。 结果逻辑图:从条件表征到功能验证 graph TB subgraph II["结构质量验证"] direction TB D["<b>Self Consistency</b><br/>0.8848 (vs 0.7213)"] E["<b>可设计性</b>:scRMSD<2Å<br/>71.60% (vs 63.28%)"] F["核心发现:<b>底物conditioning</b><br/>显著提升结构可靠性"] end subgraph III["功能性检验"] direction TB G["<b>EC匹配率</b><br/>50.41%<br/>(vs 45.83%)"] H["预测<b>kcat</b><br/>2.9168 s⁻¹<br/>(vs 2.4592)"] I["<b>结合亲和力</b><br/>-6.9303 kcal/mol<br/>(vs -6.3522)"] J["核心发现:<b>EnzyAdapter</b><br/>精确映射底物到催化功能"] end subgraph IV["泛化能力验证"] direction TB K["<b>零样本新底物</b><br/>亲和力可维持"] L["<b>零样本新EC类别</b><br/>匹配率有效"] M["核心发现:模型学到<br/><b>通用功能映射</b>规律"] end subgraph V["设计可行性验证"] direction TB N["个案<b>2cv3</b>:<br/><b>kcat提升8倍</b>"] O["<b>残基效率</b><br/>序列缩短30%"] P["对接评分显著改善<br/><b>-9.78 vs -6.92</b><br/>改善51%"] Q["核心发现:<b>结构生成</b><br/>与<b>实际催化</b>耦合有效"] end II --> III --> IV --> V style D fill:#c8e6c9 style E fill:#c8e6c9 style F fill:#fff59d style G fill:#ffccbc style H fill:#ffccbc style I fill:#ffccbc style J fill:#fff59d style K fill:#b3e5fc style L fill:#b3e5fc style M fill:#fff59d style N fill:#f8bbd0 style O fill:#f8bbd0 style P fill:#f8bbd0 style Q fill:#fff59d 讨论 方法论创新的深层意义 EnzyControl 的突破在于在保持 SE(3) 等变性的严格约束下实现功能可控,解决了结构生成与功能约束长期以来的矛盾。具体而言: 功能可控与结构可行的统一:底物条件化通过 EnzyAdapter 的跨注意力机制,实现了底物信息与骨架更新的紧耦合。这避免了以往模型在追求多样性时功能指标下降的问题,而是在保证可设计性的同时,精准映射到相应的催化功能。 参数高效的适配范式:两阶段+LoRA 训练将适配成本压缩至可操作范围。第一阶段的底物-功能对齐避免了主干参数的快速漂移,第二阶段的低秩分解(<5% 参数量)进一步降低了资源消耗,使得该方法可行于资源受限的研究组。 系统化的评估体系:EnzyBind/EnzyBench 的联合设计,跨 EC 家族构建统一基准,避免了以往单类酶评估的局限。评估模型(CLEAN、UniKP、GNINA)都已在真实酶或相关任务上验证,为计算指标奠定了生物学基础。 SE(3) 等变性的实现机制 EnzyControl 能够在保持等变性的同时注入底物条件,关键在于跨注意力直接作用于向量场,而非破坏刚体变换的自然性。具体而言: EnzyAdapter 的输出与 IPA 的特征表征在特征空间中融合,不涉及坐标系变换 BackboneUpdate 基于融合后的特征预测 $\Delta \mathbf{r}$ 与 $\Delta \mathbf{R}$,这些增量本身满足 SE(3) 群的闭包性质 因此,即使底物信息已注入,生成的骨架对刚体变换仍然协变——旋转整个复合物,生成结果也相应旋转 零样本泛化的源头 EnzyControl 在新底物与新 EC 类别上仍能保持较好性能(结合亲和力 −7.01 kcal/mol,仅略低于已见任务的 −6.93 kcal/mol),原因包括: Uni-Mol 的丰富知识库:在 209M 分子构象上预训练,即使遇到新的底物结构,仍能映射到接近的特征空间 Adapter 学到的是通用映射:不是记忆单个“底物“,而是学习”大分子特征→残基更新方向”的规律 MSA 保守位点的约束:功能位点的进化守恒性提供了跨家族的鲁棒性 与现实设计管线的衔接 虽然 EnzyControl 生成的是骨架,但通过以下流程可集成到实际工程: 生成 20 个骨架 → 逆折叠得到 100 个候选序列 → 结构预测 对接引导优化:基于 GNINA 对接分数反复迭代 → 发现结合亲和力 −8.38 kcal/mol 的改进体(相比初始 −6.92 kcal/mol 提升 21%) 湿实验验证与合成 性质优化迭代 这一“生成→筛选→再生成”的闭环是未来的关键方向。 关键结论与批判性总结 潜在影响 证明酶骨架生成可以被功能与底物特异性联合控制 提供可复用的条件注入与低秩适配范式,便于迁移至其他“蛋白”家族 局限性 未建模底物结合构象:当前方法专注于生成酶骨架,但并未显式建模骨架在与底物结合时所采纳的特定构象变化(如 AtomicFlow 所强调的),这可能导致生成的骨架在实际催化中的构象灵活性不足 多链装配的间接处理:现有框架限制在单链酶骨架,简化了序列-结构映射但限制了对多聚体或复杂变构系统的直接应用,目前采用的是生成→融合二聚化的事后策略而非集成设计 多样性与可设计性的权衡:虽然 EnzyControl 生成多样的骨架样本,但在保持高可设计性(scRMSD<2Å)的前提下,多样性与新颖性指标略低于在更大、更异质训练集上训练的通用模型 缺乏自身的湿实验验证:本文所有评估均基于计算模型预测(CLEAN、UniKP、GNINA),虽然这些模型本身已在其他酶系统上验证过,但本工作并未对 EnzyControl 生成的候选酶进行独立的实验室合成和活性测定,因此实际设计效果仍需在真实湿实验中进一步确认 未来方向 将条件扩展至辅酶/金属离子/环境因子,形成多条件联合控制 与对接或分子力场形成闭环优化,实现“生成→筛选→再生成”的联动 在湿实验中验证关键家族与代表“底物“,形成”设计‑验证”的正反馈 小编锐评: 反正是学一下模型,Flow Matching感觉细节还有很多抽象问题。 怎么说呢,都考虑配体了,干嘛不设计一下序列呢,显得没啥用啊。还跟proteinMPNN绑定了,或者其他能考虑配体的序列设计联用。$k_{cat}$ 与对接亲和力本应能说明这个事可能有用的,但结果看来没明显变好。 感觉酶类的评估指标都一般啊,都是计算的指标,用别的模型给它打分,甚至还有对接分数,你最起码用AlphaFold3预测复合物结构吧,或者boltz-2预测,当然可能做的比较早? 也没做湿实验,酶没湿实验都难以验证。还是觉得生成类的文章做评估都是玄学,又要像已知的都行,有时候还要新颖才能效果好,就是因为只依赖于有限的数据而无基于物理的验证,有模拟总比没有强。我也不太懂AI。越来越不信任预印刊,我觉得计算机领域带着计算生物学化学老是认可预印是不对的,很多不太靠谱的,哪怕是大佬组的东西。 这篇才是我理想中酶设计大概的套路:https://mp.weixin.qq.com/s/1opv945uG_R-2GpkI59s5w
Specific Sytems
· 2025-11-05
<
>
Touch background to close