Mendelevium
Diary
Drug Design
Field Knowledge
Academia
Yang
Biology
Physics
Free Energy
Machine Learning & AI
Active Learning
Basics
Boltz-2
Data
Generation
Interpretability
QSAR application
Representations
Mol2Image
Workflow & Agent
Molecular Dynamics
FF & Algorithm
Small Molecule
martini
water
Interaction
Modeling & Tools
QM
Sampling & Analysis
Allostery
Fundamental
Other
Specific Sytems
Enzyme Engineering
Fiber & LLPS
Membrane
orientation_penetration
Metal
Nano Polymers
Skin Permeation
Techniques
Linux
Python
Research
Web
about
Home
Contact
Copyright © 2025 Xufan Gao | Academic Research Blog
Home
> Other
A Bunch of Biophysics is Loading ...
Other
机器学习与物理模拟的协同:通过三项研究看计算化学的方法学进展
机器学习与物理模拟的协同:三项研究透视计算化学的方法学进展 引言 在计算化学和药物发现领域,机器学习与物理模拟的结合正在改变研究方式。本文综述三项近期发表的研究,它们从不同角度展示了这一融合策略: ML/MM混合势:通过机器学习原子间势(MLIP)与分子力学(MM)结合,实现接近量子力学精度但快1000倍的自由能计算 生成式主动学习(GAL):将强化学习驱动的分子生成器(REINVENT)与物理精算(ESMACS)整合,在超算上实现化学空间探索 Gen-COMPAS框架:融合扩散生成模型与committor理论,无需预定义集合变量即可将罕见事件采样效率提升350倍 这三项研究体现了一个共同特点:机器学习提供计算加速,物理模拟保证结果可靠性,二者结合可显著提升研究效率。 研究一:ML/MM混合势——量子精度遇见经典效率 文献信息 作者: Xujian Wang, Xiongwu Wu, Bernard R. Brooks, Junmei Wang 单位: 匹兹堡大学;美国国立卫生研究院 Citation: J. Chem. Theory Comput. 2025, 21, 6979–6987 代码: https://github.com/ClickFF/MLMM4AMBER 方法学框架 ML/MM理论基础 ML/MM采用与QM/MM类似的力学嵌入方案,系统总能量划分为三个组成部分: \[E_{\text{total}} = E_{\text{ML}} + E_{\text{MM}} + E_{\text{ML-MM}}\] 其中: $E_{\text{ML}}$:MLIP描述的配体或活性区域能量(包含成键和非键合相互作用) $E_{\text{MM}}$:MM力场描述的溶剂和蛋白其余部分能量 $E_{\text{ML-MM}}$:两区域间的相互作用,通过库仑势和Lennard-Jones势描述: \[E_{\text{ML-MM}} = \sum_{i \in \text{MM}} \sum_{j \in \text{ML}} \left[\frac{q_i q_j}{r_{ij}} + \frac{A_{ij}}{r_{ij}^{12}} - \frac{B_{ij}}{r_{ij}^6}\right]\] 技术实现 使用LibTorch库实现高效的MLIP推理和力计算 采用CPU-GPU异步工作流:MD计算在CPU上执行,MLIP推理在GPU上并发运行 支持多种MLIP模型:ANI系列(ANI-1x、ANI-1ccx、ANI-2x)和MACE系列(MACE-OFF23 S/M/L) 性能评估: 方法 采样速度 加速倍数 ANI-2x 2+ ns/天 1000-2000× MACE-OFF23(S) 1.5 ns/天 约1000× 传统QM/MM <6 ps/天 基准 重组能(Reorganization Energy) 传统热力学积分(TI)依赖对势能项的λ扰动,但MLIP的总能量不可分割——无法单独提取ML区域内的非键合项。 解决方案:引入重组能补偿ML区域内非键合相互作用扰动的缺失 \[\Delta G_{\text{solvation}} = \sum_i w_i \left\langle \frac{\partial V_{\text{MM-ML,non-bonded}}}{\partial \lambda} \right\rangle_{\text{wat},i} + \Delta G_{\text{reorg}}\] 其中重组能定义为: \[\Delta G_{\text{reorg}} = \langle E_{\text{ML}} \rangle_{\text{wat}} - \langle E_{\text{ML}} \rangle_{\text{gas}}\] 物理意义: 只对MM-ML之间的相互作用进行λ扰动(可明确计算) ML区域内部不进行λ扰动(保持完整性) 重组能补偿由于环境变化导致的构象重组能量差 关键结果 性能验证 图1:ML/MM工作流程与性能对比 (a)CPU-GPU异步架构,GPU并行处理MLIP推理 (b)不同MLIP模型的采样速度,ANI-2x达到2.4 ns/天 (c)QM/MM vs ML/MM采样效率对比 稳定性验证(NVE系综模拟水中erlotinib): 守恒量 ML/MM表现 QM/MM参考 总能量标准差 0.03 kcal/mol 0.02 kcal/mol 质心速度 <0.02 - 平动/转动能量 <0.15 kcal/mol - 自由能计算精度 水化自由能验证(30个有机小分子): 方法 MAE (kcal/mol) ANI-2x 0.45 MACE-OFF23(S) 0.59 CGenFF 0.96 GAFF 0.80 蛋白-配体模拟改进(CDK2与19种配体的MM-PBSA,好了那么一点点吧): 采样方法 RMSE (kcal/mol) R² 传统MD 0.68 0.54 MACE-OFF23(S) 0.65 0.59 B因子验证: 大多数蛋白-配体复合物的计算B因子与实验值Pearson相关系数大于0.5 ML/MM在超过5纳秒的模拟中表现出色稳定性 核心洞察:ML/MM不仅提供更精确的能量,更重要的是改善了构象采样质量——这直接提升了依赖系综统计的终点法(如MM-PBSA)的预测能力。 图3:CDK2-配体复合物的B因子验证。ML/MM模拟计算的B因子(蓝色)与实验X-ray数据(橙色)高度一致,多数复合物Pearson相关系数>0.5,证明ML/MM能准确捕获蛋白-配体动力学特征。 局限性 力场一致性问题:ML势函数与MM力场的训练目标不同,界面处可能存在系统偏差,需更精细的混合策略 拓扑变化限制:当前框架难以处理相对结合自由能(RBFE)所需的配体拓扑变换,仅适用于绝对自由能计算 计算资源依赖:仍需GPU加速,对硬件有一定要求 研究二:生成式主动学习——超算驱动的化学空间探索 文献信息 作者: Hannes H. Loeffler, Shunzhou Wan, Marco Klähn, Agastya P. Bhati, Peter V. Coveney 单位: AstraZeneca(瑞典);伦敦大学学院(英国) Citation: J. Chem. Theory Comput. 2024, 20, 8308–8328 方法学框架 该研究建立的GAL循环由四个关键组件组成: graph LR subgraph Oracle["Oracle(预言者)"] ESMACS["ESMACS物理精算<br/>10副本MD × 4 ns<br/>精准结合自由能ΔG"] end subgraph Surrogate["代理模型"] ChemProp["ChemProp神经网络<br/>5折交叉验证<br/>快速亲和力预测"] end subgraph Generator["分子生成器"] REINVENT["REINVENT强化学习<br/>古典先验模型<br/>即时生成新分子"] end subgraph Acquisition["获取策略"] Cluster["聚类-贪心策略<br/>Butina算法<br/>选择最优代表"] end Oracle -->|真实ΔG| Surrogate Surrogate -->|更新评分| REINVENT REINVENT -->|生成候选| Cluster Cluster -->|筛选批次| Oracle style ESMACS fill:#e3f2fd style ChemProp fill:#f3e5f5 style REINVENT fill:#e8f5e9 style Cluster fill:#fff3e0 工作逻辑:每一轮GAL包括: ESMACS评估:对当前批次化合物进行10副本MD模拟(4 ns/副本),每个化合物约5分钟墙钟时间,计算精准结合自由能 代理模型更新:用真实ΔG数据训练ChemProp神经网络(5折交叉验证,5个集成模型),建立SMILES到亲和力的映射 强化学习生成:REINVENT基于更新的评分函数生成新化合物(300-500次RL迭代),每轮产生100-1000个候选分子 聚类与筛选:使用Butina算法(Tanimoto相似度>0.5)聚类,避免化学冗余,每簇选评分最优分子 循环迭代:将筛选后的批次(n=100-1000个分子)提交给Oracle进行下一轮物理精算 计算资源: 项目 配置 平台 艾字节级超算Frontier 单次迭代墙钟时间 50分钟(数百化合物) 总计算量 约2毫秒 两个靶点的对比实验 特征 3CLpro(开放型口袋) TNKS2(封闭型口袋) 初始模型 10,000个Docking化合物 27个实验同系物 测试批大小 250和500 100-1000 迭代轮数 7轮 4-5轮(快速收敛) ΔG提升 -30 → -56 kcal/mol -35 → -47 kcal/mol 代理模型质量 Spearman: 0.1→0.62 Spearman>0.7, R²>0.6 最优批大小 n=250 n=100或n≥500 深层洞察:靶点结构特征(开放vs封闭口袋)直接决定代理模型学习难度和GAL效率。封闭口袋建立了SMILES与3D结合姿态的清晰对应,使得1D描述符能有效预测3D亲和力。 物理精算的关键价值 Docking vs. ESMACS相关性对比: 方法 Spearman相关系数 可靠性 Docking评分 0.08 几乎无相关性 ESMACS评分 0.33 中等相关 虽然ESMACS绝对精度有限,但其相对排序能力足以为强化学习提供高质量训练信号,避免虚假优化陷阱。这证明了物理计算在驱动高质量分子生成中的核心价值。 图3:GAL在3CLpro靶点的优化轨迹 (a)各轮迭代的ΔG分布演化,批大小n=250 (b)代理模型预测准确度(Spearman相关系数)随迭代提升 (c)生成分子与种子库的Tanimoto相似度分布,后期生成高度新颖的化学结构 局限性 合成性盲区:REINVENT生成的分子未经逆合成分析,可能包含合成困难或不可行的结构,需整合合成性评分 超算资源依赖:50分钟/轮的效率基于艾字节级超算Frontier,对普通计算资源的可及性有限 Oracle噪声敏感:代理模型质量依赖ESMACS的排序准确性,如果物理精算存在系统偏差会影响收敛 研究三:Gen-COMPAS——罕见事件模拟的生成式方法 文献信息 作者: Chenyu Tang, Mayank Prakash Pandey, Cheng Giuseppe Chen, Alberto Megías, François Dehez, Christophe Chipot 单位: 法国洛林大学;西班牙马德里理工大学;美国芝加哥大学;美国伊利诺伊大学香槟分校 Citation: arXiv 2025, 2510.24979v1(预印本) 方法学框架 图1:Gen-COMPAS整体框架 (A)整体框架流程 (B)去噪扩散模型训练与推理寻找中间态 (C)使用Targeted MD获得对应过渡态的物理合理结构 (D)Gen-COMPAS在示意自由能景观中由committor (q)引导的两个亚稳态间的整体采样策略 核心工作流程 graph TB subgraph Init["初始化"] A["亚稳态A和B<br/>1-2 ns无偏MD"] --> B["初始数据集"] end subgraph Loop["迭代循环"] C["扩散生成模型<br/>生成中间态"] D["Committor预测<br/>识别q≈0.5结构"] E["targeted MD<br/>收敛至目标"] F["Shooting模拟<br/>短时无偏MD"] G["数据累积"] C --> D --> E --> F --> G --> C end subgraph Output["下游分析"] direction TB H["过渡态TSE"] I["Committor图谱"] J["CCS路径"] K["自由能FEL"] end Init --> Loop --> Output style C fill:#e8f5e9 style D fill:#fff3e0 style F fill:#e3f2fd 方法学细节 扩散生成模型(DDPM): 前向过程:通过逐步添加高斯噪声将数据分布 $p_{\text{data}}(\mathbf{x})$ 转化为标准高斯分布 $\mathcal{N}(0, I)$ 逆过程:训练神经网络学习去噪步骤,从噪声中生成新样本 应用:在蛋白质构象空间(Cartesian坐标)中训练,生成物理上合理的中间态构象,避免高能区域 Committor函数学习: 定义:Committor $q(\mathbf{x})$ 是从构象 $\mathbf{x}$ 出发、在到达A之前先到达B的概率 物理意义:$q = 0$ 对应A态,$q = 1$ 对应B态,$q = 0.5$ 的超曲面(separatrix)精确定义过渡态集合(TSE) 技术优势:直接在笛卡尔空间用神经网络表示,无需预定义集合变量(CVs),自动识别最优反应坐标 Targeted MD(TMD): 原理:在原子坐标上施加简谐约束势 $V_{\text{bias}} = k(\mathbf{r} - \mathbf{r}_{\text{target}})^2$ 功能:引导系统从起始态(A或B)沿低能路径收敛至DDPM生成的目标构象 优点:避免直接模拟高能垒跨越,快速生成separatrix附近的构象 Shooting模拟: 起点:从separatrix附近的构象(committor预测 $q \approx 0.5$)出发 执行:进行短时(纳秒级)无偏MD模拟,随机初始化速度 验证:统计最终落入A态或B态的概率,验证committor预测准确性 数据积累:成功的shooting轨迹加入训练集,迭代改进DDPM和committor模型 三个标志性案例 案例1:Trp-cage蛋白折叠(20残基微型蛋白) 指标 Gen-COMPAS 传统MD(DESRES) 采样时间 594 ns 208 μs 效率提升 约350倍 基准 折叠机制 双路径分叉 - 自由能验证 定量一致 参考值 发现:折叠机制呈双路径分叉 路径1:早期α-螺旋成核 → 核心固化 路径2:疏水塌缩(Trp残基周围)→ 螺旋形成滞后 案例2:RBP的binding-upon-folding过程 发现:两种协同机制 路径1:分步诱导契合(induced-fit,配体结合先于蛋白闭合) 路径2:同步结合与折叠(simultaneous binding and folding) 意义:展示了耦合过程的原子水平解析能力,对本征无序蛋白和周质结合蛋白(PBP)研究具有普适价值 案例3:线粒体AAC转运蛋白 重大发现:首次明确证实闭合中间态(O-state)的存在 转运路径:C-state → O-state → M-state C-state:$\ce{ADP^3-}$在胞质侧结合 O-state:$\ce{ADP^3-}$被完全包裹,与膜两侧隔绝(必经检查点) M-state:$\ce{ADP^3-}$释放到基质 能垒对比: 系统 C→O能垒 O→M能垒 C→M能垒 Holo-AAC 2.5 kcal/mol 2 kcal/mol - Apo-AAC - - ~10 kcal/mol 生理意义:O-state充当防泄漏保障机制,确保严格的1:1核苷酸交换,为理解线粒体疾病突变提供结构基础。 图4:AAC线粒体ADP/ATP载体的过渡路径 (A)Holo-AAC(ADP³⁻结合)的三个亚稳态、过渡态及从C-state到M-state通过O-state的转运路径 (B-D)构象转运路径C→O→M及其自由能盆地 (E)Apo-AAC的两个亚稳态及其沿d1和d2投影的FEL 局限性 两态假设限制:当前框架主要针对A↔B双态转变,对复杂多态网络(如蛋白折叠多路径)的扩展需进一步验证 迭代收敛判据:缺乏自动化的收敛诊断工具,需依赖人工判断何时停止迭代 计算成本分布不均:虽然总采样时间大幅降低,但每轮迭代的DDPM训练和committor学习仍需可观的GPU时间 与现有方法的根本差异 特性 传统增强采样 纯生成模型 Gen-COMPAS 需要预定义CVs ✓ ✗ ✗ 训练数据需求 中等 极大(ms级) 极小(ns级) 物理严格性 高(可能有偏) 低(潜空间) 高(无偏MD) 采样效率 低-中 高(训练后) 高 动力学信息 有限 近似 精确(committor) 异质体系 ✓ ✗(多数) ✓ 三项研究的协同洞察 共同主题:物理约束下的AI加速 三项研究虽然应用场景不同,但共享一个核心哲学:AI的价值不在于替代物理计算,而在于智能引导物理计算的方向和范围。 ML/MM:MLIP加速QM/MM,但保留MM描述溶剂;TI框架保持热力学循环封闭性 GAL:REINVENT生成候选,但ESMACS物理精算提供真实ΔG训练信号 Gen-COMPAS:扩散模型生成中间态,但shooting模拟基于无偏MD验证动力学 效率提升的量化对比 方法 传统方法 新方法 加速 ML/MM TI QM/MM: 6 ps/天 ML/MM: 2 ns/天 约1000倍 GAL 数月DMTA循环 3-7次迭代收敛 数十倍 Gen-COMPAS 暴力MD: 208 μs 594 ns采样 约350倍 方法学互补性 这三项研究可以形成完整的药物发现-分子设计工作流: GAL阶段:在化学空间中快速识别高亲和力先导化合物 ML/MM阶段:对GAL发现的候选分子进行精确结合自由能排序和构象采样 Gen-COMPAS阶段:解析关键配体-蛋白相互作用的动力学机制,指导结构优化
Other
· 2025-11-17
魔改光合作用引擎的“扳手”:用定向进化打破Rubisco伴侣的物种壁垒
“魔改”光合作用引擎的”扳手”:用定向进化打破Rubisco伴侣的物种壁垒 本文信息 标题: 定向进化一种具有改变底物识别能力的植物Rubisco分子伴侣 作者: Siyu Li, ByungUk Lee, Yichong Lao, Sirawit Lertwiriyapiti, Xuhui Huang, and Tina Wang 发表时间: 2025年9月11日 单位: 威斯康星大学麦迪逊分校生物化学系、化学系、生物物理学研究生项目、理论化学研究所 (美国) 摘要 提高卡尔文循环关键酶——核酮糖-1,5-二磷酸羧化酶/加氧酶(Rubisco)的效率,有望显著提升作物产量。然而,在高等植物中,介导Rubisco组装的分子伴侣(chaperone)对其天然识别的Rubisco具有高度特异性,这为Rubisco的蛋白质工程改造和异源Rubisco的转基因表达设置了巨大障碍。本文旨在探索是否能通过定向进化技术,对植物Rubisco伴侣进行“重新编程”,使其能够识别并组装非天然的底物。研究人员为此开发了一种高通量的筛选策略,用于快速评估Rubisco组装因子的活性,并利用该方法筛选了来自拟南芥的分子伴侣Raf1(AtRaf1)的突变体库,目标是使其能够组装烟草(Nicotiana tabacum)的Rubisco——野生型AtRaf1对此几乎没有活性。结果表明,定向进化成功获得了能够显著提升烟草Rubisco组装效率的AtRaf1突变体。功能评估显示,这些进化后的AtRaf1不仅保留了组装其天然底物(拟南芥Rubisco)的能力,还能组装其他未经进化筛选的双子叶植物Rubisco,展现出更广泛的底物识别能力。这项工作为解决分子伴侣特异性对Rubisco改造带来的限制提供了一种有效策略,为未来改良植物光合作用开辟了新途径。 背景 在自然界中,Rubisco是催化卡尔文循环第一步、将大气中CO₂固定为生物质的核心酶。然而,它存在两个致命弱点:催化速度缓慢,且容易与O₂反应产生有毒副产物,后者需要通过消耗能量的光呼吸途径进行补救。因此,Rubisco被普遍认为是光合作用的瓶颈,也是提升农业产量的关键改造靶点。科学家们一直试图通过两种途径改良Rubisco:一是直接对其进行蛋白质工程改造,创造出性能更优的突变体;二是在作物中表达来自其他物种(如蓝藻)的、催化效率更高的Rubisco同源物。然而,这些努力至今收效甚微。 造成这一困境的一个核心原因是Rubisco的生物合成过程极其复杂。植物中的Rubisco由8个大亚基(RbcL)和8个小亚基(RbcS)组成,其正确的折叠与组装需要多达七种不同的辅助蛋白(分子伴侣)协同作用。这个过程就像一条精密的“生产线”,每一步都需要特定的“工人”(分子伴侣)来完成。 这条“生产线”最大的问题在于其高度的物种特异性,即所谓的“分子伴侣选择性”。来自A植物的分子伴侣往往无法识别并组装来自B植物的Rubisco RbcL亚基,即便两者序列相似度高达94%。例如,将拟南芥的RbcL引入烟草中,最终组装成的Rubisco量会下降四倍,其原因之一就是烟草的Raf1伴侣无法有效识别拟南芥的RbcL。这种“不兼容”现象为所有旨在改变RbcL序列的工程(无论是突变还是替换)都设置了几乎无法逾越的障碍。因此,找到一种方法来“说服”或“改造”宿主的分子伴侣,使其能够接纳并组装外来的、性能更优的Rubisco,成为该领域亟待解决的瓶颈问题。 关键科学问题 本研究的核心科学问题是:我们能否利用强大的蛋白质工程工具——定向进化,来打破植物Rubisco分子伴侣严格的物种特异性,使其“学会”识别并组装一种它原本不认识的、来自外源物种的Rubisco? 为了回答这个问题,研究必须解决一个关键的技术挑战:定向进化需要对数以万计的蛋白质突变体进行快速筛选,而传统的Rubisco组装活性检测方法(如电泳、色谱)通量极低,无法满足需求。因此,本研究的首要任务是开发一种能够将Rubisco伴侣活性与易于检测的信号(如荧光)相关联的高通量筛选方法。 创新点 方法学突破:首创了一种将Rubisco组装中间体的形成与荧光蛋白(GFP)表达相偶联的遗传学筛选系统。该系统巧妙地利用一个依赖寡聚化激活的转录因子,首次实现了对植物Rubisco伴侣活性的高通量检测,为定向进化研究铺平了道路。 成功重编程伴侣蛋白:通过四轮定向进化,成功将拟南芥的分子伴侣AtRaf1改造为能够高效组装烟草Rubisco的突变体。与几乎无活性的野生型相比,最优突变体(4p)使烟草Rubisco的组装产量提升了超过10倍。 功能拓展而非替换:进化后的AtRaf1突变体不仅获得了组装新底物(烟草Rubisco)的能力,同时基本保留了其组装天然底物(拟南芥Rubisco)的原始功能,实现了“一专多能”。 获得广谱识别能力:进化筛选过程不仅达成了特定目标,还意外地使AtRaf1获得了更广泛的底物识别能力(broadened promiscuity),对多种未经筛选的双子叶植物Rubisco表现出比野生型更强的组装活性。 研究内容 核心方法:构建“伴侣活性”的荧光报告系统 为了实现对分子伴侣活性的高通量筛选,研究人员设计了一套精妙的遗传学报告系统。 图1:(A) 植物Rubisco在分子伴侣介导下的生物合成通路。(B) 利用依赖寡聚化的转录因子cCadC检测Rubisco伴侣活性的策略示意图。 该系统的核心思想是:植物Rubisco的组装会经过一个包含8个RbcL亚基的八聚体中间体($RbcL_8$)。研究人员将RbcL与一个名为cCadC的转录因子进行融合。cCadC自身是无活性的单体,但当多个cCadC分子被拉近时,它们会发生自缔合,从而激活下游的报告基因(GFP)的转录。 graph TD subgraph A1 ["无活性伴侣或伴侣缺失"] A["cCadC-RbcL融合蛋白"] --> B["保持单体状态<br/>cCadC无活性"] B --> C["GFP基因沉默<br/>无荧光信号"] end subgraph A2 ["存在活性伴侣"] D["cCadC-RbcL融合蛋白"] -->|"在活性伴侣作用下"| E["组装成RbcL8伴侣复合物"] E --> F["融合的cCadC被迫靠近<br/>发生自缔合激活转录"] F --> G["GFP基因表达<br/>产生绿色荧光"] end 图2:cCadC-AtRbcL活性与未融合的拟南芥Rubisco组装情况的比较。(A) cCadC-RbcL植物Rubisco伴侣活性传感器的遗传元件图。(B) cCadC-AtRbcL融合蛋白与所有七种拟南芥Rubisco组装因子(“all”)或缺少其中一种伴侣共表达时,GFP的表达激活情况。“BSD2 mut”指W108A/L109E双突变体。左Y轴:三次重复的GFP荧光平均值及标准差;右Y轴:相同重复的细胞密度(OD₆₀₀)的散点图。(C) 在(B)中测试的相同组装因子组合下,通过天然PAGE凝胶电泳检测未融合的拟南芥Rubisco的组装情况。 通过实验验证,该系统非常可靠。当所有关键的拟南芥组装伴侣都存在时,表达拟南芥cCadC-RbcL的细胞会发出强烈的绿色荧光。而一旦移除关键伴侣如Raf1、Raf2或BSD2,荧光信号便会急剧下降。这一结果与传统的天然PAGE电泳分析(图2C)完全吻合,证明了荧光信号的强度可以准确反映Rubisco的组装效率。更重要的是,该系统对伴侣的物种特异性也很敏感:拟南芥的伴侣系统无法点亮烟草的cCadC-RbcL。至此,一个强大的定向进化筛选工具诞生了。 结果与分析 定向进化总体策略 研究人员通过一个多轮、递进的定向进化策略,逐步提升了AtRaf1对烟草Rubisco(NtRbcL)的组装能力。 graph TD subgraph B3 ["协同进化(第4轮)"] G["α结构域随机诱变库<br/>源自2b、2g"] -->|"与优化的β结构域随机组合"| H["构建结构域改组文库<br/>约30万克隆"] H -->|"FACS分选"| I["获得最优突变体<br/>4h、4p"] end subgraph B4 ["最终成果"] J["产量提升超10倍<br/>保留原始功能<br/>获得广谱识别能力"] end subgraph B1 ["起始与随机探索(第1-2轮)"] A["野生型AtRaf1基因"] -->|"易错PCR全长随机诱变"| B["构建初级文库<br/>约40万克隆"] B -->|"FACS分选与荧光菌落挑取"| C["获得活性提升的<br/>突变体2b、2g等"] end subgraph B2 ["靶向优化(第3轮)"] D["识别关键区域<br/>β结构域helix14"] -->|"定点饱和诱变"| E["构建靶向文库<br/>约50万克隆"] E -->|"荧光菌落挑取"| F["获得活性进一步提升的<br/>突变体3n"] end C -->|"以2g为模板"| D I --> J 第一、二轮进化:随机诱变与初步筛选 图3:筛选AtRaf1随机诱变文库以提高其组装NtRbcL的能力。(A) AtRaf1二聚体与S. elongatus PCC 6301 Rubisco结合的冷冻电镜结构。(B) 定向进化策略概览。(C) 经过两轮定向进化后,在AtRaf1突变体中观察到的突变。(D) AtRaf1突变体激活cCadC-NtRbcL的能力。(E) 筛选出的AtRaf1突变体促进未融合烟草Rubisco组装的能力。 研究人员首先对AtRaf1全基因进行随机诱变,构建了一个包含约40万个突变体的随机文库。利用新建立的荧光筛选系统和流式细胞分选技术(FACS),他们从文库中筛选出了能够微弱“点亮”烟草cCadC-RbcL的细胞。经过两轮“诱变-筛选”循环后,获得了16个活性显著提升的突变株(2a-p)。 突变分布:测序显示,突变广泛分布于AtRaf1的α结构域、β结构域以及连接两者的柔性接头中。 活性验证:这些突变体不仅在荧光测试中表现优异(图3D),在传统的天然PAGE凝胶分析中也显示出比野生型AtRaf1更强的烟草Rubisco组装能力,最强者活性提升约4倍(图3E)。 “假阳性”问题:一个有趣的现象是,部分突变体(如2j, 2l, 2m)能产生极高的荧光信号,但实际组装完整Rubisco的效率提升有限。这可能是因为这些突变增强了AtRaf1与RbcL八聚体中间体的结合,但却不利于后续小亚基(RbcS)的结合与释放,从而卡在了中间步骤。 分子动力学模拟揭示“假阳性”机制 图S8:E314K/E336K突变的分子动力学模拟。(a) 野生型(wt)和2j突变型AtRaf1 β结构域中,E/K336-R343和E/K314-R343残基对之间距离随时间的变化。(b) 各结构中残基相互作用的细节视图。(c) 三种AtRaf1β构象的结构比对。(d) 各系统中残基对的平均距离。 为了探究“假阳性”突变体(如含有E314K/E336K突变的2j)的机制,研究人员进行了分子动力学(MD)模拟。 破坏关键相互作用:模拟显示,在野生型AtRaf1β二聚体中,E314和E336分别与R343形成稳定的分子内和分子间盐桥,平均距离仅为 $5.5 \pm 0.4$ Å 和 $4.8 \pm 0.2$ Å。而在2j突变体中,E变为K后,这些盐桥被破坏,导致K314-R343和K336-R343的平均距离显著增加至 $15.2 \pm 1.3$ Å 和 $7.1 \pm 0.7$ Å,这使得AtRaf1β结构域变得更加灵活。 模拟结合状态:有趣的是,通过与已解析的AtRaf1结合RbcL的冷冻电镜(Cryo-EM)结构(PDB: 8IOJ)对比发现,野生型AtRaf1在结合RbcL后,其E336-R343的距离会从4.8 Å增加到8.9 Å。 核心假说:这表明,E314K/E336K突变可能通过破坏内部盐桥,使AtRaf1预先采纳了一种类似于“已结合RbcL”的构象。这种“预激活”状态有利于形成$RbcL_8$中间体(导致高荧光),但这种非自然的构象可能过度稳定,反而阻碍了后续小亚基(RbcS)的正确进入和伴侣的解离,最终导致了“假阳性”现象。 第三轮进化:靶向关键区域的饱和诱变 图4:Raf1 β结构域螺旋14的定点饱和诱变。(A) AtRbcL和NtRbcL上邻近Raf1β螺旋14区域的序列比较,差异以红色标出。AtRaf1β螺旋14中被选择进行定点饱和诱变的残基以紫色显示。(B) 筛选出的AtRaf1β螺旋14突变体中观察到的突变。(C) 筛选出的螺旋14突变体的序列标识图。(D) 螺旋14突变体促进未融合烟草Rubisco组装的能力。 在第二轮的突变体中,2b的N351Y突变位于Raf1 β结构域的第14号螺旋(helix 14),该区域正好与RbcL上一个在拟南芥和烟草间存在序列差异的区域相互作用(图4A)。研究人员对该螺旋上的五个氨基酸进行了“饱和诱变”。通过筛选,他们再次获得了一批活性增强的突变体,其中突变株3n在促进烟草Rubisco组装方面比其亲本2g提升了约3倍。 第四轮进化:结构域改组与功能优化 图5:第四轮定向进化。(A) AtRaf1突变体文库的克隆策略。(B) 第四轮筛选后在AtRaf1突变体中观察到的突变。(C) AtRaf1突变体促进未融合烟草Rubisco组装的能力。(D, E) 在进化株4p中发现的突变(粉色棒状)在AtRaf1二聚体(蓝绿色)与S. elongatus Rubisco(灰色表面)结合的冷冻电镜结构上的位置。(F) AtRaf1突变体4p中单个突变逆转后对未融合烟草Rubisco组装的影响。 为避免β结构域突变可能导致的“假阳性”问题,并整合前几轮的有效突变,研究人员采取了“结构域改组”策略。他们只对优良突变体的α结构域进行新一轮的随机诱变,然后将其与前几轮中最好的β结构域进行随机组合。经过最终筛选,获得了迄今为止性能最强的突变体,包括4h和4p。 突变分析:将4p中的突变位点标在三维结构上发现,大部分突变都位于Raf1与RbcL的结合界面上,直接参与了相互作用的调控(图5D, E)。 协同效应:将4p中的突变逐一恢复为野生型,发现没有任何一个单点回复会完全消除其活性(图5F)。这表明,活性的巨大提升是多个突变协同作用、共同累积微小优势的结果。 最终成果:进化伴侣的功能表征 图6:进化后的AtRaf1突变体对双子叶植物Rubisco同源物的活性。(A) 野生型和进化型AtRaf1/NtRaf1组装未融合烟草Rubisco的能力比较。(B) 本图中测试的双子叶植物的系统发育关系。(C) 组装未融合拟南芥Rubisco的能力比较。(D) 组装来自不同双子叶植物物种的未融合Rubisco的能力比较。 最后,研究人员对几轮进化中得到的最佳突变体(2b, 2g, 3n, 4h, 4p)进行了全面功能表征。 高效组装烟草Rubisco:与几乎没有活性的野生型AtRaf1相比,所有进化突变体都能组装烟草Rubisco,其中3n, 4h和4p活性最强(图6A)。通过小规模亲和纯化定量(Table S1),最优突变体产生的烟草Rubisco产量(例如4h为15 µg)比野生型(0.026 µg)提高了数十倍,至少是10倍以上的提升。 保留原始功能:在测试组装其天然底物——拟南芥Rubisco时,除2g外,所有进化突变体的效率都与野生型AtRaf1相当(图6C)。这说明它们在获得新功能的同时,没有丢失原有功能。 获得广谱识别能力:研究人员进一步测试了这些进化伴侣组装其它双子叶植物(马铃薯、大豆、棉花等)Rubisco的能力(图6D)。结果显示,相比于野生型AtRaf1,进化后的伴侣(特别是4p)对大豆和蒺藜苜蓿的Rubisco表现出更强的组装能力。这意味着,针对烟草Rubisco的定向进化,意外地赋予了AtRaf1一种更广泛的、跨物种的底物识别能力。 Q&A Q1: 既然目标是组装烟草的Rubisco,为什么不直接从烟草自己的分子伴侣(NtRaf1)出发进行改造,而是选择从一个几乎没活性的拟南芥伴侣(AtRaf1)开始? A1: 这是一个非常好的策略性问题。研究的根本目的并不仅仅是为了获得一个能组装烟草Rubisco的伴侣,而是为了回答一个更基本、更重要的问题:分子伴侣的底物特异性是否是“可塑的”?我们能否通过工程手段,教会一个伴侣去识别一个全新的底物? 从一个几乎没有活性的“白板”(AtRaf1对NtRbcL)出发,更能证明定向进化这一方法的强大和原理的可行性。此外,从长远应用看,科学家们更希望获得一个具有广泛适用性的“万能”伴侣,能够在一个模式植物(如拟南芥)中组装来自各种不同物种的高效Rubisco。因此,将拟南芥自身的伴侣改造得更具“包容性”,比单纯优化一个已具备特异性的烟草伴侣更具普遍意义和挑战性。 Q2: 研究中提到的β结构域突变可能导致的“假阳性”问题,其背后的分子机制是什么? A2: 这个问题的核心在于伴侣蛋白作用的动态平衡。MD模拟结果(图S8)为我们提供了很好的线索。在野生型AtRaf1中,β结构域通过内部的盐桥(如E314-R343, E336-R343)维持着一个相对稳定的构象。而“假阳性”突变(如E314K/E336K)破坏了这些盐桥,使β结构域变得异常灵活。研究者推测,这种高度灵活的构象可能模仿了伴侣蛋白结合底物RbcL后的“激活”状态。这种“预激活”构象能高效地捕捉RbcL并形成$RbcL_8$中间体,从而产生强烈的GFP荧光信号。然而,这个过度稳定或构象异常的中间复合物可能难以进行下一步——即被小亚基RbcS取代并顺利解离。这就好比一个工人能很快地抓住零件,但因为抓得太紧或姿势不对,导致零件无法安装到下一个工位,整个“生产线”因此中断。 Q3: 最优突变体4p的活性提升是多个突变协同作用的结果,这对于蛋白质工程有什么启示? A3: 这一发现(图5F)体现了定向进化的强大之处。它告诉我们,蛋白质功能的巨大改变,未必依赖于某个单一的、颠覆性的“关键突变”。更多时候,它是由多个微小、分散的突变累积起来的协同效应。这些突变的单独作用可能微不足道,但组合在一起就能产生质变。这对于理性设计蛋白质是一个重要的启示:我们很难预测并同时设计多个协同作用的突变,而定向进化通过模拟自然选择,能够探索广阔的序列空间,自动找出这些复杂的、非线性的解决方案。 Q4: 进化后的伴侣获得了“广谱识别能力”,这对于作物工程总是好事吗? A4: 在当前背景下,这通常被认为是一个非常理想的特性。野生型伴侣的高度特异性是当前Rubisco工程的巨大障碍。一个广谱的伴侣蛋白就像一把“万能扳手”,理论上可以用来组装来自多种不同物种的高效Rubisco,大大增加了我们在作物中进行异源表达的选择范围,而无需为每一种新的Rubisco都重新进化一套伴侣。然而,从长远生物学角度看,过度“滥情”的伴侣也可能存在潜在风险,比如在细胞内错误地与其他蛋白相互作用,产生非预期的副作用。因此,理想的工程伴侣应该是在保持高活性的同时,其“广谱性”仍被限定在一个安全和有效的功能范围内。 关键结论与批判性总结 本研究成功地应用定向进化技术,“重编程”了植物Rubisco分子伴侣AtRaf1,使其能够识别并高效组装其原本不兼容的烟草Rubisco,且组装产量提升超过10倍。这项工作的核心突破在于开发了一种创新的、基于荧光报告基因的高通量筛选策略,首次将定向进化这一强大的蛋白质工程工具引入到复杂的植物Rubisco组装体系中。进化后的AtRaf1不仅获得了新功能,还保留了原有功能,并展现出更广泛的底物识别谱,为解决长期困扰Rubisco工程的“伴侣特异性”瓶颈问题提供了强有力的概念验证和实用工具。 局限性1:体外模型系统:所有实验均在大肠杆菌模型系统中进行。尽管该系统与植物体内的组装情况有较好的相关性,但最终仍需在真实的植物模型(如转基因烟草)中验证这些进化伴侣的功效。 局限性2:活性未达顶峰:尽管活性提升显著,但进化后AtRaf1组装烟草Rubisco的效率(最高约25%)仍未达到烟草自身伴侣NtRaf1的水平,表明其仍有进一步优化的空间。 局限性3:筛选方法的改进:研究中出现的“假阳性”问题提示,未来的筛选策略或许需要改进,例如增加一个直接与最终产物活性挂钩的次级筛选步骤,以确保筛选到的突变体能够高效完成整个组装流程。 小编锐评: 定向进化的思路,靠多聚化来report,我不是做这个的,长见识了 和MD模拟的关系不大,感觉就是提一个机制来回答审稿人疑问,需要进一步探究
Other
· 2025-10-07
<
>
Touch background to close