Mendelevium

Diary
Drug Design
Field Knowledge
- Academia
  - Yang
- Biology
- Physics
Free Energy
Machine Learning & AI
Molecular Dynamics
Other
Specific Sytems
Techniques
- Linux
- Python
- Research
- Web
about
Home

Contact

Copyright © 2025 Xufan Gao | Academic Research Blog

Home > Other

A Bunch of Biophysics is Loading ...

Other

机器学习与物理模拟的协同：通过三项研究看计算化学的方法学进展
 机器学习与物理模拟的协同：三项研究透视计算化学的方法学进展引言在计算化学和药物发现领域，机器学习与物理模拟的结合正在改变研究方式。本文综述三项近期发表的研究，它们从不同角度展示了这一融合策略： ML/MM混合势：通过机器学习原子间势（MLIP）与分子力学（MM）结合，实现接近量子力学精度但快1000倍的自由能计算生成式主动学习（GAL）：将强化学习驱动的分子生成器（REINVENT）与物理精算（ESMACS）整合，在超算上实现化学空间探索 Gen-COMPAS框架：融合扩散生成模型与committor理论，无需预定义集合变量即可将罕见事件采样效率提升350倍这三项研究体现了一个共同特点：机器学习提供计算加速，物理模拟保证结果可靠性，二者结合可显著提升研究效率。研究一：ML/MM混合势——量子精度遇见经典效率文献信息作者: Xujian Wang, Xiongwu Wu, Bernard R. Brooks, Junmei Wang 单位: 匹兹堡大学；美国国立卫生研究院 Citation: J. Chem. Theory Comput. 2025, 21, 6979–6987 代码: https://github.com/ClickFF/MLMM4AMBER 方法学框架 ML/MM理论基础 ML/MM采用与QM/MM类似的力学嵌入方案，系统总能量划分为三个组成部分： \[E_{\text{total}} = E_{\text{ML}} + E_{\text{MM}} + E_{\text{ML-MM}}\] 其中： $E_{\text{ML}}$：MLIP描述的配体或活性区域能量（包含成键和非键合相互作用） $E_{\text{MM}}$：MM力场描述的溶剂和蛋白其余部分能量 $E_{\text{ML-MM}}$：两区域间的相互作用，通过库仑势和Lennard-Jones势描述： \[E_{\text{ML-MM}} = \sum_{i \in \text{MM}} \sum_{j \in \text{ML}} \left[\frac{q_i q_j}{r_{ij}} + \frac{A_{ij}}{r_{ij}^{12}} - \frac{B_{ij}}{r_{ij}^6}\right]\] 技术实现使用LibTorch库实现高效的MLIP推理和力计算采用CPU-GPU异步工作流：MD计算在CPU上执行，MLIP推理在GPU上并发运行支持多种MLIP模型：ANI系列（ANI-1x、ANI-1ccx、ANI-2x）和MACE系列（MACE-OFF23 S/M/L）性能评估：方法采样速度加速倍数 ANI-2x 2+ ns/天 1000-2000× MACE-OFF23(S) 1.5 ns/天约1000× 传统QM/MM <6 ps/天基准重组能（Reorganization Energy）传统热力学积分（TI）依赖对势能项的λ扰动，但MLIP的总能量不可分割——无法单独提取ML区域内的非键合项。解决方案：引入重组能补偿ML区域内非键合相互作用扰动的缺失 \[\Delta G_{\text{solvation}} = \sum_i w_i \left\langle \frac{\partial V_{\text{MM-ML,non-bonded}}}{\partial \lambda} \right\rangle_{\text{wat},i} + \Delta G_{\text{reorg}}\] 其中重组能定义为： \[\Delta G_{\text{reorg}} = \langle E_{\text{ML}} \rangle_{\text{wat}} - \langle E_{\text{ML}} \rangle_{\text{gas}}\] 物理意义：只对MM-ML之间的相互作用进行λ扰动（可明确计算） ML区域内部不进行λ扰动（保持完整性）重组能补偿由于环境变化导致的构象重组能量差关键结果性能验证图1：ML/MM工作流程与性能对比（a）CPU-GPU异步架构，GPU并行处理MLIP推理（b）不同MLIP模型的采样速度，ANI-2x达到2.4 ns/天（c）QM/MM vs ML/MM采样效率对比稳定性验证（NVE系综模拟水中erlotinib）：守恒量 ML/MM表现 QM/MM参考总能量标准差 0.03 kcal/mol 0.02 kcal/mol 质心速度 <0.02 - 平动/转动能量 <0.15 kcal/mol - 自由能计算精度水化自由能验证（30个有机小分子）：方法 MAE (kcal/mol) ANI-2x 0.45 MACE-OFF23(S) 0.59 CGenFF 0.96 GAFF 0.80 蛋白-配体模拟改进（CDK2与19种配体的MM-PBSA，好了那么一点点吧）：采样方法 RMSE (kcal/mol) R² 传统MD 0.68 0.54 MACE-OFF23(S) 0.65 0.59 B因子验证：大多数蛋白-配体复合物的计算B因子与实验值Pearson相关系数大于0.5 ML/MM在超过5纳秒的模拟中表现出色稳定性核心洞察：ML/MM不仅提供更精确的能量，更重要的是改善了构象采样质量——这直接提升了依赖系综统计的终点法（如MM-PBSA）的预测能力。图3：CDK2-配体复合物的B因子验证。ML/MM模拟计算的B因子（蓝色）与实验X-ray数据（橙色）高度一致，多数复合物Pearson相关系数>0.5，证明ML/MM能准确捕获蛋白-配体动力学特征。局限性力场一致性问题：ML势函数与MM力场的训练目标不同，界面处可能存在系统偏差，需更精细的混合策略拓扑变化限制：当前框架难以处理相对结合自由能（RBFE）所需的配体拓扑变换，仅适用于绝对自由能计算计算资源依赖：仍需GPU加速，对硬件有一定要求研究二：生成式主动学习——超算驱动的化学空间探索文献信息作者: Hannes H. Loeffler, Shunzhou Wan, Marco Klähn, Agastya P. Bhati, Peter V. Coveney 单位: AstraZeneca（瑞典）；伦敦大学学院（英国） Citation: J. Chem. Theory Comput. 2024, 20, 8308–8328 方法学框架该研究建立的GAL循环由四个关键组件组成： graph LR subgraph Oracle["Oracle（预言者）"] ESMACS["ESMACS物理精算<br/>10副本MD × 4 ns<br/>精准结合自由能ΔG"] end subgraph Surrogate["代理模型"] ChemProp["ChemProp神经网络<br/>5折交叉验证<br/>快速亲和力预测"] end subgraph Generator["分子生成器"] REINVENT["REINVENT强化学习<br/>古典先验模型<br/>即时生成新分子"] end subgraph Acquisition["获取策略"] Cluster["聚类-贪心策略<br/>Butina算法<br/>选择最优代表"] end Oracle -->|真实ΔG| Surrogate Surrogate -->|更新评分| REINVENT REINVENT -->|生成候选| Cluster Cluster -->|筛选批次| Oracle style ESMACS fill:#e3f2fd style ChemProp fill:#f3e5f5 style REINVENT fill:#e8f5e9 style Cluster fill:#fff3e0 工作逻辑：每一轮GAL包括： ESMACS评估：对当前批次化合物进行10副本MD模拟（4 ns/副本），每个化合物约5分钟墙钟时间，计算精准结合自由能代理模型更新：用真实ΔG数据训练ChemProp神经网络（5折交叉验证，5个集成模型），建立SMILES到亲和力的映射强化学习生成：REINVENT基于更新的评分函数生成新化合物（300-500次RL迭代），每轮产生100-1000个候选分子聚类与筛选：使用Butina算法（Tanimoto相似度>0.5）聚类，避免化学冗余，每簇选评分最优分子循环迭代：将筛选后的批次（n=100-1000个分子）提交给Oracle进行下一轮物理精算计算资源：项目配置平台艾字节级超算Frontier 单次迭代墙钟时间 50分钟（数百化合物）总计算量约2毫秒两个靶点的对比实验特征 3CLpro（开放型口袋） TNKS2（封闭型口袋）初始模型 10,000个Docking化合物 27个实验同系物测试批大小 250和500 100-1000 迭代轮数 7轮 4-5轮（快速收敛） ΔG提升 -30 → -56 kcal/mol -35 → -47 kcal/mol 代理模型质量 Spearman: 0.1→0.62 Spearman>0.7, R²>0.6 最优批大小 n=250 n=100或n≥500 深层洞察：靶点结构特征（开放vs封闭口袋）直接决定代理模型学习难度和GAL效率。封闭口袋建立了SMILES与3D结合姿态的清晰对应，使得1D描述符能有效预测3D亲和力。物理精算的关键价值 Docking vs. ESMACS相关性对比：方法 Spearman相关系数可靠性 Docking评分 0.08 几乎无相关性 ESMACS评分 0.33 中等相关虽然ESMACS绝对精度有限，但其相对排序能力足以为强化学习提供高质量训练信号，避免虚假优化陷阱。这证明了物理计算在驱动高质量分子生成中的核心价值。图3：GAL在3CLpro靶点的优化轨迹（a）各轮迭代的ΔG分布演化，批大小n=250 （b）代理模型预测准确度（Spearman相关系数）随迭代提升（c）生成分子与种子库的Tanimoto相似度分布，后期生成高度新颖的化学结构局限性合成性盲区：REINVENT生成的分子未经逆合成分析，可能包含合成困难或不可行的结构，需整合合成性评分超算资源依赖：50分钟/轮的效率基于艾字节级超算Frontier，对普通计算资源的可及性有限 Oracle噪声敏感：代理模型质量依赖ESMACS的排序准确性，如果物理精算存在系统偏差会影响收敛研究三：Gen-COMPAS——罕见事件模拟的生成式方法文献信息作者: Chenyu Tang, Mayank Prakash Pandey, Cheng Giuseppe Chen, Alberto Megías, François Dehez, Christophe Chipot 单位: 法国洛林大学；西班牙马德里理工大学；美国芝加哥大学；美国伊利诺伊大学香槟分校 Citation: arXiv 2025, 2510.24979v1（预印本）方法学框架图1：Gen-COMPAS整体框架（A）整体框架流程（B）去噪扩散模型训练与推理寻找中间态（C）使用Targeted MD获得对应过渡态的物理合理结构（D）Gen-COMPAS在示意自由能景观中由committor (q)引导的两个亚稳态间的整体采样策略核心工作流程 graph TB subgraph Init["初始化"] A["亚稳态A和B<br/>1-2 ns无偏MD"] --> B["初始数据集"] end subgraph Loop["迭代循环"] C["扩散生成模型<br/>生成中间态"] D["Committor预测<br/>识别q≈0.5结构"] E["targeted MD<br/>收敛至目标"] F["Shooting模拟<br/>短时无偏MD"] G["数据累积"] C --> D --> E --> F --> G --> C end subgraph Output["下游分析"] direction TB H["过渡态TSE"] I["Committor图谱"] J["CCS路径"] K["自由能FEL"] end Init --> Loop --> Output style C fill:#e8f5e9 style D fill:#fff3e0 style F fill:#e3f2fd 方法学细节扩散生成模型（DDPM）：前向过程：通过逐步添加高斯噪声将数据分布 $p_{\text{data}}(\mathbf{x})$ 转化为标准高斯分布 $\mathcal{N}(0, I)$ 逆过程：训练神经网络学习去噪步骤，从噪声中生成新样本应用：在蛋白质构象空间（Cartesian坐标）中训练，生成物理上合理的中间态构象，避免高能区域 Committor函数学习：定义：Committor $q(\mathbf{x})$ 是从构象 $\mathbf{x}$ 出发、在到达A之前先到达B的概率物理意义：$q = 0$ 对应A态，$q = 1$ 对应B态，$q = 0.5$ 的超曲面（separatrix）精确定义过渡态集合（TSE）技术优势：直接在笛卡尔空间用神经网络表示，无需预定义集合变量（CVs），自动识别最优反应坐标 Targeted MD（TMD）：原理：在原子坐标上施加简谐约束势 $V_{\text{bias}} = k(\mathbf{r} - \mathbf{r}_{\text{target}})^2$ 功能：引导系统从起始态（A或B）沿低能路径收敛至DDPM生成的目标构象优点：避免直接模拟高能垒跨越，快速生成separatrix附近的构象 Shooting模拟：起点：从separatrix附近的构象（committor预测 $q \approx 0.5$）出发执行：进行短时（纳秒级）无偏MD模拟，随机初始化速度验证：统计最终落入A态或B态的概率，验证committor预测准确性数据积累：成功的shooting轨迹加入训练集，迭代改进DDPM和committor模型三个标志性案例案例1：Trp-cage蛋白折叠（20残基微型蛋白）指标 Gen-COMPAS 传统MD（DESRES）采样时间 594 ns 208 μs 效率提升约350倍基准折叠机制双路径分叉 - 自由能验证定量一致参考值发现：折叠机制呈双路径分叉路径1：早期α-螺旋成核 → 核心固化路径2：疏水塌缩（Trp残基周围）→ 螺旋形成滞后案例2：RBP的binding-upon-folding过程发现：两种协同机制路径1：分步诱导契合（induced-fit，配体结合先于蛋白闭合）路径2：同步结合与折叠（simultaneous binding and folding）意义：展示了耦合过程的原子水平解析能力，对本征无序蛋白和周质结合蛋白（PBP）研究具有普适价值案例3：线粒体AAC转运蛋白重大发现：首次明确证实闭合中间态（O-state）的存在转运路径：C-state → O-state → M-state C-state：$\ce{ADP^3-}$在胞质侧结合 O-state：$\ce{ADP^3-}$被完全包裹，与膜两侧隔绝（必经检查点） M-state：$\ce{ADP^3-}$释放到基质能垒对比：系统 C→O能垒 O→M能垒 C→M能垒 Holo-AAC 2.5 kcal/mol 2 kcal/mol - Apo-AAC - - ~10 kcal/mol 生理意义：O-state充当防泄漏保障机制，确保严格的1:1核苷酸交换，为理解线粒体疾病突变提供结构基础。图4：AAC线粒体ADP/ATP载体的过渡路径（A）Holo-AAC（ADP³⁻结合）的三个亚稳态、过渡态及从C-state到M-state通过O-state的转运路径（B-D）构象转运路径C→O→M及其自由能盆地（E）Apo-AAC的两个亚稳态及其沿d1和d2投影的FEL 局限性两态假设限制：当前框架主要针对A↔B双态转变，对复杂多态网络（如蛋白折叠多路径）的扩展需进一步验证迭代收敛判据：缺乏自动化的收敛诊断工具，需依赖人工判断何时停止迭代计算成本分布不均：虽然总采样时间大幅降低，但每轮迭代的DDPM训练和committor学习仍需可观的GPU时间与现有方法的根本差异特性传统增强采样纯生成模型 Gen-COMPAS 需要预定义CVs ✓ ✗ ✗ 训练数据需求中等极大（ms级）极小（ns级）物理严格性高（可能有偏）低（潜空间）高（无偏MD）采样效率低-中高（训练后）高动力学信息有限近似精确（committor）异质体系 ✓ ✗（多数） ✓ 三项研究的协同洞察共同主题：物理约束下的AI加速三项研究虽然应用场景不同，但共享一个核心哲学：AI的价值不在于替代物理计算，而在于智能引导物理计算的方向和范围。 ML/MM：MLIP加速QM/MM，但保留MM描述溶剂；TI框架保持热力学循环封闭性 GAL：REINVENT生成候选，但ESMACS物理精算提供真实ΔG训练信号 Gen-COMPAS：扩散模型生成中间态，但shooting模拟基于无偏MD验证动力学效率提升的量化对比方法传统方法新方法加速 ML/MM TI QM/MM: 6 ps/天 ML/MM: 2 ns/天约1000倍 GAL 数月DMTA循环 3-7次迭代收敛数十倍 Gen-COMPAS 暴力MD: 208 μs 594 ns采样约350倍方法学互补性这三项研究可以形成完整的药物发现-分子设计工作流： GAL阶段：在化学空间中快速识别高亲和力先导化合物 ML/MM阶段：对GAL发现的候选分子进行精确结合自由能排序和构象采样 Gen-COMPAS阶段：解析关键配体-蛋白相互作用的动力学机制，指导结构优化
Other · 2025-11-17
魔改光合作用引擎的“扳手”：用定向进化打破Rubisco伴侣的物种壁垒
 “魔改”光合作用引擎的”扳手”：用定向进化打破Rubisco伴侣的物种壁垒本文信息标题: 定向进化一种具有改变底物识别能力的植物Rubisco分子伴侣作者: Siyu Li, ByungUk Lee, Yichong Lao, Sirawit Lertwiriyapiti, Xuhui Huang, and Tina Wang 发表时间: 2025年9月11日单位: 威斯康星大学麦迪逊分校生物化学系、化学系、生物物理学研究生项目、理论化学研究所 (美国) 摘要提高卡尔文循环关键酶——核酮糖-1,5-二磷酸羧化酶/加氧酶（Rubisco）的效率，有望显著提升作物产量。然而，在高等植物中，介导Rubisco组装的分子伴侣（chaperone）对其天然识别的Rubisco具有高度特异性，这为Rubisco的蛋白质工程改造和异源Rubisco的转基因表达设置了巨大障碍。本文旨在探索是否能通过定向进化技术，对植物Rubisco伴侣进行“重新编程”，使其能够识别并组装非天然的底物。研究人员为此开发了一种高通量的筛选策略，用于快速评估Rubisco组装因子的活性，并利用该方法筛选了来自拟南芥的分子伴侣Raf1（AtRaf1）的突变体库，目标是使其能够组装烟草（Nicotiana tabacum）的Rubisco——野生型AtRaf1对此几乎没有活性。结果表明，定向进化成功获得了能够显著提升烟草Rubisco组装效率的AtRaf1突变体。功能评估显示，这些进化后的AtRaf1不仅保留了组装其天然底物（拟南芥Rubisco）的能力，还能组装其他未经进化筛选的双子叶植物Rubisco，展现出更广泛的底物识别能力。这项工作为解决分子伴侣特异性对Rubisco改造带来的限制提供了一种有效策略，为未来改良植物光合作用开辟了新途径。背景在自然界中，Rubisco是催化卡尔文循环第一步、将大气中CO₂固定为生物质的核心酶。然而，它存在两个致命弱点：催化速度缓慢，且容易与O₂反应产生有毒副产物，后者需要通过消耗能量的光呼吸途径进行补救。因此，Rubisco被普遍认为是光合作用的瓶颈，也是提升农业产量的关键改造靶点。科学家们一直试图通过两种途径改良Rubisco：一是直接对其进行蛋白质工程改造，创造出性能更优的突变体；二是在作物中表达来自其他物种（如蓝藻）的、催化效率更高的Rubisco同源物。然而，这些努力至今收效甚微。造成这一困境的一个核心原因是Rubisco的生物合成过程极其复杂。植物中的Rubisco由8个大亚基（RbcL）和8个小亚基（RbcS）组成，其正确的折叠与组装需要多达七种不同的辅助蛋白（分子伴侣）协同作用。这个过程就像一条精密的“生产线”，每一步都需要特定的“工人”（分子伴侣）来完成。这条“生产线”最大的问题在于其高度的物种特异性，即所谓的“分子伴侣选择性”。来自A植物的分子伴侣往往无法识别并组装来自B植物的Rubisco RbcL亚基，即便两者序列相似度高达94%。例如，将拟南芥的RbcL引入烟草中，最终组装成的Rubisco量会下降四倍，其原因之一就是烟草的Raf1伴侣无法有效识别拟南芥的RbcL。这种“不兼容”现象为所有旨在改变RbcL序列的工程（无论是突变还是替换）都设置了几乎无法逾越的障碍。因此，找到一种方法来“说服”或“改造”宿主的分子伴侣，使其能够接纳并组装外来的、性能更优的Rubisco，成为该领域亟待解决的瓶颈问题。关键科学问题本研究的核心科学问题是：我们能否利用强大的蛋白质工程工具——定向进化，来打破植物Rubisco分子伴侣严格的物种特异性，使其“学会”识别并组装一种它原本不认识的、来自外源物种的Rubisco？为了回答这个问题，研究必须解决一个关键的技术挑战：定向进化需要对数以万计的蛋白质突变体进行快速筛选，而传统的Rubisco组装活性检测方法（如电泳、色谱）通量极低，无法满足需求。因此，本研究的首要任务是开发一种能够将Rubisco伴侣活性与易于检测的信号（如荧光）相关联的高通量筛选方法。创新点方法学突破：首创了一种将Rubisco组装中间体的形成与荧光蛋白（GFP）表达相偶联的遗传学筛选系统。该系统巧妙地利用一个依赖寡聚化激活的转录因子，首次实现了对植物Rubisco伴侣活性的高通量检测，为定向进化研究铺平了道路。成功重编程伴侣蛋白：通过四轮定向进化，成功将拟南芥的分子伴侣AtRaf1改造为能够高效组装烟草Rubisco的突变体。与几乎无活性的野生型相比，最优突变体（4p）使烟草Rubisco的组装产量提升了超过10倍。功能拓展而非替换：进化后的AtRaf1突变体不仅获得了组装新底物（烟草Rubisco）的能力，同时基本保留了其组装天然底物（拟南芥Rubisco）的原始功能，实现了“一专多能”。获得广谱识别能力：进化筛选过程不仅达成了特定目标，还意外地使AtRaf1获得了更广泛的底物识别能力（broadened promiscuity），对多种未经筛选的双子叶植物Rubisco表现出比野生型更强的组装活性。研究内容核心方法：构建“伴侣活性”的荧光报告系统为了实现对分子伴侣活性的高通量筛选，研究人员设计了一套精妙的遗传学报告系统。图1：(A) 植物Rubisco在分子伴侣介导下的生物合成通路。(B) 利用依赖寡聚化的转录因子cCadC检测Rubisco伴侣活性的策略示意图。该系统的核心思想是：植物Rubisco的组装会经过一个包含8个RbcL亚基的八聚体中间体（$RbcL_8$）。研究人员将RbcL与一个名为cCadC的转录因子进行融合。cCadC自身是无活性的单体，但当多个cCadC分子被拉近时，它们会发生自缔合，从而激活下游的报告基因（GFP）的转录。 graph TD subgraph A1 ["无活性伴侣或伴侣缺失"] A["cCadC-RbcL融合蛋白"] --> B["保持单体状态<br/>cCadC无活性"] B --> C["GFP基因沉默<br/>无荧光信号"] end subgraph A2 ["存在活性伴侣"] D["cCadC-RbcL融合蛋白"] -->|"在活性伴侣作用下"| E["组装成RbcL8伴侣复合物"] E --> F["融合的cCadC被迫靠近<br/>发生自缔合激活转录"] F --> G["GFP基因表达<br/>产生绿色荧光"] end 图2：cCadC-AtRbcL活性与未融合的拟南芥Rubisco组装情况的比较。(A) cCadC-RbcL植物Rubisco伴侣活性传感器的遗传元件图。(B) cCadC-AtRbcL融合蛋白与所有七种拟南芥Rubisco组装因子（“all”）或缺少其中一种伴侣共表达时，GFP的表达激活情况。“BSD2 mut”指W108A/L109E双突变体。左Y轴：三次重复的GFP荧光平均值及标准差；右Y轴：相同重复的细胞密度（OD₆₀₀）的散点图。(C) 在(B)中测试的相同组装因子组合下，通过天然PAGE凝胶电泳检测未融合的拟南芥Rubisco的组装情况。通过实验验证，该系统非常可靠。当所有关键的拟南芥组装伴侣都存在时，表达拟南芥cCadC-RbcL的细胞会发出强烈的绿色荧光。而一旦移除关键伴侣如Raf1、Raf2或BSD2，荧光信号便会急剧下降。这一结果与传统的天然PAGE电泳分析（图2C）完全吻合，证明了荧光信号的强度可以准确反映Rubisco的组装效率。更重要的是，该系统对伴侣的物种特异性也很敏感：拟南芥的伴侣系统无法点亮烟草的cCadC-RbcL。至此，一个强大的定向进化筛选工具诞生了。结果与分析定向进化总体策略研究人员通过一个多轮、递进的定向进化策略，逐步提升了AtRaf1对烟草Rubisco（NtRbcL）的组装能力。 graph TD subgraph B3 ["协同进化（第4轮）"] G["α结构域随机诱变库<br/>源自2b、2g"] -->|"与优化的β结构域随机组合"| H["构建结构域改组文库<br/>约30万克隆"] H -->|"FACS分选"| I["获得最优突变体<br/>4h、4p"] end subgraph B4 ["最终成果"] J["产量提升超10倍<br/>保留原始功能<br/>获得广谱识别能力"] end subgraph B1 ["起始与随机探索（第1-2轮）"] A["野生型AtRaf1基因"] -->|"易错PCR全长随机诱变"| B["构建初级文库<br/>约40万克隆"] B -->|"FACS分选与荧光菌落挑取"| C["获得活性提升的<br/>突变体2b、2g等"] end subgraph B2 ["靶向优化（第3轮）"] D["识别关键区域<br/>β结构域helix14"] -->|"定点饱和诱变"| E["构建靶向文库<br/>约50万克隆"] E -->|"荧光菌落挑取"| F["获得活性进一步提升的<br/>突变体3n"] end C -->|"以2g为模板"| D I --> J 第一、二轮进化：随机诱变与初步筛选图3：筛选AtRaf1随机诱变文库以提高其组装NtRbcL的能力。(A) AtRaf1二聚体与S. elongatus PCC 6301 Rubisco结合的冷冻电镜结构。(B) 定向进化策略概览。(C) 经过两轮定向进化后，在AtRaf1突变体中观察到的突变。(D) AtRaf1突变体激活cCadC-NtRbcL的能力。(E) 筛选出的AtRaf1突变体促进未融合烟草Rubisco组装的能力。研究人员首先对AtRaf1全基因进行随机诱变，构建了一个包含约40万个突变体的随机文库。利用新建立的荧光筛选系统和流式细胞分选技术（FACS），他们从文库中筛选出了能够微弱“点亮”烟草cCadC-RbcL的细胞。经过两轮“诱变-筛选”循环后，获得了16个活性显著提升的突变株（2a-p）。突变分布：测序显示，突变广泛分布于AtRaf1的α结构域、β结构域以及连接两者的柔性接头中。活性验证：这些突变体不仅在荧光测试中表现优异（图3D），在传统的天然PAGE凝胶分析中也显示出比野生型AtRaf1更强的烟草Rubisco组装能力，最强者活性提升约4倍（图3E）。 “假阳性”问题：一个有趣的现象是，部分突变体（如2j, 2l, 2m）能产生极高的荧光信号，但实际组装完整Rubisco的效率提升有限。这可能是因为这些突变增强了AtRaf1与RbcL八聚体中间体的结合，但却不利于后续小亚基（RbcS）的结合与释放，从而卡在了中间步骤。分子动力学模拟揭示“假阳性”机制图S8：E314K/E336K突变的分子动力学模拟。(a) 野生型（wt）和2j突变型AtRaf1 β结构域中，E/K336-R343和E/K314-R343残基对之间距离随时间的变化。(b) 各结构中残基相互作用的细节视图。(c) 三种AtRaf1β构象的结构比对。(d) 各系统中残基对的平均距离。为了探究“假阳性”突变体（如含有E314K/E336K突变的2j）的机制，研究人员进行了分子动力学（MD）模拟。破坏关键相互作用：模拟显示，在野生型AtRaf1β二聚体中，E314和E336分别与R343形成稳定的分子内和分子间盐桥，平均距离仅为 $5.5 \pm 0.4$ Å 和 $4.8 \pm 0.2$ Å。而在2j突变体中，E变为K后，这些盐桥被破坏，导致K314-R343和K336-R343的平均距离显著增加至 $15.2 \pm 1.3$ Å 和 $7.1 \pm 0.7$ Å，这使得AtRaf1β结构域变得更加灵活。模拟结合状态：有趣的是，通过与已解析的AtRaf1结合RbcL的冷冻电镜（Cryo-EM）结构（PDB: 8IOJ）对比发现，野生型AtRaf1在结合RbcL后，其E336-R343的距离会从4.8 Å增加到8.9 Å。核心假说：这表明，E314K/E336K突变可能通过破坏内部盐桥，使AtRaf1预先采纳了一种类似于“已结合RbcL”的构象。这种“预激活”状态有利于形成$RbcL_8$中间体（导致高荧光），但这种非自然的构象可能过度稳定，反而阻碍了后续小亚基（RbcS）的正确进入和伴侣的解离，最终导致了“假阳性”现象。第三轮进化：靶向关键区域的饱和诱变图4：Raf1 β结构域螺旋14的定点饱和诱变。(A) AtRbcL和NtRbcL上邻近Raf1β螺旋14区域的序列比较，差异以红色标出。AtRaf1β螺旋14中被选择进行定点饱和诱变的残基以紫色显示。(B) 筛选出的AtRaf1β螺旋14突变体中观察到的突变。(C) 筛选出的螺旋14突变体的序列标识图。(D) 螺旋14突变体促进未融合烟草Rubisco组装的能力。在第二轮的突变体中，2b的N351Y突变位于Raf1 β结构域的第14号螺旋（helix 14），该区域正好与RbcL上一个在拟南芥和烟草间存在序列差异的区域相互作用（图4A）。研究人员对该螺旋上的五个氨基酸进行了“饱和诱变”。通过筛选，他们再次获得了一批活性增强的突变体，其中突变株3n在促进烟草Rubisco组装方面比其亲本2g提升了约3倍。第四轮进化：结构域改组与功能优化图5：第四轮定向进化。(A) AtRaf1突变体文库的克隆策略。(B) 第四轮筛选后在AtRaf1突变体中观察到的突变。(C) AtRaf1突变体促进未融合烟草Rubisco组装的能力。(D, E) 在进化株4p中发现的突变（粉色棒状）在AtRaf1二聚体（蓝绿色）与S. elongatus Rubisco（灰色表面）结合的冷冻电镜结构上的位置。(F) AtRaf1突变体4p中单个突变逆转后对未融合烟草Rubisco组装的影响。为避免β结构域突变可能导致的“假阳性”问题，并整合前几轮的有效突变，研究人员采取了“结构域改组”策略。他们只对优良突变体的α结构域进行新一轮的随机诱变，然后将其与前几轮中最好的β结构域进行随机组合。经过最终筛选，获得了迄今为止性能最强的突变体，包括4h和4p。突变分析：将4p中的突变位点标在三维结构上发现，大部分突变都位于Raf1与RbcL的结合界面上，直接参与了相互作用的调控（图5D, E）。协同效应：将4p中的突变逐一恢复为野生型，发现没有任何一个单点回复会完全消除其活性（图5F）。这表明，活性的巨大提升是多个突变协同作用、共同累积微小优势的结果。最终成果：进化伴侣的功能表征图6：进化后的AtRaf1突变体对双子叶植物Rubisco同源物的活性。(A) 野生型和进化型AtRaf1/NtRaf1组装未融合烟草Rubisco的能力比较。(B) 本图中测试的双子叶植物的系统发育关系。(C) 组装未融合拟南芥Rubisco的能力比较。(D) 组装来自不同双子叶植物物种的未融合Rubisco的能力比较。最后，研究人员对几轮进化中得到的最佳突变体（2b, 2g, 3n, 4h, 4p）进行了全面功能表征。高效组装烟草Rubisco：与几乎没有活性的野生型AtRaf1相比，所有进化突变体都能组装烟草Rubisco，其中3n, 4h和4p活性最强（图6A）。通过小规模亲和纯化定量（Table S1），最优突变体产生的烟草Rubisco产量（例如4h为15 µg）比野生型（0.026 µg）提高了数十倍，至少是10倍以上的提升。保留原始功能：在测试组装其天然底物——拟南芥Rubisco时，除2g外，所有进化突变体的效率都与野生型AtRaf1相当（图6C）。这说明它们在获得新功能的同时，没有丢失原有功能。获得广谱识别能力：研究人员进一步测试了这些进化伴侣组装其它双子叶植物（马铃薯、大豆、棉花等）Rubisco的能力（图6D）。结果显示，相比于野生型AtRaf1，进化后的伴侣（特别是4p）对大豆和蒺藜苜蓿的Rubisco表现出更强的组装能力。这意味着，针对烟草Rubisco的定向进化，意外地赋予了AtRaf1一种更广泛的、跨物种的底物识别能力。 Q&A Q1: 既然目标是组装烟草的Rubisco，为什么不直接从烟草自己的分子伴侣（NtRaf1）出发进行改造，而是选择从一个几乎没活性的拟南芥伴侣（AtRaf1）开始？ A1: 这是一个非常好的策略性问题。研究的根本目的并不仅仅是为了获得一个能组装烟草Rubisco的伴侣，而是为了回答一个更基本、更重要的问题：分子伴侣的底物特异性是否是“可塑的”？我们能否通过工程手段，教会一个伴侣去识别一个全新的底物？从一个几乎没有活性的“白板”（AtRaf1对NtRbcL）出发，更能证明定向进化这一方法的强大和原理的可行性。此外，从长远应用看，科学家们更希望获得一个具有广泛适用性的“万能”伴侣，能够在一个模式植物（如拟南芥）中组装来自各种不同物种的高效Rubisco。因此，将拟南芥自身的伴侣改造得更具“包容性”，比单纯优化一个已具备特异性的烟草伴侣更具普遍意义和挑战性。 Q2: 研究中提到的β结构域突变可能导致的“假阳性”问题，其背后的分子机制是什么？ A2: 这个问题的核心在于伴侣蛋白作用的动态平衡。MD模拟结果（图S8）为我们提供了很好的线索。在野生型AtRaf1中，β结构域通过内部的盐桥（如E314-R343, E336-R343）维持着一个相对稳定的构象。而“假阳性”突变（如E314K/E336K）破坏了这些盐桥，使β结构域变得异常灵活。研究者推测，这种高度灵活的构象可能模仿了伴侣蛋白结合底物RbcL后的“激活”状态。这种“预激活”构象能高效地捕捉RbcL并形成$RbcL_8$中间体，从而产生强烈的GFP荧光信号。然而，这个过度稳定或构象异常的中间复合物可能难以进行下一步——即被小亚基RbcS取代并顺利解离。这就好比一个工人能很快地抓住零件，但因为抓得太紧或姿势不对，导致零件无法安装到下一个工位，整个“生产线”因此中断。 Q3: 最优突变体4p的活性提升是多个突变协同作用的结果，这对于蛋白质工程有什么启示？ A3: 这一发现（图5F）体现了定向进化的强大之处。它告诉我们，蛋白质功能的巨大改变，未必依赖于某个单一的、颠覆性的“关键突变”。更多时候，它是由多个微小、分散的突变累积起来的协同效应。这些突变的单独作用可能微不足道，但组合在一起就能产生质变。这对于理性设计蛋白质是一个重要的启示：我们很难预测并同时设计多个协同作用的突变，而定向进化通过模拟自然选择，能够探索广阔的序列空间，自动找出这些复杂的、非线性的解决方案。 Q4: 进化后的伴侣获得了“广谱识别能力”，这对于作物工程总是好事吗？ A4: 在当前背景下，这通常被认为是一个非常理想的特性。野生型伴侣的高度特异性是当前Rubisco工程的巨大障碍。一个广谱的伴侣蛋白就像一把“万能扳手”，理论上可以用来组装来自多种不同物种的高效Rubisco，大大增加了我们在作物中进行异源表达的选择范围，而无需为每一种新的Rubisco都重新进化一套伴侣。然而，从长远生物学角度看，过度“滥情”的伴侣也可能存在潜在风险，比如在细胞内错误地与其他蛋白相互作用，产生非预期的副作用。因此，理想的工程伴侣应该是在保持高活性的同时，其“广谱性”仍被限定在一个安全和有效的功能范围内。关键结论与批判性总结本研究成功地应用定向进化技术，“重编程”了植物Rubisco分子伴侣AtRaf1，使其能够识别并高效组装其原本不兼容的烟草Rubisco，且组装产量提升超过10倍。这项工作的核心突破在于开发了一种创新的、基于荧光报告基因的高通量筛选策略，首次将定向进化这一强大的蛋白质工程工具引入到复杂的植物Rubisco组装体系中。进化后的AtRaf1不仅获得了新功能，还保留了原有功能，并展现出更广泛的底物识别谱，为解决长期困扰Rubisco工程的“伴侣特异性”瓶颈问题提供了强有力的概念验证和实用工具。局限性1：体外模型系统：所有实验均在大肠杆菌模型系统中进行。尽管该系统与植物体内的组装情况有较好的相关性，但最终仍需在真实的植物模型（如转基因烟草）中验证这些进化伴侣的功效。局限性2：活性未达顶峰：尽管活性提升显著，但进化后AtRaf1组装烟草Rubisco的效率（最高约25%）仍未达到烟草自身伴侣NtRaf1的水平，表明其仍有进一步优化的空间。局限性3：筛选方法的改进：研究中出现的“假阳性”问题提示，未来的筛选策略或许需要改进，例如增加一个直接与最终产物活性挂钩的次级筛选步骤，以确保筛选到的突变体能够高效完成整个组装流程。小编锐评：定向进化的思路，靠多聚化来report，我不是做这个的，长见识了和MD模拟的关系不大，感觉就是提一个机制来回答审稿人疑问，需要进一步探究
Other · 2025-10-07

Touch background to close