Mendelevium
Diary
Drug Design
Field Knowledge
Academia
Yang
Biology
Physics
Free Energy
Machine Learning & AI
Active Learning
Basics
Boltz-2
Data
Generation
Interpretability
QSAR application
Representations
Mol2Image
Workflow & Agent
Molecular Dynamics
FF & Algorithm
Small Molecule
martini
water
Interaction
Modeling & Tools
QM
Sampling & Analysis
Allostery
Fundamental
Other
Specific Sytems
Enzyme Engineering
Fiber & LLPS
Membrane
orientation_penetration
Metal
Nano Polymers
Skin Permeation
Techniques
Linux
Python
Research
Web
about
Home
Contact
Copyright © 2025 Xufan Gao | Academic Research Blog
Home
>
Machine Learning & AI
> Active Learning
A Bunch of Biophysics is Loading ...
Active Learning
生成式主动学习+物理模拟:AI与精准计算协力加速新药设计
生成式主动学习+物理模拟:AI与精准计算协力加速新药设计 本文信息 标题: Optimal Molecular Design: Generative Active Learning Combining REINVENT with Precise Binding Free Energy Ranking Simulations 作者: Hannes H. Loeffler, Shunzhou Wan, Marco Klähn, Agastya P. Bhati, Peter V. Coveney 发表时间: 2024年9月 单位: AstraZeneca分子AI部门(瑞典)、伦敦大学学院计算科学中心(英国) 引用格式: Loeffler, H. H., Wan, S., Klähn, M., Bhati, A. P., & Coveney, P. V. (2024). Optimal Molecular Design: Generative Active Learning Combining REINVENT with Precise Binding Free Energy Ranking Simulations. Journal of Chemical Theory and Computation, 20(19), 8308–8328. https://doi.org/10.1021/acs.jctc.4c00576 摘要 主动学习(AL)是一种序列实验设计策略,利用机器学习智能地选择需要评估的下一批分子结构,有效模拟实验室中的设计-制造-测试-分析循环(DMTA)。本研究描述了一个将生成式分子AI与物理精算绝对结合自由能计算(REINVENT与ESMACS)相结合的主动学习框架,称为生成式主动学习(GAL)。在全球首台超算Frontier上,该协议成功发现了两个靶点(3CLpro和TNKS2)的新型高效配体,这些分子不仅结合亲和力超越初始模型,而且化学空间分布完全不同,显示了物理约束与AI生成的协同优势。通过系统改变批大小参数,研究提供了不同应用场景下的最优效率建议。 核心结论 GAL框架的有效性:在两个差异化靶点上,生成式主动学习都能成功发现结合亲和力更优的新分子,且化学结构多样性高 批大小的关键影响:对于开放型结合口袋(3CLpro),小批大小(n=250)效率更高;对于封闭型口袋(TNKS2),较大批大小能提升精度但增加计算成本 快速收敛特性:TNKS2仅需3-4次迭代即可收敛,3CLpro需5-7次,远低于传统虚拟筛选 物理精算的必要性:Docking评分与ESMACS相关性极弱,表明物理计算对驱动高质量分子生成至关重要 代理模型质量与靶点结构的耦合:靶点口袋的约束性越强,代理模型预测精度越高,GAL整体效率越优 背景 药物发现中的计算加速困境 传统的药物发现遵循设计-制造-测试-分析循环(DMTA),这是一个迭代、缓慢、昂贵的过程。每次设计新化合物都需要实验评估,周期长达数月,投入巨大。计算机辅助药物设计(CADD)应运而生,但面临核心难题: 虚拟库规模爆炸:商业库动辄数百万甚至数十亿化合物,传统虚拟筛选无法遍历 评估函数精度不足:Docking等快速评分方法与实验关联性差(本研究中Spearman相关系数仅0.08) 化学空间探索有限:固定库只能覆盖已合成分子,无法发现新颖性强的化合物 采样-精度的平衡:高精度方法(如MM-PBSA)计算昂贵,难以大规模应用 主动学习的理论基础 主动学习(AL)打破了被动数据标注的枷锁。其核心思想是:不盲目标注海量数据,而是智能地选择最具信息价值的样本进行昂贵计算,逐步优化代理模型。在药物发现中,AL的逻辑链条是: Oracle(预言者):精准但昂贵的计算方法(如分子动力学结合自由能计算) 代理模型:快速但精度有限的机器学习模型(如神经网络QSAR) 获取函数:智能选择下一批候选化合物的策略 迭代优化:循环运行,逐步收敛到高质量分子 生成式AI与强化学习的融合 传统AL依赖固定库池,而REINVENT引入了生成式前沿:通过强化学习(RL),该模型能够即时生成满足目标属性的新型化合物,不受合成库限制。这意味着: 化学空间无限:从分子图表示(SMILES)生成,理论上可探索所有可合成分子 先验知识驱动:预训练的“先验”模型被RL逐步微调向目标方向 评分函数驱动:多个评分项(结合亲和力、药物性、合理性)加权聚合 关键科学问题 本研究旨在回答药物发现实践中的根本问题: 能否在主动学习框架中有效整合生成式AI和物理模拟?两种范式(快速生成 vs. 精准评估)的协同效果如何量化? 批大小如何影响效率(每轮提交多少化合物给Oracle)?小批高迭代 vs. 大批低迭代,孰优孰劣? 靶点结构特征对GAL性能的影响程度有多大?开放vs.封闭的结合口袋是否导致截然不同的行为? 在超算上实现的GAL是否具有实际药物发现价值?生成的分子是否真正新颖且可合成? 创新点 首个完整的GAL范式展示:在药物发现领域系统展示生成式AI(REINVENT)与物理精算(ESMACS)的端到端整合,非概念验证而是实战应用 超算尺度的实现:在Frontier(全球首台艾字节级超算)上部署,单次迭代仅需50分钟墙钟时间评估数百化合物,计算量~2毫秒 系统的批大小分析:首次在两个代表性靶点上对比5种不同批大小(100-1000),给出精度-效率权衡的定量建议 靶点结构的影响揭示:通过对比开放型(3CLpro)和封闭型(TNKS2)结合口袋,深入讨论了蛋白质约束性对代理模型质量和GAL收敛的直接影响 真实新颖性验证:生成分子与原始库的Tanimoto相似度<0.13,证明了真正的结构创新而非模式复制 研究内容 方法论框架:GAL工作流 该研究建立的GAL循环由四个关键组件组成: graph TB subgraph Oracle["Oracle(预言者)"] direction LR ESMACS["ESMACS<br/>10副本MD模拟<br/>4 ns/副本<br/>~5分钟/化合物<br/>精准结合自由能"] end subgraph Surrogate["代理模型"] direction LR ChemProp["ChemProp神经网络<br/>5折交叉验证<br/>5个集成模型<br/>快速亲和力预测"] end subgraph Generator["分子生成器"] direction LR REINVENT["REINVENT强化学习<br/>古典先验模型<br/>300-500次迭代<br/>每轮生成100-1000分子"] end subgraph Acquisition["获取策略"] direction LR Clustering["聚类-贪心策略<br/>Butina算法<br/>Tanimoto相似度>0.5<br/>每簇选最优分子"] end Oracle -->|ΔG结果| Surrogate Surrogate -->|更新模型| REINVENT REINVENT -->|生成新化合物| Acquisition Acquisition -->|筛选批次| Oracle style ESMACS fill:#e3f2fd style ChemProp fill:#f3e5f5 style REINVENT fill:#e8f5e9 style Clustering fill:#fff3e0 工作逻辑:每一轮GAL包括 (1) 评估当前批次的化合物结合亲和力→ (2) 用真实数据更新代理模型→ (3) 用强化学习生成新批次→ (4) 通过聚类和贪心策略选择最有潜力的子集→ (5) 循环回到第1步。 图1:生成式主动学习的整体工作流 GAL框架从右上方开始:ESMACS评估一组化合物的结合亲和力,将结果与其ΔG值用于更新ChemProp代理模型(右下)。REINVENT利用古典强化学习先验和经过更新的ChemProp评分函数,通过内层强化学习优化循环在左边生成新分子,外层是主动学习算法本身。新生成的候选物通过Butina聚类和贪心选择策略筛选,再回到评估步骤。 两个代表性靶点的对比 3CLpro(SARS-CoV-2主蛋白酶) 靶点特征:大型开放结合口袋,允许多种配体结合模式 初始模型:基于~10,000个Docking评分最优的化合物 测试批大小:250和500分子/轮 迭代轮数:7轮 总Oracle调用:3,500和1,750次 关键结果: 代理模型初期精度低(Spearman ρ~0.1),后期恢复到0.62(n=250)和0.39(n=500) 生成分子结合自由能从初始约-30 kcal/mol逐步改善至-56 kcal/mol(相对于最优种子库提升>5 kcal/mol) 化学多样性保持高水平(平均Tanimoto相似度<0.35),与种子库差异度极大(<0.13) 小批大小(n=250)表现出更高的计算效率(每次Oracle调用发现的结构簇数更多) 图8:3CLpro的GAL效率分析 效率指标定义为每次Oracle调用发现的结构簇数,展示了n=250(绿色)和n=500(蓝色)两种批大小在每轮迭代后的累积效率。小批大小在结构发现效率上明显优于大批大小,特别是在早期迭代阶段。 图2:代理模型精度逐轮改进 对比n=250(绿色)和n=500(蓝色)两种批大小,ChemProp代理模型对ΔG的预测精度逐轮提升。Spearman相关系数从初期0.1恢复到0.62(n=250)或0.39(n=500)。这是3CLpro最关键的指标,反映了数据驱动模型如何逐步学习配体-蛋白复杂关系。 图4:结构多样性与聚类分析 四个子图展示3CLpro的核心演变轨迹: (a) ΔG分布的逐轮改善(绿=n=250,蓝=n=500) (b) Tanimoto相似度分布:内部相似度<0.35,保持高多样性 (c) 结构簇数随迭代递减,表明收敛到少数高质量簇 (d) 生成分子与初始库的相似度<0.13,证明真正的新颖性而非模式复制 图6:化学空间演变(t-SNE可视化) 使用Morgan指纹的t-SNE投影清晰展示: 蓝色:初始种子化合物聚集在紧凑区域 红/橙/黄:生成分子大幅扩展到外围,形成多个分离簇 充分证明了GAL能突破已知化学空间的边界 图5:3CLpro的代表性化学结构 展示从不同结构簇中选择的ΔG最优结合分子。包含8个最丰富的簇以及4个ΔG最低的簇,从ΔG最低的100个化合物中进行聚类分析。这些分子结构展示了GAL发现的化学多样性和新颖性。 这些图表共同展示了3CLpro从困难收敛到逐步优化的全过程。 TNKS2(Tankyrase-2,PARP家族蛋白) 靶点特征:狭窄封闭结合口袋,限制了配体的结合模式多样性 初始模型:基于27个实验验证的同系物(使用QSARtuna随机森林) 测试批大小:100、300、500、700、1,000分子/轮 迭代轮数:4-5轮(快速收敛) 总Oracle调用:较少但更精确 关键结果: 代理模型质量显著优于3CLpro(Spearman ρ > 0.7,R² > 0.6在第1轮后) 仅需单次迭代就实现显著改善(对比3CLpro需多轮) 生成分子结合自由能达-47 kcal/mol(超过所有27个实验验证的种子) 大批大小导致更深的化学空间收敛:n≥500的多轮试验收敛到相同区域,n=700则稍偏移 生成分子中腈基和桥环等特殊取代基被反复发现,表明它们是该口袋的关键优化群体 图10:TNKS2的结合自由能分布 展示不同批大小(100、300、500、700、1000)在选定迭代轮次后的ΔG分布。绿色(batch 0)是初始10,000个种子化合物的分布,可以清楚地看到生成分子(batch 1-5)的分布迅速向低值移动,反映了代理模型的高效性。 图12:TNKS2的代表性化学结构 展示从不同结构簇中选择的ΔG最优结合分子。包含8个最丰富的簇以及4个ΔG最低的簇。可以观察到腈基(-CN)和桥环结构在多个最优分子中反复出现,验证了这些是该结合口袋的关键优化群体。 图9:TNKS2代理模型的快速精准提升 对比n=100、500、1000三种批大小,ChemProp在TNKS2上的表现远优于3CLpro。Spearman相关系数>0.7(vs 3CLpro的0.62),R²>0.6(vs 3CLpro的更低值)。关键差异在于TNKS2的一致性结合模式使得1D SMILES与3D构象有清晰对应。 图11:TNKS2的多维性能分析 四个子图汇总TNKS2的关键演变: (a) 结合自由能分布极速移向低值(单次迭代显著改善) (b) Tanimoto相似度分布宽度增加,表示更多样的结构生成 (c) 结构簇数呈现快速收敛模式(vs 3CLpro的缓慢递减) (d) 与初始27个实验同系物的相似度<0.3,多数为全新支架 图13:TNKS2的化学空间拓展 t-SNE可视化对比3CLpro的多簇分散,TNKS2展现: 黄色:初始10000个种子化合物聚集 浅蓝色:27个实验验证配体占据极小区域 多彩点:生成分子虽然向外扩展,但范围相对集中(反映封闭口袋的约束性) 这揭示了口袋拓扑结构直接决定化学空间探索的广度。 靶点对比的深层洞察: 3CLpro:开放口袋→多种结合模式→代理模型难以学习→需更多迭代 TNKS2:封闭口袋→一致结合模式→代理模型快速精准→少轮次收敛 批大小的效率权衡 研究定义了计算效率指标 $\eta = \frac{N_{CG,\Delta G_{\max}}}{n_{\text{oracle}}}$,其中$N_{CG}$为满足结合亲和力和相似度阈值的结构簇数,$n_{\text{oracle}}$为Oracle调用次数。 通过多场景参数扫描(两个ΔG阈值×两种相似度截断),研究系统评估了不同批大小在多样性探索(hit finding)和亲和力优化(lead optimization)两种应用场景下的表现。 结论: 3CLpro:小批大小(n=250)在所有情景下效率最高 TNKS2:小批大小(n=100)在多数情景下最优,但在严格亲和力条件下n≥500超越 实践建议:当代理模型质量难以预知时,小批大小是更安全的选择(100-250),能在探索和精细化之间取得平衡 代理模型质量的关键因素 TNKS2代理模型显著优于3CLpro的根本原因在于靶点蛋白的结构特性(详见附录的深层分析):封闭口袋建立了SMILES与3D结合姿态的清晰对应,高质量的初始数据来自实验验证,以及明确的优化目标。这与3CLpro的开放结构、Docking初始数据的噪声、以及多模式竞争形成鲜明对比。 关键发现的反思 物理精算的核心价值 本研究的一个重大发现是Docking与ESMACS的巨大差异: Docking评分:Spearman ρ = 0.08(几乎无相关性) ESMACS评分:Spearman ρ = 0.33(中等相关) 为什么这很重要?虽然ESMACS的绝对精度仍有限,但相对排序能力足以驱动强化学习找到更好的分子。物理计算提供的是: 结构-能量关联的物理基础(而非Docking的黑盒碰撞几何) 代理模型的高质量训练信号(相比低质量Docking标注) 规避虚假优化(RL不会因为Docking的任意性而陷入孤立死胡同) 生成式AI的局限性 REINVENT生成分子时知识有限: 不支持立体化学(所有生成分子均无手性中心) 不包含蛋白质结构信息(仅基于配体结构与亲和力) 缺少合成性评估(本研究中某些分子可能难以合成) 这反过来解释了为何代理模型质量至关重要:强化学习需要良好的评分信号来弥补生成器的信息缺陷。 化学空间探索的启示 GAL的一个独特优势是可探索前所未有的化学空间,而非被限制在已知分子的相似性范围内。研究中的t-SNE可视化清晰显示: 初始库(蓝色)聚集在一个紧凑区域 生成分子(红/橙/黄)向外大幅扩展,形成多个分离的簇 不同批大小导致的不同收敛点表明:强化学习的随机性保证了多样性 这对药物发现的意义是:当热点靶点的已知配体陷入某个局部SAR极值时,GAL能自动跳出,在全新化学空间寻找突破。 关键结论与未来方向 主要成就 范式融合:首次在工业规模上展示了生成式AI + 物理精算 + 主动学习的三位一体,打破了各自为政的局面 超算驱动:证明在Frontier级超算上,GAL的墙钟时间与小型实验室规模相当,成本可控 靶点适应性:系统揭示了蛋白质结构约束性对AI-物理协作的深刻影响,提供了定性预测能力 效率量化:为不同应用场景(hit finding vs. lead optimization)提供了批大小选择的定量证据 局限性 合成性未评估:生成分子虽然新颖,但未经Retrosynthesis检验(建议集成AiZynthFinder) 代理模型静态化:未尝试层冻结或持续学习,每轮从零训练(可优化) 超算依赖:50分钟/轮的效率对无超算访问的群体无益(需研发GPU集群优化) 药物性约束薄弱:仅用QED+构象过滤,缺少PK/PD/毒性模块(实际应用需补充)
Machine Learning & AI
· 2026-03-08
生成式主动学习+物理模拟:详细结果分析(附录)
TNKS2靶点详细结果与补充分析(附录) 本附录包含TNKS2靶点的详细figure描述、图表解读和补充分析,是主文档的延伸。 TNKS2详细结果分析 代理模型质量对比 图9:TNKS2中代理模型预测精度的提升 对比了批大小为100、500和1000分子的ChemProp代理模型对ΔG的预测与ESMACS计算值,展示选定的GAL迭代步骤。图中插入R²系数及Spearman/Kendall秩相关系数(ρ和τ)。每次迭代中所有代理模型预测和ESMACS计算的平均ΔG值用红色圆圈标示。所有能量值单位为kcal/mol。完整的所有训练批大小和迭代步骤的结果见补充图S8。与3CLpro相比,TNKS2的代理模型质量明显更优。 结合自由能分布与收敛性 图10:TNKS2中结合自由能分布的演变 展示了TNKS2在选定GAL迭代轮次和不同批大小(100、500、1000)下,计算得到的ΔG分布。10000个种子化合物的初始分布用绿色显示(批次0)。27个实验验证的同系物的ΔG分布用红色显示,用于对比。与3CLpro相比,TNKS2的收敛速度极快,仅需单次迭代甚至部分批次就可实现显著改善。所有批大小和迭代步骤的完整结果见补充图S9。 多维性能指标 图11:TNKS2的多维分析(a−d) 展示了四个关键指标的演变: (a) 结合自由能分布:各批大小下,累积生成化合物库中ΔG最低的100个化合物的ΔG分布演变。随迭代逐步向更低能量移动。 (b) Tanimoto相似度分布:所有分子对的相似度分布,反映生成化合物的结构多样性。越往较大值延伸表示结构越相似。 (c) 结构簇数:Butina算法(相似度截断0.5)检测到的结构簇数,随迭代递减,体现化学空间收敛。 (d) 与初始库的差异度:生成高分子与初始27个实验同系物间的Tanimoto相似度分布,多数值<0.3,证明了真正的结构创新而非简单的同系物延伸。 化学结构创新 图12:TNKS2的代表性化合物结构 展示了ΔG最低的代表性化学结构,来自TNKS2的精选结构簇。选择了8个最多人口的簇,以及4个ΔG最低的簇。聚类分析基于各迭代后积累池中ΔG最低的100个化合物,对应(a) n=100和(b) n=1000的GAL训练批大小。 值得注意的是,尽管初始样本仅基于一个小的同系物群体(共享喹唑啉酮支架),生成的高分子却体现了多种不同的化学支架,包括腈基、桥环和其他特殊取代基。这说明GAL有效地突破了初始库的限制,发现了本质上新颖的分子。 化学空间探索 图13:TNKS2的化学空间探索(t-SNE可视化) 使用t-SNE将所有批大小组合数据的Morgan指纹投影到二维空间,展示GAL过程中不同训练批大小所遍历的化学空间。 迭代0(黄色):来自10000个初始化合物 实验配体(浅蓝色):27个实验验证的同系物,聚集在一个极小区域内 生成分子(按不同颜色编码):大幅扩展到远离初始库的新化学空间,形成多个分离的簇 这一特征与3CLpro形成对比,反映了封闭口袋对化学空间探索范围的约束。 配体结合模式分析 图14:TNKS2中四个代表性高亲和力配体的结合模式 展示了(a−d)四个精选配体与TNKS2结合口袋的三维相互作用。配体来自最大(1000, a,b)和最小(100, c,d)的训练批大小。 与3CLpro明显不同的是,TNKS2的封闭结合口袋限制了结合模式的多样性。生成的配体采用更加一致的结合策略,但同时能够通过精细的取代基优化(如腈基定位)来逐步提升亲和力。这解释了为什么TNKS2的代理模型质量更优——1D SMILES与3D结合姿态的对应性更明确。 计算效率详细分析 图15:TNKS2中计算效率指标 展示了GAL对TNKS2的计算效率η(定义为每次Oracle调用发现的结构簇数),按不同的训练批大小着色,各迭代步骤后计算。 参数设定: ΔG max = -35 kcal/mol:强调多样性探索(命中发现阶段) ΔG max = -40 kcal/mol:强调亲和力优化(先导优化阶段) 相似度截断(s cutoff):分别为0.7和0.3 与3CLpro相比,TNKS2的效率在n≥500时提升最显著,而n=100在多数探索情景下表现最优。这反映了靶点特性与批大小参数的耦合关系:封闭口袋需要较大批大小来保证代理模型收敛,但过小的批大小反而能在探索阶段保持多样性。 靶点对比的深层洞察 3CLpro vs TNKS2:结构与函数的对话 维度 3CLpro(开放口袋) TNKS2(封闭口袋) 蛋白结构 大型、多区域、分叉 狭窄、单一、受限 配体结合模式 高度多样(>5种主要模式) 一致性强(1-2种主导模式) 代理模型质量 初期低(ρ~0.1),后期中等(ρ~0.6) 早期高(ρ>0.7),保持稳定 收敛速度 缓慢(需7轮迭代) 快速(需1-3轮迭代) 化学空间探索 广泛分散,多个独立簇 相对集中,逐步深化 最优批大小 n=250(小批,多迭代) n=100或n≥500(分化策略) 特征官能团 多样化 重复出现特定基团(腈、桥环) 为什么TNKS2更优? 结构约束性强:狭窄口袋建立了SMILES→3D结合姿态的清晰映射,使ChemProp能有效学习配体结构与亲和力的关系 数据质量高:初始27个同系物来自实验验证,而3CLpro的10000个化合物基于Docking评分(可能含假阳性) 样本多样性:虽然初始库小,但通过GAL生成的化合物跨越多个化学支架,为代理模型提供了足够的训练信号 最优化目标清晰:口袋的拓扑局限性使得优化目标明确(特定基团定位),而非3CLpro的多模式竞争 补充技术细节 BindingDB增强实验 研究还探索了用BindingDB中的TNKS2 IC50数据增强代理模型。结果表明: 代理模型质量与未增强版本相当(补充图S12) 平均Tanimoto相似度基本相同(0.16 vs 0.15) BindingDB数据的增益有限 这反映出:当已有高质量同系物数据时,额外的异源数据可能引入噪声而非增益。设计实验时应谨慎权衡。 药物性评估 研究观察到大批大小(n≥700)的生成分子具有更高的QED评分(补充图S14),表示更高的”药物性”。但同时也发现某些分子含有非典型药物官能团(补充图S12b),需要额外的合成可行性评估。 失败案例分析 论文未详细讨论failed ESMACS runs的处理,但在实际应用中应: 设置收敛标准:如果10副本中<70%收敛,标记为失败 重新运行策略:失败分子可重新评估或标记为”不可评估” 反向使用:某些失败信号可能反映分子的固有不稳定性,可用于过滤 与传统方法的成本比较 虽然论文未给出详细的RBFE(相对结合自由能)成本对比,但可估算: ESMACS单分子评估:~5分钟(GPU)或~20分钟(CPU) Docking单分子评估:~秒级,但精度差 传统HTS(实验):~天级,且成本~$1000-10000/化合物 GAL的优势在于用Oracle调用(~100-1000次)代替盲目筛选(百万级),在超算支持下成本可控。 计算效率与实现 该研究在Frontier超算(美国橡岭国家实验室,全球首台艾字节级超算)上部署: 总计算量:~17,440(3CLpro)+ ~22,000(TNKS2)次ESMACS计算 ≈ 2毫秒MD 墙钟时间:单个GAL迭代(整批化合物评估)仅需50分钟(GPU使用率:150 ns/day/AMD Instinct MI250X) 并行度:所有化合物同步评估,充分利用超算的并行性能 协议精简:采用粗粒化ESMACS(10副本而非标准25副本),牺牲少量精度换取>2倍加速 这一效率水平在实验室规模GPU集群上难以实现,说明高性能计算与AI算法的结合是实现GAL大规模应用的必要条件。 推荐的后续研究 多轮集成强化学习:运行多个独立REINVENT进程,用多个ChemProp模型集成,量化随机性对多样性的贡献 结构感知的代理模型:将蛋白质结构编码进ChemProp(如蛋白质embedding或接触图),突破目前的”仅配体”限制 多保真度学习:结合便宜的Docking与贵的ESMACS,设计多保真度代理(本研究BindingDB实验表明有限效益,可重新设计) 实验验证:选中几个GAL生成的高分子进行体外实验(细胞膜透性、激酶抑制)和晶体结构验证
Machine Learning & AI
· 2025-11-07
【JCIM】主动学习+自由能计算,高效发掘帕金森病新药候选分子
【JCIM】主动学习+自由能计算,高效发掘帕金森病新药候选分子 导语:面对数以十亿计的潜在药物分子,我们如何才能高效地“大海捞针”?当精准的物理计算遇上聪明的机器学习,一场药物发现的革命正在悄然发生。本文将深度解析一篇发表于Journal of Chemical Information and Modeling的研究,看科学家们如何利用“主动学习”这一AI策略,成功为帕金森病的一个新兴靶点找到了8种全新的抑制剂。 本文基本信息 摘要 富含亮氨酸重复激酶2(Leucine-rich repeat kinase 2, LRRK2)是家族性帕金森病中突变最多的基因,其突变会导致该疾病的病理特征。LRRK2的WDR结构域是一个研究尚浅的帕金森病药物靶点,在计算化学领域寻找苗头化合物的关键评估实验(CACHE)挑战赛的第一阶段之前,没有任何已知的抑制剂。CACHE挑战赛的一个独特优势在于,所有预测的分子都会在内部进行实验验证。在此,我们报告了LRRK2 WDR抑制剂分子的设计和实验确认。我们围绕先前已确认的两个苗头化合物,利用一个基于优化自由能分子动力学(MD)模拟的主动学习(Active Learning, AL)机器学习(ML)工作流程,并结合热力学积分(TI)框架来扩展化学系列。在35个经过实验测试的分子中,我们最终发现了8个经过实验验证的新型抑制剂(命中率高达23%)。这些结果证明了我们基于自由能的主动学习工作流程在快速、高效地探索大型化学空间,同时最大限度地减少昂贵模拟的数量和时长方面的有效性。该工作流程可广泛应用于筛选任何化学空间中具有更高亲和力的小分子类似物,但需遵循相对结合自由能(RBFE)计算的一般限制。相对于命中化合物的实测抑制常数$K_I$,TI MD计算的平均绝对误差为2.69 kcal/mol。 原文引用信息 Gusev, F., Gutkin, E., Gentile, F., Ban, F., Koby, S. B., Li, F., Chau, I., Ackloo, S., Arrowsmith, C. H., Bolotokova, A., Ghiabi, P., Gibson, E., Halabelian, L., Houliston, S., Harding, R. J., Hutchinson, A., Loppnau, P., Perveen, S., Seitova, A., Zeng, H., Schapira, M., Cherkasov, A., Isayev, O., & Kurnikova, M. G. (2025). Active Learning-Guided Hit Optimization for the Leucine-Rich Repeat Kinase 2 WDR Domain Based on In Silico Ligand-Binding Affinities. Journal of Chemical Information and Modeling, 65, 5706-5717. https://doi.org/10.1021/acs.jcim.5c00588 CACHE challenge:http://dx.doi.org/10.1021/acs.jcim.4c01267 https://cache-challenge.org/challenges/predict-hits-for-the-wdr-domain-of-lrrk2 背景 关键科学问题 帕金森病(PD)是全球第二大神经退行性疾病,而LRRK2基因的突变是其重要的遗传风险因素。尽管针对LRRK2激酶结构域的抑制剂已有报道,但其旁边的WDR结构域却是一个几乎未被探索过的“处女地”靶点。在药物研发的早期阶段,最大的挑战之一是如何从包含数十亿甚至更多分子的巨大化学文库中,找到能与特定靶点结合的“苗头化合物”。 图1:在CACHE挑战赛第一阶段发现并用于后续优化的经实验验证的苗头化合物。 传统的虚拟筛选方法速度快但精度有限;而基于物理的自由能计算(如RBFE)虽然被誉为预测结合亲和力的“金标准”,但其计算成本极其高昂,对每个分子进行计算都无异于“用高射炮打蚊子”。因此,核心的科学问题是:如何设计一个智能工作流程,既能利用自由能计算的精确性,又能避免其高昂的成本,从而在广阔的化学空间中高效地进行“苗头到先导”的优化? 创新点 本文最大的创新点在于构建并验证了一个“主动学习-相对结合自由能”(AL-RBFE)计算管线。它巧妙地将两种技术结合起来: 机器学习(ML):训练一个轻量级模型,能够快速、低成本地预测分子的结合能力。 物理模拟(MD-TI):进行精确但耗时的相对结合自由能(RBFE)计算,为ML模型提供高质量的训练数据。 其核心思想是:不再盲目地进行昂贵的物理计算,而是让一个不断学习和进化的ML模型来充当“领航员”,智能地挑选出最有潜力的分子进行精确验证。这种“少即是多”的策略,旨在以最小的计算代价实现最大的科学发现,并在著名的CACHE挑战赛中一举夺魁。 分子筛选漏斗各阶段数量总结 筛选阶段 (Screening Stage) 分子数量 (Number of Molecules) 备注 (Notes) 初始化学空间 ~55亿 来源为 Enamine REAL 数据库 (2022年10月版)。 初步SMARTS搜索 (通用类似物) 341281 基于苗头1和2的骨架进行SMARTS模式搜索,得到的通用类似物总数 (154204 + 187077)。 初步SMARTS搜索 (最相似类似物) 250 采用更严格的SMARTS模式,搜索与苗头1和2最相似的类似物 (58 + 192)。 最终主动学习集 (AL Set) 25171 经过两轮分子对接和过滤后,最终用于主动学习-自由能计算循环的分子库总数 (16101 + 9070)。 预备主动学习集 (Pre-AL Set) 302 包含了所有最相似类似物、最近邻搜索和人工挑选的分子,这些分子都计算了相对结合自由能。 选择进行实验验证的分子 75 从计算结果中挑选出预测活性最好的70个分子,加上为增加化学多样性而挑选的5个分子,送去进行实验测试。 实验确认的苗头化合物 8 在75个被测试的分子中,最终有8个被SPR实验确认为新的LRRK2 WDR结构域抑制剂。 研究内容:四步解锁高效药物发现 研究团队设计了一个精巧的四步计算管线,将理论计算与实验验证紧密结合。 第一步:大海捞针——从55亿分子中筛选候选集 研究的起点是巨大的Enamine REAL数据库,其中包含了约55亿个可合成的化合物。为了从中筛选出与两个已知苗头化合物(Hit 1 和 Hit 2)相似的分子,研究者采用了双管齐下的策略: 近亲筛选(Closest Analogs):使用严格的化学子结构(SMARTS)模式,寻找与苗头化合物结构最相似的“近亲”,共找到约250个分子。 远亲筛选(General Analogs):使用更宽泛的骨架(Murcko scaffold)模式,寻找结构更多样化的“远亲”,初步筛选出约34万个分子。 随后,通过分子对接和一系列过滤条件,研究团队将“远亲”候选集缩小到了一个约2.5万个分子的“主动学习集”(AL set),为下一步的智能筛选做好了准备。 第二步:智能导航——主动学习引导的自由能计算 这是整个研究的“灵魂”所在。传统的做法可能是随机挑选分子进行昂贵的自由能计算,而本文的AL-RBFE工作流则像一个带GPS的智能寻宝系统。 graph LR subgraph 主动学习循环 A(开始:拥有少量<br/>精确自由能数据的<br/>“pre-AL set”) --> B{训练ML模型}; B --> C[**快速预测:**<br/>ML模型为2.5万个<br/>候选分子打分]; C --> D{**智能选择:**<br/>挑选得分最高的<br/>一小批分子}; D --> E[**只对这批分子**<br/>进行高精度的MD-TI<br/>自由能计算]; E --> F(**更新数据集:**<br/>将新的精确数据<br/>加入训练集); F --> B; end F --> G(**结束循环:**<br/>选出最终的<br/>高分候选分子<br/>送去实验验证); style A fill:#f9f,stroke:#333,stroke-width:2px style G fill:#ccf,stroke:#333,stroke-width:2px 这个循环的精髓在于: 训练(Train):用已知的、通过精确物理计算(热力学积分,TI,Pre-AL Set)得到的相对结合自由能(ddG)数据,训练一个机器学习模型。这个模型的目标是学习“分子结构”与“结合强度”之间的复杂关系。 预测(Predict):利用训练好的模型,对2.5万个候选分子进行快速打分。这一步成本极低,可以在短时间内完成。 选择(Select):根据模型的预测分数,贪婪地选出排名最靠前的一小批(例如几十个)最有希望的分子。 计算(Calculate):只对这批被智能选出的“精英分子”进行高精度的MD-TI自由能计算。这确保了宝贵的计算资源被用在刀刃上。 迭代(Iterate):将新获得的精确计算结果加入到训练数据集中,让模型在下一轮循环中变得更“聪明”。 这个“训练-预测-选择-计算”的闭环迭代了8次,每一次都让模型对化学空间的理解更深一步,从而能够更精准地指导后续的探索方向。 图2. 用于苗头化合物优化的计算方法概述。 (A) 用于优化两种苗头化合物的计算流程总图(详见正文描述)。对应于最相似类似物、通用类似物和RBFE计算的模块分别以蓝色、灰色和绿色显示。NNS代表最近邻搜索(nearest neighbors search),CS代表人工选择(curated selection)(详见方法第4节)。(B) 用于苗头1和苗头2的最相似类似物和通用类似物的SMARTS模式。(C) 苗头1和苗头2的通用类似物的虚拟筛选。图中显示了流程中每一步之后,苗头1和苗头2类似物的分子数量。(D) 由主动学习(AL)引导的RBFE计算(AL-RBFE)的自动化计算工作流程总图。该工作流程包括两个主要模块:AutoML和MD TI RBFE,以及四个主要步骤。化学空间以二维t-SNE图的形式展示。计算了ΔΔG的苗头1和苗头2的类似物,以彩色方块和三角形表示,颜色方案与图4一致。 第三步:技术细节——自由能微扰与计算优化 对于计算化学领域的读者,论文中的一些技术细节同样值得关注: 巧妙的微扰路径:在进行炼金术自由能计算(即模拟一个分子“变”成另一个分子)时,研究者发现直接从Hit 1出发进行某些转换会导致结构扭曲和计算失败。为了解决这个问题,他们设计了一个中间体“Ligand X”,通过“Hit 1 → Ligand A → Ligand X → 目标分子”的路径,成功避免了原子碰撞和不合理的构象,保证了自由能计算的稳定性和可靠性。 动态的资源分配:为了进一步节省成本,研究团队采用了一种“动态优化”策略。模拟程序可以自动检测计算是否收敛,并按需增加或停止模拟时长,避免了在已经收敛的计算上浪费机时。 第四步:成果展示——从计算到实验验证 经过8轮主动学习,计算结果令人振奋。 效率的提升:从下方的箱形图(图3)可以看出,随着AL迭代的进行(从AL-1到AL-7),计算出的分子结合自由能(ddG)的分布整体持续向更优(更负)的方向移动,证明AL确实在引导计算走向“富矿区”。 图3. 计算得到的MD TI RBFE值与主动学习迭代次数的关系,以箱形图展示。 在主动学习循环中计算的苗头1(红点)和苗头2(绿点)的类似物展示于图2D中。苗头1和苗头2的RBFE值被设定为0 kcal/mol,并在预备主动学习(pre-AL)步骤中由黑色箭头标出。被选中并提交进行实验评估的两种苗头化合物的类似物,用黑色或品红色的圆圈圈出。品红色显示的是已测得K~D~值的新苗头化合物(见图5和表S3)。 探索的多样性:通过t-SNE降维可视化(图4),可以看到AL选择的分子(彩色点)广泛分布在整个化学空间中,而不是仅仅聚集在初始苗头化合物(紫色圈)周围。这表明AL不仅在“利用”已知的高分区域,同时也在积极“探索”未知的、具有结构多样性的新区域,这对于发现全新骨架的药物至关重要。 图4. 主动学习引导下计算得到的TI ABFE值,以苗头1和苗头2类似物化学空间的t-SNE投影图展示。 (A) 苗头1类似物的每一次独立主动学习迭代的t-SNE图。 (B) 苗头2类似物的每一次独立主动学习迭代的t-SNE图。 (C) 所有主动学习迭代的t-SNE图。每个分子以一个点的形式显示。苗头1和苗头2由黑色箭头标出。分子根据其计算出的ABFE值进行着色,其余分子以灰色显示。初始苗头化合物用紫色的圆圈圈出。被选中进行体外实验验证的分子用黑色的圆圈圈出,而已被实验确认的优化后苗头化合物则用品红色的圆圈圈出。 最终,研究团队从672个经过RBFE计算的分子中挑选了75个进行实验验证。在成功合成并测试的35个化合物中: 8个分子被实验证实具有抑制活性,解离常数$K_D$范围在18 µM到230 µM之间。 实验命中率高达23%,这在针对全新靶点的药物发现项目中是一个非常出色的成绩。 计算预测的结合自由能与实验值的平均绝对误差(MAE)为2.69 kcal/mol,显示了计算方法具有一定的预测能力。 图5. 实验测得的苗头分子的结合特性。 图中展示了SPR传感图、含氟化合物的NMR谱图片段(完整谱图见图S2)(10 μM化合物分别与0 μM [黑色] 和 20 μM [红色] 蛋白质混合),以及化学结构。图中还标明了通过DLS测量的化合物溶解度和聚集情况,以及每个化合物是从哪个集合中被识别出来的。 关键结论与批判性总结 关键结论 AL-RBFE工作流程是真实有效的:该研究成功地将AI驱动的主动学习与高精度的物理计算相结合,为解决实际的药物优化问题提供了一个强大且高效的范例。 成功攻克全新靶点:从零开始,针对一个没有任何已知抑制剂的LRRK2 WDR靶点,该方法不仅找到了苗头化合物,还成功地将其拓展为了一个具有8个活性分子的化学系列。 资源效率最大化:通过智能选择,该方法仅计算了672个分子的自由能,就从一个2.5万个分子的库中识别出了多个活性化合物,极大地节省了计算资源。 为后续研究奠定基础:这8个新发现的抑制剂,尽管活性仍有待提高,但它们结构新颖、理化性质良好,为进一步优化成高活性的帕金森病候选药物提供了坚实的起点。 批判性总结 优势:本研究最突出的优点是其前瞻性和实用性。它不仅提出了一个先进的计算框架,更重要的是在一个公开、公正的竞赛(CACHE Challenge)中前瞻性地验证了其有效性,这比回顾性研究更具说服力。23%的实验命中率充分展示了该方法的强大预测能力。 局限与展望: 活性仍需提升:目前发现的抑制剂活性多处于中低微摩尔(µM)级别,距离成为真正的临床候选药物还有很长的路要走,需要进一步的药物化学优化。 计算精度:2.69 kcal/mol的平均绝对误差在当前领域属于可接受范围,但仍有提升空间。作者也指出,该误差值受到了两个离群值较大的影响,排除后误差可降至1.66 kcal/mol。这提示我们,自由能计算的力场和模拟方案仍需不断完善。 统计显著性:尽管AL选择的分子在命中率上远超“pre-AL”组(8个命中里有7个来自AL),但作者坦诚,由于样本量较小,尚不能从统计学上得出AL优于其他选择策略的结论,尽管趋势非常明显。 小编点评: 方法还是那一套方法,docking部分可以借鉴一些,Schrodinger很多使用那些约束骨架的docking,对FEP计算非常有用。同时也发现他们也手动挑选化合物了 AL+FEP已经很多人在用了,得抓紧时间跟上,加实验发个JCIM没啥问题。 看到人家发文章也都远远500个mutation起步,还是得多算 FEP/TI也越来越讲究动态调整模拟时间和λ windows,得快点有个软件能自己用 本文用的机器学习方法有点太简单了,我还是有机会的。每一轮都可以用不同的模型(最好的那个);每一轮也就100个数据点,看来不用那么多? 最终实验亲和力也不是那么突出,命中率还行。是不是AL的贡献不知道,但感觉ddG几轮下来并没有太降低,可能是在局部最小的往外爬?还没有原始hit亲和力高呢 2.69 kcal/mol的误差有点大,但人家是有些多步mutation的,可能多样性还行 反正基础库和突变体库以后肯定是要自动生成的,不能再手动设计了,这篇还是更偏RBFE能算的变化小的,less偏虚拟筛选 研究方法学(Methods)总结 4.1 数据库筛选与文库准备 本研究的计算流程核心是筛选两个分子集合:pre-AL集(包含与苗头化合物Hit 1和Hit 2最相似的类似物)和AL集(包含结构更多样化的普适类似物)。这两个集合最终都用于主动学习引导的相对结合自由能(AL-RBFE)计算。 4.1.1 最近似物(Closest Analogs)的虚拟筛选 该部分旨在构建一个高质量的初始训练集(pre-AL set)。 SMARTS搜索:首先,在包含55亿化合物的Enamine REAL数据库中,使用基于Hit 1和Hit 2化学结构的SMARTS模式进行搜索。这些模式保留了关键的药效团(如草酰胺、肽键)和芳香性,但允许重原子替换,从而找到结构最相似的“近亲”。此步骤为Hit 1和Hit 2分别找到了58和192个最近似物。 最近邻搜索(NNS):为了增加Hit 1类似物的多样性,研究者将当时已计算出较好结合能的Hit 1类似物作为“查询分子”,在更大的普适类似物库中寻找它们的最近邻(基于ECFP6指纹和Tanimoto距离),额外获得了27个独特的分子。 人工挑选(CS):在完成初步的RBFE计算后,研究者以结合能最佳的“配体A”(Ligand A)为母核,通过人工审视的方式,挑选了一批在1,2,3,4-四氢异喹啉环上有不同取代基的类似物,又增加了49个分子。 pre-AL集的形成:综合以上三个步骤,最终形成的pre-AL集共包含302个分子(134个Hit 1类似物,168个Hit 2类似物),这些分子都经过了RBFE计算,作为主动学习的“种子数据”。 4.1.2 普适类似物(General Analogs)的虚拟筛选 该部分旨在构建一个巨大且多样化的候选池(AL set),供主动学习算法探索。 SMARTS搜索:使用更宽泛的、基于Murcko骨架的SMARTS模式在Enamine REAL数据库中进行搜索,允许任意重原子替换,只要保持芳香性模式。此步骤为Hit 1和Hit 2分别筛选出约15.4万和18.7万个普适类似物。 无模板对接(Template-Free Docking):使用Glide SP软件,将上述分子对接到LRRK2 WDR结构域的晶体结构(PDB ID: 6DLO)上。对接后进行严格筛选,保留满足以下条件的分子:(1) 关键的吲哚环与苗头化合物的MD代表性构象偏差(RMSDindole)小于等于5 Å;(2) Glide对接分数小于等于-6。此步骤将候选库缩小至约2.2万(Hit 1)和2.7万(Hit 2)个分子。 模板对接(Template Docking):为了进一步提高对接姿势的准确性,研究者使用OpenEye HYBRID软件进行模板对接,以Hit 1和Hit 2的MD代表性构象作为模板。对接后再次筛选,保留满足以下条件的分子:(1) 广义Murcko骨架与模板的偏差(RMSDMurcko)小于等于4 Å;(2) OpenEye对接分数小于等于-6;(3) 分子与蛋白的碰撞(clash)分数小于等于0.5。 AL集的形成:经过模板对接和筛选,并去除重复及带电荷的分子后,最终形成了包含25,171个分子的AL集(16,101个Hit 1类似物,9,070个Hit 2类似物),作为主动学习算法的“探索空间”。 4.2 炼金术相对结合自由能(RBFE)计算 4.2.1 分子动力学(MD)模拟 初始结构与参数化:使用先前在CACHE挑战赛第一阶段获得的对接复合物结构作为MD模拟的起始点。 力场与溶剂:蛋白使用FF14SB力场,水分子使用TIP3P模型,配体则使用GAFF2力场和AM1-BCC电荷模型。 模拟流程:使用AMBER 20的pmemd.cuda模块进行GPU加速模拟。标准流程包括:能量最小化、NVT系综下的升温、NPT系综下的密度平衡,以及最终在NVT系综下进行100 ns的生产性模拟。 代表性结构提取:舍弃前10 ns的轨迹,对后90 ns的蛋白Cα原子和配体重原子坐标进行平均,得到一个平均结构。然后从轨迹中提取与该平均结构RMSD最小的一帧,作为后续计算的代表性结构。 4.2.2 配体准备与参数化 使用RDKit进行参照分子和目标分子间的原子映射,并利用FESetup软件包生成蛋白-配体复合物和溶剂化配体体系的拓扑和坐标文件。力场和电荷模型与MD模拟部分保持一致。 4.2.3 热力学积分(TI)模拟 λ调度:所有模拟均采用包含软核势(softcore potentials)的9点高斯求积λ调度。 动态资源优化:这是本研究的一个关键效率优化点。研究者采用了一种“动态飞行中(on-the-fly)”的计算资源优化策略。该方法首先进行一个较短的初始模拟(如2.5 ns),然后通过算法自动检测模拟是否平衡以及计算是否收敛(通过比较前后两半时间序列的Jensen-Shannon距离)。如果未达到收敛标准,则自动增加一小段模拟时长(如0.5 ns),并重复检测,直至收敛。这极大地避免了在已收敛的计算上浪费机时。 多副本处理:当计算资源允许时,会对一些转换(尤其是预测结合能较好的)进行多次重复模拟。最终的ddG通过集合方法计算,即合并所有重复模拟的梯度时间序列数据,以获得更稳健的均值。 4.3 主动学习(AL)文库构建:ML引导的选择 4.3.1 分子表示与ML算法 分子特征化:为了让机器学习模型能“读懂”分子,研究者使用了多种分子指纹技术,包括:RDKit路径指纹、Morgan指纹(ECFP6)、3D分子指纹(E3FP)以及2D和3D的药效团指纹。 机器学习算法:采用了scikit-learn库中的三种经典算法:线性回归、随机森林和高斯过程回归(使用Tanimoto核)。 4.3.2 机器学习建模 迭代训练:在AL的每一次循环中,模型都会在所有已获得精确ABFE(由RBFE转换而来)数据的分子上进行训练。 模型选择:通过留一法交叉验证(LOOCV),在所有分子表示和ML算法的组合中,选择R2分数最高的模型作为当次迭代的最佳模型。 筛选策略 在AL迭代1-6轮,模型仅在Hit 1的衍生物上训练,并仅用于筛选AL集中属于Hit 1的16101个类似物。 在第7轮,模型在Hit 1和Hit 2的所有衍生物上训练,并用于筛选整个AL集。 选择方式为贪婪选择,即直接挑选出模型预测结合能最负(最优)的一批化合物进入下一轮的精确TI计算。 4.4 实验验证分子的选择 根据挑战赛的预算(75个分子或10000美元),研究者挑选了最终提交的分子列表。其中,70个分子完全基于计算出的ABFE值进行贪婪选择(67个Hit 1衍生物,3个Hit 2衍生物),另外5个分子则在具有负ABFE值的Hit 2衍生物中,偏向于化学多样性进行选择。 4.5 实验方法 蛋白表达与纯化:在Sf9昆虫细胞中表达LRRK2 WDR结构域蛋白,并通过亲和层析(Ni-NTA)和尺寸排阻色谱进行纯化,最终通过SDS-PAGE和质谱确认纯度和大小。 表面等离子共振(SPR):使用Biacore 8K仪器评估化合物的结合亲和力。将生物素化的LRRK2蛋白固定在芯片上,然后将一系列稀释的化合物流过芯片表面,通过监测响应信号的变化,使用1:1结合模型拟合动力学曲线并计算解离常数KD。 动态光散射(DLS):用于评估化合物的溶解度和聚集情况,确保SPR信号不是由化合物聚集引起的假阳性。 19F-NMR光谱:对于含氟的化合物,使用19F-NMR作为正交验证方法。通过观察加入蛋白后19F信号的展宽或化学位移变化,来独立地确认化合物与蛋白的结合。
Machine Learning & AI
· 2025-10-08
<
>
Touch background to close