Home > Machine Learning & AI > Boltz-2 > Boltz-2 vs. FEP? A False Dichotomy. Synergy is the Future

Boltz-2 vs. FEP? A False Dichotomy. Synergy is the Future
boltz-2 fep ai-ml drug-discovery virtual-screening computational-chemistry perspective collaboration

Boltz-2 vs. FEP?这是个伪命题。强强联合才是未来

作者:David “Dap” Pearlman

人工智能模型 Boltz-2 声称在配体亲和力预测方面取得了一些惊人的进步。但它最大的价值可能在于虚拟筛选和亲和力漏斗(Affinity Funneling)领域。

FEP 和 Boltz-2:携手并进!

人工智能/机器学习(AI/ML)的旋风从未停歇。如果你对各种消息都信以为真,会越来越觉得,我们距离用一个足够大的神经网络解决所有生物学难题,只差一篇惊天动地的新闻稿了。好了,收起你的白眼吧。尽管如此,刚刚发布的 Boltz-2 AI/ML 模型所做的声明——尤其是在预测配体与蛋白质的结合亲和力方面——确实引人入胜。

但空口无凭。让我们深入探究。

超越迭代:Boltz-2 带来了什么?

与其前身 Boltz-1 相比,这次的新迭代似乎是向前迈出的重要一步。作者报告称,其在各种分子类型(蛋白质、RNA、DNA-蛋白质复合物等五花八门)上的结构准确性都有所提高。他们特别强调了在抗体-抗原复合物这类出了名的棘手体系上取得的进展。

这些改进似乎部分归功于一些聪明的数据策略,例如使用“大型蒸馏集”(来自其他模型如 AlphaFold 甚至 Boltz-1 自身的高置信度预测)来创造更多的训练样本,特别是对于那些实验数据稀缺的体系,如 RNA 和 DNA-蛋白质复合物。Boltz-2 还着力在训练集中加入了更多的动态信息。它不再局限于 PDB 数据库中静态的晶体学“快照”,而是整合了 NMR 谱学系综和分子动力学(MD)模拟数据。这使得它能够预测并使用像 B-因子(B-factors)这样的性质进行训练,并能根据实验方法类型(如 X 射线、NMR 或 MD)来生成特定条件的结构。此外,它在施加距离约束和多聚体模板方面的功能也有所改进。而且,也许最棒的是,和 Boltz-1 一样,它是开源的,代码和权重都免费提供,这极大地激励了学术界和生物技术界的创新与验证。

入局挑战:Boltz-2 与 AlphaFold3 的阴影

尽管 AlphaFold3 为结构预测领域划下了一条新的起跑线,并声称可以预测配体/蛋白质的结构,但它在评估一组配体的相对结合能力方面并没有提供太多帮助。Bolt-1 也是如此。而这正是 Boltz-2 可能改变游戏规则的地方。当然,它也必将引发巨大的关注。

亲和力的诱惑:为何 Boltz-2 的声明如此引人注目?

这正是 Boltz-2 做出其最大胆声明的地方,也是其论文中所描述的结果“如此诱人”的原因。以 AI 模型的速度获得相当准确的配体结合亲和力估值,这一前景有望为那些可以为了通量而牺牲部分准确性的工作流程带来颠覆性的改变。特别是,计算药物发现领域一直缺少能够处理虚拟筛选活动后产生的数千个多样性化合物的解决方案——这个数量对于今天的计算资源来说,即使是绝对自由能微扰(FEP)也太多了,而快速打分函数(如对接分数、MM/GBSA 等)又无法对它们进行有效排序。作者声称,Boltz-2 “在计算效率上比 FEP 至少高出 1000 倍”,同时在某些基准测试中的表现接近 FEP。他们选对了目标:FEP/TI(热力学积分)无疑是我们目前拥有的用于高精度结合评估的最佳计算工具。

论文展示了一些引人注目的图表。也许最亮眼的就是在 FEP+ 基准测试集的 OpenFE 子集上的结果,其中 Boltz-2 的表现接近 FEP 本身,Boltz-2 的皮尔逊 R² 为 0.38,而 OpenFE 为 0.40,FEP+ 为 0.52(我冒昧地将论文中的 R 值转换为了 R²,因为这是现代自由能文献中更常见的度量方式)。他们还在最近的 CASP16 亲和力挑战赛的化合物上展示了同样诱人的好结果。但必须指出,尽管 Boltz-2 的预测令人印象深刻——考虑到 1000 倍的速度提升,甚至可以说是惊人的——它与 FEP+ 之间的差异仍然相当显著,特别是考虑到 FEP 在药物发现中的应用方式——下文将详细阐述。

但我们别高兴得太早:FEP 并未过时

毫无疑问,Boltz-2 很酷。但在我们开始质疑为何还要做 FEP 之前,让我们先戴上怀疑者的帽子。每个科学家都需要一顶这样的帽子,尤其是在驾驭 AI/ML 炒作这片时常波涛汹涌的水域时。值得称赞的是,Boltz-2 的论文对其目前的局限性保持了相当的透明度。

我认为,这里最大的警示信号是作者报告的,当试图将 Boltz-2 应用于来自其合作伙伴 Recursion 的八个盲测配体/靶标数据集时的结果。对于这些数据集,他们仅在三个集合上实现了皮尔逊 R² > 0.30,而在其他五个集合上表现“有限”。每个集合都包含数百个实验测定点,总体而言,对于这八个集合,平均皮尔逊 R² = 0.15,平均肯德尔 Tau 仅为 0.23。这些数值虽然显著优于其他机器学习方法在这些集合上的表现(如 GAT, BACPI),但对于许多实际应用场景来说,这样的 R² 值实在是太低了。这些在真实的 Recursion 数据集上的结果让人不禁怀疑,在那些预测效果较好的测试/验证集和训练数据之间,是否存在着微妙的数据泄漏——尽管论文作者描述了他们通过排除与验证/测试集有 ≥ 90% 相似性的蛋白质来防止明确泄漏的努力。

图14 来自 Passaro 等人的论文《Boltz-2:迈向准确高效的结合亲和力预测》。这些图表展示了 Boltz-2 在 Recursion Pharmaceuticals 提供的八个未发表的盲测数据集上的预测与实验行为。其中大多数缺乏可指导行动的相关性,这令人警醒。

与 FEP 方法相比,Boltz-2 的一个主要局限性在于它仍然依赖于蛋白质受体位点的结构。与 FEP 和 TI 等自由能方法不同,这种打分方法无法调整结合位点以适应起始配体/蛋白质构象中的微小问题。它也无法反映结合位点为适应不同结合物而进行的调整。因此,尽管这个 AI/ML 模型相当复杂,但归根结底,它仍然建立在那个曾让许多其他打分方法停滞不前的“锁-钥模型”之上。(Boltz-2 试图通过在模型拟合过程中整合动态信息来部分缓解这个问题。)这可能已经接近了该模型所能达到的极限(嘿,对于相对评估来说,它已经比传统的对接分数好太多了!),但到某个点,你终究得为蛋白质的柔性买单。而一旦你这么做,你的计算成本很可能会上升几个数量级,然后,哇哦!你又回到了 FEP 的领域。

Boltz-2 的第二个严重局限性是,它没有包含对溶剂(水)、金属、离子或辅因子的显式模型(溶剂是隐式处理的)。对于许多体系来说,这种简化是个非常、非常糟糕的大问题。作为一名工业界的计算化学家,你只能接受现实,如果你正在研究的体系的结合是由这些因素中的任何一个介导/控制的(很多体系都是如此),那么 Boltz-2 可能帮不了你。但值得注意的是,CASP16 挑战集中的几个体系确实包含了辅因子,而 Boltz-2 在这些体系上似乎表现得相当不错。所以现实情况可能会更微妙,且依赖于具体体系。

Boltz-2 能否解决对接的“漏斗”根本问题?

话虽如此,即使是像我这样在这个领域里cynical old timer,也不禁感到好奇。与其说它能取代 FEP 用于苗头到先导化合物的后期优化,不如说它提供了一种可能在虚拟筛选漏斗的底部提供增量价值的方法,而目前没有任何方法能在该阶段提供必要的准确性和速度组合。(参见 Sindt, Bret, 和 Rognan 最近发表的优秀论文。)在那个阶段应用一种有信号的方法的神奇之处在于,你仍然在玩一个大数游戏,你不必每次都对——你只需要在总体上是正确的,并且能够可靠地富集从(比如说)10,000个化合物到几百个化合物的苗头数量。论文中对此的可行性进行了一些论证,首先是在先前发表的 MF-PCBA 基准测试上(Boltz-2 在此取得了不错的富集效果),然后是通过比较 Boltz-2 如何对潜在的 TYK2 结合物进行打分,这些结合物既包括随机分子,也包括被特别鉴定为具有良好结合能力的分子(来自各种公共来源和他们自己的 SynFlowNet 方法)。经验上,Boltz-2 对非随机化合物的总体排名更好。在对这些化合物的绝对结合自由能计算与 Boltz-2 进行更严格的比较中,获得了 R² = 0.55 的良好相关性。如果这种可靠性能被广泛证实,这将成为一种改变游戏规则的、用于虚拟筛选的重打分方法

然后是亲和力漏斗(Affinity Funneling):Boltz-2 和 FEP 携手合作

虽然虚拟筛选漏斗是药物化学家最熟悉的,但在药物化学家和计算化学家之间,价值链的更下游还有另一个漏斗。药物化学家非常擅长快速提出想法,而一个优秀的药物化学家可以轻易地提出超出计算化学家现有评估能力的想法数量。因此,我预计 Boltz-2 也将在这里介入这个过程。我正在构想一个工作流程——我称之为“亲和力漏斗”(Affinity Funneling)——化学家带着一长串想法进来,Boltz-2 被用来将其筛选成一个更短的列表,使其与在要求的时间内可用于 FEP 的资源相匹配,然后将 FEP 应用于这个缩减后的列表以获得更可靠的结果。如果这行得通,它可以将当前的模式(化学家的想法清单通常相对较小)转变为一种新模式,即由药物化学家发起的更广泛的自动化枚举(例如“在所有这些 R 位点上进行卤素和甲基取代的所有组合”)输入到 Boltz-2 中,然后最好的结果再通过 FEP 进行计算。Boltz-2 和 FEP 之间的协同作用甚至可能增加 FEP 的整体价值和使用率。不是对抗,而是合作的力量!这种 AI + 物理的混合模式,正如同机器学习正在增强材料科学和气候建模等领域一样。

如果 Boltz-2 在分流筛选中继续显示出信号,它将适用于虚拟筛选和亲和力漏斗工作流程,如图所示。两者都是高价值的应用,而 Boltz-2 催生的新“亲和力漏斗”工作流程可能会增加 FEP 的使用,因为它能将可用的 FEP 计算管线与药物化学家的最大创意产出速率相匹配,同时解放药物化学家进行更广泛的组合思维。

盘点:Boltz-2 最终可能的位置

那么,Boltz-2 在宏伟蓝图中处于什么位置?它似乎是 Boltz-1 的一个显著进步,并且在结合亲和力和模型可控性等领域提出了可信的挑战,旨在相对于 AlphaFold3 和其他竞争者开辟自己的生态位。快速、合理准确的结合亲和力估算的潜力确实引人注目,并可能显著加速药物发现马拉松的某些阶段。

我们或许真的有了一个可以应用于虚拟筛选漏斗底部的工具,这个想法非常令人兴奋,同样令人兴奋的还有参与“亲和力漏斗”的潜力。这些是我将密切关注的应用。

另一方面,作为一种在苗头到先导化合物的后期优化过程中取代 FEP 或 TI 等自由能工具的工具?我看不到 Boltz-2 能取得巨大进展。要理解为什么,你需要考虑这些方法是如何被使用的。FEP(或 TI)通常应用于项目的实验阶段,化学家可能会提出几个(或几十个)想法,然后问:“我有这些想法。我只有几天时间来合成几个。你建议我做哪些?”为了有把握地回答这样的问题,我们需要依赖这样一个事实:现代 FEP 计算通常能精确到 1 kcal/mol 或更好,并伴随着通过 ROC 分析等衡量的相应富集效果。从 FEP 计算被引入至今,我们花了整整 40 年时间,才让采样和力场发展到让化学家和建模者都感到足够放心的地步,认为我们可以以适当的可靠性水平回答这些问题。Boltz-2 的结果,虽然在抽象层面上令人印象深刻,但无疑是一个巨大的退步。对于 OpenFE 基准测试,这是从 R² = 0.52 下降到 0.38。(是的,R² 是一个很差的指标,但在这个范围内如此大的差异通常是实质性的。)对于一个成功依赖于这些结果的化学家来说,这很容易就是“有趣,请继续”和“抱歉,下一个”之间的区别。

毫无疑问,有些人会看到这些充满希望(但较差)的结果,然后想:“我们快成功了。”但我们怎么才能更进一步呢?Boltz-2 已经吞噬了作者能找到的所有结合数据,但受限于 Landrum 和 Riniker 在其论文中戏剧性呈现的不同来源数据的可重复性问题。高质量的实验配体结合数据(IC50、Ki 等)严重落后于配体/受体相互作用的广阔空间,而且这种情况短期内不太可能改变(除非用[合成的]计算结合数据来增强)。AI/ML 还受困于众所周知的可解释性问题,这使得找出需要什么来改进预测变得模糊不清。因此,情况更可能是“我们不只是快到了,我们几乎已经走到了路的尽头”——至少在数据生成或模型架构出现新突破之前是这样。事实上,Boltz-2 的作者自己也承认,解决当前的局限性“将需要在扩展和整理训练数据、改进模型架构以及整合额外的生化背景方面进行未来的工作。”当然,这些都是整个 AI 领域的活跃研究领域,但它们在亲和力预测这个复杂问题上的应用仍然是一个前沿领域。

如果是这样的话,那么,FEP 领域仍然有巨大的改进空间,特别是在更好的力场和更好的采样方面。对于前者,我一直在 QSimulate 参与一项将量子力学带入主流的努力,我们基于 QM/MM 的 FEP 现在已经成为现实,它拓宽了 FEP 计算的适用范围和准确性,超越了即使是最好的经典力场所能达到的水平。通过更快的 GPU 和巧妙的实现思路,采样也在持续改进。与 AI/ML 相比,基于物理的方法的美妙之处在于,我们可以识别缺点并专注于改进它们。

一个强大的工具,如果你知道该指向何方

与所有新工具一样,实践是检验真理的唯一标准——在独立验证中,在真实世界的应用中,以及在它如何应对该领域不可避免地转向下一个大事件时。Boltz-2 最大的影响可能不是作为高精度方法的直接替代品,而是在被巧妙地应用于弥合快速对接打分和更严格的自由能方法之间的差距时,例如用于虚拟筛选苗头化合物的分流筛选,或用于评估那些将要用更准确(但更慢)的 FEP 进行评估的配体。“亲和力漏斗”甚至可能导致对 FEP 的需求增加!

当然,一个大问题依然存在:如果额外结合数据的稀缺性和锁-钥模型意味着我们正在接近静态 AI 受体-配体打分模型所能达到的极限,那么下一次飞跃将来自何方?我相信未来的改进将来自于 AI/ML 技术与那些经过数十年发展和完善的基础性、基于物理的方法之间的智能协同。Boltz-2 的开源性质,以及为特定感兴趣的目标谨慎地向训练集中添加数据的能力,可能使得即使在基础模型在你有(或使用基于物理的方法生成)大量相同或相似系统上的额外数据的情况下信号有限时,也能改进 AI 模型。这表明,即使 Boltz-2 最初在某个目标上表现不佳,通过定制训练和额外数据,进一步的改进也是可能的。

毫无疑问,这是一个激动人心的时代。真正的力量不在于取代数十年的基础科学,而在于智能地整合像 Boltz-2 这样的 AI 工具来开启新的前沿。拥抱这种协同作用以及用目标数据改进模型的能力,才是我们能够现实地期望在长期内加速药物发现的方式。AI 创新与物理理解之间的这种迭代之舞,才是真正突破将要涌现的地方。