GROMACS 2026.0：NN势函数、GPU加速与AMBER/PLUMED完整支持

摘要

GROMACS 2026.0于2025年1月19日发布，这是分子动力学模拟领域的一次重要突破。本文基于BioExcel Webinar #92的内容，为您梳理2026.0版本的核心亮点。

六大核心更新：

神经网络势函数接口：原生支持DeepMD、ANI等机器学习势模型，实现接近ab initio精度的经典MD速度
AMD GPU完整HIP后端：所有主要内核均支持AMD GPU，性能接近原生ROCm
NVIDIA GPU自由能计算加速：FEP/TI的非键部分可在GPU上执行，性能提升10-30%
AMBER力场完整验证：支持ff19SB、OL3等最新力场，与Amber软件完全兼容，用户可无缝迁移
PLUMED 2.9集成：增强采样功能更加稳定高效，长时间模拟不再崩溃
QM/MM稳定性改进：引入检查点机制，提高长时间模拟可靠性

谁应该升级：GPU用户（AMD或NVIDIA）应立即升级以获得显著性能提升；需要高精度自由能计算或化学反应模拟的用户可以尝试NN势函数；AMBER用户现在可以无缝迁移到GROMACS，保留熟悉的力场参数；使用增强采样的用户将获得更稳定的PLUMED 2.9支持。

视频信息

来源：BioExcel Webinar #92
主讲人：
- Berk Hess（瑞典皇家理工学院 KTH）
- Lukas Müllender（瑞典皇家理工学院 KTH）
- Vedran Miletic（德国马普计算与数据设施）
视频链接：https://www.bilibili.com/video/BV1Z3P4zeE4g，欢迎在bilibili关注『东山月光下』以观看视频，字幕已经上传！
原始链接：What’s new in GROMACS 2026.0：https://www.youtube.com/watch?v=LUnOuUdTSwA
视频发布时间：2026年3月5日
GROMACS 2026.0发布时间：2025年1月19日

核心亮点

1. 神经网络势函数接口

这是2026版本最重磅的功能更新，它为GROMACS带来了机器学习势函数的原生支持，使得在经典分子动力学框架内运行接近ab initio精度的模拟成为可能。

统一的接口设计：GROMACS 2026.0提供了通用的神经网络势函数接口，可以集成多种NN势模型，包括DeepMD、ANI、TorchANI等主流框架。这一接口的统一性意味着用户无需修改GROMACS源代码，只需提供训练好的模型文件即可使用。
与GROMACS原生集成：接口直接使用GROMACS计算的pair list（邻接列表），避免了在NN模型内部重新计算非键相互作用，这是性能优化的关键。相比之下，许多外部NN势模型需要自己构建邻接关系，这在大型系统中会成为性能瓶颈。
静电嵌入支持：接口支持QM/MM风格的静电嵌入方案，经典区域的电荷可以作为NN模型的输入，这使得NN模型可以感知周围经典原子的电场环境，从而实现更精确的QM/MM耦合模拟。这一特性对于研究化学反应、酶催化等需要量子力学精度的场景尤为重要。
力反馈机制：NN模型计算的力可以作用于周围的经典原子，实现真正的双向耦合。这意味着NN区域和经典区域可以相互影响，而非简单的单向作用。对于蛋白质-配体复合物、溶剂化效应等研究，这一机制至关重要。
工作流程：使用NN势函数的工作流程相对简单：首先需要准备训练好的NN模型文件（通常是PyTorch的.pt或.pth格式），然后在mdp文件中指定NN势函数模块并提供模型路径，GROMACS会自动加载模型并在运行时调用。

2. GPU性能飞跃

GROMACS 2026.0在GPU支持方面取得了革命性进展，不仅完善了对AMD GPU的支持，还在NVIDIA GPU上实现了自由能计算的加速。

AMD GPU完整HIP后端

2026.0提供了完整的HIP后端支持，使得GROMACS可以在AMD GPU上高效运行。HIP（HIP Interface for Portability）是AMD推出的GPU加速框架，旨在实现代码在AMD和NVIDIA GPU间的可移植性。

完整的内核实现：相比之前的实验性版本，2026.0实现了所有主要内核的HIP后端，包括非键相互作用、PME长期静电、约束处理等。这意味着在AMD GPU上运行GROMACS不再需要功能妥协，可以获得与NVIDIA GPU相当的完整功能体验。
性能接近原生ROCm：根据官方测试，HIP后端的性能接近AMD原生ROCm优化代码，在某些场景下甚至可以达到90%以上的性能。这一性能水平已经足以满足大多数生产环境的需求。
严格的测试验证：HIP后端经过了系统的单元测试和集成测试，不仅由GROMACS团队在标准测试基础设施上验证，还由AMD开发人员进行了独立测试。目前HIP后端的性能已达到相当成熟的水平，可以放心用于生产环境。

NVIDIA GPU自由能计算加速

GROMACS 2026.0将自由能计算内核移植到了CUDA GPU上，这是继PME和键长约束之后的又一个重要GPU加速模块。

非键自由能内核GPU实现：自由能微扰（FEP）和热力学积分（TI）等方法的非键相互作用部分现在可以在GPU上执行。这包括Lennard-Jones势、库仑相互作用等的自由能微扰项。之前这些计算必须在CPU上完成，成为性能瓶颈。
CPU-GPU异步执行：GPU和CPU可以并行工作，GPU计算非键自由能贡献的同时，CPU可以处理其他任务。这种异步执行模式在GPU很快、CPU相对较慢的配置下性能提升尤为显著。
适用场景：自由能GPU加速在以下场景下效果最佳：当你有快速的GPU和相对较慢的CPU，或者你扰动了系统的很大一部分原子（如大分子配体的结合）。在典型的小分子自由能计算中，性能提升可达10-30%。
为什么之前没做：很多人可能会问，为什么GROMACS没有早点实现这个功能？原因是在很多情况下，CPU在GPU计算时是空闲的，将自由能计算放到GPU上并不能提升总体性能。但随着GPU速度越来越快，CPU-GPU性能差距扩大，GPU加速自由能计算变得有意义了。

多GPU性能优化

对于拥有多GPU的高端系统，2026.0引入了GPU-direct通信和多rank PME等重要优化。

GPU-direct通信：在多GPU模拟中，GPU之间的数据传输（如PME网格交换）现在可以通过GPU-direct技术直接进行，无需经过CPU内存。这大大降低了通信延迟，提高了带宽利用率。
多rank PME在GPU上并行：PME（Particle Mesh Ewald）长期静电计算的多个rank可以在GPU上并行执行，充分利用多GPU的计算资源。
性能提升：在标准测试中，多GPU优化带来了5%的性能提升。虽然数字看起来不大，但在长时间模拟中累积下来仍然是显著的提升，特别是对于大规模生产模拟而言。

3. AMBER力场完整集成与验证

GROMACS 2026.0对AMBER力场的支持进行了系统性的改进和验证，确保与Amber最新版本的兼容性。

包含最新AMBER力场：2026.0支持ff19SB蛋白质力场、OL3 RNA力场等AMBER最新版力场。这些力场代表了AMBER力场家族的最新进展，在蛋白质和RNA的模拟精度上有显著提升。
完整的验证流程：GROMACS团队对新版AMBER力场进行了系统的测试和验证，包括小分子、蛋白质、核酸等多种测试体系。验证工作不仅由GROMACS团队完成，还得到了AMBER开发团队的确认，确保与Amber软件的计算结果一致。
参数兼容性保证：用户现在可以放心地将在Amber中构建的模型迁移到GROMACS，不用担心力场参数的差异。这对于需要同时使用两个软件的用户（例如在Amber中做参数化，在GROMACS中做生产模拟）来说是一个重大利好。

4. PLUMED增强采样集成更新

PLUMED是分子动力学增强采样的核心插件之一，GROMACS 2026.0更新了对最新PLUMED版本的支持。

更新至PLUMED 2.9：集成了PLUMED 2.9版本，这是PLUMED项目的最新稳定版本。PLUMED 2.9带来了许多新功能和性能优化，包括新的偏置势方法、改进的元动力学算法等。

不是2.10.0吗？
改进的集成接口：GROMACS与PLUMED之间的接口更加稳定和高效，降低了崩溃和内存泄漏的风险。这对于长时间增强采样模拟尤为重要，因为这类模拟通常需要运行数天甚至数周。
支持更多模块：更新后的接口支持更多PLUMED模块和势函数，包括用于研究蛋白质折叠、配体结合、相变等过程的专用模块。用户可以更灵活地设计增强采样策略。

5. 运行时性能监控指标

GROMACS 2026.0在日志文件末尾添加了新的性能指标，帮助用户更好地评估和优化模拟性能。

每步毫秒数（ms/step）：显示每一步MD模拟所需的毫秒数，这是最直观的性能指标。通过监控ms/step，用户可以快速判断模拟是否达到预期性能，以及是否存在性能瓶颈。
每秒百万原子步数（$10^6$ atoms × steps/s）：这是一个归一化的性能指标，综合考虑了体系大小和模拟速度，便于在不同大小的系统之间比较性能。数值越高说明模拟效率越高。

这些指标在日志文件末尾自动输出，用户无需手动计算，大大简化了性能评估工作。特别是在尝试不同参数组合时，这些指标可以帮助快速找到最优配置。

6. QM/MM稳定性改进

对于使用QM/MM方法的用户，GROMACS 2026.0引入了一个看似微小但影响重大的改进：QM中心定位的检查点（checkpointing）功能。

问题背景：在之前的版本中，如果QM中心在模拟过程中偏离初始位置太远，系统可能会变得不稳定，甚至导致模拟崩溃。这是因为QM区域的定位信息没有被保存和恢复。
检查点机制：2026.0实现了QM中心定位的检查点功能，当写入检查点文件时，QM中心的坐标和定位信息会被保存。从检查点恢复模拟时，这些信息会被正确恢复，确保模拟的连续性和稳定性。
实际影响：对于长时间QM/MM模拟或需要频繁重启模拟的用户，这一改进大大提高了模拟的可靠性。你不再需要担心因为检查点问题导致模拟失败，这在生产环境中是一个重要的稳定性保证。

版本号规则解读

从2026版本开始，GROMACS采用全新的版本号规则，这一变化旨在让版本号更加直观和一致。

主版本号：年份（如2026）表示主要功能发布版本。每年通常会发布一个主版本，包含新功能、性能优化等重要更新。
次版本号：bug修复版本（如2026.1、2026.2）只包含错误修复和文档改进，不添加任何新功能。这确保了次版本升级的稳定性，用户可以放心升级而不用担心功能变化带来的兼容性问题。
升级建议：建议始终使用最新的次版本号，因为bug修复可能解决你遇到的问题，而且不会破坏现有工作流程。例如，如果你使用2026.0，遇到bug后应该升级到2026.1或更高版本，而不是停留在旧版本。

适用场景与实用建议

神经网络势函数适合这些场景

需要ab initio精度但经典MD速度的研究：例如研究化学反应机理、酶催化过程、电子结构敏感的性质等。NN势函数可以提供接近DFT精度的能量和力，但计算成本接近经典力场。
复杂化学反应研究：NN势函数可以处理键断裂和形成过程，这是传统经典力场无法做到的。例如研究蛋白质折叠过程中的二硫键形成、小分子在酶活性中心的反应等。
高精度自由能计算：使用NN势函数计算结合自由能、溶剂化自由能等，可以获得更可靠的结果。对于药物设计领域的用户，这意味着更准确的亲和力预测。
QM/MM耦合模拟：NN势函数可以替代传统的QM区域，提供更低成本但保持足够精度的量子力学描述。特别适合大型生物分子的QM/MM模拟。

GPU加速适合这些场景

大规模体系（>10万原子）：例如膜蛋白-脂质双分子层体系、核糖体等大分子复合物、病毒衣壳等。GPU加速可以大幅提升这些体系的模拟速度。
长时间尺度模拟（微秒级）：GPU加速使得微秒级模拟在合理时间内完成成为可能。例如研究蛋白质构象变化、膜蛋白-配体结合动力学等需要长时间采样的过程。
多GPU并行计算：对于拥有多GPU的工作站或集群，2026.0的多GPU优化可以充分利用硬件资源，获得接近线性的性能提升。
自由能计算：自由能微扰、热力学积分等计算密集型方法在GPU上的加速尤其明显。对于需要计算多个配体的结合自由能的药物设计项目，GPU加速可以节省大量计算时间。

参考资源

GROMACS官网：https://www.gromacs.org/
BioExcel网站：https://bioexcel.eu/
视频链接：https://www.youtube.com/watch?v=LUnOuUdTSwA
GROMACS手册：https://manual.gromacs.org/
论坛讨论：https://gromacs.bioexcel.eu/

字幕翻译与整理：东山月光下（B站）。本文基于BioExcel Webinar #92的字幕整理而成

Mendelevium

Contact