Home > Molecular Dynamics > Modeling & Tools > PySoftK v1.0:软物质自组装的自动化分析工具集

PySoftK v1.0:软物质自组装的自动化分析工具集
pysoftk soft-matter molecular-dynamics self-assembly ring-stacking density-analysis software-tools

PySoftK v1.0工具集:软物质自组装界面、相互作用与动力学的自动化分析

本文信息

  • 标题:Automated Analysis of Soft Matter Interfaces, Interactions, and Self-Assembly with PySoftK
  • 作者:Raquel López-Ríos de Castro, Alejandro Santana-Bonilla, Robert M. Ziolek, Christian D. Lorenz
  • 发表期刊Journal of Chemical Information and Modeling
  • 发表时间:2025年2月10日
  • DOI:https://doi.org/10.1021/acs.jcim.4c01849
  • 单位:英国伦敦国王学院(King’s College London)物理系
  • 引用格式:López-Ríos de Castro, R.; Santana-Bonilla, A.; Ziolek, R. M.; Lorenz, C. D. (2025). Automated Analysis of Soft Matter Interfaces, Interactions, and Self-Assembly with PySoftK. J. Chem. Inf. Model., 65(6), 1679-1684. https://doi.org/10.1021/acs.jcim.4c01849

摘要

分子动力学(MD)模拟已成为研究软物质和生物大分子的核心工具,但与其相关的海量高维数据并不能直接揭示复杂材料和分子过程背后的原子机制。软物质模拟分析的内在复杂性需要谨慎应用特定的、往往复杂的算法来提取有意义的分子层面理解。对于高质量自动化计算工作流的需求持续存在,以便以最小用户输入可复现方式促进此类分析。在本工作中,我们引入了一系列分子模拟分析工具,用于研究界面分子相互作用(包括环-环堆叠)和自组装。此外,我们还包含了若干辅助工具,包括一个用于 unwrapping长度超过其模拟盒一半的分子结构的实用函数。这些工具包含在PySoftK软件包中,使用户能够直接应用这些算法。PySoftK中的这些新模拟分析工具将支持软物质和生物大分子模拟的高质量、可复现分析,从而为纳米技术和生物技术带来新的预测性理解。

abs

摘要图:PySoftK的核心分析功能——包含make structures whole、contacts、intrinsic density、radius of gyration、ring stacking analysis、spatial clustering六大模块的概览。

核心结论

  • PySoftK v1.0提供了化学无关的独立分析模块,可应用于任何软物质或生物大分子体系
  • 重点解决三个常被忽视的难题:跨越大尺寸的PBC处理复杂界面的本征表征自组装动力学的快速追踪
  • 首次实现当纳米粒子跨越大半盒尺寸时仍能正确重构的工具make_micelle_whole
  • 算法兼容MDAnalysis,借助其拓扑与轨迹管理能力,输出格式与MDAnalysis完全兼容
  • 开源、配套教程笔记本与测试套件,有望成为软物质模拟分析标准化的重要平台

配套资源

  • GitHub仓库:https://github.com/alejandrosantanabonilla/pysoftk,提供完整源码、测试套件、教程笔记本与可复现轨迹
  • 依赖:MDAnalysis v2.5(轨迹/拓扑管理)、NumPy(数值计算)、Pandas(结果输出)、Networkx(图论分析)
  • 架构pysoftk.pol_analysis是v1.0新增的模块,与早期PySoftK版本组合,工具分两大类——聚集体性质(密度、$R_g$、eccentricity、PBC unwrapping)与分子尺度相互作用(环-环堆叠、solvation、contacts)
  • 支持系统:Linux、macOS(Python 3.7+),距离计算通过concurrent.futuresMDAnalysis.lib.distances并行化

对于涉及自组装、纳米材料、药物载体、两亲性生物大分子等体系的MD研究者,PySoftK v1.0提供了一个轻量但专业的分析层,建议作为标准工作流的一部分。

背景

软物质涵盖化妆品、制药、水处理等众多材料科学应用。自组装作为软物质的核心现象,构成了从胶束、囊泡到纳米粒子等结构的基础。理解分子结构、构象动力学和分子间相互作用的相互关系,是建立可推广的结构-性质关系以支持软物质材料理性设计的关键。

MD模拟虽然能在原子层面研究这些过程,却产生了海量高维数据。解读这些数据往往需要专门的分析工具,导致定量结果难以复现。社区虽然在简化输入文件创建方面已有很多工具(PySoftK早期版本、Polymer Structure Predictor、Radonpy、MoSDeF等),但分析软物质性质的综合包尚未见报道

PySoftK v1.0正是为填补这一空白而设计——在统一的计算框架内,建模与分析可在现代软件开发标准下无缝衔接,缓解数据溯源和可重复性问题。

创新点

  • 大尺寸聚集体PBC unwrapping:首次实现当纳米粒子跨越大半盒尺寸时仍能正确重构的工具make_micelle_whole,弥补MDAnalysis v2.5和GROMACS 2023的不足
  • 本征密度方法(ICSI, Intrinsic Core–Shell Interface):针对非球形或粗糙界面的纳米粒子,提供intrinsic_density工具,避免球面假设带来的误判
  • 环-环堆叠分析(RSA, Ring Stacking Analysis):专门为大型软物质体系设计的算法,三阶段筛选识别跨分子的π-π相互作用
  • 空间聚类协议(SCP, Spatial Clustering Protocol):基于图论快速追踪自组装过程中分子聚类变化,输出Pandas DataFrame便于后续分析

论文写作策略:本文采用代表性功能展示而非严格的性能benchmark,通过四大经典案例(PEO–PMA聚合物胶束的密度对比、自组装追踪、PBC unwrapping对比、$R_g$计算误差)来证明PySoftK的有效性和应用范围,重点展示工具在软物质和生物大分子场景的迁移性。

工具能力速览

工具类 代表函数 核心功能 适用场景
界面分析 spherical_densityintrinsic_density 沿球面/界面计算密度 胶束、纳米粒子、核-壳结构
接触/相互作用 contactssolvation 原子对距离判定 任意两分子相互作用量化
环-环堆叠 ring_stacking_analysis 三阶段π-π筛选 共轭聚合物、蛋白-配体
自组装追踪 SCP 图论聚类+时序输出 胶束化、囊泡形成动力学
PBC unwrapping make_micelle_whole 聚集体质心参考的重构 大于半盒尺寸的纳米粒子
辅助函数 radius_of_gyrationeccentricity 结构参数计算 形状表征

研究内容

一、方法学设计

PySoftK的所有分析功能完全建立在MDAnalysis之上,由MDAnalysis负责拓扑与轨迹管理,PySoftK专注于上层分析算法。这一设计带来两个直接好处:

  • 格式兼容性:自动支持MDAnalysis能读取的所有格式(GROMACS、NAMD、AMBER、CHARMM等),用户无需关心底层IO
  • 生态兼容性:分析输出可与MDAnalysis Universe、AtomGroup等对象无缝衔接,直接接入既有工作流

整套工具采用化学无关设计——虽然最初关注聚合物,但分析模块可应用于任何软物质或生物大分子体系,包括两亲性肽自组装、药物-蛋白共轭物、纳米药物载体等。配套的测试套件覆盖核心算法,教程笔记本(GitHub提供)则手把手演示典型用例,确保可重复性。GitHub仓库还附带短轨迹样例数据,用户可复现论文中所有图表。

二、界面分析

PySoftK提供两套界面分析工具:球面密度(以聚集体质心为基准计算径向密度分布,适用于近球形粒子)和本征密度(以核-壳界面为基准计算密度分布,适用于非球形或粗糙界面)。

fig1

图1:球面密度与本征密度计算对比——以$\ce{PEO–PMA}$双嵌段共聚物形成的球形胶束为例,展示两种密度计算方法的效果。PEO为聚环氧乙烷(亲水),PMA为聚甲基丙烯酸酯(疏水)。

  • 图1a(球面密度):横轴为到聚集体质心的距离$r$,纵轴为密度$\tilde{\rho}(r)$。青色为$\ce{EO}$(环氧乙烷单体),粉色为$\ce{MA}$(甲基丙烯酸酯单体),深蓝为水
  • 图1b(本征密度):横轴为到核-壳界面的距离,$r=0$即界面位置(负值表示核区)。本征密度用ICSI算法先将分子分为”核”或”壳”,再以界面为基准计算密度。相比球面密度,本征密度能更清晰地揭示水在界面的精细结构——在$r \approx 5$ Å处的水密度小峰指示弱疏水界面

核主要由疏水的$\ce{MA}$单体组成,亲水的$\ce{EO}$单体形成电晕,水有部分渗入。

本征密度法的核心优势:它通过ICSI(Intrinsic Core–Shell Interface)算法将胶束分子按”属于核还是壳”自动分类,然后以核-壳界面为基准计算密度分布,避免了球面假设带来的误判。值得说明的是,ICSI的归一化因子无法解析求解,因此PySoftK采用蒙特卡洛积分计算——这是少数几个对计算资源有明确要求的地方。

三、分子尺度相互作用

这一部分包含环-环堆叠、溶剂化分析、接触计数三个工具,都是基于原子对距离的简单判定,配合用户定义的截断距离即可工作。

  • 环-环堆叠分析(RSA, Ring Stacking Analysis):用于识别共轭聚合物、蛋白质等体系中的π-π相互作用。SI展示了RSA在TREM12-DAP12蛋白复合物中的应用,证明其在生物大分子场景下的适用性。采用三阶段筛选策略:

    • 阶段1:自动检测所有属于芳香环的原子

    • 阶段2:以环中心几何距离<10 Å为判据,筛选处于接触距离内的环对

    • 阶段3:对通过前两阶段的环对,进一步要求两环间任意原子距离<4 Å、且两环平面法向夹角<20°,才被判定为有效堆叠

  • 溶剂化分析(solvation):通过用户自定义的距离截断判定第一溶剂化壳内的溶剂分子数,进而量化两亲性软物质中疏水/亲水相互作用。当以水为溶剂时,SI建议只选水中的氧原子以加速计算;输出的solvation_number为列表,每项对应一帧中所有选中单体的平均配位数。
  • 接触计数(contacts):通过测量所选原子间的距离判定接触关系,是最通用的相互作用量化工具。

figS16

图S16:RSA在生物大分子体系中的应用——展示RSA在TREM2-DAP12蛋白复合物中识别π-π相互作用的能力。

  • 图S16a:RSA在聚合物熔体体系中的应用,紫色箭头指向通过RSA识别出的、通过环堆叠相互作用的无定形相聚合物聚集体
  • 图S16b:RSA应用于TREM2-DAP12蛋白复合物,识别驱动蛋白-蛋白相互作用的环堆叠事件。TREM2显示为粉色,DAP12显示为绿色,粗体表示检测到的环堆叠相互作用,膜磷酸基团显示为深绿色

这证明了RSA不仅适用于软物质体系,在生物大分子场景下同样有效。

四、自组装追踪:空间聚类协议(SCP)

fig2

图2:自组装过程追踪——以$\ce{PEO–PMA}$双嵌段聚合物为例演示SCP算法。

  • 图2a:模拟开始时,30个聚合物分子随机分散(每种颜色代表不同分子),水未显示
  • 图2b:模拟后形成一个大的橙色胶束一个小的青色胶束
  • 图2c最大聚集体中聚合物数量随时间的变化曲线——在1 μs内通过阶跃式聚集形成最终结构,每个平台期对应一次聚并事件

SCP算法用图论表示聚集体:每个分子是节点,距离小于截断的两分子间有边,连通子图即为一个聚类。算法快速到能分析整个轨迹的自组装动力学,输出Pandas DataFrame,列包括分子残基ID和对应时刻的聚类大小,便于二次分析。在该示例中,曲线清晰呈现两个明显的阶跃期——分别对应1 μs内的两次聚并事件。

figS4

图S4:SCP在MARTINI2粗粒化蛋白模拟中的应用——分析16个APP跨膜肽在POPC脂双层中的聚集情况,蓝色簇含2个肽、粉色簇含6个肽、橙色簇含8个肽、银色区域为POPC脂双层,展示了SCP的化学无关性可扩展至生物大分子体系。

此图清晰证明SCP算法不仅适用于聚合物胶束,还能有效分析跨膜肽等生物大分子的聚集行为。

五、大尺寸聚集体的PBC unwrapping

当自组装形成的纳米粒子跨越模拟盒的半盒长度时,传统工具(如gmx trjconv -pbc mol)都无法正确处理——这是软物质模拟中非常常见但被忽视的问题。

fig3

图3:用PySoftK unwrapping跨越PBC的聚合物纳米粒子——(a)原始构象中聚合物胶束跨越盒子边界。

  • 图3a跨越PBC的聚合物纳米粒子——可以看到分子被分割到盒子两端
  • 图3b:PySoftK的make_micelle_whole成功重构——所有分子被正确地放回同一侧
  • 图3cMDAnalysis的 unwrapping结果——明显失败,分子仍被错误分割
  • 图3dGROMACS 2023的 unwrapping结果——同样失败

图3对比显示PySoftK在处理大尺寸软物质聚集体时的显著优势

make_micelle_whole的工作原理:先识别属于同一聚集体(自组装形成的纳米粒子)的所有分子,再以聚集体质心为参考,将被PBC分割到盒子另一侧的分子整体平移回正确位置。

六、 unwrapping错误的连锁影响:$R_g$计算

fig4

图4: unwrapping错误对回转半径计算的影响——以$\ce{PEO–PMA}$纳米粒子为例,说明错误unwrap会导致分析假象,论证make_micelle_whole对软物质自组装分析的关键性。

  • 图4a跨越PBC的纳米粒子初始构象
  • 图4b:用MDAnalysis unwrapping后,radius_of_gyration()算出的$R_g$随时间剧烈震荡,数值完全不可信
  • 图4c:用PySoftK的make_micelle_whole unwrapping后,$R_g$曲线平滑稳定在约20 Å,与重构胶束的直径64 Å(图4d标注)相吻合
  • 图4d重构后胶束的实空间快照,标注直径为64 Å作为参照

简单分析任务也会因错误的PBC处理而失败(如$R_g$计算),make_micelle_whole是软物质模拟可靠分析的必要前提PBC处理不是模拟结束后的可选后处理,而是分析链路的强制前置环节

七、辅助函数

除核心分析模块外,PySoftK还提供回转半径($R_g$)与偏心率(eccentricity)等结构参数的计算工具,便于自组装结构的形状表征。所有分析输出与MDAnalysis完全兼容(PySoftK本身就基于MDAnalysis管理拓扑与轨迹),可无缝接入既有工作流。


关键结论

  • PySoftK v1.0为软物质模拟分析提供了完整的独立模块,重点解决三个常被忽视的难题:跨越大尺寸的PBC处理、复杂界面的本征表征、自组装动力学的快速追踪。算法化学无关——虽然最初关注聚合物,但分析模块可应用于任何软物质或生物大分子体系
  • PySoftK v1.0的核心优势在于正确处理PBC下大于半盒尺寸的分子聚集体——这在软物质自组装模拟中极为常见,却是MDAnalysis v2.5和GROMACS 2023等主流工具的盲区。论文明确指出:”其他软件工具并未针对这种大尺寸分子聚集体进行设计“。
  • PySoftK v1.0的开源特性、配套测试套件与教程笔记本,使其有望成为促进软物质模拟分析标准化的重要平台,有助于不同模拟之间的准确比较,支持理性in silico材料设计。同时,PySoftK v1.0已将所有分析工具整合为可独立调用的独立模块,未来扩展(如液晶、凝胶等体系)有清晰的接口基础。

局限性

  • 部分算法(如intrinsic_density中的归一化因子)需通过蒙特卡洛积分计算,对计算资源有一定要求
  • 工具主要在聚合物/胶束体系验证,对其他软物质形态(如液晶、凝胶)的迁移性有待考察
  • 论文中所有案例所用的$\ce{PEO–PMA}$双嵌段聚合物轨迹来源于团队已发表的其他工作,PySoftK本身不提供通用的力场或结构生成器,仅专注于分析侧
  • 全文只展示了make_micelle_whole对$\ce{PEO–PMA}$胶束的重构效果,多分散聚集体非对称形状聚集体(棒状、囊泡)的适用性需进一步测试
  • PySoftK v1.0仅支持Linux与macOS系统,且需要Python 3.7+,Windows用户需通过WSL等方式间接使用