Home > Machine Learning & AI > QSAR application > DeepQSAR抗菌肽发现——技术细节与扩展数据

DeepQSAR抗菌肽发现——技术细节与扩展数据
DeepQSAR QSAR antimicrobial-peptides technical-appendix molecular-dynamics

DeepQSAR抗菌肽发现——技术细节与扩展数据

完整数据集描述

In-house抗生物膜数据库

约700个唯一肽(多数为12-16氨基酸),由Kinexus生物信息公司通过肽阵列合成(SPOT-array technology)。每个肽针对MRSA进行了2折串联稀释测定,产生了3000个IC50数据点。

数据特征

  • IC50范围:0.09-50 μM(中位数~1.5 μM)
  • 肽长度分布:8-18氨基酸为主,12-14mer最多
  • 化学修饰:C端酰化(标准AMP格式),某些肽含有非标准氨基酸如Nle(仲亮氨酸)、Trp衍生物

DRAMP 3.0 (Database of Antimicrobial Peptides)

包含:22259肽条目 来源:已发表文献中已知的AMP,涵盖细菌、真菌、植物、昆虫、哺乳动物来源 标注:二进制(活性/非活性),基于文献报道的MIC或IC50阈值 优势:高覆盖度,包括多种菌种的活性信息(不仅限MRSA) 局限:某些条目可能基于定性描述而非精确数值

AI4AMP (Antimicrobial Peptide Predictor)

包含:平衡数据集,10716正例(已知活性AMP) + 10718负例(非AMP序列) 来源:公开AMP数据库与生成的非AMP背景 特点:经过特征工程优化(physicochemical property encoding) 用途:在本研究中主要用于验证和外部基准测试 性能(来自原始论文):精确度~90%,泛化性好

DBAASP v3 (Database of Antimicrobial Activity and Structure of Peptides)

包含:19751活性肽,附带实验验证的结构和活性数据 数据质量:高,仅收录已发表、经实验验证的肽 附加信息:包含部分肽的3D结构、膜交互描述符(如hydrophobic moment、charge distribution) 覆盖范围:广谱菌种(需要标准化处理)

数据集组合与预处理

四个数据源合并后,采用如下预处理步骤:

  1. 去重:基于精确序列匹配移除重复肽
  2. 长度过滤:保留8-20氨基酸,去除超短(<8aa)或超长(>20aa)肽,使分布更均匀
  3. 编码规范化:将所有非标准氨基酸(如Nle、Orn)映射到最相近的标准氨基酸(Leu、Lys)
  4. 标签一致化:对于在多个库中重复出现的肽,采用多数票法决定标签;如信息矛盾则排除
  5. 数据平衡:对于分类任务(Model 2),使用SMOTE或加权损失函数处理类不平衡

最终数据集规模:约52000个条目(去重后),其中正例(活性AMP)约占55%

详细方法学

Peptide Clustering算法

为减少合成肽的冗余性并保证序列空间的多样性覆盖,使用了层级聚类(Hierarchical Clustering):

  1. 相似性计算:对所有候选肽对进行全局序列比对(Needleman-Wunsch算法),计算相似度矩阵
  2. 聚类方法:AgglomerativeClustering(sklearn),使用欧式距离和完全链接(complete linkage)
  3. 聚类数:设置为100,对应最终的合成肽数量
  4. 代表选择:从每个簇中选择模型预测评分(combined score)最高的肽

优势:确保了100个合成肽均匀分布在5万个候选肽的序列空间中,最大化了发现新功能肽的概率

分子动力学模拟参数

软件和力场

  • MD引擎:GROMACS 2021.5
  • 粗粒化力场:MARTINI 3.0(适合微秒级长模拟)
  • 初始结构制备:α-螺旋(PeptideBuilder)→ martinize2转换

膜系统构建

  1. 革兰氏阳性菌(GP)膜:POPG:Cardiolipin = 3:1(代表革兰氏阳性菌的外膜)
  2. 革兰氏阴性菌(GN)膜:POPE:POPG:Cardiolipin = 6:2:1(代表革兰氏阴性菌的内膜)
  3. 哺乳动物对照(MAM)100% POPC(代表人类红细胞膜,用于评估选择性)

模拟条件

  • 系统尺寸:~15×15×35 nm³
  • 离子浓度:0.15 M NaCl
  • 温度:323 K(50°C,适合MARTINI)
  • 压力:1 bar(semi-isotropic)
  • 时间步长:20 fs(粗粒化允许)
  • 运行时间:1 μs/复制本,3个复制本/肽/膜(共9 μs/肽)

模拟后分析

  • 肽-膜接触数(0.5 nm cutoff)
  • Lys/Arg-磷酸基团相互作用(多价结合)
  • 肽中心质量(COM)与膜中面的距离(评估插入深度)
  • RMSD/RMSF(结构稳定性)
  • Spearman相关分析:深度 vs log(IC50),评估插入-活性关系

结果验证:使用MDAnalysis (Python)进行轨迹解析,所有时间序列数据经3个复制本平均后,仅用未平滑数据进行统计(只有图中的类别均值经高斯平滑σ=5)

Top 10肽完整列表

Table 1: 最强10个抗生物膜肽

肽ID 序列 抗生物膜IC50(μM) 说明
105 MVLRIKLRLKIR 0.147 最强,约IDR-1018的1/10
39 RGFVRLKKWFNI 0.23 含Trp,可能增强膜插入
99 MLIRVRKLWRIL 0.24 双功能候选(也在抗菌Top 10)
10 WKKKGRMRWKWI 0.27 高Lys密度,强静电结合
59 FRVCYRGICYRK 0.30 含Cys,可能形成disulfide
40 RARGRKRLVVTI 0.30 双功能候选
28 FRVCYRGICYRR 0.35 精氨酸富集,膜结合强
20 LKIKVHIYRMKR 0.35 双功能候选,含疏水残基
86 RALKKIIKRLCR 0.38 双功能候选,平衡疏水-亲水
IDR-1018(对照) VRLIVAVRIWRR 1.42 参照标准

Table 2: 最强10个抗菌(浮游)肽

肽ID 序列 抗菌IC50(μM) 说明
99 MLIRVRKLWRIL 0.70 最强,双功能
86 RALKKIIKRLCR 0.71 双功能,高效率
10 WKKKGRMRWKWI 0.74 双功能
102 VLRIGWILWRIS 0.84 高疏水性
62 RRRAKGRIRLIV 0.89 Arg富集
100 LLILWRKLWILR 1.02 疏水性主导
2 GRMRWKWIKKRI 1.03 基础设计
20 LKIKVHIYRMKR 1.07 双功能
33 GLKSFARVLKKI 1.15 序列多样性
40 RARGRKRLVVTI 1.18 双功能
IDR-1018(对照) VRLIVAVRIWRR 1.73 参照标准

关键观察

  • 5个肽同时出现在两个Top 10中(ID 10, 20, 40, 86, 99),这些是最有价值的候选
  • 抗生物膜肽倾向于高Lys/Arg密度和Trp含量(增强膜亲和力)
  • 抗菌肽显示更多的疏水残基组合(增强膜插入和破坏能力)

与其他AMP预测工具的对比分析

三种现有工具的性能

本研究在29个实验验证优于IDR-1018的肽上,对比了三个广泛使用的AMP预测工具:

Macrel (AMP Mining in Genomes and Metagenomes)

原理:22个物化描述符(电荷、疏水性矩、二级结构倾向等) + 传统ML分类器 结果

  • 29个验证肽的预测评分范围集中在0.50-0.60区间
  • 接近默认阈值(0.50),导致低区分度
  • 假阴性率高,精确度~50%,召回率同样低

局限:Macrel设计用于基因组/宏基因组挖掘(未知序列背景),对已知AMP数据库的表现不理想

AI4AMP (Antimicrobial Peptide Predictor)

原理:物化性质编码 + 卷积神经网络(CNN) 性能

  • 在定性上,对多数29个肽给出了高AMP概率评分
  • 但当以IDR-1018的评分作为分类阈值时,精确度和召回率均~50%
  • 混淆矩阵显示该阈值选择不当,导致过多假阳性或假阴性

优点:模型本身性能不错,但对于高活性肽的定量区分有限

DBAASP Predictor

原理:三个膜交互相关描述符(hydrophobic moment、charge density、membrane-depth potential) 结果

  • 29个肽中,正负预测几乎均分(接近50:50)
  • 基于这三个特征的区分能力有限
  • 虽然这些描述符在AMP设计中重要,但单独使用不足以预测多功能性

反思:强调了序列-序列相关性(通过RNN捕捉)的重要性,单纯依靠物化特性难以抓住功能差异

DeepQSAR的优势总结

指标 Macrel AI4AMP DBAASP DeepQSAR
精确度 ~50% ~50% ~50% 90%
召回率 低-中 88%
F1得分 <0.5 0.40-0.50 <0.5 0.89
多目标预测
泛化性 有限 中等 一般 优异
计算成本 中-高

毒性与安全性数据

溶血活性

三个代表肽(J20、J28、J39)在人红细胞上的溶血测定:

图S1展示的浓度-反应曲线表明:

  • J20 (LKIKVHIYRMKR):IC50 >250 μg/mL(上限未达),极低溶血风险
  • J28 (FRVCYRGICYRR):IC50 >250 μg/mL
  • J39 (RGFVRLKKWFNI):IC50 >250 μg/mL

解释:即使在256 μg/mL(最高测试浓度),红细胞溶解也<10%,说明对宿主细胞膜的破坏最小。相比之下,许多阳性对照AMP在10-50 μg/mL即表现出明显溶血。

PBMC细胞毒性

外周血单核细胞(PBMCs)对肽的耐受性评估:

数据来自Table S1: | 肽 | PBMC IC50(μg/mL) | 与MBIC的倍数差 | 评价 | |—-|—————-|————-|——| | J20 | 166.1 | 41-166倍 | 中等毒性 | | J28 | >250 | >62.5-250倍 | 低毒性 | | J39 | >250 | >62.5-250倍 | 低毒性 |

最小生物膜抑制浓度(MBIC):1-4 μg/mL(与IC50测定相同条件) 治疗窗口:毒性IC50 / MBIC = 62-250倍,足以支持临床前开发(理想值通常>10倍)

PBMC毒性的分化原因

  • J28/J39高度耐受,可能与其特定的Cys、Tyr组成(可能稳定膜界面而不破坏)有关
  • J20的中等毒性可能源于其高Lys密度,在高浓度时对人细胞也有一定膜扰动

补充图表详解

Figure S1: 溶血活性曲线

左图为Hemolysis,右图为PBMC Cytotoxicity,横轴肽浓度(log scale, 0.6-256 μg/mL),纵轴为百分比溶解/毒性。三条曲线代表J20(蓝)、J28(红)、J39(绿)。

关键发现:三肽在1-256范围内溶血均<15%,PBMC毒性中J28/J39始终<10%,J20在128-256 μg/mL才明显上升。

Figure S2: Macrel预测分布

柱状图显示29个验证肽的Macrel评分分布。评分集中在0.50-0.60,大多聚集在单一柱子(34.5%),显示低区分度。

Figure S3: AI4AMP概率评分

曲线图显示概率分布,大多肽评分在0.7-1.0(高AMP概率),但相对于IDR-1018基准(虚线)的区分不足。

Figure S4: DBAASP混淆矩阵

左侧混淆矩阵显示,DBAASP的预测与实际结果的吻合度低,正负预测几近等分。


数据获取与复现

所有数据、代码和预训练模型已公开发布在GitHub仓库:

  • 地址: https://github.com/chill-bear/peptides
  • 内容
    • data/: 原始IC50数据(CSV)、聚类结果、验证肽序列
    • models/: 预训练的Model 1和Model 2权重(HDF5格式)
    • scripts/: One-hot编码、模型训练、超参数调优、图表生成代码(Python)
    • md_simulations/: MD设置文件(.top, .gro, .mdp)、轨迹分析脚本

复现步骤

  1. Clone仓库并安装依赖(TensorFlow, scikit-learn, MDAnalysis等)
  2. 运行预处理脚本整合四个数据源
  3. 使用提供的超参数训练Model 1和Model 2
  4. 对自有候选肽进行预测和聚类
  5. 用GROMACS运行MD模拟,使用MDAnalysis脚本分析

注意:MD模拟计算密集,建议使用GPU集群或HPC资源;单肽1 μs的三复制本约需2-4小时(单CPU)。