DeepQSAR抗菌肽发现——技术细节与扩展数据
完整数据集描述
In-house抗生物膜数据库
约700个唯一肽(多数为12-16氨基酸),由Kinexus生物信息公司通过肽阵列合成(SPOT-array technology)。每个肽针对MRSA进行了2折串联稀释测定,产生了3000个IC50数据点。
数据特征:
- IC50范围:0.09-50 μM(中位数~1.5 μM)
- 肽长度分布:8-18氨基酸为主,12-14mer最多
- 化学修饰:C端酰化(标准AMP格式),某些肽含有非标准氨基酸如Nle(仲亮氨酸)、Trp衍生物
DRAMP 3.0 (Database of Antimicrobial Peptides)
包含:22259肽条目 来源:已发表文献中已知的AMP,涵盖细菌、真菌、植物、昆虫、哺乳动物来源 标注:二进制(活性/非活性),基于文献报道的MIC或IC50阈值 优势:高覆盖度,包括多种菌种的活性信息(不仅限MRSA) 局限:某些条目可能基于定性描述而非精确数值
AI4AMP (Antimicrobial Peptide Predictor)
包含:平衡数据集,10716正例(已知活性AMP) + 10718负例(非AMP序列) 来源:公开AMP数据库与生成的非AMP背景 特点:经过特征工程优化(physicochemical property encoding) 用途:在本研究中主要用于验证和外部基准测试 性能(来自原始论文):精确度~90%,泛化性好
DBAASP v3 (Database of Antimicrobial Activity and Structure of Peptides)
包含:19751活性肽,附带实验验证的结构和活性数据 数据质量:高,仅收录已发表、经实验验证的肽 附加信息:包含部分肽的3D结构、膜交互描述符(如hydrophobic moment、charge distribution) 覆盖范围:广谱菌种(需要标准化处理)
数据集组合与预处理
四个数据源合并后,采用如下预处理步骤:
- 去重:基于精确序列匹配移除重复肽
- 长度过滤:保留8-20氨基酸,去除超短(<8aa)或超长(>20aa)肽,使分布更均匀
- 编码规范化:将所有非标准氨基酸(如Nle、Orn)映射到最相近的标准氨基酸(Leu、Lys)
- 标签一致化:对于在多个库中重复出现的肽,采用多数票法决定标签;如信息矛盾则排除
- 数据平衡:对于分类任务(Model 2),使用SMOTE或加权损失函数处理类不平衡
最终数据集规模:约52000个条目(去重后),其中正例(活性AMP)约占55%
详细方法学
Peptide Clustering算法
为减少合成肽的冗余性并保证序列空间的多样性覆盖,使用了层级聚类(Hierarchical Clustering):
- 相似性计算:对所有候选肽对进行全局序列比对(Needleman-Wunsch算法),计算相似度矩阵
- 聚类方法:AgglomerativeClustering(sklearn),使用欧式距离和完全链接(complete linkage)
- 聚类数:设置为100,对应最终的合成肽数量
- 代表选择:从每个簇中选择模型预测评分(combined score)最高的肽
优势:确保了100个合成肽均匀分布在5万个候选肽的序列空间中,最大化了发现新功能肽的概率
分子动力学模拟参数
软件和力场:
- MD引擎:GROMACS 2021.5
- 粗粒化力场:MARTINI 3.0(适合微秒级长模拟)
- 初始结构制备:α-螺旋(PeptideBuilder)→ martinize2转换
膜系统构建:
- 革兰氏阳性菌(GP)膜:POPG:Cardiolipin = 3:1(代表革兰氏阳性菌的外膜)
- 革兰氏阴性菌(GN)膜:POPE:POPG:Cardiolipin = 6:2:1(代表革兰氏阴性菌的内膜)
- 哺乳动物对照(MAM):100% POPC(代表人类红细胞膜,用于评估选择性)
模拟条件:
- 系统尺寸:~15×15×35 nm³
- 离子浓度:0.15 M NaCl
- 温度:323 K(50°C,适合MARTINI)
- 压力:1 bar(semi-isotropic)
- 时间步长:20 fs(粗粒化允许)
- 运行时间:1 μs/复制本,3个复制本/肽/膜(共9 μs/肽)
模拟后分析:
- 肽-膜接触数(0.5 nm cutoff)
- Lys/Arg-磷酸基团相互作用(多价结合)
- 肽中心质量(COM)与膜中面的距离(评估插入深度)
- RMSD/RMSF(结构稳定性)
- Spearman相关分析:深度 vs log(IC50),评估插入-活性关系
结果验证:使用MDAnalysis (Python)进行轨迹解析,所有时间序列数据经3个复制本平均后,仅用未平滑数据进行统计(只有图中的类别均值经高斯平滑σ=5)
Top 10肽完整列表
Table 1: 最强10个抗生物膜肽
| 肽ID | 序列 | 抗生物膜IC50(μM) | 说明 |
|---|---|---|---|
| 105 | MVLRIKLRLKIR | 0.147 | 最强,约IDR-1018的1/10 |
| 39 | RGFVRLKKWFNI | 0.23 | 含Trp,可能增强膜插入 |
| 99 | MLIRVRKLWRIL | 0.24 | 双功能候选(也在抗菌Top 10) |
| 10 | WKKKGRMRWKWI | 0.27 | 高Lys密度,强静电结合 |
| 59 | FRVCYRGICYRK | 0.30 | 含Cys,可能形成disulfide |
| 40 | RARGRKRLVVTI | 0.30 | 双功能候选 |
| 28 | FRVCYRGICYRR | 0.35 | 精氨酸富集,膜结合强 |
| 20 | LKIKVHIYRMKR | 0.35 | 双功能候选,含疏水残基 |
| 86 | RALKKIIKRLCR | 0.38 | 双功能候选,平衡疏水-亲水 |
| IDR-1018(对照) | VRLIVAVRIWRR | 1.42 | 参照标准 |
Table 2: 最强10个抗菌(浮游)肽
| 肽ID | 序列 | 抗菌IC50(μM) | 说明 |
|---|---|---|---|
| 99 | MLIRVRKLWRIL | 0.70 | 最强,双功能 |
| 86 | RALKKIIKRLCR | 0.71 | 双功能,高效率 |
| 10 | WKKKGRMRWKWI | 0.74 | 双功能 |
| 102 | VLRIGWILWRIS | 0.84 | 高疏水性 |
| 62 | RRRAKGRIRLIV | 0.89 | Arg富集 |
| 100 | LLILWRKLWILR | 1.02 | 疏水性主导 |
| 2 | GRMRWKWIKKRI | 1.03 | 基础设计 |
| 20 | LKIKVHIYRMKR | 1.07 | 双功能 |
| 33 | GLKSFARVLKKI | 1.15 | 序列多样性 |
| 40 | RARGRKRLVVTI | 1.18 | 双功能 |
| IDR-1018(对照) | VRLIVAVRIWRR | 1.73 | 参照标准 |
关键观察:
- 5个肽同时出现在两个Top 10中(ID 10, 20, 40, 86, 99),这些是最有价值的候选
- 抗生物膜肽倾向于高Lys/Arg密度和Trp含量(增强膜亲和力)
- 抗菌肽显示更多的疏水残基组合(增强膜插入和破坏能力)
与其他AMP预测工具的对比分析
三种现有工具的性能
本研究在29个实验验证优于IDR-1018的肽上,对比了三个广泛使用的AMP预测工具:
Macrel (AMP Mining in Genomes and Metagenomes)
原理:22个物化描述符(电荷、疏水性矩、二级结构倾向等) + 传统ML分类器 结果:
- 29个验证肽的预测评分范围集中在0.50-0.60区间
- 接近默认阈值(0.50),导致低区分度
- 假阴性率高,精确度~50%,召回率同样低
局限:Macrel设计用于基因组/宏基因组挖掘(未知序列背景),对已知AMP数据库的表现不理想
AI4AMP (Antimicrobial Peptide Predictor)
原理:物化性质编码 + 卷积神经网络(CNN) 性能:
- 在定性上,对多数29个肽给出了高AMP概率评分
- 但当以IDR-1018的评分作为分类阈值时,精确度和召回率均~50%
- 混淆矩阵显示该阈值选择不当,导致过多假阳性或假阴性
优点:模型本身性能不错,但对于高活性肽的定量区分有限
DBAASP Predictor
原理:三个膜交互相关描述符(hydrophobic moment、charge density、membrane-depth potential) 结果:
- 29个肽中,正负预测几乎均分(接近50:50)
- 基于这三个特征的区分能力有限
- 虽然这些描述符在AMP设计中重要,但单独使用不足以预测多功能性
反思:强调了序列-序列相关性(通过RNN捕捉)的重要性,单纯依靠物化特性难以抓住功能差异
DeepQSAR的优势总结
| 指标 | Macrel | AI4AMP | DBAASP | DeepQSAR |
|---|---|---|---|---|
| 精确度 | ~50% | ~50% | ~50% | 90% |
| 召回率 | 低 | 低-中 | 低 | 88% |
| F1得分 | <0.5 | 0.40-0.50 | <0.5 | 0.89 |
| 多目标预测 | 否 | 否 | 否 | 是 |
| 泛化性 | 有限 | 中等 | 一般 | 优异 |
| 计算成本 | 低 | 中 | 低 | 中-高 |
毒性与安全性数据
溶血活性
三个代表肽(J20、J28、J39)在人红细胞上的溶血测定:
图S1展示的浓度-反应曲线表明:
- J20 (LKIKVHIYRMKR):IC50 >250 μg/mL(上限未达),极低溶血风险
- J28 (FRVCYRGICYRR):IC50 >250 μg/mL
- J39 (RGFVRLKKWFNI):IC50 >250 μg/mL
解释:即使在256 μg/mL(最高测试浓度),红细胞溶解也<10%,说明对宿主细胞膜的破坏最小。相比之下,许多阳性对照AMP在10-50 μg/mL即表现出明显溶血。
PBMC细胞毒性
外周血单核细胞(PBMCs)对肽的耐受性评估:
数据来自Table S1: | 肽 | PBMC IC50(μg/mL) | 与MBIC的倍数差 | 评价 | |—-|—————-|————-|——| | J20 | 166.1 | 41-166倍 | 中等毒性 | | J28 | >250 | >62.5-250倍 | 低毒性 | | J39 | >250 | >62.5-250倍 | 低毒性 |
最小生物膜抑制浓度(MBIC):1-4 μg/mL(与IC50测定相同条件) 治疗窗口:毒性IC50 / MBIC = 62-250倍,足以支持临床前开发(理想值通常>10倍)
PBMC毒性的分化原因:
- J28/J39高度耐受,可能与其特定的Cys、Tyr组成(可能稳定膜界面而不破坏)有关
- J20的中等毒性可能源于其高Lys密度,在高浓度时对人细胞也有一定膜扰动
补充图表详解
Figure S1: 溶血活性曲线
左图为Hemolysis,右图为PBMC Cytotoxicity,横轴肽浓度(log scale, 0.6-256 μg/mL),纵轴为百分比溶解/毒性。三条曲线代表J20(蓝)、J28(红)、J39(绿)。
关键发现:三肽在1-256范围内溶血均<15%,PBMC毒性中J28/J39始终<10%,J20在128-256 μg/mL才明显上升。
Figure S2: Macrel预测分布
柱状图显示29个验证肽的Macrel评分分布。评分集中在0.50-0.60,大多聚集在单一柱子(34.5%),显示低区分度。
Figure S3: AI4AMP概率评分
曲线图显示概率分布,大多肽评分在0.7-1.0(高AMP概率),但相对于IDR-1018基准(虚线)的区分不足。
Figure S4: DBAASP混淆矩阵
左侧混淆矩阵显示,DBAASP的预测与实际结果的吻合度低,正负预测几近等分。
数据获取与复现
所有数据、代码和预训练模型已公开发布在GitHub仓库:
- 地址: https://github.com/chill-bear/peptides
- 内容:
data/: 原始IC50数据(CSV)、聚类结果、验证肽序列models/: 预训练的Model 1和Model 2权重(HDF5格式)scripts/: One-hot编码、模型训练、超参数调优、图表生成代码(Python)md_simulations/: MD设置文件(.top, .gro, .mdp)、轨迹分析脚本
复现步骤:
- Clone仓库并安装依赖(TensorFlow, scikit-learn, MDAnalysis等)
- 运行预处理脚本整合四个数据源
- 使用提供的超参数训练Model 1和Model 2
- 对自有候选肽进行预测和聚类
- 用GROMACS运行MD模拟,使用MDAnalysis脚本分析
注意:MD模拟计算密集,建议使用GPU集群或HPC资源;单肽1 μs的三复制本约需2-4小时(单CPU)。