Home > Other > RNA结构预测深度学习基准的方法学与数据分析

RNA结构预测深度学习基准的方法学与数据分析
rna-structure-prediction secondary-structure 3d-structure bioinformatics deep-learning benchmark computational-biology

【附录】RNA二级结构与三维结构预测的相互作用:一项全面研究

附录A:方法学详细描述

RNA三维结构预测的一般过程

RNA三维结构预测的一般过程包括两个步骤:

  1. 使用适当的二级结构预测模型从给定RNA序列生成二级结构
  2. 使用序列和生成的二级结构作为输入来预测三维结构

本研究中的二级结构仅包含标准碱基对(GC、AU和GU)

测试的三维结构预测方法

研究选择了六个具有代表性的RNA三维结构预测方法进行基准测试:

表1:本研究中测试的RNA三维结构预测模型概述

模型 类别 访问方式 输入
AlphaFold3 深度学习 Webserver Seq
NuFold 深度学习 Local Seq+2D
DRfold 深度学习 Local Seq
trRosettaRNA 深度学习 Local Seq+2D
RNAComposer 模板方法 Webserver Seq+2D
FARFAR2 模板方法 Local Seq+2D
IsRNA2 从头方法 Local Seq+2D
SimRNA 从头方法 Local Seq+2D

研究选择了trRosettaRNA和NuFold作为代表性深度学习方法,因为它们在近期RNA三维结构预测方法基准测试中表现领先,更重要的是它们官方支持自定义二级结构输入

此外,研究还包括了AlphaFold3DRfold作为参考模型,但它们不支持自定义二级结构输入,因此仅在天然二级结构输入时进行评估。

测试的二级结构预测工具

研究使用了六个流行的二级结构预测模型:

表2:本研究中测试的RNA二维结构预测模型概述

模型 类别 访问方式
RNAfold 热力学方法 Local
NUPACK 热力学方法 Local
Mfold 热力学方法 Local
RNAStructure 热力学方法 Local
CONTRAfold 统计模型 Local
MXfold2 深度学习 Local

这六个模型可以分为两类:热力学方法深度学习方法


附录B:评估指标的详细定义

RMSD(Root-Mean-Square-Deviation,均方根偏差)

RMSD衡量预测结构与天然结构之间的原子位置差异,定义为:

\[\text{RMSD} = \sqrt{\dfrac{1}{N} \sum_{i=1}^{N} \|\mathbf{r}_i^{\text{pred}} - \mathbf{r}_i^{\text{native}}\|^2}\]

其中,$N$ 是原子数量,$\mathbf{r}_i^{\text{pred}}$ 和 $\mathbf{r}_i^{\text{native}}$ 分别是预测结构和天然结构中第 $i$ 个原子的位置向量。RMSD值越小表示预测越准确。

INF_ALL(Interaction Network Fidelity,相互作用网络保真度)

INF_ALL衡量所有碱基-碱基相互作用的保真度,定义为:

\[\text{INF\_ALL} = \dfrac{2 \cdot |E_{\text{pred}} \cap E_{\text{native}}|}{|E_{\text{pred}}| + |E_{\text{native}}|}\]

其中,$E_{\text{pred}}$ 和 $E_{\text{native}}$ 分别是预测结构和天然结构中的边(相互作用)集合。INF_ALL值范围为0-1,值越大表示预测越准确。

TM-score(Template Modeling Score,模板建模得分)

TM-score衡量预测结构与天然结构之间的拓扑相似性,定义为:

\[\text{TM-score} = \dfrac{1}{L_{\text{native}}} \sum_{i=1}^{L_{\text{pred}}} \dfrac{1}{1 + \left(\dfrac{d_i}{d_0}\right)^2}\]

其中,$L_{\text{native}}$ 和 $L_{\text{pred}}$ 分别是天然结构和预测结构的长度,$d_i$ 是第 $i$ 个残基对之间的距离,$d_0$ 是一个与长度相关的尺度参数。TM-score值范围为0-1,值越大表示预测越准确。

lDDT(Local Distance Difference Test,局部距离差异测试)

lDDT衡量预测结构中局部距离的保真度,通过比较预测结构和天然结构中所有残基对之间的距离来计算。lDDT值范围为0-1,值越大表示预测越准确。

真阳性比例和假阳性比例

为研究输入二级结构对三维结构预测准确性的影响,研究引入了两个额外指标:

  • 真阳性比例($p_{\mathrm{TP}}$):正确预测的标准碱基对比例
\[p_{\mathrm{TP}} = \dfrac{N_{\mathrm{TP}}}{N_{\text{native}}}\]
  • 假阳性比例($p_{\mathrm{FP}}$):错误预测的标准碱基对比例
\[p_{\mathrm{FP}} = \dfrac{N_{\mathrm{FP}}}{N_{\text{native}}}\]

其中,$N_{\mathrm{TP}}$ 和 $N_{\mathrm{FP}}$ 分别表示正确预测和错误预测的标准碱基对数量,$N_{\text{native}}$ 表示天然二级结构中包含的标准碱基对数量。

真阳性比例的取值范围为 $[0, 1]$,而假阳性比例可能超过1。

附录C:数据集的详细描述

Custom数据集

为构建Custom数据集,研究首先从数据库RNAsolo收集了2021年3月至2024年12月发布的经过筛选的RNA-only结构。然后使用Cd-hit-est在80%序列相似性阈值下对相应序列进行聚类。最后,经过人工选择,准备了一个包含30个RNA分子的自定义数据集。

这30个RNA具有不同的长度和结构拓扑:

  • 长度范围:从短RNA(< 50个核苷酸)到长RNA(> 200个核苷酸)
  • 结构类型:包含茎环、多路连接和假结等多种拓扑结构
  • 详细条目:具体分子列表见原文 SI Table S3

RNA-Puzzles数据集

RNA-Puzzles数据集包含18个从真实挑战性RNA-Puzzles实验中收集的RNA。RNA-Puzzles是一项集体性盲测实验,旨在评估RNA结构预测技术的前沿。

这些RNA靶标的特点包括:

  • 结构复杂性:大多数靶标具有复杂的三维结构,包含多个结构域
  • 实验方法:通过X射线晶体学或核磁共振确定
  • 预测难度:代表了RNA结构预测领域的重大挑战

CASP RNA数据集

CASP RNA数据集涵盖14个在CASP15和CASP16竞赛中使用的RNA靶标。CASP(Critical Assessment of protein Structure Prediction)是蛋白质结构预测领域的重要盲测竞赛,从CASP15开始引入RNA靶标。

这些RNA靶标的特点包括:

  • 部分靶标为合成RNA:其中一些CASP15靶标缺乏天然同源RNA序列和结构
  • 多样化结构:涵盖不同的结构类型和长度
  • 预测挑战:对当前RNA结构预测方法提出了严峻挑战

Combined数据集的分类

研究将三个测试数据集(Custom、RNA-Puzzles和CASP RNA)合并形成Combined数据集(62个RNA)。为深入分析,研究还将Combined数据集按结构拓扑重新分类为三类:

结构类别 RNA数量 比例 特点
茎环 21 33.9% 相对简单的结构,通常包含一个或多个茎环元件
多路连接 16 25.8% 包含三个或更多螺旋连接的复杂结构
假结 25 40.3% 包含假结相互作用的结构,通常具有复杂的折叠模式

基于天然二级结构,在Combined数据集中观察到核苷酸数量($N_{nt}$)和标准碱基对数量($N_{pair}$)之间呈近似线性关系,表明几乎所有测试的RNA都形成了实质性的二级结构。

附录D:各三维模型的详细性能分析

研究首先使用从实验结构使用DSSR (v2.4)提取的天然二级结构作为输入,探索了六个所选RNA三维模型的预测上限。为避免潜在的数据泄露,排除了出现在深度学习方法相关训练数据集中的RNA。

在Custom数据集上的详细表现

对于Custom数据集,基于模板的模型RNAComposer在RMSD指标上提供了最佳预测(中位数RMSD = 14.3 Å),而FARFAR2trRosettaRNA分别在lDDT(中位数lDDT = 0.59)和TM-score指标(中位数TM-score = 0.27)上提供了最佳预测。

原文正文只明确给出了上述最佳或领先结果,并未在主文中逐项列出所有模型的完整中位数表。因此,这里只保留 PDF 明确报告的关键数值。更完整的逐模型结果请直接参看原文 Fig 1 以及 SI Tables S7-S8。

这些结果强调了评估RNA三维结构预测的复杂性以及使用多个指标的必要性。不同模型在不同指标上的表现差异较大,单一指标可能无法全面反映模型的性能。

在RNA-Puzzles数据集上的详细表现

对于RNA-Puzzles数据集,trRosettaRNA在六个所选三维模型中几乎在所有指标上都提供了最佳预测(中位数RMSD = 2.7 Å,中位数INF_ALL = 0.77,中位数TM-score = 0.57,中位数lDDT = 0.66)。这表明trRosettaRNA在处理具有挑战性的真实RNA靶标时具有明显优势。

原文正文明确给出的关键数值是:trRosettaRNA在 RNA-Puzzles 数据集上达到中位数 RMSD = 2.7 Å、INF_ALL = 0.77、TM-score = 0.57、lDDT = 0.66。其余模型的完整中位数分布请直接参考原文 Fig 1。

在CASP RNA数据集上的详细表现

对于CASP RNA数据集,trRosettaRNA同样在六个所选模型中排名第一(中位数RMSD = 9.9 Å,中位数INF_ALL = 0.82,中位数TM-score = 0.49,中位数lDDT = 0.66)。CASP RNA 数据集中的部分靶标缺乏天然同源RNA序列和结构,对三维结构预测方法提出了严峻挑战;因此,trRosettaRNA 在这一数据集上的结果表明其在该基准上表现较强。

原文正文明确给出的关键数值是:trRosettaRNA在 CASP RNA 数据集上达到中位数 RMSD = 9.9 Å、INF_ALL = 0.82、TM-score = 0.49、lDDT = 0.66。其余模型的完整中位数分布请直接参考原文 Fig 1。

按二级结构准确性分类的详细分析

为深入研究输入二级结构的准确性如何影响每个测试的RNA三维结构预测模型的性能,研究根据其F1分数将预测的二级结构分为三类:

  • 低准确性($0.2 \le \text{F1} < 0.55$)
  • 中等准确性($0.55 \le \text{F1} < 0.8$)
  • 高准确性($0.8 \le \text{F1} \le 1.0$)

使用低准确性二级结构作为输入

使用低准确性二级结构作为输入时,大多数RNA的三维结构预测准确性通常较差。在六个所选的三维模型中:

  • 最佳的中位数RMSD为19.9 Å(IsRNA2获得)
  • 最高的中位数INF_ALL为0.56(trRosettaRNA获得)
  • 最高的中位数TM-score为0.17(trRosettaRNA获得)

使用高准确性二级结构作为输入

相比之下,使用高准确性二级结构作为输入时,三维结构预测的准确性明显提高:

  • 最佳的中位数RMSD降至11.8 Å(trRosettaRNA获得)
  • 最佳的INF_ALL大幅升至0.81(RNAComposer获得)
  • 最佳的中位数TM-score也升至0.44(trRosettaRNA获得)

使用中等准确性二级结构作为输入

有趣的是,当输入二级结构的准确性中等时,trRosettaRNA的TM-score明显优于其他四个三维模型。这说明对于具有中等准确性的输入二级结构,trRosettaRNA预测的三维结构可能具有更高的准确性

总的来说,这些结果表明更准确的二级结构作为输入通常可以提高RNA三维结构预测的性能,但不同模型对不同准确性输入的响应存在显著差异。


附录E:AlphaFold3和DRfold的参考性能

尽管AlphaFold3和DRfold不支持自定义二级结构输入,研究仍将它们作为参考模型进行了评估。

AlphaFold3的性能

原文只明确指出:AlphaFold3CustomCASP RNA 数据集上的 INF_ALL 指标表现领先。

DRfold的性能

原文只明确指出:对于 Custom 数据集,DRfoldTM-score 指标上表现领先,且其中位数 TM-score 为 0.27

附录F:不同结构拓扑的预测难度分析

茎环RNA的预测挑战

研究发现,对茎环RNA的三维结构预测略差于多路连接和假结,即茎环的中位数RMSD值相对较大,尽管后两类通常在结构上更复杂。

可能的原因

  • 测试的茎环RNA中未配对核苷酸的比例相对较高
  • 茎环结构的柔性较大,构象空间更广
  • 较少的约束条件使得预测更困难

多路连接和假结RNA的预测优势

尽管多路连接和假结RNA通常在结构上更复杂,但三维结构预测在这些类别上的表现反而更好:

可能的原因

  • 更多的碱基配对约束提供了更多信息
  • 复杂的拓扑结构限制了构象空间
  • 结构元件之间的相互作用提供了额外的约束

trRosettaRNA在复杂结构上的优势

trRosettaRNA在多路连接和假结RNA上明显优于其他模型,可能的原因包括:

  • 深度学习模型能够更好地学习复杂的结构模式
  • 大规模训练数据使其能够识别各种结构拓扑
  • 端到端的学习方式使其能够直接从序列到三维结构进行映射

附录G:假阳性碱基对的特殊危害分析

研究发现,RNA三维结构预测性能对假阳性碱基对的敏感性高于真阳性碱基对。

真阳性和假阳性碱基对的影响

研究考虑了预测的二级结构中的两种不同类型的碱基配对相互作用:正确预测的真阳性碱基对和在天然结构中没有对应关系的假阳性碱基对。

为加深对三维结构预测准确性与输入二级结构准确性之间关系的理解,研究分析了每个测试的三维模型的预测准确性(以RMSD和INF_ALL表征)与真阳性比例($p_{\mathrm{TP}}$)或假阳性比例($p_{\mathrm{FP}}$)之间的关系。

对于所有六个所选的三维方法,INF_ALL值与真阳性比例几乎正相关,与假阳性比例负相关,这再次声明输入二级结构中碱基对的准确性对最终预测的三维结构准确性有重大影响。

正如预期的那样:

  • INF_ALL与真阳性比例的正相关以及RMSD与真阳性比例的负相关表明,输入二级结构中的碱基配对相互作用预测得越正确,实现高准确性RNA三维结构预测的可能性就越高
  • INF_ALL与假阳性比例的负相关以及RMSD与假阳性比例的正相关表明,输入二级结构中错误预测的碱基配对相互作用通常导致较低准确性的三维结构模型

一般来说,那些假阳性碱基对引入噪声并通过建议错误的折叠模式或相互作用网络来误导三维结构建模算法,特别是对于基于模板的方法。

此外,研究观察到RNAComposer、FARFAR2和IsRNA2的预测显示出INF_ALL对真阳性和假阳性比例的更高依赖性(Pearson相关系数 $ \rho \ge 0.7$)。

此外,尽管在某些情况下假阳性碱基对的数量超过天然碱基对的数量($p_{\mathrm{FP}} > 1$),但INF_ALL值没有显示出异常下降,这表明测试的三维模型在结构预测中具有鲁棒性。

假阳性碱基对的危害机制

假阳性碱基对(在天然结构中不存在的预测碱基对)通过以下机制影响三维结构预测:

  1. 引入噪声:假阳性碱基对在输入二级结构中引入了错误信息
  2. 误导折叠:错误的碱基配对模式可能引导三维结构建模算法沿着错误的路径进行
  3. 限制构象空间:不正确的约束可能排除正确的构象
  4. 破坏真实相互作用:假阳性碱基对可能与真实的碱基配对相互作用冲突

不同模型对假阳性碱基对的敏感性

原文并未逐一给出所有模型的精确 Pearson 相关系数表,但明确指出:RNAComposer、FARFAR2 和 IsRNA2 的预测结果对 $p_{\mathrm{TP}}$ 与 $p_{\mathrm{FP}}$ 的依赖更强,其 Pearson 相关系数满足 $ \rho \ge 0.7$。这说明这些方法,尤其是更依赖输入约束的模型,更容易受到假阳性碱基对的影响。

减少假阳性碱基对的策略

为减少假阳性碱基对的出现,可以考虑以下策略:

  1. 提高二级结构预测准确性:改进二级结构预测算法,减少错误预测
  2. 集成多个预测结果:结合多个二级结构预测工具的结果,取共识部分
  3. 使用实验数据约束:在可能的情况下,使用实验数据(如化学探针数据)来验证和修正二级结构预测
  4. 迭代优化:在三维结构建模过程中,根据三维结构的合理性来调整二级结构约束

附录H:不同三维模型修改输入二级结构能力的详细分析

图6显示了所有六个所选的三维模型在使用不同准确性的二级结构作为输入时,预测的三维结构的相互作用网络的变化,包括F1分数的变化($\Delta\text{F1}$)、真阳性碱基对比例的变化($\Delta p_{\mathrm{TP}}$)和假阳性碱基对比例的变化($\Delta p_{\mathrm{FP}}$)相对于输入二级结构的F1分数。

trRosettaRNA和NuFold的修改能力

总体而言,对于trRosettaRNA和NuFold,许多预测相对于输入二级结构改善了其碱基配对相互作用($\Delta\text{F1} > 0$),特别是对于F1分数 < 0.55的输入,这是通过在三维结构建模过程中引入更多的真阳性碱基对($\Delta p_{\mathrm{TP}} > 0$)和/或消除假阳性碱基对($\Delta p_{\mathrm{FP}} < 0$)来实现的。

研究还观察到IsRNA2和SimRNA的一些预测在使用低准确性二级结构(F1分数 < 0.55)作为输入时有类似的结果。

高准确性输入时的性能恶化

然而,当使用高准确性二级结构作为输入时,研究发现来自trRosettaRNA、NuFold、RNAComposer、IsRNA2和SimRNA的一些预测的碱基配对相互作用明显恶化($\Delta\text{F1} < 0$),即真阳性碱基对减少($\Delta p_{\mathrm{TP}} < 0$)和假阳性碱基对增加($\Delta p_{\mathrm{FP}} > 0$)。

这表明,在结构预测过程中修改输入碱基配对相互作用在测试的三维模型中很普遍,并且这种修改能力在不同三维模型之间有所不同

RNAComposer的特殊性

RNAComposer修改输入碱基配对相互作用的能力可以忽略不计,其性能严重依赖于输入二级结构的准确性。这与RNAComposer基于模板的方法特性一致,它倾向于严格遵循输入的二级结构约束来构建三维模型。

相比之下,trRosettaRNA和NuFold使用中等准确性输入时能显著改善碱基配对准确性,但使用高质量输入时反而可能恶化。这解释了为什么trRosettaRNA和NuFold在特定F1分数区间内表现独特

总体结论

总体而言,这些结果声明RNA二级和三维结构预测之间的相互作用是普遍的,并且三维结构预测性能对输入二级结构准确性的依赖性与模型修改输入碱基配对相互作用的能力密切相关