ERAM让酶促反应建模真正走向多模态与任务无关
本文信息
- 标题:通过多模态关系学习实现准确且任务无关的酶反应建模
- 作者:Yuansheng Huang, Lanqing Li, Wenjia Qian, Jiahui Yu, Huifeng Zhao, Xiaorui Wang, Odin Zhang, Guangyong Chen, Shukai Gu, Pheng-Ann Heng, Tingjun Hou, Yu Kang
- 发表时间:2026年3月30日
- 单位:浙江大学药学院(中国杭州)、浙江实验室生命科学计算研究中心(中国杭州)、香港中文大学计算机科学与工程系(中国香港)、新加坡国立大学计算学院(新加坡)、华盛顿大学 Paul G. Allen 计算机科学与工程学院(美国西雅图)
- 引用格式:Huang Y, Li L, Qian W, Yu J, Zhao H, Wang X, Zhang O, Chen G, Gu S, Heng PA, Hou T, Kang Y. Accurate and task-agnostic modeling of enzymatic reactions through multimodal relational learning. Acta Pharmaceutica Sinica B. 2026. https://doi.org/10.1016/j.apsb.2026.03.052
- 代码与资源:
- Web服务器:http://cadd.zju.edu.cn/eram/
摘要
酶功能预测在合成生物学和药物发现中起着关键作用。然而,现有方法往往关注单一任务,缺乏统一框架来捕捉酶、底物和产物之间的复杂相互作用。本文提出了ERAM(Enzymatic-Reaction-Aware Molecular representation learning),一种通过多关系学习进行准确且任务无关的酶反应建模框架。ERAM将酶反应表示为知识图谱三元组,并将来自蛋白质语言模型的酶表示与小分子表示对齐。通过双粒度对比学习,ERAM在酶检索任务中比最先进的CREEP方法获得了28.31%的更高平均精度(MAP)。在底物预测任务中,ERAM在两个数据集上比ESP方法分别实现了35.53%和22.97%的更高马修斯相关系数。值得注意的是,ERAM可以在无需额外训练的情况下进行无监督结合位点预测,相比RXNAAMapper获得了42.36%的更低假阳性率和70.59%的更高重叠分数。实验结果表明,ERAM在三个任务上的有效性,为酶功能分析提供了统一的表示学习框架。
核心结论
- 统一预训练表示:ERAM用同一套酶反应表示支撑酶检索、底物预测和结合位点分析,减少了为每个任务单独设计模型的需求
- 知识图谱式反应建模:把酶反应写成底物—酶—产物三元组后,蛋白序列和小分子可以在同一嵌入空间中对齐
- 双粒度对比学习:底物或产物替换对应更大的几何间隔,酶替换对应更小的几何间隔,模型据此学习不同层次的功能差异
- 注意力具备生物学指向性:酶编码器和小分子编码器都能把高注意力集中到结合位点或反应位点附近
背景
酶是生物体内最重要的催化分子之一,也是绿色合成、代谢工程和合成生物学的核心工具。想要真正用好酶,研究者不仅要知道它属于哪个 EC 类别,还需要知道它能识别什么底物、能生成什么产物,以及催化残基大致位于哪里。功能注释是否充分,直接决定了这些序列能不能进入后续设计和应用流程。
困难在于,酶功能注释的速度远远赶不上序列积累的速度。UniProt 知识库已经包含超过 2500万 条酶序列,但只有 0.91% 有人工注释。传统实验路线又慢又贵,很难靠逐一测定去填平这条序列—功能鸿沟。
现有方法大致可以分成两类:一类是为某个单一任务设计专门模型,例如只做 EC 分类、只做底物预测,或者只做位点识别;另一类则尝试利用预训练蛋白模型和反应表示来做检索或匹配。前者往往任务碎片化,后者则容易只利用单一模态,难以完整表达酶—底物—产物这个催化单元。文中拿来对照的几条路线也很典型:CREEP对应专门的酶反应检索,ESP对应底物预测,RXNAAMapper对应无监督位点映射。
这里的核心问题是:能否将酶反应建模为多关系数据,让酶、底物和产物的嵌入在同一几何框架下交互?如果能做到这一点,同一个模型就能支持多种下游任务,研究者也就不用在不同工具之间来回切换。这个问题之所以重要,是因为在真实的酶工程流程中,科学家通常会连续问多个问题:这个反应由哪些酶催化?这些酶能接受哪些底物?催化位点大概在哪里?如果能用同一套表示空间回答这些问题,工作流会明显更顺畅。
关键科学问题
- 酶功能的统一表示问题:酶功能不是单一的序列属性,而是由底物、酶和产物共同决定的关系属性。如何将这种三元关系映射到一个统一的嵌入空间里,是整篇论文要解决的核心问题
- 多模态对齐问题:蛋白质序列(氨基酸)和小分子(SMILES/3D结构)处于完全不同的表征空间。如何让这两种模态在同一个嵌入空间中对齐,而不是简单地拼接或投影,是技术上的一大难点。简单来说,这就像要把中文和英文翻译到同一个语义空间里,让模型理解酶和它的英文描述是同一个东西。
- 任务无关性边界问题:任务无关更准确的含义是什么?是真正的零样本学习,还是统一预训练表示后在不同任务上微调?这个问题直接影响对模型能力的评价和实际应用场景的界定
创新点
- 知识图谱式反应建模:将酶反应形式化为底物—酶—产物的三元组,在嵌入空间中满足头 + 关系 ≈ 尾的平移关系,把蛋白和小分子真正放进同一个几何问题里
- 双粒度对比学习:区分粗粒度负样本(替换产物,破坏反应可行性)和细粒度负样本(替换酶,影响催化效率),分别对应不同大小的几何边界,让模型学习不同层次的功能差异
- 交叉注意力机制:将底物信息注入酶编码器,使同一条酶序列在面对不同底物时可以形成不同表示,捕捉酶的广谱性和诱导契合效应
- 统一的预训练框架:用同一套酶反应表示支撑检索、底物预测和位点分析三个任务,减少了为每个任务单独设计模型的需求
ERAM的核心想法:把酶反应写成底物—酶—产物三元组,再用统一的嵌入空间去学习这些实体之间的关系。这样得到的表示既能支持检索,也能迁移到其他下游任务。更完整的技术细节和对照表请见附录。
研究内容
数据集与任务设置
理解这篇论文,先要把两个基础问题搞清楚:数据是怎么过滤的、任务到底在测什么。这两点如果不说清,后面的检索、底物预测和位点分析就会混在一起看。
数据来源是 UniProtKB/Swiss-Prot 和 RHEA。经过过滤后,最终数据集包含 254,106 个反应样本、197,352 条独特酶序列、1718 个 EC 编号和 3048 个化学反应,训练/验证/测试按 8:1:1 划分。
这里有几条过滤规则特别关键,因为它们直接决定了模型的适用边界:
| 过滤维度 | 条件 | 含义 |
|---|---|---|
| 序列长度 | 超过 1024 aa 的酶序列去掉 | 受 ESM-2 编码长度限制 |
| 分子大小 | 超过 256 个原子的小分子去掉 | 受 Uni-Mol 编码范围限制 |
| 反应平衡性 | 底物和产物完全相同的反应去掉 | 保证三元组平移关系有意义 |
| EC 频次 | 出现少于 10 次的 EC 样本去掉 | 保证训练稳定和正样本数量 |
这组设置有一个很实际的后果:ERAM主要验证的是频次足够、定义相对清楚的酶反应。它能保证训练稳定,但也意味着模型对真正长尾EC、极少见反应类型和更复杂体系的能力,没有在这篇论文里被直接展开。
把下游任务拆开看,也会更清楚:
| 任务 | 输入 | 输出 | 真正检验的能力 |
|---|---|---|---|
| 产物检索 | 底物 + 酶 | 候选产物排序 | 是否学到正确的反应映射 |
| 酶检索 | 底物 + 产物 | 候选酶排序 | 是否学到反应级功能表示 |
| 底物预测 | 酶 + 候选底物 | 二分类或打分 | 表示迁移后是否保留催化相容性 |
| 位点分析 | 酶序列 + 底物SMILES | 注意力热区 | 内部表示是否含有功能位点信息 |
这样看就很清楚:检索任务是表示学习的直接考试,底物预测更像迁移测试,位点分析则更像可解释性测试。三者都重要,但证据强度本来就不该被等量齐观。
核心方法:ERAM框架设计

图1:ERAM框架与方法概述。(A)模型结构概览:酶编码器包含冻结的ESM-2骨干、自注意力块、交叉注意力块、MLP和均值池化;小分子编码器由冻结的Uni-Mol、自注意力块、MLP和均值池化组成;底物和产物共享同一个编码器。(B)知识图谱中反应物(底物)、酶和产物之间的关系,以及小批量数据的三元组损失函数,其中 $d(e_q, e_t)$ 表示查询嵌入与目标嵌入之间的欧氏距离。(C)双粒度对比学习:产物被替换的样本归类为粗粒度负样本(大边界),酶被替换的样本归类为细粒度负样本(小边界)。(D)酶原型学习过程:通过计算酶嵌入与原型的余弦相似度交叉熵来更新编码器,再使用动量方法(如指数移动平均)更新原型。
ERAM由两条主分支构成。小分子编码器把底物和产物转成 SMILES,再用预训练的 Uni-Mol 生成原子级表示;酶编码器则把氨基酸序列输入 ESM-2,得到残基级表示。两边最终都会被投影到同一个嵌入空间里——你可以把这个空间想象成一个多维坐标系,相似的分子或酶会靠得更近。
交叉注意力模块让酶编码器在处理酶序列时,能够关注底物相关的部分,这样同一条酶序列在面对不同底物时可以形成不同表示。这个设计对应的,其实就是论文反复强调的酶广谱性(一个酶能催化多种底物)和诱导契合(底物结合后酶构象发生变化):底物不同,酶的有效表示也应该不同,否则很难把同一酶催化不同底物的差异学出来。
ERAM把一个酶反应概念化为知识图谱三元组:底物是头实体,酶是关系,产物是尾实体。知识图谱就像社交网络,节点是实体,边是它们之间的联系。
训练目标:要求底物嵌入加上酶嵌入后尽量接近产物嵌入(图1B),也就是头实体加关系约等于尾实体。你可以把这个理解为向量空间中的国王减男人再加女人约等于王后。这一步把蛋白和小分子真正放进了同一个几何问题里。
更关键的设计是双粒度对比学习和酶原型学习。
双粒度对比学习:区分两种不同层次的负样本。粗粒度负样本替换产物,会直接破坏化学平衡、让反应完全不可行,因此用大margin γ₁=12 作为距离下界;细粒度负样本替换酶,酶作为催化剂只影响反应速率而不改变化学平衡,因此用小margin γ₂=3 作为距离下界。这个区分很重要,因为从化学平衡角度看:换产物等于换反应(完全错了),换酶等于换催化剂(反应还能进行,只是速率不同)。
具体loss函数形式如下。给定底物嵌入 $h_s$、酶嵌入 $h_e$、产物嵌入 $h_p$,模型学习满足平移关系 $h_s + h_e \approx h_p$。训练目标是最小化正样本距离,同时最大化负样本距离:
\[\mathcal{L}_{\text{total}} = \mathcal{L}_{\text{coarse\_neg}} + \mathcal{L}_{\text{fine\_neg}} + \mathcal{L}_{\text{other}}\]其中:
\[\mathcal{L}_{\text{pos}} = \min \|h_s + h_e - h_p\|\] \[\mathcal{L}_{\text{coarse\_neg}} = \max(0, \gamma_1 - \|h_s + h_e - h_{p'}\|), \quad \gamma_1 = 12\] \[\mathcal{L}_{\text{fine\_neg}} = \max(0, \gamma_2 - \|h_s + h_{e'} - h_p\|), \quad \gamma_2 = 3\]这里 $h_{p’}$ 是错误产物嵌入,$h_{e’}$ 是错误酶嵌入。粗粒度loss要求错误产物距离至少为12(换产物=换反应),细粒度loss要求错误酶距离至少为3(换酶=换催化剂)。
酶原型学习为每个酶类别(不是单个酶)学习一个代表性向量(原型)。
具体来说,原型初始化为同一类别内所有酶嵌入的均值,训练过程中通过动量方法(如指数移动平均)持续更新。在每次迭代中,编码器通过计算小批量内酶嵌入与对应原型的余弦相似度交叉熵来优化,使同类酶的嵌入更接近各自的原型。
这就像给每个酶类别建立了一个移动的标杆,即使同一个酶在不同反应中出现,模型也能通过原型识别出它们属于同一类别。消融实验显示,去掉原型学习后酶检索MAP从 $0.8202$ 降到 $0.8014$,说明原型学习对建立稳定的酶级表示特别重要。
方法:知识图谱引导的关系学习

图2:嵌入空间可视化。(A)ERAM 学到的酶表示的二维 T-SNE 投影;(B)预训练 ESM-2 酶表示的二维 T-SNE 投影。每个点代表一个酶的嵌入表示,随机选取 15 个酶类别用不同颜色高亮。(C)ERAM 学到的酶表示(灰色)与小分子表示(红色)的联合二维 T-SNE 投影。(D)酶表示的模长分布。(E)小分子表示的模长分布。
图2提供了关键的直观证据:ERAM 学到的表示比 ESM-2 更加语义紧凑和一致。原文这里先把训练集分子映射到 512 维潜在空间,再用 T-SNE 压到二维。对比图2A和图2B,随机高亮的 15 个酶类别在 ERAM 表示空间中形成了更清晰的聚类边界,同色点更集中;而在 ESM-2 表示空间里,这些类别更分散、重叠也更明显。原文据此的判断是:ERAM 在训练过程中学到了更紧凑、更一致的功能语义表示,而不只是保留了序列层面的相似性。
图2C更重要,因为它直接对应这篇方法设计的核心。酶和小分子被放进同一个共享表示空间里,但并没有混成一团:酶表示形成较紧的灰色聚类,小分子表示则更分散,并从外围包住这些酶簇。原文把这一现象解释为:模型确实把酶和小分子的功能差异编码进了表示里,因此两类对象在共享空间中呈现出可分但相关的结构。
图2真正想说明的是:双粒度对比学习把两类“错误”分成了不同尺度。单纯替换产物,会让反应在知识图谱三元组里出现更大的不匹配;替换酶,通常更多影响反应速率,而不一定立刻破坏可行性。沿着这条思路,原文进一步推断小分子表示的模长应该显著大于酶表示,图2D和图2E给出的分布正是对这一点的定量支持。
结果1:检索任务给出了最核心的证据

图3:涉及同分化合物的酶反应产物检索结果。
同分异构体(isomeric compounds)是酶反应检索中最具挑战性的场景——这些化合物分子式完全相同,仅在原子连接或空间排列上略有差异,传统化学描述符难以区分。图3展示了ERAM如何处理这类难题:通过反应物与酶的组合表示,在候选同分异构体中精确找到正确产物。图中的 distance 就是欧氏距离——底物与酶的组合嵌入到每个候选产物的距离,距离越小排名越前,正确产物距离最小、排在第一。
图3包含6个反应示例(A-F),覆盖EC1-EC6的酶类别(EC7转位酶的底物和产物相同,故不在此列)。例如图3A展示了Methionine-R-sulfoxide reductase催化的甲硫氨酸氧化反应,ERAM准确识别了手性变化;图3E展示了Phyllocladan-16-alpha-ol synthase催化的GGDP类型B环化反应,同样精确识别了产物。这些案例直观证明:ERAM学到的表示能够捕捉酶对同分异构体的精确选择性,而分子式相同不足以混淆模型的判断。
正文最重要的一句在摘要里:ERAM 的酶检索 MAP 相对 CREEP 提高了 28.31%。表1进一步给出了不同序列同一性测试集上的完整结果:
| 序列同一性范围 | 产物MRR | 产物Hit@1 | 酶MAP |
|---|---|---|---|
| 完整测试集(0–100%) | 0.9836 | 0.9701 | 0.8202 |
| 70–80% | 0.9980 | 0.9961 | 0.9684 |
| 60–70% | 0.9988 | 0.9980 | 0.9733 |
| 50–60% | 0.9982 | 0.9968 | 0.9752 |
| 40–50% | 0.9949 | 0.9898 | 0.9723 |
| 0–40% | 0.9952 | 0.9903 | 0.9770 |
序列同一性是指测试集中的酶序列与训练集中的酶序列的相似程度。用MMseqs聚类氨基酸序列后,将测试集分成5组:0-40%表示测试集与训练集差异最大(最远缘),70-80%表示相似度很高(接近训练数据)。
指标含义:MRR(平均倒数排名)衡量正确答案的平均排序位置;Hit@1是top-1准确率;MAP是平均精度均值。这三个指标都是越高越好。
这组结果有两个看点。第一,完整测试集上的产物检索已经非常强,MRR 和 Hit@1 分别达到 0.9836 和 0.9701。第二,低序列同一性子集并没有明显拖垮表现,作者据此认为 sequence identity 对模型影响较小。
更重要的是,论文按 EC 大类统计了酶检索 MAP,并与基线方法 Reactyme 和 CREEP 进行了全面对比:
| EC子集 | Reactyme MAP | CREEP MAP | ERAM MAP | ERAM提升(相对Reactyme) | ERAM提升(相对CREEP) |
|---|---|---|---|---|---|
| EC1(氧化还原酶) | 0.5688 | 0.7246 | 0.7874 | +38.44% | +8.65% |
| EC2(转移酶) | 0.7033 | 0.8089 | 0.8913 | +26.73% | +10.18% |
| EC3(水解酶) | 0.6747 | 0.7708 | 0.9465 | +40.31% | +22.80% |
| EC4(裂合酶) | 0.7388 | 0.7858 | 0.8102 | +9.68% | +3.11% |
| EC5(异构酶) | 0.7801 | 0.8037 | 0.8433 | +8.11% | +4.93% |
| EC6(连接酶) | 0.8627 | 0.8075 | 0.9513 | +10.28% | +17.82% |
| EC7(转位酶) | 0.7794 | 0.6866 | 0.9395 | +20.56% | +36.86% |
| w/o EC(无EC注释) | 0.4238 | 0.4992 | 0.8180 | +93.01% | +63.86% |
这张表格清晰地展示了三个关键结论:第一,ERAM在所有EC门类上都全面优于基线方法。第二,w/o EC子集的提升最为惊人——这对实际应用至关重要,因为真实世界中大量酶缺乏EC注释。第三,不同EC门类的难度差异明显:EC1和w/o EC最难(候选产物多样性高),EC3、EC6、EC7相对容易。

图4:Reactyme模型、CREEP和ERAM在酶检索任务中的性能比较。(A)不同序列同一性范围下的酶检索MAP,ERAM在低序列同一性(0-40%)时优势最明显,基线方法性能急剧下降。(B)不同EC门类下的酶检索MAP,ERAM在所有EC门类上全面优于基线方法。BCE表示使用二元交叉熵损失训练,Contra表示使用对比损失训练。这张图印证了表1和表2的定量结论。
结果2:底物预测验证了表示的可迁移性

图5:底物预测任务中的模型性能。这张图要回答的核心问题是:ERAM学到的表示是否真的理解了酶-底物相容性,还是只记住了训练数据中的相关性?为了检验这一点,论文设计了三种越来越严格的数据划分策略:(A-C)Nitrilase底物预测在随机划分、序列划分和底物划分下的ACC、ROC-AUC和MCC。(D-F)Aminotransferase底物预测在相同三种划分下的性能对比。ERAM在所有划分策略下都优于ESP方法,特别是在最严格的底物划分下优势更明显。
图5的关键发现是:ESP在底物划分下性能急剧下降,而ERAM下降相对平缓。这说明 ERAM 学到的不只是底物与酶的共现统计,而是更接近酶反应层面的催化相容性。
三种数据划分策略的难度递进,数据集划分比例为7:1:2(训练/验证/测试),三种策略统一用此比例,验证集同样按相应维度做了拆分:
- 随机划分(Random split):完全随机打乱,训练集和测试集可能包含相同酶的相似底物。这是最容易的设置,检验的是基本拟合能力。
- 序列划分(Sequence split):按酶的氨基酸序列划分,确保训练集和测试集的酶序列不同。这相当于见过这个酶的兄弟姐妹,但没见过这个酶本人,检验的是对新酶的泛化能力。
- 底物划分(Substrate split):按底物分子结构划分,确保训练集和测试集的底物结构不同。这是最难的设置,相当于完全没见过这类底物,检验的是对酶-底物相容性的深层理解。
注:关于底物划分具体怎么实现——骨架聚类、分子指纹相似度还是其他方式——论文正文里没有展开,这是方法描述里的一个空白。
这里要先说清:底物预测不是零样本读取。零样本是指模型在没有见过任何训练示例的情况下直接预测,但2.5.4节明确写到,底物预测阶段先用训练集对 ERAM 做了微调(fine-tune)——具体做法是让酶嵌入靠近正确底物、远离错误底物,然后根据验证集 MCC 确定距离阈值,再用这个阈值给测试集打标签。
所以论文标题里的任务无关,更准确的含义是:同一套预训练表示可以迁移到不同下游任务,而不是完全不训练直接预测。这两者是不同的——零样本要求模型在测试时没有任何相关监督信号,而 ERAM 在底物预测上仍然用了有监督微调。
| 数据集 | ERAM MCC | ESP MCC | 提升幅度 |
|---|---|---|---|
| Nitrilase | 0.712 | 0.525 | 35.53% |
| Aminotransferase | 0.689 | 0.560 | 22.97% |
因为主文这里更多是两个代表性数据集和百分比提升,还没有像检索任务那样给出成体系的子集分析和消融闭环。
结果3:注意力权重可以落到已知结合位点上

图6:ERAM在已注释酶上的结合位点注意力分布。左侧展示酶氨基酸序列的注意力分数可视化(序列logo),右侧显示UniProtKB中注释的酶结合位点;高注意力残基与已知结合位点高度一致。(A,B)磷酸核糖基转移酶(A1AXP4和B5BDQ2)。(C)腺苷酰硫酸激酶(A6KXG9)。(D)NAD激酶(Q49897)。
这段要验证的是:模型在没有额外使用结合位点标注训练分类器的情况下,高注意力区域能否对应到已知底物结合位点附近。四个例子的序列位置如下:
- A1AXP4(磷酸核糖基转移酶):高注意力分数集中在第124至132位(DDVITVGTA),对应5-磷酸-α-D-核糖1-二磷酸(PRPP)的结合位点
- B5BDQ2(同一家族):高注意力分数落在第88至96位(DDLVDTGGT),同样对应PRPP结合位点
- A6KXG9(腺苷酰硫酸激酶):高注意力分数集中在第34至41位(GLSGSGKS),对应ATP结合位点
- Q49897(NAD激酶):高注意力分数落在第204至209位(TAYAFS),对应NAD+结合位点
这些序列 logo 和 UniProtKB 标注高度吻合。更准确地说,这里没有额外使用结合位点监督信号:注意力来自酶编码器在反应表示学习中的内部权重分布,后处理时再把高注意力区域和已知位点标注对照。
ERAM 的酶编码器包含一个 transformer block,其中有 7 个注意力头。训练时这 7 个头没有预设的位点任务,学完之后自然关注序列的不同位置。训练完成后,论文在 PLIP 基准上逐一比较 7 个头的 Overlap 和 FPR,完整结果见附录(SI表S6)。Overlap(重叠分数)是注意力预测位点与真实结合位点的交并比,越高越好;FPR(假阳性率)是非结合残基被误标的比例,越低越好。
| 注意力头 | Overlap | FPR |
|---|---|---|
| Head 1 | 68.58% | 44.12% |
| Head 2 | 69.14% | 43.94% |
| Head 3 | 69.31% | 43.77% |
| Head 4 | 69.56% | 43.49% |
| Head 5 | 70.59% | 42.36% |
| Head 6 | 70.64% | 45.14% |
| Head 7 | 70.85% | 45.28% |
Head 7 的重叠分数最高,但 FPR 也最高;Head 5 只低了 0.26 个百分点的重叠分数,却把 FPR 压到所有头里最低。论文因此选择 Head 5 进入后续评估。放到 PLIP 基准里比较时,ERAM 的 Overlap 达到 70.59%,FPR 为 42.36%;相较 RXNAAMapper 和 Pfam-based 方法,它同时给出更高的重叠分数和更低的假阳性率。
结果4:对缺乏高质量注释的酶做位点预测

图7:A0A1D8PI71(角鲨烯合酶)的位点分析。A0A1D8PI71 属于甾醇合成途径(ergosterol biosynthesis pathway),参与该途径的后期步骤。由于没有晶体结构,文章先用 AlphaFold2 预测蛋白结构,再用 AutoDock Vina 与 NADP 对接,PyMOL 可视化结果。如图所示,高注意力残基落在结合口袋内;再用 BLAST 确认蛋白属于类异戊二烯生物合成酶家族,Y178、A183、V186、G187、L190、G216、L219、R226 等高注意力残基与该家族中经过实验验证的保守结合位点完全吻合。
结果5:小分子编码器也学到了反应位点

图8:小分子编码器注意力权重的可视化。模型将注意力分配到发生化学反应的活性位点以及参与反应的重要官能团上,说明小分子编码器也学到了与反应相关的化学知识。
酶编码器和高注意力残基对应,小分子编码器和反应位点对应,两者都说明 ERAM 学到的不是简单的序列相似性或分子相似性,而是更接近谁和谁发生催化作用、在哪些位置发生的表征。这篇论文虽然把任务无关写在标题里,但真正值得关注的地方其实是:同一套表示在多个层面都能读出化学和生物学结构。
结果6:消融实验告诉我们哪些设计最重要
论文的表3给出了最关键的一组消融结果:
| 方法 | 产物MRR | 产物Hit@1 | 酶MAP | 含义 |
|---|---|---|---|---|
| Margin-Fine | 0.9773 | 0.9655 | 0.8325 | 所有负样本统一用细粒度边界(小margin) |
| Margin-Coarse | 0.9669 | 0.9502 | 0.7525 | 所有负样本统一用粗粒度边界(大margin) |
| w/o Prototype | 0.9829 | 0.9696 | 0.8014 | 去掉原型学习模块 |
| Self-Attn | 0.9781 | 0.9593 | 0.6755 | 用自注意力替代交叉注意力 |
| ERAM | 0.9836 | 0.9701 | 0.8202 | 完整模型(双粒度+原型+交叉注意力) |
这张表有三处值得留意:
- 交叉注意力很关键:Self-Attn 的酶 MAP 只有 0.6755,明显低于 ERAM,说明底物信息注入酶编码器至关重要
- 原型学习主要拉高酶检索:原型学习为每个类别学习一个代表性向量。去掉原型后,产物检索变化不大,但酶 MAP 从 0.8202 降到 0.8014,说明原型学习对酶级表示特别重要,就像给每个酶建立了一个标准档案一样
- 双粒度学习的收益并不平均:ERAM 明显优于 Margin-Coarse,但与 Margin-Fine 非常接近,说明细粒度负样本已经能覆盖相当一部分收益
因此,更客观的说法是:双粒度设计至少避免了统一大边界带来的明显退化,但它相对 Margin-Fine 的额外收益主要体现在产物检索,酶检索上的优势没有被拉得很开。
这里其实藏着全文最值得追问的一点:如果只保留细粒度负样本,模型已经能拿到非常接近的结果,那么双粒度设计的额外价值究竟主要体现在哪些反应类型、哪些检索场景,论文还没有讲到完全闭环。
关键结论与批判性总结
和现有方法放在一起看,ERAM到底新在哪里
如果只看摘要,很容易把 ERAM 理解成又一个把蛋白和小分子拼在一起的模型。但把正文里的几个基线放在一起看,它的区别其实很清楚。CREEP 的重点是酶反应检索,ESP 的重点是底物预测,RXNAAMapper 的重点是无监督位点映射。
ERAM想做的,则是让这三件事共用同一套预训练表示。这也是为什么这篇论文真正有价值的地方,不只是几个百分点的提升,而是它提出了一种统一入口:先用酶反应级表示作为基础,再把不同任务当作不同读取方式,而不是为每个任务从头建一个模型。
这个想法有现实价值。因为在酶工程场景里,研究者通常不会只问一个问题,而是会连续地问:这个反应可能由哪些酶催化,这个酶可能接受哪些底物,真正起作用的位点又大概在哪里。如果这三件事都要切换模型,工作流会非常碎;如果它们能回到同一套表示空间,后续分析就会顺很多。
三个任务放在一起,ERAM到底证明了什么
如果把全文最重要的几组结果连起来看,ERAM真正证明的是下面这条证据链:检索任务证明统一表示本身确实有信息量,底物预测证明这套表示可以迁移到另一类判别任务,位点分析证明模型内部信号和真实功能区域存在对应关系。
检索任务是最直接的验证,因为它直接考察反应级嵌入空间是不是站得住;底物预测往前走了一步,证明这些表示能迁移到判别任务;位点分析再往前走一步,说明模型内部注意力并不是完全无生物学意义。这个逻辑总体是成立的,但证据强度并不完全对称:检索任务证据最强,底物预测次之,位点分析最需要后续实验补强。
这篇论文没有真正回答什么
- 最明显的一条边界来自数据筛选:出现少于 10 次的 EC 样本在建库前就被去掉了。这一步对训练稳定当然有帮助,但也意味着 ERAM 还没有直接回答极低频 EC 怎么办、训练时完全没见过的功能类别怎么办。
- 位点分析虽然已经很有启发性,但它解决的是模型内部信号是否能和已知功能区域对上,还没有解决这些高注意力残基是不是因果位点。如果后续能补几组突变实验,这一部分的说服力会立刻上一个台阶。而且是对接做的,不是真有结构(图6不知道怎么来的),而且只展示了特定例子,没有系统的Benchmark。
- ERAM把底物、酶和产物压进同一套表示空间,本身就默认了一个前提:很多酶反应可以被一个相对统一的三元组框架概括。对经典单酶反应,这个前提通常成立;但对多酶复合物、强依赖辅因子的体系或者更复杂的反应网络,这篇论文还没有展开。
- 论文本身也在结论里提到:将酶的结构信息纳入训练过程有望进一步提升表示质量,但目前模型依赖的是预训练嵌入,还没有利用结构层级的几何约束。
把本文放回实际工作流里看,它最适合扮演的角色不是终局预测器,而是一个统一的前端筛选器。研究者可以先用它做酶检索,再用同一套表示去筛底物兼容性,最后再把高分样本的注意力区域拿去辅助位点设计。这种定位有两个好处:信息在同一套表示空间里流动,不用在多个模型之间来回切换;就算后面仍然要接结构建模、分子对接或突变实验,前面的搜索空间也已经被明显压小。
还缺什么,才能把这篇论文再往前推一步
从正文和附录里能直接看出的缺口,主要有四类:
- 效率评估:主文没有报告训练时间、推理速度和显存占用,大模型在实际部署中的成本仍不清楚
- 长尾 EC 测试:当前数据筛选会压缩低频 EC,后续需要更直接地检验少样本或零样本能力
- 失败案例系统分析:文中提到多反应酶、层级分类和 R 基团等难点,但主文没有把错误模式拆开讲
- 实验验证闭环:位点分析如果能接上突变实验,解释力会明显更强
小编锐评:
- 侯老师他们还是画图不错的,也比较有chemical intuition,学习一下酶领域常见的任务和指标吧,定性的能用来注释的也算一类。
- 原来用ESM和UniMol,就算是一种“预训练过了”的感觉?后面的组合似乎也不复杂,cross-attention都是protein-ligand的常规操作了。还得是有真正的互作信息。但是这种也不是基于物理的,结合位点的片段或motif相似其实也是能抄的,attention找结合位点和原子能整对,也是ESM和UniMol和这类框架的共同贡献。其实生物研究里面也不那么要求全新的反应也能弄对。所以这个领域可能还是有一点提升空间的,尤其那个未知类别的。
- 反倒是能把已知可能结合位点(甚至文本描述信息)融入进去来预测构象是比较有意思的。
详细技术细节、完整子集结果和更精简的对照表请参见:附录