植物重金属解毒的分子防线：金属结合蛋白的保护机制

植物重金属解毒的分子防线：金属结合蛋白的保护机制本文信息标题：Uptake and toxicity of heavy metals: The protective frontiers of metal binding proteins 作者：Ravneet Kaur, Harleen Kaur, Ashish Sharma 发表期刊：Journal of Geochemical Exploration 发表时间：2025年（Volume 271, Article Number 107673） DOI：https://doi.org/10.1016/j.gexplo.2025.107673 单位：Department of Botany and Environment Science, DAV University, India 引用格式：Kaur, R., Kaur, H., & Sharma, A. (2025). Uptake and toxicity of heavy metals: The protective frontiers of metal binding proteins. Journal of Geochemical Exploration, 271, 107673. 摘要环境中多种污染物和有毒物质被释放到生态系统中的含量正呈惊人增长。在所有污染物中，重金属是特别令人关注的一类。这些污染物进入环境后，通过土壤进入植物系统。植物通过质外体-共质体连续体从土壤中吸收重金属。植物需要微量浓度的营养元素，但这些元素过量时会对植物产生毒性效应。重金属会导致植物叶片失绿、光合作用受损、脂质过氧化等毒性，最终导致植物生物量整体下降。过量浓度的重金属如铜、铬、镍在多种植物物种诱导形态和生理畸形。为响应重金属毒性产生的活性氧，植物激活多种防御机制。此外，多种金属结合蛋白如金属硫蛋白、植物螯合肽、谷胱甘肽等被激活。这些金属结合蛋白通过结合重金属并将其区隔化到液泡中来降低重金属的毒性效应。本综述将重点介绍植物对重金属的摄取机制、常见重金属在植物中引起的毒性，以及金属结合蛋白在螯合和区隔化重金属中的作用。核心结论重金属摄取的双重途径：植物通过质外体途径（细胞壁和胞间空间的被动扩散）和共质体途径（通过胞间连丝连接的细胞质连续体的主动转运）吸收土壤中的重金属，在凯氏带处必须进入共质体继续运输关键转运蛋白系统：ZIP家族（锌/铁摄取）、HMA家族（P型ATP酶重金属外排）和NRAMP家族（天然抵抗相关巨噬细胞蛋白）精确调控金属离子平衡，各自具有特异的底物识别和跨膜转运机制金属结合蛋白的分子防线：金属硫蛋白作为富含半胱氨酸的低分子量胞质蛋白，通过硫醇基团直接结合重金属；植物螯合肽作为从谷胱甘肽衍生的多肽，通过酶促合成响应重金属胁迫，形成PC-金属配合物并区隔化到液泡中协同保护网络：MTs和PCs形成功能互补的保护系统，MTs负责快速响应和胞质金属离子调控，PCs负责延迟响应和液泡区隔化，两者通过ROS信号、$\ce{Ca^2+}$信号和GSH代谢网络协同调控背景重金属污染已成为全球环境和食品安全的重大威胁。随着工业化和城市化的快速发展，采矿、工业排放、农业活动（污水灌溉、农药使用）和交通尾气等人为活动向环境中释放了大量重金属。与有机污染物不同，重金属具有不可破坏性和生物累积性——它们不会在环境中降解，而是沿着食物链传递和浓缩，最终威胁人类健康。重金属对植物的毒性主要通过三个机制实现：氧化应激（重金属诱导ROS爆发，导致脂质过氧化、蛋白质氧化和DNA损伤）、酶活性抑制（重金属离子与酶活性位点结合，取代必需金属辅因子）和结构损伤（影响细胞膜完整性、叶绿素合成和光合作用）。不同重金属的毒性特异性明显：Cd、Hg、Pb、Cr等非必需金属即使低浓度也极具毒性，而Cu、Zn、Mn等必需金属在过量时同样产生毒害。植物为了应对重金属胁迫，演化出了复杂的金属稳态调控网络。这包括精确的金属摄取和转运机制、高效的金属螯合系统、以及区隔化解毒策略。其中，金属结合蛋白是植物重金属解毒的核心组件，它们能够高亲和力地结合重金属离子，形成稳定的配合物，并将这些有毒物质区隔化到代谢非活跃的细胞区室（如液泡）中。当前研究的核心挑战在于：植物如何精确识别和区分必需金属和有毒金属？金属结合蛋白如何实现高选择性和高亲和力的金属配位？MTs和PCs系统如何在时空上协同调控以实现最优的重金属解毒？对这些问题的深入理解不仅有助于揭示植物抗逆性的分子机制，还为作物遗传改良和植物修复技术提供理论基础。关键科学问题本研究综述旨在回答以下核心问题：植物重金属摄取和转运的分子机制：质外体和共质体途径如何协同工作？关键转运蛋白家族（ZIP、HMA、NRAMP）如何实现金属离子的选择性识别和跨膜转运？金属结合蛋白的结构-功能关系：MTs的半胱氨酸富集结构域如何决定金属选择性？PCs的多肽长度可塑性如何影响螯合能力和金属特异性？ MTs和PCs的协同保护机制：两套系统如何在时空上分工协作？它们如何通过共享的信号通路（ROS、$\ce{Ca^2+}$、GSH）实现协调调控？区隔化解毒的分子基础：ABC转运蛋白如何识别不同的PC-金属配合物？液泡区隔化如何影响金属的生物毒性和再利用？植物重金属摄取与转运机制图1：环境中重金属的各种来源，包括自然来源（如岩石风化、火山活动）和人为来源（如工业排放、农业活动、污水灌溉等）。人为活动是环境中重金属污染最主要的危险来源。根系摄取的双重途径图2：植物细胞中重金属的摄取和转运机制。展示重金属通过质外体和共质体途径进入根系，通过特定的转运蛋白（如ZIP、HMA、NRAMP家族）跨膜转运，最终装载到木质部进行长途运输到地上部分。植物根系通过两条平行的途径吸收土壤中的重金属离子：质外体途径定义与过程：重金属通过细胞壁和胞间空间的被动扩散，金属离子首先结合到果胶-纤维素细胞壁，然后扩散至内皮层屏障机制：在凯氏带处被富含软木脂的不透水屏障阻断，迫使离子进入细胞共质体途径定义与机制：重金属通过胞间连丝连接的细胞质连续体的主动转运，依赖质膜负电位和特异性转运蛋白优势特点：可控性强，能选择性吸收必需金属，排除有毒金属关键转运蛋白家族植物利用多套转运蛋白系统精确调控金属离子平衡：转运蛋白家族主要功能底物特异性组织定位 ZIP家族锌/铁摄取 $\ce{Fe^2+}$、$\ce{Zn^2+}$、$\ce{Cd^2+}$、$\ce{Mn^2+}$ 质膜，含8个跨膜结构域和组氨酸富集金属结合域 HMA家族 P型ATP酶，重金属外排 $\ce{Cu^2+}$、$\ce{Zn^2+}$、$\ce{Cd^2+}$、$\ce{Pb^2+}$ 质膜（OsHMA2,5,9）和液泡膜（OsHMA3） NRAMP家族天然抵抗相关巨噬细胞蛋白 Zn、Fe、Mn、Cu、Al、Ni、Cd、Co、Pb 质膜，含羰基肽键金属结合位点转运蛋白的分子识别机制：ZIP转运蛋白通过组氨酸富集的金属结合域和极性残基形成跨膜结合位点，精确识别不同金属离子的电荷半径和配位几何。NRAMP转运蛋白的跨膜结构域VI中的羰基肽键，以及一个甲硫氨酸和两个天冬氨酸残基，构成了金属离子选择性结合的分子基础。韧皮部装载与长途运输重金属从根系向地上部的转运涉及复杂的生理过程：径向转运过程：金属离子通过共质体连续体的径向移动，从外皮层到达中柱木质部装载机制：在木质部薄壁细胞中，金属离子从共质体转移到木质部导管长途运输途径：溶解在木质部汁液中的金属复合物随蒸腾流向上运输到叶片卸载与分配过程：在叶片组织中，金属离子从木质部卸载，分配到不同细胞区室关键调控点包括：木质素沉积调节金属进出中柱的通量，液泡保留减少向地上部的金属流，以及螯合剂分泌促进金属的可移动性（如组氨酸、柠檬酸）。金属结合蛋白：植物解毒的分子防线图3：不同金属结合蛋白引起的金属结合、螯合和区隔化机制。展示MTs和PCs如何与重金属离子配位结合，形成稳定的配合物，并通过ABC转运蛋白将金属-配合物区隔化到液泡中，从而实现重金属解毒。金属硫蛋白（Metallothioneins, MTs）发现与基本特征 MTs于1957年首次在马肾脏皮质中发现，作为结合Cd的蛋白质被鉴定。随后研究表明，MTs是广泛存在于原核生物（如蓝细菌Synechococcus）和植物中的低分子量、富含半胱氨酸的胞质蛋白。结构分类与组织特异性植物MTs根据半胱氨酸残基排列分为四个类型，各有特异的组织分布： MT类型主要组织位置金属解毒特异性生理功能 MT1 根系和叶片细胞 Cd解毒根系金属胁迫响应 MT2 根系和叶片细胞 Cu、Zn解毒叶片金属稳态 MT3 叶片和果实多种金属胁迫生殖组织保护 MT4 成熟种子和胚性细胞 Zn解毒种子萌发和早期生长结构-功能关系的分子基础：MTs的金属结合域富含硫醇基团，能通过配位键与重金属离子形成稳定的配合物。这种软硬酸碱理论的完美匹配——软酸金属（$\ce{Cd^2+}$、$\ce{Hg^2+}$、$\ce{Pb^2+}$）优先结合软碱硫醇——解释了MTs对重金属的高亲和力和选择性。 MTs的诱导表达调控 MTs的转录调控受到多重信号网络控制：金属离子直接诱导：Cd、Zn、Hg、Cu、Au、Ag、Co、Ni、Bi等金属直接激活MT基因转录 ROS信号介导：重金属诱导的氧化应激通过ROS信号激活MTs表达，维持氧化还原稳态激素信号通路：胁迫激素（如脱落酸、茉莉酸）参与MTs的诱导表达发育程序控制：不同MT类型在发育阶段特异性表达，确保组织保护机制的关键创新：MTs不仅作为金属螯合剂，还作为抗氧化剂和信号转导分子。研究表明，MTs能直接清除自由基，并通过调节细胞内金属离子稳态影响依赖金属的酶活性和信号转导。植物螯合肽（Phytochelatins, PCs）结构特征与生物合成 PCs是从谷胱甘肽（GSH）酶促合成的富含半胱氨酸的多肽，具有通用结构（-Glu-Cys）n-Gly，其中n=2-11。其C末端的甘氨酸在不同植物中可被丙氨酸、丝氨酸、谷氨酰胺或谷氨酸取代。合成途径的分子机制 PCs的生物合成由Glu-Cys二肽转肽酶（PC合酶）催化：前体合成：GSH由谷氨酸-半胱氨酸连接酶和谷胱甘肽合酶两步合成酶促聚合：PC合酶催化GSH的γ-Glu-Cys键转移，延长肽链结构多样化：根据植物种类，C末端氨基酸可被替换，产生结构多样性 PC合酶的调控机制：PC合酶的活性受重金属离子直接激活，其中$\ce{Cd^2+}$是最有效的激活剂，其次是$\ce{Cu^2+}$、$\ce{Ag^+}$、$\ce{Hg^2+}$、$\ce{Pb^2+}$、$\ce{Zn^2+}$。这种金属依赖的激活确保了PCs只在需要时合成，避免不必要的代谢消耗。 PC-金属配合物的形成与区隔化 PCs与重金属形成两类配合物，具有不同的稳定性和毒性：配合物类型分子量特征稳定性毒性区隔化位置 LMW PC-Cd配合物低分子量，简单结构较低，可逆结合仍有毒性胞质，临时储存 HMW PC-CdS配合物高分子量，含酸不稳定硫化物高，不可逆结合低毒性液泡，长期储存 HMW PC-CdS配合物的形成机制：在酸不稳定硫化物（$\ce{S^2-}$）存在下，LMW PC-Cd配合物进一步聚合，形成更稳定的高分子量配合物。这一过程增加了金属螯合的稳定性，降低了金属的生物毒性。 PCs的转运与液泡区隔化 PC-金属配合物的区隔化涉及ATP依赖的主动转运：胞质螯合：PCs在胞质中结合重金属离子，形成低毒性的PC-金属配合物主动转运：通过ABC转运蛋白（ABCC类型），PC-金属配合物被逆浓度梯度泵入液泡液泡储存：在液泡的酸性环境中，PC-金属配合物进一步稳定化，实现长期隔离解毒完成：金属离子与细胞组分隔离，保护关键代谢过程免受金属毒性区隔化的生理意义：液泡区隔化不仅降低胞质中游离金属离子浓度，还为金属胁迫解除后的潜在再利用提供储存库。某些超积累植物能通过液泡区隔化积累异常高浓度的重金属而不表现毒性。 MTs与PCs的协同保护网络功能互补与分工协作 MTs和PCs在植物重金属解毒中形成功能互补的协同网络：金属选择性差异 MTs：主要解毒Cu、Zn、Cd，通过半胱氨酸硫醇基团配位 PCs：广谱螯合$\ce{Ag^+}$、$\ce{Hg^2+}$、$\ce{Pb^2+}$、$\ce{Zn^2+}$、$\ce{Cd^2+}$、$\ce{Cu^2+}$，通过肽链骨架和硫醇基团协同作用时间响应动态 MTs：快速响应（分钟到小时），通过预存mRNA和蛋白的快速激活 PCs：延迟响应（小时到天），需要从GSH重新合成空间分布特异性 MTs：组织特异性表达，不同MT类型在不同组织中优势表达 PCs：广泛分布，在几乎所有细胞类型中都可诱导分子机制的交叉调控 MTs和PCs系统通过多重信号通路相互协调：共同上游信号：ROS爆发和$\ce{Ca^2+}$信号同时激活MTs和PCs的表达共享抗氧化系统：GSH既是PCs的前体，也作为MTs的辅助抗氧化剂金属稳态平衡：MTs主要调控胞质金属离子浓度，PCs负责液泡区隔化胁迫记忆效应：首次金属胁迫诱导的MTs和PCs表达产生胁迫记忆，提高后续胁迫的耐受性协同网络的关键创新：MTs和PCs的协同不仅体现在功能互补上，还体现在代谢互作上。研究表明，GSH合成的调控同时影响PCs的可用性和MTs的氧化还原环境，形成统一的胁迫响应网络。关键结论与批判性总结优势：从分子识别到系统保护 1. 结构-功能关系的精妙设计 MTs和PCs的保护机制体现了分子层面的精密设计：MTs的半胱氨酸富集结构域提供高亲和力金属结合位点，PCs的多肽骨架长度可调性提供金属选择性的结构基础。这种结构可塑性使植物能应对多样的金属胁迫。 2. 诱导表达的能量经济学 MTs和PCs的金属依赖性诱导表达避免不必要的蛋白合成和能量消耗。只有在金属胁迫确实存在时，才启动解毒机器的合成。这种按需保护策略在资源受限的环境中具有明显的选择优势。 3. 跨物种保护的普适性 MTs从原核生物到人类的广泛分布，PCs在植物、真菌和某些藻类中的保守存在，表明这类保护机制具有进化起源的古老性和功能的普适性。不同谱系的生物趋同演化出相似的金属解毒策略，说明了这一机制的有效性。局限性与未来方向分子识别的特异性机制：MTs和PCs如何区分必需金属（Cu、Zn）和有毒金属（Cd、Hg），避免必需金属的过度螯合导致微量元素缺乏？区隔化的可逆性：液泡中的金属是否能在胁迫解除后重新动员供正常代谢使用？PC-金属配合物的稳定性是否阻碍这一过程？转运蛋白的分子机制：ABC转运蛋白如何识别不同的PC-金属配合物？是否存在配合物选择性和转运效率的权衡？作物改良的应用潜力：能否通过基因工程过表达MTs或PCs提高作物的重金属耐性？这对植物修复和食品安全有何意义？未来研究方向：需要更多结构生物学研究揭示MTs和PCs的金属结合位点原子细节，更多体内动态成像追踪金属-配合物在细胞内的实时分布，以及更多系统生物学建模整合金属稳态网络的复杂调控。

Specific Sytems · 2026-06-23

铁锰摇摆：超氧化物歧化酶如何通过氧化还原调谐改变金属偏好

Specific Sytems · 2026-05-19

SuperMetal：扩散生成模型以亚埃精度预测蛋白质金属离子结合位点，无需预知离子数

SuperMetal：扩散生成模型以亚埃精度预测蛋白质金属离子结合位点本文信息标题：SuperMetal：用于蛋白质中金属离子位置快速精确预测的生成式AI框架作者：Xiaobo Lin, Zhaoqian Su, Yunchao Lance Liu, Jingxian Liu, Xiaohan Kuang, Peter T. Cummings, Jesse Spencer-Smith, Jens Meiler 发表时间：2025年单位：Vanderbilt University Data Science Institute（美国），University Leipzig（德国）引用格式（不加粗）：Lin, X., Su, Z., Liu, Y. L., Liu, J., Kuang, X., Cummings, P. T., Spencer-Smith, J., & Meiler, J. (2025). SuperMetal: a generative AI framework for rapid and precise metal ion location prediction in proteins. Journal of Cheminformatics, 17, 107. https://doi.org/10.1186/s13321-025-01038-9 代码：GitHub - XiaoboLinin/SuperMetal 摘要金属离子是大量蛋白质中不可或缺的辅助因子，对酶活性和蛋白质相互作用至关重要。鉴于其关键作用和催化效率，准确、高效地识别金属结合位点对阐明其生物功能至关重要，并对蛋白质工程和药物发现具有重要意义。为应对这一挑战，本文提出了SuperMetal，一种利用基于得分的扩散模型与置信度模型相结合的生成式AI框架，能够高精度、高效率地预测蛋白质中的金属结合位点。以锌离子为例，SuperMetal优于现有最先进模型，实现了94%的精确率和90%的召回率，锌离子定位在实验确定位置的 $0.52 \pm 0.55$ Å范围内。SuperMetal展示了快速预测能力（约2000个残基的蛋白质不到10秒），且不受蛋白质规模增大的显著影响。值得注意的是，SuperMetal不需要关于金属离子数量的先验知识（不同于AlphaFold 3），且框架在原理上可扩展至其他金属离子或用作探针框架来识别其他类型的结合位点，如蛋白质结合口袋（但目前模型仅在锌离子数据上进行训练，因此适用范围仅限于锌离子）。核心结论在精确率-召回率曲线上，SuperMetal在相同召回率下始终优于Metal3D：100%精确率对应约70%召回率（Metal3D仅约30%）金属离子定位的MAD（平均绝对偏差）为 $0.52 \pm 0.55$ Å，中位数仅0.37 Å，且置信度越高的预测空间精度越好预测速度约2000个残基不到10秒，而Metal3D约需500秒（约快60倍），且运行时间不随蛋白质规模指数增长 Case study中对5IN2和6BTP两个蛋白均实现100%精确率和100%召回率，AlphaFold 3在未指定正确离子数时表现不稳定背景约三分之一的PDB蛋白质结构含有金属离子，锌离子尤为突出，约与10%的人类蛋白质结合。锌的生物学功能极为多样：参与超过300种酶的催化活性，横跨全部六大酶类——氧化还原酶（如酒精脱氢酶ADH）、转移酶（如RNA聚合酶）、水解酶（如碳酸酐酶CA）、裂合酶、异构酶和连接酶锌指蛋白作为转录因子，通过锌指结构域识别DNA序列，调控基因表达；XPA等DNA修复蛋白含锌结构域，参与核苷酸切除修复参与细胞增殖、细胞周期调控和细胞间通讯，锌依赖性蛋白在信号级联中发挥关键作用锌簇结构域作为结构支架稳定蛋白质折叠，许多锌指结构的稳定性依赖锌离子的存在锌稳态由两个家族的锌转运蛋白精密调控：ZIP家族（SLC39A）介导锌离子从细胞外或细胞器内流入细胞质，ZnT家族（SLC30A）介导锌离子从细胞质流向细胞外或细胞器内。锌稳态失调与多种疾病相关——锌缺乏可引发嗅觉味觉障碍、免疫功能紊乱和发育迟缓，锌过量则与神经退行性疾病（如阿尔茨海默病中的锌聚集）相关。从药物发现角度，精确定位金属结合位点是金属蛋白抑制剂设计的基础。许多重要药物靶点依赖锌离子发挥催化功能：碳酸酐酶（CA）用于青光眼治疗，其活性中心含锌离子基质金属蛋白酶（MMP）家族用于癌症转移抑制，锌离子位于催化结构域组蛋白去乙酰化酶（HDAC）用于癌症表观遗传治疗，抑制剂与锌离子直接结合靶向这些位点的抑制剂设计需要原子级别的精确坐标。例如，经典锌结合基团（ZBG）如异羟肟酸在HDAC抑制剂中发挥关键作用，其与锌离子的结合几何直接影响抑制剂的potency和selectivity。然而，通过湿实验直接确定金属结合位点成本高昂、耗时费力： X射线晶体学需要高质量的单晶，且可能因晶体堆积改变金属位点构象 NMR光谱虽能提供溶液态信息，但对大蛋白复杂且低灵敏度因此，计算预测方法成为理解金属依赖生物过程、支持蛋白质工程和药物设计的重要工具现有计算方法大致分为四类，各有优劣：方法类别代表工具优势局限模板法 MIB、MIB2 对已知模式精确难泛化到新颖结合位点序列法 M-Ionic 计算高效缺乏原子层面精细描述结构法 Metal3D、BioMetAll 亚埃精度、结构感知体素化带来计算瓶颈，旋转敏感物理法 QM/MM模拟理论精确计算开销过大，不适合常规设计 Metal3D是目前公认的最佳工具，能在亚埃精度下预测锌位置，但存在关键局限：体素网格的计算成本随分辨率呈三次方关系，提高分辨率带来急剧的开销需要对训练样本进行旋转数据增广来缓解对输入结构朝向的敏感性每个残基独立预测局部密度，无法充分利用全局蛋白质结构信息更重要的是，Metal3D需要为每个残基周围的16×16×16 Å3体素块预测金属密度，再进行全局聚类。这种局部预测加全局后处理的方式在蛋白质较大时计算开销急剧升高，且难以捕捉长程相互作用：提高分辨率（如从0.5 Å提升至0.25 Å）会带来8倍的计算量增长，而降低分辨率又可能损失定位精度每个残基的体素预测是独立进行的，无法充分利用远距离残基的协同作用相比之下，扩散模型近年在蛋白质设计、小分子对接（如DiffDock）等领域取得显著进展，其连续空间操作、SE(3)-等变框架和概率生成视角为金属离子预测提供了全新思路。现有方法面临三个核心瓶颈：第一，Metal3D的体素化方案使计算成本与分辨率呈三次方关系，2000个残基的蛋白质需要约500秒，在高通量场景下完全不可用，且随蛋白质越大性能差距越显著；第二，传统3D-CNN需要对训练样本进行旋转增广来降低过拟合风险，这增加训练成本，限制结构泛化能力；第三，AlphaFold 3在预测金属离子结合时需提前指定离子数量，而真实应用中这一信息通常未知，指定数量错误会导致预测质量急剧下降。创新点将金属离子位置的预测重新表述为生成建模问题，学习条件概率分布的得分函数，绕过直接估计配分函数的困难，并避免了VAE和GAN分别面临的近似最大似然和对抗训练不稳定等问题在连续的三维空间中操作，天然处理旋转和平移不变性，无需旋转数据增广，且支持全蛋白质结构的多尺度表示（粗粒化 + 全原子）独立训练一个置信度分类器，根据样本MAD是否小于5 Å判断候选位置质量，从而在精确率与召回率之间提供可调节的权衡通过DBSCAN聚类机制自动确定离子数量，比AlphaFold 3更贴近实际应用场景研究内容数据集与训练 SuperMetal使用ZincBind数据库，该数据库从RCSB PDB中提取了经过质量控制的锌结合位点，共包含19,154个非冗余位点（来自19,103个PDB文件）。质量控制标准包括：每个锌位点至少有两个配位残基和三个配位原子排除表面非功能性锌结合位点通过结构相似性和序列比对进行聚类，确保训练集中不包含高度相似的重复位点考虑蛋白质结构中的对称性单元，避免将生物组装中的对称重复位点误认为独立位点从中提取10,253个含一个或多个符合标准位点的PDB文件，超过3000个残基的结构被排除（这些超大蛋白质在生物体系中相对罕见）。数据集划分如下：数据集规模用途训练集约8,900个结构从剩余数据中随机采样验证集 1,000个结构超参数调优和早停测试集 350个结构涵盖Metal3D原始测试集及额外随机采样数据泄露防止：为确保公平对比，测试结构与SuperMetal和Metal3D训练集均不相似（基于结构相似性和序列同源性），避免了数据泄漏问题。训练硬件环境为Nvidia DGX A100，推理测试使用单CPU核心和一个Nvidia A100 40GB GPU。 SuperMetal的三阶段预测流程 SuperMetal的预测管线由三个核心模块串联组成： graph TB subgraph S1["1.几何图构建"] direction LR A["蛋白质3D结构\n（PDB）"] --> B["异构几何图\n（残基节点/原子节点/金属节点）"] end subgraph S2["2.扩散模型采样"] direction LR C["随机初始化\n100个候选金属位置"] --> D["反向SDE去噪\n（学习得分函数Sθ）"] --> E["候选金属\n位置集合"] end subgraph S3["3.置信度过滤与聚类"] direction LR F["SE(3)-等变GNN\n置信度评分"] --> G["阈值过滤\n（剔除低置信预测）"] --> H["DBSCAN聚类\n（ε=5 Å）"] --> I["最终预测位置\n（每簇取中心点）"] end S1 --> S2 --> S3 阶段一：蛋白质几何图构建将蛋白质结构表示为异构几何图，节点分为三类：残基节点（以 $\alpha$-碳为中心的粗粒化表示）、原子节点（全原子结构）和金属离子节点。边根据不同类型节点间的距离截断设置，且截断距离随扩散时间步骤动态变化——早期（$t$ 接近1，噪声大）用较大截断半径捕捉长程相互作用，后期（$t$ 接近0，噪声小）缩小截断半径聚焦局部精细结构，由此构建能感知局部原子环境和全局蛋白折叠拓扑的多尺度表示。节点特征使用ESMFold（Evolutionary Scale Modeling，蛋白质语言模型）的嵌入进行增强，以提供进化信息和序列上下文。阶段二：基于得分的扩散采样——SuperMetal的核心引擎正向扩散过程将真实金属离子位置逐步演化为高斯噪声，方差调度为 $\sigma(t) = \sigma_{\min}^{1-t} \cdot \sigma_{\max}^{t}$，正向SDE为： [\mathrm{d}\mathbf{x} = \sqrt{\dfrac{\mathrm{d}\sigma^2(t)}{\mathrm{d}t}}\, \mathrm{d}\mathbf{w}] 模型学习得分函数 $S_\theta(\mathbf{x}, \mathbf{y}, t) \approx \nabla_{\mathbf{x}} \log p_t(\Delta r \mathbf{y})$，即条件对数概率密度相对于金属位置的梯度，物理意义是金属离子从当前位置趋向有利位置所应移动的方向向量。得分函数的估计避免了直接计算概率分布的归一化常数（配分函数），这在连续高维空间中通常是难以处理的。训练目标为最小化预测得分与真实得分之间的 $L_2$ 距离期望值（得分匹配损失），期望值对训练数据中金属位置的真实分布求平均。 [L_\theta = \mathbb{E}{p(\mathbf{x})} \left[ \left| \nabla{\mathbf{x}} \log p_t(\Delta r \mathbf{y}) - S_\theta(\mathbf{x}, \mathbf{y}, t) \right|_2^2 \right]] 损失函数解释：这一设计避免了直接计算全局概率分布的归一化常数（配分函数），而是转为学习金属离子在特定时间步趋向真实结合口袋的“梯度场”。这种基于得分匹配的训练方式，在连续三维空间上比VAE的架构限制或GAN的对抗训练更加稳定。共训练400个epoch，使用Adam优化器，初始学习率为0.01并采用余弦退火调度至接近0，批量大小根据GPU内存调整（通常为8-32个蛋白质-金属复合物）。推理时，100个候选金属离子从标准正态分布随机初始化（$\mathbf{x} \sim \mathcal{N}(0, I)$），通过学习到的反向SDE迭代去噪： [\mathrm{d}\mathbf{x} = \left[ f(\mathbf{x}, t) - g^2(t) S_\theta(\mathbf{x}, \mathbf{y}, t) \right] \mathrm{d}t + g(t) \mathrm{d}\mathbf{w}] 其中漂移项 $f(\mathbf{x}, t) = 0$，故简化为纯得分匹配过程。数值实现采用欧拉-丸山方法，将连续时间SDE离散化： [\mathbf{x}{i+1} = \mathbf{x}_i + g^2(t_i) S\theta(\mathbf{x}_i, \mathbf{y}, t_i)\Delta t + g(t_i)\sqrt{\Delta t} \cdot \epsilon] 公式的通俗解释：去噪过程类似一个逐步“降温”的优化过程。100个初始随机分布的候选离子，由于漂移项设定为零，它们每一步都沿着网络预测的得分场“陡坡”向低谷（真实位点）移动，同时伴有轻微的噪声扰动；随着时间步推移，这些候选离子最终会收敛聚集成几个高置信度的位点簇。下图展示了扩散模型的理论基础：正向SDE将真实金属离子位置（左上）逐步扩散至随机位置（右上），通过神经网络预测各中间时间步的得分函数，再通过反向SDE从随机位置恢复到真实结合位点（从右到左的去噪过程）。图6：基于得分的生成扩散模型理论示意图。灰色蛋白质（上方）展示了金属离子原始位置周围的原子结构。正向连续时间SDE将真实金属离子位置（左上）演化至随机位置（右上），深度学习神经网络预测每个中间时间步的得分，使反向SDE过程（去噪）能够重建金属离子的有利位置。阶段三：置信度过滤与聚类阶段三包含两个独立训练的组件：置信度模型独立训练的SE(3)-等变分类器为每个候选位置输出标量置信度分数，预测该位置的MAD是否小于5 Å（通过交叉熵损失训练的二分类器）。训练数据生成方式为：对每个训练复合物，使用训练好的扩散模型采样多个候选金属位置，计算每个候选位置与真实金属位置的MAD。若MAD小于5 Å则标记为正类（“好”位置），否则标记为负类（“坏”位置）。5 Å的阈值选择基于经验——在金属结合位点预测中，5 Å通常被认为是可接受的精度范围，足以捕捉金属离子的正确结合位点而不过于宽松。 DBSCAN聚类低于设定阈值 p 的候选位置被过滤掉，剩余高置信度位置通过DBSCAN算法（$\varepsilon = 5$ Å，最小样本数为2）进行聚类，每个簇的质心即为最终预测的金属离子位置，由此自动确定离子数量。DBSCAN的参数选择基于以下考虑： $\varepsilon = 5$ Å：与置信度模型的MAD阈值保持一致，确保聚类时的空间尺度与质量判断标准一致最小样本数设为2：在扩散采样过程中，真实的金属结合位点通常会有多个候选位置聚集在其周围，单个孤立预测更可能是假阳性下图直观展示了这一推理过程：从时间 $t = T$（正态分布随机位置）出发，随着系统向 $t = 0$ 演化，候选金属离子逐步向生物学有意义的位置迁移，最终经置信度过滤和聚类得到精确预测。图S2：SuperMetal金属离子预测过程的可视化。从 $t = T$ 时刻正态分布随机初始化的金属离子位置出发（最左），随着反向扩散过程推进至 $t = 0$，候选金属离子逐渐向蛋白质内生物学有意义的结合位点聚集；最终通过置信度过滤和DBSCAN聚类得到最终预测位置。相较于补充材料中的可视化，正文图1通过具体的复合物结构，全景展示了扩散与聚类在真实蛋白质环境下的表现：图1：SuperMetal预测流程示意图。橙色球代表采样的候选锌离子，蓝色为蛋白质结构（示例来自PDB中的2J9R）。扩散过程从随机初始化的候选位置出发，通过反向去噪逐步收敛到金属结合位点附近。 SE(3)-等变表示与多尺度特征网络图S1：SuperMetal模型架构概览左侧（a）为嵌入与交互层：中心节点 $a$（黄色）与周围节点 $b$（蓝色）之间的消息传递，节点经ESMFold嵌入和正弦时间嵌入初始化；边特征由距离高斯平滑和扩散时间编码构成；操作符 $\otimes_w$ 表示 $SO(3)$ 不可约表示的球面张量积，路径系数 $w$ 由MLP计算右侧（b）为输出层：经过多轮交互更新的金属离子属性分别送入两条分支——扩散分支输出得分函数（用于反向去噪采样），置信度分支输出二分类标签（用于过滤低质量候选） SuperMetal架构（SI Figure S1）基于DiffDock的SE(3)-等变卷积网络改进而来，输入包括当前金属离子坐标 $\mathbf{x}$、蛋白质结构 $\mathbf{y}$ 和扩散时间 $t$，输出SE(3)-不变的预测向量。整体流程包含以下四个关键步骤：异构图构建：节点包含金属离子、蛋白质残基（以 $\alpha$-碳为中心）和蛋白质原子三类。边根据距离阈值构建，且阈值随扩散时间动态变化——早期（$t$ 接近1，噪声大）使用较大的截断半径以捕捉长程相互作用，后期（$t$ 接近0，噪声小）缩小截断半径以聚焦局部精细结构。金属离子之间的边被排除，因为金属-金属距离通常较大且非直接相互作用节点与边的特征编码：节点初始化时融合类别信息（残基类型、原子类型等）和ESMFold蛋白质语言模型嵌入（提供进化信息和序列上下文），再经正弦扩散时间嵌入增强后通过MLP映射为标量特征。边特征则对节点间距离做高斯平滑编码，同样拼接正弦时间嵌入后经MLP处理 SE(3)-等变消息传递：利用球谐函数 $Y(\hat{r}{ca})$ 表示边向量方向，通过不可约表示的球面张量积（$\otimes_w$）捕捉几何关系。权重 $\psi{ca}$ 由MLP根据边嵌入和节点标量特征计算，每个节点聚合来自邻近节点的消息并平均更新。这种设计确保模型对蛋白质的刚体旋转和平移操作保持等变性，无需数据增广即可天然处理任意朝向的输入结构多尺度层次交互：残基与金属离子间的交互按距离分为粗粒化（远距离，仅 $\alpha$-碳）和全原子（近距离）两个精度层。远距离时只用粗粒化表示，近距离才引入全原子结构，这种分层设计避免了构建“金属-全蛋白原子”的巨大完全图，大大减少了计算开销。经过多轮交互层迭代后，更新后的金属离子特征被送入最终层，输出扩散得分或置信度分类结果精确率-召回率分析 SuperMetal的核心优势：在更大召回率范围内维持更高精确率，两者不再像以往那样只能此消彼长。评估指标定义如下：若预测位置落在实验确定位点5 Å范围内则视为正确预测（真阳性，TP），精确率（Precision）$= \mathrm{TP}/(\mathrm{TP}+\mathrm{FP})$，召回率（Coverage）$= \mathrm{TP}/(\mathrm{TP}+\mathrm{FN})$。5 Å的距离阈值在金属结合位点预测领域被广泛采用，原因如下：金属-配体键长通常在2-3 Å范围（如锌-氮键约2.0 Å，锌-硫键约2.3 Å），5 Å的容差足以覆盖配位几何的微小变化 X射线晶体结构的分辨率通常在1.5-3.0 Å，原子坐标本身就有一定不确定性从药物设计角度看，5 Å精度已足够将抑制剂定位到金属结合位点的正确区域通过调节各模型的概率截断阈值（SuperMetal用置信度阈值 p，Metal3D用体素概率阈值 t），绘制精确率-召回率权衡曲线。在实际应用中，用户可根据需求调节阈值——若需最小化假阳性（如后续实验成本高昂），可提高阈值牺牲召回率；若需最大化发现潜在位点（如初步筛选），可降低阈值容忍更多假阳性。 Metal3D达到100%精确率时，召回率约30%；SuperMetal在相同精确率下，召回率约70%——几乎是Metal3D的两倍。在召回率77%时，SuperMetal保持近100%精确率，Metal3D已降至约93%；在召回率88%时，Metal3D精确率约84%，而SuperMetal约95%。这一差距说明SuperMetal在覆盖更多真实金属位点的同时，假阳性比例明显更低。图2：SuperMetal与Metal3D的精确率-召回率曲线。紫色线为SuperMetal，绿色线为Metal3D。曲线上标注了各自的概率截断值（SuperMetal用 p，Metal3D用 t）。空间定位精度位点预测的存在性判断之外，还需考察预测坐标是否足够准确。对真阳性预测计算MAD（平均绝对偏差）： [\text{MAD} = \dfrac{1}{n} \sum_{i=1}^{n} |\mathbf{x}_i - \hat{\mathbf{x}}_i|] SuperMetal在 $p = 0.1$ 时，MAD为 $0.61 \pm 0.66$ Å（中位数0.37 Å），随着阈值提高至 $p = 0.9$，MAD改善至 $0.44 \pm 0.58$ Å（中位数0.23 Å）。置信度越高，空间精度也越高，且MAD分布随阈值升高而收窄，说明置信度分数确实捕捉到了预测质量的真实差异。在 $p=0.999$ 时，中位数MAD降至0.23 Å，这意味着高置信度预测的金属离子位置与实验确定的坐标平均仅相差约四分之一埃，已接近晶体结构解析的典型精度极限。相比之下，Metal3D的MAD则随阈值升高反而增大（从0.36 Å升至0.87 Å），可能是高阈值下只保留了难以精确定位的非典型位点（如表面弱结合位点或部分占据位点），这些位点本身就是实验不确定性较大的区域。两种方法的置信度机制存在本质差异——SuperMetal的置信度与实际精度正相关，而Metal3D则相反。图3：SuperMetal与Metal3D在不同概率截断下MAD的小提琴图。紫色为SuperMetal，绿色为Metal3D。白色圆圈为中位数，黑色方框为四分位范围，须线延伸至1.5倍四分位距。SuperMetal的MAD分布随阈值升高而收窄，Metal3D则相反。计算速度两种方法都在单CPU核、相同GPU（Nvidia A100 40 GB）下对比测试。Metal3D的运行时间随蛋白质大小近指数级增长，2000个残基的蛋白质约需500秒；SuperMetal无论蛋白质大小始终在10秒以内，约快60倍。这种效率差距在更小的蛋白质上已存在（500残基时Metal3D约需100秒，SuperMetal约5秒），且随规模增大愈发显著。超高效率源于多尺度层次交互策略：金属离子距残基较远时只使用粗粒化表示（仅 $\alpha$-碳节点），近邻才引入全原子结构，避免构建巨大的全局图。这种分层设计确保了只有真正重要的局部原子-金属相互作用才被精细建模，大大减少了图中的节点和边数量。相比之下，Metal3D的体素化方案将复杂度与体素数量三次方挂钩，体素分辨率越高（如从0.5 Å提升至0.25 Å），计算量增加8倍，随蛋白质增大必然急剧升高。此外，SuperMetal支持将特别大的蛋白质分段预测再合并结果，使得原则上没有规模限制（前提是内存充足）。图4：SuperMetal与Metal3D计算时间随蛋白质规模变化的散点图。紫色虚线（SuperMetal）和绿色虚线（Metal3D）为多项式拟合趋势线，仅用于示意趋势方向。 Case Study：与AlphaFold 3的对比在两个含锌蛋白质上进行了三方对比：5IN2（来自Onchocerca volvulus的胞外Cu/Zn超氧化物歧化酶，含2个锌位点）和6BTP（骨形态发生蛋白1与羟肟酸抑制剂复合物，含2个锌位点）。 AlphaFold 3有一个特殊限制：必须提前指定输入锌离子的数量，而SuperMetal和Metal3D均无此要求。实验分别给AlphaFold 3输入1、2、6个锌离子（从左到右），结果汇总如下：方法 5IN2精确率 5IN2召回率 6BTP精确率 6BTP召回率 Metal3D 33% 50% 100% 50% SuperMetal 100% 100% 100% 100% AlphaFold 3（1个锌） 100% 50% 100% 50% AlphaFold 3（2个锌） 100% 100% 50% 50% AlphaFold 3（6个锌） 33% 100% 17% 50% SuperMetal在两个蛋白质上均实现100%精确率和100%召回率，证明了其在复杂场景下的鲁棒性。三个关键观察： AlphaFold 3的输入依赖性：结果高度依赖输入数量的准确性——输入数量正确时（5IN2给2个）可达100%/100%，但数量错误时精确率立即崩溃（6个锌输入时5IN2精确率降至33%） 6BTP的结构预测误差：即使给出正确数量，AlphaFold 3精确率也只有50%，说明还存在结构预测本身的误差（AlphaFold 3只能接受序列输入，无法直接使用已知PDB结构） Metal3D的局部预测局限：在5IN2上仅有33%精确率，明显不足。6BTP的case尤其有启发性：骨形态发生蛋白1（BMP1）属于虾shellin样金属蛋白酶家族，其锌结合位点位于催化结构域深处，周围环绕着多个二级结构单元——这种复杂的局部环境可能对基于局部体素密度预测的方法（如Metal3D）构成挑战，也说明端到端的结构预测+金属定位策略在复杂金属酶上仍有局限性。图5：5IN2和6BTP锌离子结合位点预测可视化对比。颜色编码：灰色为实验确定的锌离子，青色为Metal3D预测，橙色为SuperMetal预测，蓝色为AlphaFold 3预测。蛋白质结构以绿色（Metal3D/SuperMetal输入）和黄色（AlphaFold 3输入）显示。金属离子5 Å半径内的透明绿色区域高亮局部原子环境。从左至右，AlphaFold 3分别输入1、2、6个锌离子。关键结论与批判性总结性能优势：SuperMetal在精确率、召回率和MAD等指标上均优于Metal3D。高召回低假阳：在维持近100%精确率的同时，召回率几乎是Metal3D的两倍，能发掘更多有效位点。空间定位可靠：预测置信度越高，其空间定位误差（MAD）越小，克服了常规方法中置信度与精度脱节的问题。实用性与可扩展性：计算高效：分层的多尺度图表示避免了全原子图的巨大开销，大型蛋白的推理时间维持在10秒以内。无需先验条件：与AlphaFold 3必须指定预测几个离子不同，该框架不依赖金属离子数量的先验知识，更适合真实的靶点筛查任务。现存局限与挑战：类型限制：模型仅基于ZincBind数据库训练，对于变配位数和复杂氧化还原态的其他过渡金属（如铜、铁）仍需重新训练与验证。微环境缺失：目前仅考虑蛋白质提供的配位环境，未整合水分子、辅因子或RNA等要素，而这些在真实的酶催化中心往往十分关键。 Apo泛化性：从Holo（结合态）泛化至结构有变化的Apo（无结合态）蛋白，其表现仍需实验论证。未来方向：作者指出，基于相同的得分匹配逻辑和SE(3)-等变架构，该流程可以进一步扩展到水分子预测、蛋白质-配体口袋识别及大分子界面分析等其他结构生物学任务中。

Specific Sytems · 2026-04-20

MetalKB：用知识驱动图框架预测蛋白金属结合位点

MetalKB：用团检测和统计势定位蛋白中的金属结合位点本文信息标题：MetalKB：基于知识驱动图框架的蛋白金属结合位点预测作者：Xuejun Zhao, Hao Li, and Sheng-You Huang* 发表时间：2026年3月25日（论文接收）单位：华中科技大学物理学院，中国武汉引用格式：Zhao, X., Li, H., & Huang, S.-Y. MetalKB: Predicting Metal Binding Sites on Proteins with a Knowledge-Based Graph Framework. Journal of Chemical Information and Modeling (2026). https://doi.org/10.1021/acs.jcim.6c00453 代码与资源： GitHub：https://github.com/huang-laboratory/MetalKB/ 网页：http://huanglab.phys.hust.edu.cn/MetalKB/ Zenodo：https://doi.org/10.5281/zenodo.18999183 摘要金属离子在蛋白质的功能、调控和稳定性中发挥关键作用，因此，准确预测金属离子的结合位点，对于揭示相关生物过程的分子机制具有重要价值。本文提出了MetalKB，这是一种新的知识驱动框架，利用原子级统计势和图论策略来预测蛋白质上的金属离子结合位点。具体来说，先用clique检测算法识别可能的供体原子簇，并据此生成初始金属离子坐标；然后利用从蛋白—金属离子结合数据库推导得到的知识势，对这些候选坐标进行评估和局部细化；随后再通过空间距离阈值去除冗余预测。基于Metal3D和TEMSP提供的多样化基准数据集的评估表明，MetalKB在precision、recall和F1 score上与7种代表性方法相比具有有竞争力的表现，同时表现出较强的鲁棒性和参数稳定性。代表性结构案例进一步表明，MetalKB能够识别复杂的配位环境，包括多核金属位点和桥联金属位点。此外，它还能同时给出金属离子的三维坐标和残基级配位配体的预测。结果参数稳定性与阈值选择 MetalKB的结果评估做的是候选金属位点层面的判定：程序先输出一批预测金属坐标，再检查这些预测坐标是否命中了真实金属位点。在Metal3D这一类距离标准下，如果某个预测点距离真实金属坐标不超过5 Å，它就算 true positive；如果一个真实位点没有被任何预测点覆盖，就算 false negative；那些没有靠近任何真实位点的预测点，就是 false positive。precision表示保留下来的预测位点里有多少是真的，recall表示真实位点里有多少被程序找到了。图4：不同能量阈值下的precision–recall变化这里的能量阈值，指的是第一篇里定义的总能量分数阈值：MetalKB会把候选金属位点周围所有相关金属—原子对的混合势函数 $u_{ij}(r)$ 求和，得到一个总分，再经过平移和缩放后用于筛选预测位点这里扫描的是不同能量阈值对预测表现的影响。横轴是平移和缩放后的总能量绝对值，纵轴是precision与recall 数据来自从Ca、Zn、Mg、K统计数据集中各随机抽取的100个结构图4说明的是一个直接的权衡：能量阈值越严格，precision上升而recall下降。文中采用1.7作为折中阈值，因为此时precision已经明显提高，而recall仍保持在可接受范围内。这里的cutoff之所以数值越高反而越严格，是因为程序内部的原始总能量分数本来是负的，数值越低通常表示候选位点越合理。为了便于展示和设定阈值，本文把这些分数做了平移、缩放，并在后续分析里统一报告其绝对值。这样一来，图4横轴上的更大数值，本质上对应的是要求候选位点算出的能量更低，因此保留条件更严格。结果就是：假阳性会被压下去，precision上升；但一些能量优势不够明显的真实位点也会被一起滤掉，所以recall下降。这里还有两个容易忽略的限定条件： MetalKB研究的是金属—蛋白相互作用，因此知识势推导时并不处理小分子配体配位数小于3的特殊情况并不是这套方法的重点，所以结果解读时不能把它理解成对任意金属位点都同样适用的工具小编锐评：如果一个位点严重依赖小分子、辅因子或水分子参与配位，那么它本来就超出了MetalKB这套纯蛋白配位框架最擅长的范围，直接拿来做主比较并不完全公平。至于低配位位点，原文没有把它们直接归为错误数据，但Metal3D原始论文在做其他金属选择性分析时，明确只保留了至少3个独特蛋白配体且occupancy大于0.5的位点；而在锌测试集里，也另外剔除了一批独特蛋白配体少于2个且occupancy不高的位点。更稳的说法是：这类位点更容易受到结构解析质量、占有率和局部环境定义不充分的影响，也更容易给benchmark带来额外噪声。 Metal3D测试集评估 Metal3D来自2023年发表在 Nature Communications 的原始工作，是近几年很有代表性的结构型金属坐标定位方法。这里说的 Metal3D基准，主要指Metal3D原论文使用的锌测试集、其他金属选择性分析数据，以及统一的“距离真实金属5 Å 内算命中”判定标准。这套基准的价值在于来源清楚、评价标准统一、与Metal3D和PMM这类近期结构方法可以直接横向比较。所以这套基准更适合看“能不能把位点坐标准确放出来”，以及方法在多金属数据上能否保持泛化，残基级配体组成不是它的重点。具体到数据，锌测试集来自原始论文按 30% 序列一致性划分得到的测试集：共59个测试结构，对应189个锌位点。MetalKB为了和PMM的处理方式对齐，又手工去冗余，实际评估的是178个锌位点。多金属部分则对应Metal3D原论文中的其他金属选择性分析，包含11类生物相关金属：Ca2+、Mg2+、Na+、K+、Mn2+、Fe3+、Fe2+、Co2+、Ni2+、Cu2+、Zn2+。这一部分位点要求至少有3个unique蛋白残基配体，且occupancy大于0.5。图5：MetalKB在Metal3D测试集上的表现。图5把结果拆成了四个层面：总体precision、recall和F1，坐标误差分布，多金属类型上的横向比较，以及各金属的偏差统计。 (a) 比较MetalKB、Metal3D、PMM在不同阈值下的precision、recall、F1 (b) 给出MetalKB预测坐标的误差分布，其中灰色条表示受多核金属位点影响的预测 (c) 比较MetalKB（蓝色，energy threshold = 1.7）与Metal3D（橙色，p = 0.75）在11类金属上的性能 (d) 给出11类金属预测的偏差分布；图中负值代表相对参考位置的有符号偏差，不是负距离评估指标定义 Metal3D基准使用三个标准指标： Precision（精确率） = $\dfrac{\text{TP}}{\text{TP} + \text{FP}}$，预测为阳性的样本中真正为阳性的比例 Recall（召回率） = $\dfrac{\text{TP}}{\text{TP} + \text{FN}}$，真实阳性样本中被正确预测的比例 F1-score = $2 \times \dfrac{\text{Precision} \times \text{Recall}}{\text{Precision} + \text{Recall}}$，precision和recall的调和平均数 F1-score综合考虑了精确率和召回率，是两者之间的平衡指标。图5a展示了MetalKB在不同能量阈值下的性能变化。这里的 $p$ 是Metal3D和PMM输出预测位点时使用的概率阈值：只有概率分数高于这个阈值的位点才会被保留。阈值越高，保留下来的预测通常越保守，false positive更少，因此precision往往更高，但recall也更容易下降。为了便于横向比较，可以把MetalKB与两种对比方法的关键指标整理成下面这张对照表：方法参数值 Precision Recall F1 MetalKB threshold = 1.0 0.806 0.489 0.608 MetalKB threshold = 1.5 0.859 - 0.614 MetalKB threshold = 1.7 0.955 0.472 0.631 PMM p = 0.5 0.752 0.494 - PMM p = 0.75 0.901 0.410 0.563 Metal3D p = 0.5 - - 0.631 Metal3D p = 0.75 0.904 0.450 0.601 Metal3D p = 0.9 0.986 0.360 0.527 从这张对照表可以看出几个关键趋势：指标差别不大，MetalKB在不同阈值下维持了相对稳定的精确率—召回率折中。坐标误差怎么理解图5b还展示了空间定位精度。MetalKB(1.7) 的平均坐标误差是1.117 ± 1.567 Å，数值上高于Metal3D在p = 0.75时的0.710 ± 0.631 Å。但MetalKB的中位误差只有0.224 Å，反而优于Metal3D的0.508 Å。这与多核锌位点有关：因为两个真实锌离子本来就可能相距很近，误差统计容易被这些特殊案例显著影响。文中还特别指出，误差大于3 Å 的15个预测主要来自二核位点；如果把这些情况排除，MetalKB的平均误差会降到0.596 ± 1.025 Å。多数普通位点的坐标定位已经很准，均值主要受少数多核难例影响。多金属测试集的结果 Metal3D的这组多金属测试数据包含11类金属：Ca2+、Mg2+、Na+、K+、Mn2+、Fe3+、Fe2+、Co2+、Ni2+、Cu2+、Zn2+。这组位点都至少有3个独特蛋白配体，且占有率大于0.5。图5c显示，MetalKB在大多数金属类型上优于Metal3D，尤其是Zn2+、Ca2+和Fe3+。而Metal3D在Na+、K+、Mg2+这些非过渡金属上的表现较差，这和它的训练集主要面向锌有关。图5d里，MetalKB在11类金属上的中位预测误差约为0.3 Å，也就是一半以上预测已经非常接近实验坐标。更细的各金属误差统计见表S1。表S1：各金属的误差分布。表S1把图5d中的分布进一步量化成平均误差和中位误差。这里摘出MetalKB在阈值1.7下的几类代表性金属：金属平均误差（Å）中位数误差（Å） Zn 0.425 ± 0.884 0.174 Ca 0.314 ± 0.526 0.178 Ni 0.371 ± 0.267 0.304 Cu 0.362 ± 0.424 0.254 K 0.407 ± 0.608 0.253 这说明MetalKB不局限于锌体系，在 Ca、Ni、Cu、K 等金属上也能给出相当靠近实验位置的预测坐标。 TEMSP测试集评估 TEMSP全称是 3D Template-based Metal Site Prediction，来自2011年发表于 Bioinformatics 的工作。该方法把已知锌位点拆成残基对模板，再用Cα/Cβ的相对几何去匹配目标蛋白中的候选残基，因此这套基准更适合检验配位残基组成是否预测正确。测试集构成本文使用的TEMSP测试集包含100个蛋白结构和136个实验验证的锌位点。TEMSP原始论文详细说明了构建流程：从含锌PDB结构中下载并过滤数据，按同源关系分组并提取代表性链，再随机拆成训练集和独立测试集。独立测试集中的蛋白及其同源序列贡献的模板都从模板库中移除，因此测试集既独立于训练阶段，也独立于模板库本身。 TEMSP测试集只针对锌位点，不承担多金属泛化评估。评估指标：IoUR TEMSP判断预测配位残基集合与真实配位残基集合的重叠程度。TEMSP原始论文强调，宽松的TP定义容易把”只猜对一部分配体”的结果也算作成功，因此它更看重尽可能多地猜对真实配位残基，同时尽量少报错残基。文中使用的指标是 IoUR（Intersection over Union of Residues，残基层面的交并比）： [\mathrm{IoUR} = \frac{N\left(\text{预测配位残基} \cap \text{真实配位残基}\right)} {N\left(\text{预测配位残基} \cup \text{真实配位残基}\right)}] 分子是预测集合和真实集合的交集大小，分母是两者并集大小。这个比值同时惩罚漏掉真实配体和多报无关残基。当 $\mathrm{IoUR} \ge 0.5$ 时，预测位点才算 true positive；当 $\mathrm{IoUR} = 1$ 时，表示预测残基集合和真实集合完全重合。结果图6：在TEMSP上的比较。图6给出六种方法在残基级位点识别上的precision、recall和F1，并同时标出可用方法的平均坐标偏差。柱状图展示precision、recall、F1 折线显示平均坐标偏差，单位是 Å。CHED和ZincBindDB不输出显式三维坐标，所以图里没有它们的平均坐标偏差表2：TEMSP上的关键数值方法 TP FN FP Precision Recall F1 坐标偏差（Å） MetalKB 133 3 6 0.957 0.978 0.967 0.262 PMM 134 2 21 0.865 0.985 0.921 0.237 TEMSP 117 19 5 0.959 0.860 0.907 0.380 CHED 112 24 11 0.911 0.824 0.865 — GRE4Zn 101 35 5 0.953 0.743 0.835 0.267 ZincBindDB 115 21 273 0.296 0.846 0.439 — TEMSP 是2011年的残基对模板方法，偏重锌位点模板匹配；PMM 是2025年发表的 PinMyMetal，面向过渡金属，先用几何规则筛候选，再结合化学和局部环境特征打分，并继续预测最可能的金属类型。表2可以直接拆成下面几点： MetalKB的 F1 = 0.967，是表2里最高的一项。虽然它的recall 0.978略低于PMM的0.985，但precision 0.957明显高于PMM的0.865 TEMSP和GRE4Zn的高precision、低recall 组合意味着它们对false positive的控制更严格，但漏检风险也更高 ZincBindDB的主要问题是 273个false positives，这直接使precision降到0.296 在坐标偏差上，MetalKB的0.262 Å 虽略高于PMM的0.237 Å，但仍然处在非常小的误差量级内图4–图6之间的precision/recall差异，与测试集组成有关。图4和图5a所用数据里包含一些配位数少于3的位点，而图5c和图6代表的是更典型、更规范的配位环境，因此这些数字不能直接横向混为一谈。复杂配位环境的案例图7：多核与桥联锌位点的代表性案例。图7展示的是共享配体、近距离双核以及多位点并存这些更难的场景。 (a) 乳酸杆菌二核锌氨肽酶PepV (b) 人源H3K9 histone lysine methyltransferase (c) RAG1 dimerization domain (d) RAG1 dimerization domain中的二核锌簇图中金色球是实验结构中的金属位置，红色球是MetalKB预测的位置案例1：PepV的双锌活性位点 PepV是桥联双金属的典型例子。Zn2由His87、Asp119、Asp177配位，Zn1由His439、Asp119、Glu154配位，其中 Asp119是桥联配体，连接两个锌离子，两个金属之间距离约3.8 Å。MetalKB不仅找到了两个锌的位置，还正确识别了共享配体Asp119。平均金属—金属距离误差小于0.18 Å。案例2：H3K9甲基转移酶中的多个锌位点在这个结构里，锌分布于Pre-SET和Post-SET区域。Pre-SET区域有3个锌，由9个保守半胱氨酸围成三角形锌簇；Post-SET区域还有一个四面体配位锌位点。MetalKB对这些位点都能正确定位，说明它不仅能识别单个锌位点，也能处理同一蛋白中的多个不同锌位点。案例3：RAG1的复杂锌配位环境 RAG1二聚化结构域里同时包含典型单核C3H型RING finger、C2H2型zinc finger，以及一个由Zn2Cys5His2组成的双核锌簇。在后者中，Cys293是桥联配体，另外还有Cys266、His270、His295等参与配位。MetalKB能把这些空间关系和共享配体关系一起识别出来，这恰好体现了clique建模比简单局部打分更适合处理复杂多中心位点。图S3：非锌体系的补充案例 SI里又补了4个非锌实例，分别是： (a) 多铜氧化酶laccase（PDB：1GYC），展示催化中心的三核铜簇。 (b) Klebsiella aerogenes 的镍依赖脲酶（PDB：2KAU），展示双核Ni2+活性位点。 (c) protein kinase C的Ca2+-bound C2 domain（PDB：1A25），展示空间上相邻的多个Ca2+。 (d) 钾通道KcsA（PDB：1K4C），展示选择性滤过器中的4个K+。这些补充图说明，MetalKB对 Cu、Ni、Ca、K 等体系也有一定可迁移性。图S2：知识势能否区分金属类型 SI里专门做了一个cross-metal prediction analysis。图里的四个panel分别固定了四类真实位点：(a) 是 Zn位点，横轴比较ZN / MG / CA三种知识势；(b) 是 Ca位点，横轴比较CA / MG / K；(c) 是 Mg位点，横轴比较MG / CA / K；(d) 是 K位点，横轴比较K / CA / MG。a/b/c/d对应的是四类真实金属位点各自做的一次交叉测试。这里确实存在交叉预测：每个panel都先固定一类真实金属位点，再把同一批真实位点分别交给不同金属类型对应的知识势去做完整预测。图里的横轴表示“这次预测时使用的是哪一种金属特异性知识势”，分布本身统计的是那些 true positive预测点到真实金属位置的空间偏差。图S2比较的是同一个真实位点在换用不同金属势之后，预测坐标的变化。图S2显示，正确金属类型对应的知识势通常会给出更集中、偏差更小的坐标分布。做这种交叉，是为了检验 MetalKB的能量函数里有没有金属类型信息。如果正确金属类型对应的知识势总能给出更集中、更小的偏差分布，就说明这套势函数对“这个位点更像哪一类金属环境”确实有一定分辨力。SI里还补了两个限定条件：所有预测都统一使用1.7这个阈值，而且只展示TP数量不少于真实位点数5%的情况，避免极少数偶然命中把分布画得失真。小编锐评：这张图更像是在测试金属环境能否粗略区分。如果两个金属的供体组成和配位几何本来就很接近，那么它们对应的最低能区域本来就可能相似，交叉之后结果接近并不奇怪。关键结论与批判性总结这篇工作的主要贡献方法层面，MetalKB给出了一种组合路线：几何上先用 clique采样，化学上再用金属特异性统计势做筛选和细化。结果层面，它在Metal3D与TEMSP两个风格不同的基准上都拿到了有竞争力的结果，尤其在TEMSP上拿到最高F1，说明残基级预测也做得不错。应用层面，它输出的是金属三维坐标加配位残基，因此更方便后续结构解释、对接和建模。案例层面，PepV、H3K9甲基转移酶、RAG1等例子说明，这套方法对多核和桥联位点具有实际处理能力。方法的优势实验结构统计驱动的势函数：物理含义比纯黑箱模型更直观。对Ca、Mg、K和多种过渡金属的泛化性：不只局限于锌体系。对桥联和双齿配位的敏感性：羧酸虚拟节点和clique建模更容易识别复杂配位模式。能量阈值扫描下的稳定性：至少在文中给出的范围内，表现没有剧烈震荡。局限性与仍待解决的问题金属类型需要用户预先指定。当前势函数只能提供有限的金属类型区分能力。小分子配体和配位数低于3的位点处理不足。这意味着某些依赖水分子、辅因子或非蛋白配体的位点可能不在它的强项范围内。统计势主要编码几何与距离偏好，还没有显式纳入更细的电子结构因素，所以在精细区分相近金属时仍有瓶颈。对输入结构质量有依赖。本文所有评估都基于含金属的实验结构（MESPEUS数据库中分辨率 ≤ 2.5 Å 的X射线晶体学或冷冻电镜结构），MetalKB在这些holo形式的结构上表现优异。但方法严重依赖供体原子的精确空间位置，如果侧链构象本身不可靠（例如His的咪唑环rotamer错误、Asp/Glu羧基取向偏离、Cys的SG原子位置不准），候选供体图的质量就会显著下降。小编锐评： MetalKB依赖两个关键的信号：供体原子的空间组合关系和金属—原子相互作用的统计偏好。这些使得它相比于biometall考虑的更多，但是其实并没有对比它俩。思路不复杂，就是能发出来，也挺好。说明physics还是稍微有点用的。尤其在金属种类精细判别、低配位位点以及含非蛋白配体体系方面，这个框架还有明显改进空间。这些本应该是physics-based方法的优势所在。是否能把势能精确到QM层级，是未来的发展方向。当然了，没有动力学的话，还是无法从头找，面对一个很新的蛋白就可能束手无策。当然可以接入流程了。难点在于侧链预组织，拿一个metal-free的（比如AF3预测的）protein能不能还是准确，是个问题。实际使用 MetalKB的命令行接口： MetalKB protein_PDB_file Metal_Type Energy_Cutoff # 例如： MetalKB example/1DVP.pdb ZN -1.7 程序会输出两个文件： out.pdb：预测金属坐标及其能量分数 out.dat：对应的配位残基信息

Specific Sytems · 2026-04-03

MetalKB：用知识驱动图框架预测蛋白金属结合位点

Specific Sytems · 2026-04-02

破解金属蛋白相互作用密码：新型12-6-4力场参数精准模拟金属-咪唑复合物

破解金属蛋白相互作用密码：新型12-6-4力场参数精准模拟金属-咪唑复合物本文信息标题：模拟金属-咪唑复合物 (Simulating Metal-Imidazole Complexes) 作者：Zhen Li, Subhamoy Bhowmik, Luca Sagresti, Giuseppe Brancato, Madelyn Smith, David E. Benson, Pengfei Li, Kenneth M. Merz, Jr.* 发表时间：2024年7月31日单位：密歇根州立大学（美国）、比萨高等师范学校（意大利）、洛约拉大学芝加哥分校（美国）、卡尔文大学（美国）引用格式：Li, Z., Bhowmik, S., Sagresti, L., Brancato, G., Smith, M., Benson, D. E., Li, P., & Merz, K. M., Jr. (2024). Simulating Metal-Imidazole Complexes. Journal of Chemical Theory and Computation, 20, 6706-6716. https://doi.org/10.1021/acs.jctc.4c00581 摘要金属蛋白中最常见的配位模式之一是金属离子与组氨酸咪唑侧链的相互作用。虽然之前建立的咪唑-M(II)参数通过简单调节配位原子的极化率，展示了12-6-4 Lennard-Jones(LJ)型非键模型的灵活性和可靠性，但这些参数尚未应用于多咪唑复合物体系。为了填补这一空白，我们系统地模拟了五种在金属蛋白中常见的金属离子（Co(II)、Cu(II)、Mn(II)、Ni(II)和Zn(II)）与多个咪唑分子（1-6个）形成的复合物。通过大量采样（每个PMF窗口40 ns）构建自由能关联谱（使用OPC水模型和AMBER标准HID咪唑电荷模型），并与DFT计算的平衡距离进行比较，开发了一套新的参数集，专注于多咪唑复合物的能量和几何特征。获得的自由能谱与实验结合自由能和DFT计算距离一致。为了验证我们的模型，我们展示了可以封闭第一溶剂化壳层中含有多达六个咪唑分子的金属-咪唑复合物的热力学循环。背景金属离子在蛋白质中发挥着至关重要的作用，维持着从呼吸过程到蛋白水解等细菌、植物和动物的基本功能。特定金属离子的缺失可能导致致命的缺陷，如癌变、严重营养不良，最终导致死亡。超过25%的蛋白质含有金属离子，这些离子可以发挥结构或催化作用，并且是设计新型药物制剂的靶标。为了克服这一挑战，开发了12-6-4 LJ模型，通过添加C4项来解释离子诱导偶极相互作用。离子诱导偶极相互作用与r^-4成正比，其中r是两个粒子之间的距离。研究发现，12-6-4模型可以成功地同时重现各种金属离子在不同水模型中的实验HFE和IOD。关键科学问题如何开发一套可靠的力场参数来准确描述金属离子与多个咪唑配体之间的相互作用？现有的咪唑-金属参数主要针对单个咪唑分子进行优化，当体系中存在多个咪唑配体时，这些参数的准确性和可移植性仍存在疑问。创新点扩展采样策略：首次采用每个PMF窗口40 ns的大量采样，相比传统的4 ns采样，能够捕获到关键的π-堆积中间态多咪唑体系参数化：系统地开发了适用于1-6个咪唑分子配位的金属离子力场参数热力学循环验证：通过封闭热力学循环验证参数的自洽性和可靠性发现阳离子-π堆积效应：首次在PMF计算中观察到金属离子与咪唑分子的阳离子-π堆积构象核心方法：12-6-4势函数模型本研究使用12-6-4非键模型结合AMBER力场： [U(r_{ij}) = \frac{C_{12}}{r_{ij}^{12}} - \frac{C_6}{r_{ij}^6} - \frac{C_4}{r_{ij}^4} + \frac{eQ_iQ_j}{r_{ij}}] 这个公式描述了金属离子与配体原子之间的相互作用能。第一项代表短程排斥，第二项是范德华吸引，关键的第三项捕获了离子诱导偶极相互作用，最后一项是标准的库仑静电相互作用。主要结果通过扩展采样参数化，成功开发了11种金属离子（Ag(I)、Ca(II)、Cd(II)、Co(II)、Cu(I)、Cu(II)、Fe(II)、Mg(II)、Mn(II)、Ni(II)、Zn(II)）的新力场参数，能够准确重现实验结合自由能，热力学循环平均绝对误差仅为0.61 kcal/mol。

Specific Sytems · 2025-10-07

Mendelevium

Contact

Metal