Mendelevium
Diary
Drug Design
Field Knowledge
Academia
Yang
Biology
Physics
Free Energy
Machine Learning & AI
Active Learning
Basics
Boltz-2
Data
Generation
Interpretability
QSAR application
Representations
Mol2Image
Workflow & Agent
Molecular Dynamics
FF & Algorithm
Small Molecule
martini
water
Interaction
Modeling & Tools
QM
Sampling & Analysis
Allostery
Fundamental
Other
Specific Sytems
Enzyme Engineering
Fiber & LLPS
Membrane
orientation_penetration
Metal
Nano Polymers
Skin Permeation
Techniques
Linux
Python
Research
Web
about
Home
Contact
Copyright © 2025 Xufan Gao | Academic Research Blog
Home
> Other
A Bunch of Biophysics is Loading ...
Other
会议摄影怎么拍得稳妥、正式又不翻车
会议摄影怎么拍得稳妥、正式又不翻车 整理自2026.3.27新媒体培训的录音 会议摄影最难的地方,往往不是按下快门,而是在有限时间里把最该交代的内容拍对。整理这份培训记录时,我最大的感受是:它讲的不是“怎么拍得花”,而是怎么拍得稳、拍得正式、拍完能直接用。 会议摄影最核心的目标,其实很朴素:把层级关系、现场状态和关键环节交代清楚。好看的照片当然加分,但首先得能用、能发、符合新闻逻辑。 先记住一个总原则:会议摄影拍的是“秩序” 很多人刚拍会议,最容易把注意力放在“谁拍得更大、更近、更清楚”上。但新闻照片不是人像写真,也不是随手记录。会议摄影更看重的是主次关系、场景完整性和版面规范。 转录里反复强调的一点,我觉得特别值得提前记住:不是所有参会者都要有特写,也不是所有领导都应该被拍成同样大的画面。学校新闻网一般只放主要领导的重点照片,到了学院层面,也可以参照这个逻辑,适当降一级,但仍然要有明确主次。 如果你把主要领导拍成远景,把副职领导或者相对次要的嘉宾拍成大半身特写,从新闻规范上看就会有点“失衡”。这不是拍得清不清楚的问题,而是画面传递出的信息顺序不对。 落到院系层面,一个很实操的判断标准是:院长、书记通常可以有特写,其他副职领导一般不必单独给大特写。如果发言嘉宾确实很重要,可以补图,但数量和版面权重通常也不应超过两个主要领导。 原培训里还有一个很细、但很实用的判断:学校新闻网的放图逻辑,本身就可以当参照系。到了学院层面,完全可以对标学校的标准,必要时再往下放一到两级,但不要自己把层级打乱。新闻图一旦主次失衡,读者哪怕说不出来,也会觉得哪里不对。 所以出发前,最好先把三件事想清楚: 先分清最重要的领导是谁。哪些人必须重点交代,哪些人只需要在全景或环节图里出现;这一点如果前面没想清楚,现场很容易拍成“谁都拍了,但主位没拍好”。 再分清最重要的嘉宾是谁。如果有重磅发言人、签约嘉宾、揭牌嘉宾,他们的镜头权重通常高于一般参会者,后面补图时也应该优先围绕这些人展开。 最后列出必须留下图的关键环节。例如揭牌、签约、颁奖、赠书、合影、领导讲话、嘉宾发言、现场互动等;心里先有清单,现场就不容易漏。 拍会议,最好的时机通常不是中间,而是刚开始 很多会议开到中段以后,现场状态会明显松掉。有人开始看手机,有人盯电脑,有人离场,有的主背景也会切换成各种 PPT 页面。这时候你再去补全景,经常会发现人少了、背景乱了、场子不够“大气”了。 所以这份培训里很强调一个经验:会议开场阶段往往是全场状态最好的时刻。 领导和嘉宾刚入场时,大家通常精神状态还比较好。 掌声、入座、开场主持这些瞬间,画面更整齐,也更有仪式感。 主背景通常还是活动主视觉,而不是后面五花八门的演示文稿。 人员最齐,后排不会那么早空掉,拍全景更容易体现规模感。 如果有条件,主持稿里甚至可以预留一个小提醒。例如嘉宾入座后,主持人先请大家坐好,现场短暂停顿一下,让摄影有机会抓到一张状态整齐的开场图。这不是“摆拍”,而是在不破坏流程的前提下,给摄影留出一个最干净的时间点。 如果你只能抓住一个时间窗口优先拍全景,那就优先开场。很多会议最后用的主图,往往就是开场那一轮里选出来的。 机位不要偷懒,四角、中轴、对角线都要走 会议摄影不是站定一个位置一直拍。更稳的做法是:固定几个基础机位,多走、多拍,最后再回去选。 常用的几个位置包括: 四个角落要走一遍。角落位适合交代会场整体结构,也更容易把第一排领导、台上背景和会场纵深一起带进去。 中轴线要拍一张标准图。中轴线适合拍方方正正、庄重正式的主会场画面,很多单位发布新闻时都会优先用这种规整的全景。 对角线要补一组灵活图。对角线常常比正中间更灵活,既能带出层次,也能避免某些座位遮挡,尤其适合会场结构复杂、主位容易被挡的时候。 如果是普通长方形会场,中轴位往往比较适合拍一张“标准全景”。但如果现场存在遮挡,例如中轴线上正好有人头挡住主位,或者前排椅背太高,导致关键领导被遮住,那就不要死守中轴。新闻图优先保证的是关键人物能看见,而不是机位看上去最“标准”。 有些会场是半包围、回字形或者会议桌对坐布局。这样的场地如果硬拍正中,画面容易变成一排脑袋,既不好看,也不利于交代主位关系。培训里提到,这类会场往往不太建议死守中轴,而更适合从会议桌对角去拍全景,再补一些侧面机位。如果椅背特别高、主位又在正中间,更要提前预判遮挡。 先分清三类照片:全景、中景、近景 会议报道里,最稳妥的做法通常不是只交一堆“大头照”,也不是只交会场大全景,而是按三个层次来拍。 全景:交代场面、规格和秩序 全景最重要的任务,是把会议的规模感、庄重感和空间秩序拍出来。它最主要的作用,就是把会议的场面、规格和秩序交代清楚。 全景要特别注意这几点: 先把画面拍正。会议照片一旦歪了,正式感会立刻掉下来;哪怕现场来不及完全拍正,后期也要第一时间拉平。 别把会场拍得稀稀拉拉。如果拍得像只来了几个人,哪怕实际会议很重要,视觉上也会显得冷清,所以开场、人最齐的时候一定要先抢一轮。 主位一定尽量清楚可见。全景不是一定要把领导拍得很大,但至少不能被人头完全挡住;主位被挡,这张图后面通常就很难作为主图来用。 背景要尽量干净统一。能用主视觉背景就尽量别用满屏 PPT 的时刻,因为后一种虽然信息多,但画面通常不够大气。 画幅比例尽量统一。培训里提到,新闻照片通常更常用 2:3 比例;现场拍得松一点没关系,但后期最好裁成统一、稳定的版式。 如果学院办的是大型论坛、学术会议、开幕式,这类活动的全景尤其要把人数规模和正式规格拍出来。很多时候,一张工整的大全景,就足够撑起整篇新闻的主图。 中景:交代关键环节 中景最适合拍一些动作明确、事件属性很强的环节,例如揭牌、颁奖、赠书、签约、握手、鼓掌、合影。这类画面和全景最大的区别在于,它不是交代“场子有多大”,而是交代“事情具体发生到了哪一步”。 这些画面为什么重要?因为它们能最直接地告诉读者:这场会议到底发生了什么。 例如签约,如果只拍两个人坐着低头写字,读者未必能第一时间看出“签约”已经完成。反而是签完以后,把签约文本或证书展示出来、双方站位完整、见证方也在场的那一瞬间,更适合作为报道里的关键图。 这也是为什么摄影师有时候不能只当“旁观者”,还要当一个适度的流程提醒者。如果台上嘉宾签完字就准备起身,而你知道这个动作一过就没法交代签约环节了,就应该及时提醒,让签约双方和见证领导重新站位,补到那张必须有的图。 近景:拍发言人和关键人物状态 近景主要拍发言人、主讲嘉宾、主要领导和关键受访者。这类图不只是“拍到这个人”,而是要尽量拍到状态好的瞬间。 几个非常实用的细节: 尽量平视,不要仰拍。发言人本来就站在台上,如果你再站得低、镜头再往上举,脸会被拉变形,气质也不够稳;新闻照片里,端正通常比“冲击力”更重要。 必要时站远一点,用长焦拍。比起贴脸仰拍,远一点平拍通常更正式,也更容易避开讲台、桌牌和麦克风的干扰。 讲话时多用连拍,重点盯开头和结尾。培训里专门提到,很多领导中间会一直低头念稿,但开场问候和结束致辞时通常会抬头,这两个时间点往往最容易抓到能用的近景。 注意手势和表情。带手势的发言往往说明讲者更在状态,神态也更生动,这类图通常比低头念稿的画面更适合发。 如果提前知道人物更适合正面还是侧面,可以心里有数。有些人正面更稳,有些人略带角度更自然;这类经验不必太刻意,但有准备总比临场乱试好。 如果你已经知道某位领导或嘉宾更适合哪个角度,例如正面更稳、45度更立体,那当然可以有针对性地拍。但前提仍然是:符合新闻语境,先稳,再谈好看。 会议现场最常见的翻车点,其实都很基础 转录里举了不少“反面案例”,总结下来,翻车往往不是因为设备差,而是因为一些基础问题没有处理好。 1.画面太暗、太灰、反光严重 会场灯光往往不好,顶灯偏黄、屏幕反光、局部直射都很常见。结果就是照片拍出来灰蒙蒙、像“烟雾缭绕”一样,甚至人物脸上有很怪的反光。 如果现场已经拍到了,后期可以适当拉亮、调光、做智能修复。培训里也直接提到,可以快速用美图秀秀或带 AI 修复功能的软件把曝光、歪斜、轻微灰雾感先救回来。但更重要的是前期先尽量避开最糟糕的角度和光线。能少修,就别指望后期救一切。 2.对焦没对准,意图也不清楚 有的照片想拍主讲人,结果焦点落在前排观众身上;有的照片看不出来到底想拍全景、观众还是发言人。这样的图即使内容真实,也很难用。 会议照片一定要尽量让读者一眼就看懂:你这张图到底想交代什么。 3.画面歪、比例变形 会议摄影里,横平竖直几乎是底线。拍歪了可以后期拉正,怕的是既没拉正,又在上传时被随手拉伸,最后人物比例都变形了。这样的图一旦发出来,会非常影响正式感。 4.会场显得空、乱、散 人少、座位空、队形散、背景杂乱,都会让活动显得“不够像一场正式会议”。 尤其是一些手机拍摄的图,如果椅背挡人、前景乱、后排空、屏幕杂,最后会显得又拥挤又冷清,很难看。 桌面、背景和人群状态,比你想得更重要 会议照片常常坏在“人物以外的东西”上。 桌面不能乱 桌上的东西非常影响新闻照片的质感。尤其现在很多场合都更强调规范性,摄影时要特别留意这些细节: 桌面文件是否凌乱,会不会让画面显得很杂。 有没有奶茶、咖啡、果盘,这些东西一旦分散摆开,后期很难修干净。 有没有不适合出现在正式会场里的摆设,例如过于生活化的小物件。 鲜花、饮品、杂物会不会破坏画面统一性,尤其是前排领导桌面最要当心。 这些东西如果零零散散摆在每个人面前,后期几乎不可能修得很干净。所以摄影师不能只顾着按快门,也要提前观察会场,必要时提醒会务人员微调。 背后不要长“人头”和“手臂” 拍领导特写时,一个很经典的翻车点就是:后面突然冒出半个脑袋、一只手、一个模糊的人影。位置再巧一点,还可能形成非常奇怪、甚至搞笑的视觉效果。 所以拍近景和特写时,要特别注意人物后方背景。你宁愿挪一步,也不要让主角背后长出奇怪的“配件”。 玩手机、开电脑、表情出戏,都要尽量避开 开会时总有人会看手机、玩电脑、走神,这很正常,但新闻照片通常不会选这种状态特别明显的瞬间。 如果正在拍摄,可以适度用眼神、机位靠近等方式提醒一下。很多人看到镜头其实会自然收敛。真避不开,后期选片时也要优先淘汰这类画面。培训里还提到一个细节:亮着的手机屏幕往往比低头动作更显眼,这类画面要特别小心。 同样的道理,拍观众时不能只看前景那个“认真做笔记”的人,还要看周围一圈人有没有明显出戏。培训里提到两个比较稳的观众细节:认真做记录,以及举手机拍现场。这两类动作都能传达“在认真参与会议”。但只要周围有人明显玩手机、神游、动作夸张,这张图依然可能不能用。前景很优秀、背景很灾难,这张图照样可能不能用。 选片时,先问自己这张图“能不能发”,再问“好不好看” 很多摄影新手拍完以后,选片容易只看某一个主体拍得好不好,却忽略整张图能不能进入新闻稿。 我觉得可以按下面这个顺序来筛: 检查项 要看什么 主次是否正确 主要领导、主要嘉宾有没有被正确交代,画面有没有喧宾夺主 场景是否清楚 这张图是在交代全景、环节还是人物状态,意图是否明确 人物状态是否合适 有没有低头、闭眼、玩手机、张嘴、肢体失控等明显问题 背景是否干净 有没有半个脑袋、亮屏、杂物、奇怪灯光、比例变形 画面是否端正 横平竖直、曝光正常、主体清楚、裁切合理 会议照片的筛选逻辑很简单:优先保“正确”,再保“好看”。一张很生动但不合规范的图,最后往往还是发不出去。 关于“C位”,摄影师有时确实要主动提醒 转录里有个点我很认同:摄影师在某些关键环节里,不只是记录者,也应该是适度的引导者。 比如: 合影时前排站太满、后排被挡住了,可以提醒大家稍微错开。 签约后没有展示文本,可以提醒签约和见证方短暂停留。 会场中心位置挡住了最关键的领导,可以临时调整自己机位,或者提醒站位稍微让开一点。 如果全景里主位被挡住,而两侧人物都完整,也应优先选主位清楚的那一张,而不是机械追求“每排人都拍全”。 因为这些问题如果当场不说,后期几乎没有补救空间。会议摄影不能只是“拍到什么算什么”,而要提前知道这张图在新闻里要承担什么功能。这样到了现场,你才会自然地去补位、提醒和调整。 还有几个容易漏掉、但很实用的细节 全景加特写,通常是最常见的搭配。一张负责交代场面,一张负责交代关键人物。很多会议新闻并不需要给很多人都安排一张单独特写。 主位一定尽量在画面里的视觉中心。不一定非要几何正中央,但读者一眼要能看出谁是 C 位。 椅背过高、桌签过密、前排站位过满时,要提前预判遮挡。这类问题不是按快门之后才发现,而是举机前就该意识到。 如果手机拍全景时一侧座位特别容易挡人,可以考虑让对应一侧尽量别坐满。这条来自培训现场的举例,核心意思还是:拍之前先替自己把遮挡问题想一遍。 上传前别忘了检查裁切和比例。有些图现场拍得还可以,最后毁在后台拉伸、压缩或者裁切失衡。 如果只能记住一个拍摄清单,就记这个 出发前: 先看议程,知道有哪些必拍环节,避免到了现场才想起“这一段还没拍”。 再看名单,知道哪些领导和嘉宾最重要,这决定了你后面镜头到底往哪边倾斜。 最后看场地,预判中轴、对角线和角落位怎么走,心里先把机位路线过一遍。 开场前 5 分钟: 先抢一轮全景,因为这通常是最稳的主图来源。 确认主背景是否干净,尽量用主视觉,不要等 PPT 切满屏再拍。 确认主位人物不会被遮挡,尤其是中轴线和前排椅背的问题。 会议进行中: 补中景环节图,特别是揭牌、颁奖、签约、合影、握手,这些图最能交代“发生了什么”。 补近景发言图,多抓抬头、手势和互动瞬间,尽量别只留一堆低头念稿照。 注意观众状态,拍认真记录、拍照、鼓掌等投入镜头,同时留意周围有没有人出戏。 选片时: 先删歪的、糊的、暗的、变形的,这些通常没有必要犹豫。 再删玩手机、亮屏、背景出戏的,别让一处细节毁掉整张图。 最后从全景、中景、近景里各留最稳的,保证整套图片结构完整。 最后一句话 如果把会议摄影理解成一种新闻表达,很多判断就会简单一些。你不是在“随便拍拍现场”,而是在用画面回答几个问题:谁来了、什么场合、发生了什么、谁最重要、现场状态怎样。这几个问题交代清楚,照片通常就能用;机位、主次和人物状态再稳一点,整组图就会很顺。
Other
· 2026-04-13
IMPRINT解码TCR识别:几何深度学习捕捉pMHC界面免疫指纹
IMPRINT解码TCR识别:几何深度学习捕捉pMHC界面免疫指纹 本文信息 标题:通过免疫指纹的几何深度学习解码TCR识别 作者:Chun Shang, Kevin C. Chan, Ruhong Zhou 发表时间:2026年3月16日 单位:浙江大学定量生物中心、浙江大学上海高等研究院(中国);西交利物浦大学生物科学与生物信息学系(中国)等 引用格式:Shang, C., Chan, K. C., & Zhou, R. (2026). Decoding TCR recognition via geometric deep learning of immunological fingerprints. Briefings in Bioinformatics, 27(2), bbag048. https://doi.org/10.1093/bib/bbag048 摘要 T细胞受体(TCR)对肽段-主要组织相容性复合体(pMHC)分子的识别,是适应性免疫激活的关键第一步,决定了机体对病原体、肿瘤以及自身抗原的反应方式。尽管TCR–pMHC复合物已积累了相当数量的结构研究,这一识别过程的分子规律仍未被完全厘清,核心困难在于TCR同时表现出高度特异性与广泛交叉反应性。本文提出一个多模态几何深度学习框架,从pMHC界面系统提取并学习几何、理化与空间特征,以捕捉驱动TCR识别的关键免疫线索。应用于精心整理的HLA-A*02–肽段–TCR晶体结构数据集后,模型能够稳健预测TCR结合偏好,并识别界面的免疫指纹特征。借助集成的可解释性分析,作者进一步定位了关键接触残基和相互作用基序,从而为TCR特异性的结构决定因素提供了可解释证据。最后,研究还在HLA-B*27–肽段复合物上测试了模型的泛化能力,揭示了等位基因差异如何通过局部界面特征影响TCR识别。 核心结论 IMPRINT框架在HLA-A*02数据集上实现0.80的平均判别准确率,显著超过随机预期 发现了pMHC界面的“免疫指纹”模式,被同一TCR识别的pMHC共享相似的界面特征 通过patch级可解释性分析识别关键接触残基,如1E6 TCR识别中的“GPD”基序 零样本推理成功应用于HLA-B*27,揭示了单残基多态性(D116H)对TCR交叉反应性的影响 背景 T细胞受体(TCR)识别pMHC分子是适应性免疫系统最核心的分子事件之一。一个TCR是否能够识别某个肽段,不仅决定T细胞能否被激活,也直接关系到病原体清除、肿瘤免疫监视以及自身耐受能否维持。因此,TCR–pMHC识别规律既是基础免疫学问题,也是TCR工程、肿瘤免疫治疗和疫苗设计中的关键前提。 真正困难的地方在于,TCR识别天然具有“既专一、又宽容”的双重属性。一方面,TCR需要对少量关键界面差异保持敏感,才能区分不同抗原;另一方面,它又必须保留一定交叉反应性,才能在有限受体库条件下覆盖庞大的潜在病原体空间。原文在引言中强调,这种特异性与交叉反应性的并存,使得单靠序列模式或少数局部接触规则,很难完整解释TCR为何会识别某个pMHC而不识别另一个。 另一个现实瓶颈是数据极度不对称。人体内估计存在约$2.5 \times 10^7$个独特TCR克隆型,但目前可用于结构分析的TCR–pMHC复合物仍然只占极小一部分。与TCR repertoire(受体库)的巨大多样性相比,结构数据稀缺、类别分布不均、等位基因覆盖有限,都会限制模型训练与机制归纳。也正因此,作者并没有把问题简单设定为“序列配对预测”,而是转向更接近真实识别界面的结构表面表示。 TCR–pMHC识别的挑战 当前TCR–pMHC识别研究面临以下挑战: 结构数据稀缺:尽管人体内存在约$2.5 \times 10^7$个独特TCR克隆型,但PDB数据库中可直接用于这类任务的TCR–pMHC复合物仍然很少,难以支撑大规模监督学习 传统方法的局限:很多结构分析依赖人工观察、接触统计或定性比较,能够提出解释,但不容易形成统一、可推广的判别模型 界面信息高度多模态:TCR同时感知表面形状、局部曲率、静电环境、疏水性与氢键供受体特征,而非只“看见”某几个残基 可解释性要求高:即使模型做出正确预测,研究者仍然希望知道到底是哪些界面局部patch、哪些肽段位置、哪些局部化学环境在驱动识别 分子表面表示的优势 分子表面提供了一种很适合处理这类问题的中观表示。与只看一级序列或残基接触表不同,表面表示会把蛋白质视为具有连续几何形貌和理化属性的三维对象,从而更直接地对应真实的分子识别界面。原文借鉴了MaSIF一类表面学习思路:先在分子表面定义局部patch,再把曲率、静电、疏水性以及氢键相关特征映射到这些局部patch上,最后交给几何深度网络学习。 从这个角度看,本文真正想回答的,不只是“某个TCR会不会结合”,而是:pMHC表面是否存在可被学习、可被解释、并且能够跨体系迁移的免疫指纹。如果这一点成立,那么结构生物学中的局部表面特征就能被组织成更系统的判别框架,而不再只是零散的结构观察。 关键科学问题 pMHC界面是否包含可识别的免疫指纹?被同一TCR识别的pMHC是否共享相似的界面特征模式? 能否通过几何深度学习预测TCR结合偏好?如何从pMHC界面提取和学习多模态特征? 如何解释模型的预测结果?哪些界面区域对TCR识别至关重要? 模型能否泛化到不同HLA等位基因?能否通过零样本推理揭示新的生物学机制? 创新点 提出IMPRINT框架:基于分子表面的免疫指纹概念,系统提取pMHC界面的多模态几何和理化特征 几何深度学习管道:结合表面三角剖分、径向patch采样和随机局部patch采样,实现端到端学习 可解释性分析:通过patch级重要性评分识别关键接触残基和相互作用基序 跨等位基因泛化:在HLA-B*27上的零样本推理揭示单残基多态性的功能影响 研究内容 方法学概述 研究构建了IMPRINT(Immunological Fingerprinting)框架,通过表面判别建模分析TCR–pMHC识别。该框架包括四个主要步骤: 数据集准备:从PDB收集HLA-A*02–肽段–TCR复合物结构,涵盖7个TCR类别共40个结构 表面特征化:计算pMHC界面的几何和理化特征,包括形状指数、静电势和疏水性 深度学习建模:训练几何深度网络预测TCR结合偏好 可解释性分析:通过patch级重要性评分解释模型预测 IMPRINT框架的核心思想 核心假设:pMHC界面——肽段周围的子表面——嵌入了指纹状的几何和理化特征模式,这些模式揭示了免疫学信息。被同一TCR识别的pMHC可能共享可以通过高维分析有效捕获的微妙界面特征模式。 图1:基于表面的TCR–pMHC识别判别建模 整体概念:图中给出了IMPRINT的整体概念框架,TCR被概念化为通过感知pMHC表面的免疫指纹来扫描潜在结合界面 上部:从pMHC界面提取免疫指纹的流程,包括获取pMHC结构、计算分子表面、以肽段邻近区域定义界面,并在界面上插值理化与几何特征 下部:随机抽样得到的指纹片段局部patch被共同输入深度网络,用于预测TCR结合偏好,并通过输出与局部patch的相关性定位高重要性区域 数据集构建 HLA-A*02数据集(训练集) 属性 详情 TCR类别 7种(A6:10个结构、1E6:9个、DMF5:6个、JM22:5个、a24b17:4个、868:3个、T4H2:3个) 总结构数 40个复合物结构(均为实验解析的晶体结构) 肽段长度 9-10个氨基酸 选择标准 至少包含3个结构的TCR类别 HLA-B*27数据集(测试集) 属性 详情 结构数 4个复合物结构 来源 2个B*27:05复合物直接来自PDB;2个B*27:09复合物通过单点突变建模并经100 ns MD弛豫后获得 生物学意义 与强直性脊柱炎(AS)等炎症性疾病相关 等位基因差异 包含疾病相关等位基因B*27:05和非疾病相关等位基因B*27:09 表面特征化流程 研究采用基于MaSIF框架的表面特征化管道,包含四个主要步骤: 表面三角剖分:将pMHC表面三角化为离散网格 径向patch提取:在每个网格顶点周围提取半径$r = 12$ Å的径向局部patch 特征计算:计算两个几何特征(形状指数、曲率)和三个理化特征(静电势、疏水性、氢键潜力) 上下文映射:将多模态特征映射到重叠表面局部patch的测地极坐标系中 对于每个天然pMHC结构,研究识别了距离任何肽段原子4 Å以内的表面点,并将以这些点为中心的局部patch定义为界面patch(通常有数百个)。 图2:pMHC界面建模的几何深度学习流程 图2a:pMHC表面特征化管道的四个主要步骤,包括表面三角剖分、径向patch提取、特征计算和上下文映射 图2b:模型架构通过基于采样的随机建模方案支持可解释性预测。对于每个pMHC,从数百个界面patch中随机选择32个局部patch输入几何深度网络。为提高鲁棒性,每个pMHC界面采样100次,最终通过平均或多数投票聚合预测 模型架构与训练策略 集成学习框架 参数 设置 模型数量 训练50个模型的集成 采样策略 对于每个pMHC,随机采样32个界面patch 重复采样 每个pMHC采样100次,产生100个预测向量 聚合方法 通过向量平均或多数投票得到最终预测 交叉验证策略:All-test迭代验证 研究实施了名为“All-test”的迭代交叉验证策略,这一设计专门针对小规模结构数据集(仅40个晶体结构)的挑战。 核心思想:通过多次迭代训练,确保数据集中的每一个结构最终都会被用作测试集,从而充分利用有限的数据资源进行全面评估。 参数 设置 训练集 每次迭代27个结构(约70%) 测试集 每次迭代13个结构(约30%) 类别平衡 保持训练和测试集中TCR类别的结构分布一致 集成规模 50个模型,每个在不同随机子集上训练 最终预测 通过等权重集成所有50个模型的预测结果 关键设计考虑 随机迭代划分:在50次迭代中,每次从40个结构中随机采样27个作为训练集,剩余13个作为测试集,每次迭代的划分都不同,确保每个结构最终都会在某些迭代中作为测试集 无独立验证集:由于部分TCR类别样本极少(如MS1-A3只有2个结构),无法划出独立的验证集,而是通过交叉验证直接进行超参数调优 类别平衡约束:每次划分训练/测试集时,确保7个TCR类别都能在两个子集中保持合理分布,避免某些类别在测试集中完全缺失 集成学习优势:50个模型的预测结果通过等权重平均或多数投票聚合,显著降低了单一模型因数据划分偶然性而产生的方差。具体而言,对于每个测试结构,收集所有将其作为测试实例的模型的预测向量(每个向量是7个TCR类别的概率分布),然后对这些向量进行算术平均,每个模型的贡献完全平等 主要结果 模型在HLA-A*02上的预测性能 研究在精心策划的HLA-A*02数据集上评估了IMPRINT框架的预测性能。 准确性评估 指标 结果 平均判别准确率 0.80(显著超过随机预期的0.14) 置信度分析 模型对正确预测的置信度显著高于错误预测 类别特异性 不同TCR类别的预测准确率存在差异,1E6 TCR达到最高准确率 图3:HLA-A*02结构的预测准确性与置信度交叉验证 图3a:各类别样本量分布,每轮约按7∶3划分为27个训练结构和13个测试结构 图3b:判别准确率与混淆矩阵分析,给出不同类别之间的平均误判概率 图3c:40个复合物各自的判别置信度,定义为对其真实TCR类别的平均预测概率。模型在全部40个复合物上达到0.80的平均判别准确率 与现有方法对比 研究将IMPRINT与三种代表性方法进行了基准比较,包括结构方法TCRen以及两个序列预训练模型TEINet和TEIM-Seq。 方法 类别 Top-1 准确率 Top-3 准确率 说明 TCRen 结构方法 未报告 未报告 具有竞争力的排序性能,与IMPRINT捕获的是互补信息 TEINet 序列方法 0.35 0.78 序列预训练模型 TEIM-Seq 序列方法 0.48 0.75 序列预训练模型 IMPRINT 本研究 0.80 - 在相同评估设定下的 Top-1 判别准确率 因此,原文支持的更稳妥结论是:IMPRINT在相同任务设定下优于两个序列预训练基线,并与TCRen形成互补的结构解释视角。 patch级可解释性分析 为揭示模型判别决策的免疫学机制,研究实现了patch级可解释性分析框架,核心思想是通过量化每个界面patch对TCR判别的贡献度,将抽象的预测转化为可解释的结构生物学洞察。 分析方法:patch级归因分析 具体步骤: 步骤 操作 目的 1. 收集预测向量 对于每个结构,收集所有将其作为测试实例的集成模型的预测向量。在HLA-A*02交叉验证中,每个测试结构采样100次(每次随机选择32个patch),产生100个预测向量 获取该结构的完整预测分布 2. 筛选高置信度预测 选择前10**%的高置信度预测(即对真实类别预测概率最高的那些预测) 聚焦于模型最有把握的预测 3. 统计patch频率 统计每个界面patch在这些高置信度预测中被采样的频率 识别哪些patch在正确预测中频繁出现 4. 归一化得分 将频率归一化,定义每个patch的判别得分 消除不同patch采样次数的差异 5. 映射到表面 将判别得分映射到pMHC表面的对应patch位置 可视化关键区域 得分解释:判别得分高于平均值的patch表示对TCR判别有更强贡献,这些区域往往对应关键的接触残基或相互作用基序。 1E6 TCR的识别模式 1E6 TCR在七个类别中实现了最高的判别准确率。研究对9个1E6类内结构的分析发现: 位置重要性谱:肽段位置4-6的判别得分始终升高 保守基序:这些位置与该类别肽段共享的保守“GPD”基序一致 结构特征:这些高分区域对应肽段中央的局部凸起,尤其以Pro5为中心最为突出 图4:1E6 TCR结合的 patch 级可解释性分析 图4a:9个HLA-A*02–肽段–TCR结构的判别得分谱沿肽段位置分布。参考得分1.0表示所有界面patch的平均贡献 图4b:1E6类别肽段序列的序列标识图,突出显示保守的“GPD”基序(肽段位置4-6) 图4c:在3UTS结构上映射的归一化判别得分,红色区域表示高重要性局部patch 图4d:结构图显示Tyr97α和Trp97β与以Pro5为中心的“GPD”基序形成互补作用 关键接触残基识别 通过patch级归一化判别得分分析,研究识别了以下关键发现: 肽段中心区域:位置4-6对TCR识别最关键 局部拓扑凸起:该区域由“GPD”基序,尤其是Pro5,形成明显的表面凸起 相互作用模式:TCR残基Tyr97α和Trp97β与这一中心区域形成互补相互作用 模型泛化能力:HLA-B*27零样本推理 研究评估了模型跨HLA等位基因的泛化能力,使用HLA-B*27–肽段–TCR复合物作为零样本推理案例。 疾病相关背景 疾病关联:HLA-B*27与强直性脊柱炎(AS)等炎症性疾病相关 等位基因差异:B*27:05(疾病相关)与B*27:09(非疾病相关)在位置116存在单残基多态性(D116H) TCR交叉反应性:AS衍生的TCR AS4.3交叉识别自身肽段 self-GQV 和细菌肽段 bacterial-LRV 零样本推理方法 模型重训练:使用全部40个HLA-A*02结构重新训练单个判别模型(200个epoch),用于对4个HLA-B*27–肽段结构进行推理。 大规模重复预测:对每个HLA-B*27–肽段结构,模型会通过反复随机采样32个界面patch来生成10 000 次预测。每次预测都输出一个7维概率向量,对应7个TCR类别。 相似度定义:某个结构对特定TCR类别的相似度得分,定义为该类别在全部10 000 次预测中的平均预测概率。 归因分析:针对目标类别(如类别6),选取相似度最高的前10%预测,再沿用HLA-A*02数据集中的归因流程,计算并归一化patch级重要性得分,并将其映射回pMHC界面进行可视化。 零样本推理结果 图5:模型泛化实现HLA-B*27交叉反应性的可解释性 图5a:自身来源GQV肽段(左)与细菌来源LRV肽段(右)分别结合两种功能不同的HLA-B*27等位基因,图中标出了位于MHC结合槽底部、邻近肽段P9的单残基替换D116H 图5b:基于用全部40个HLA-A*02复合物重新训练的判别模型,对四个HLA-B*27–肽段界面的相似度推断结果 图5c:左侧为相对于类别6的patch级判别得分映射,右侧为对应区域的表面电荷分布,突出P9附近的局部差异 图5d:四个HLA-B*27–pMHC结构中残基116与肽段P9之间的残基接触网络,对比显示不同电荷匹配关系 关键发现 等位基因 肽段 类别6相似度 类别5相似度 变化说明 B*27:05 self-GQV 0.63 0.19 基线水平 B*27:05 bacterial-LRV 0.83 - 病原体肽段被明确识别为类别6 B*27:09 self-GQV 0.21 0.59 类别6显著下降,类别5显著上升 B*27:09 bacterial-LRV 0.84 - 保持一致,界面指纹得以保留 机制解释: 关键残基:patch级归一化分析识别出MHC残基116是驱动类别6推断的最具影响力因素 物理属性:特征分析揭示静电势是该区域最具判别性的属性 突变效应:D116H取代显著改变了局部静电环境,从而影响了TCR识别模式 方法学的生物学意义 表面指纹的有效性 研究结果支持pMHC界面包含可识别的免疫指纹模式: 模式共享:被同一TCR识别的pMHC共享相似的界面特征 高维特征:多模态几何和理化特征能够编码功能相关信息 可学习性:几何深度网络能够有效学习这些模式 可解释性的价值 IMPRINT框架的可解释性模块提供了: 关键区域识别:精确定位对TCR识别至关重要的界面区域 相互作用基序:揭示保守的序列和结构特征 机制洞察:理解等位基因多态性如何影响TCR交叉反应性 关键结论与批判性总结 主要发现 本研究通过IMPRINT框架系统揭示了TCR–pMHC识别的分子基础: 免疫指纹的普遍性:pMHC界面确实包含可识别的几何和理化特征模式,被同一TCR识别的pMHC共享这些“免疫指纹” 预测性能的优越性:IMPRINT在HLA-A*02数据集上实现0.80的平均准确率,显著优于现有方法 可解释性进展:patch级分析揭示了关键接触残基和相互作用基序,如1E6 TCR识别中的“GPD”基序 跨等位基因泛化:零样本推理在HLA-B*27上成功揭示了单残基多态性对TCR交叉反应性的机制影响 研究意义 意义类型 详情 理论意义 为TCR特异性和交叉反应性的双重性提供了结构解释 方法学意义 展示了表面多模态特征在蛋白质-蛋白质相互作用预测中的强大潜力 临床应用前景 为理解HLA等位基因多态性与疾病关联的分子机制提供了新工具 药物开发启示 可指导TCR工程疗法的设计和优化 局限性 局限性 详情 数据规模限制 仅使用40个HLA-A*02结构进行训练,数据集规模仍然较小 等位基因覆盖 主要关注HLA-A*02,对其他HLA等位基因的验证有限 体内验证缺失 预测结果需要进一步的实验验证,特别是在体内环境中 结合亲和力数据 缺乏定量结合亲和力数据,限制了模型对结合强度的预测能力 潜在影响 免疫学机制研究:为理解TCR识别的分子基础提供了新视角和工具 个性化医疗:可帮助预测患者特定TCR对病原体或肿瘤抗原的反应性 疫苗设计:指导优化疫苗抗原以引发所需的T细胞反应 自身免疫病:深化对HLA等位基因多态性与疾病关联机制的理解
Other
· 2026-04-10
三维建模如何修改RNA二级结构输入
当三维预测违抗二级输入:RNA结构建模的意外发现 帮师兄们宣传一下~ 本文信息 标题:RNA二级结构与三维结构预测的相互作用:一项全面研究 作者:Deyin Wang, Yangwei Jiang, Linli He, Linxi Zhang, Ruhong Zhou, Dong Zhang 在线发布时间:2026年4月1日(accepted author version posted online) 单位:浙江大学定量生物学研究所、物理学院、生命科学学院;温州大学物理系;国家生物药技术创新中心(苏州) 引用格式:Wang, D., Jiang, Y., He, L., Zhang, L., Zhou, R., & Zhang, D. (2026). Crosstalk between RNA secondary and three-dimensional structure prediction: a comprehensive study. RNA Biology. https://doi.org/10.1080/15476286.2026.2655096 结果数据:预测结果可在 https://github.com/DongZhangRNA/2D-and-3D-benchmark 获取 摘要 近年来,各种计算方法被开发用于预测RNA的三维(3D)结构。由于RNA具有层级折叠特性,RNA二级(2D)结构常被用作三维结构预测的输入以提高准确性和效率。然而,输入二级结构的准确性在多大程度上影响三维结构预测的性能仍有待进一步研究。此外,在三维结构建模过程中,输入的碱基配对相互作用是否以及如何被修改是另一个值得探索的问题。为解决这些问题,本研究在大量数据集上全面基准测试了六个代表性的三维结构预测模型,使用不同准确性的二级结构作为输入。结果表明,RNA二级和三维结构预测之间存在普遍的相互作用,其中三维结构预测性能对输入二级结构准确性的依赖性与三维模型在结构建模过程中修改输入碱基配对相互作用的能力密切相关。此外,我们还观察到,RNA三维结构预测性能对输入二级结构中假阳性碱基对的出现比对真阳性碱基对更为敏感,这为进一步提高模型性能指明了有价值的研究方向。 核心结论 trRosettaRNA在RNA-Puzzles和CASP RNA数据集上表现最佳:在使用天然二级结构作为输入时,trRosettaRNA几乎在所有指标上都排名第一 三维模型普遍具有修改输入二级结构的能力:即使在输入二级结构的真阳性碱基对为零时,大多数模型仍能产生非零的INF_ALL值 假阳性碱基对的危害更大:三维结构预测性能对假阳性碱基对的敏感性高于真阳性碱基对 深度学习方法具有更强的二级结构修改能力:trRosettaRNA和NuFold能够更显著地修改输入的碱基配对相互作用 模板方法高度依赖输入二级结构准确性:RNAComposer修改输入碱基配对相互作用的能力很弱,因此其性能严重依赖于输入二级结构的准确性 背景 RNA(核糖核酸)是生物体内重要的功能大分子。大多数RNA分子采用的特定三维结构对其生物功能至关重要。然而,确定RNA的实际三维结构通常需要昂贵且耗时的实验技术(如X射线晶体学和核磁共振)。因此,在过去三十年中,RNA三维结构预测的计算机程序应运而生。 当前的RNA三维结构预测方法主要分为三类: 表1:RNA三维结构预测方法分类 方法类型 原理 代表性方法 特点 模板方法 基于已知结构/片段作为模板 3dRNA, ModeRNA, RNAComposer, Vfold3D, FARFAR2 搜索具有相似序列或结构特征的模板来建模目标分子的三维结构 从头方法 基于物理化学原理从零开始预测 HiRE-RNA, IsRNA, iFoldRNA, SimRNA 利用物理和化学原理采样构象空间,预测目标分子的最稳定/可能构象 深度学习方法 基于深度学习 DRfold, RhoFold+, RoseTTAFoldNA, trRosettaRNA, NuFold, GraphaRNA 受蛋白质结构预测成功的启发,近年来快速发展 然而,与蛋白质结构预测相比,这些基于深度学习的方法在RNA上的表现要差得多,表明RNA三维结构预测仍然具有挑战性。 RNA-Puzzles和CASP15的启示 RNA-Puzzles是一项集体性盲测实验,旨在评估RNA结构预测技术的前沿。其结果强调,计算方法已经能够为生物学问题提供有用的结构信息,但对非Watson-Crick相互作用的预测不佳表明算法需要进一步改进。 2022年,12个实验RNA靶标首次被引入CASP15。两项独立评估都将四种传统方法(基于模板或从头方法)排名为顶级预测器,而基于深度学习的方法表现明显低于这些顶级小组。特别是,对于缺乏同源RNA序列和结构的合成RNA靶标,其精确的三维结构建模需要人类专家的大量干预。 关键科学问题 本研究旨在解决以下核心科学问题: 输入二级结构的准确性如何影响三维结构预测的性能?当前二级结构预测工具的准确性通常有限(在包含不同RNA序列的数据集上,几乎所有测试模型的平均F1分数都小于0.8),这些不完美的二级结构输入如何影响三维结构预测方法? 三维建模过程中是否以及如何修改输入的碱基配对相互作用?三维结构预测模型能否纠正输入二级结构中的错误碱基配对? 不同三维模型对输入二级结构准确性的依赖程度有何差异?深度学习方法与传统方法在这一方面有何不同? 假阳性碱基对和真阳性碱基对对三维结构预测的影响有何差异?哪种类型的错误对预测性能的影响更大? 创新点 本研究的主要创新之处包括: 系统性的基准测试:在包含62个RNA的三个数据集(Custom、RNA-Puzzles、CASP RNA)上系统评估了6个三维预测方法和6个二级结构预测工具的组合 系统研究2D-3D相互作用:深入分析了三维结构预测过程中输入碱基配对相互作用的修改及其与预测性能的关系 揭示假阳性碱基对的特殊危害:发现三维结构预测性能对假阳性碱基对的敏感性高于真阳性碱基对,为模型改进指明了方向 区分不同三维模型的二级结构修改能力:揭示了深度学习方法(trRosettaRNA、NuFold)与传统方法(RNAComposer等)在修改输入二级结构能力上的显著差异 研究内容 方法学概述 研究在包含62个RNA的三个数据集上(Custom、RNA-Puzzles、CASP RNA)系统评估了六个RNA三维结构预测方法(trRosettaRNA、NuFold、RNAComposer、FARFAR2、IsRNA2、SimRNA)和六个二级结构预测工具的组合。详细的模型和数据集信息请参阅附录。 基于天然二级结构的基准测试结果 研究首先使用从实验结构使用DSSR (v2.4)提取的天然二级结构作为输入,探索了六个所选RNA三维模型的预测上限。 主要发现包括: 对于Custom数据集,基于模板的模型RNAComposer在RMSD指标上提供了最佳预测,而FARFAR2和trRosettaRNA分别在lDDT和TM-score指标上提供了最佳预测 对于RNA-Puzzles和CASP RNA数据集,trRosettaRNA在六个所选三维模型中几乎在所有指标上都提供了最佳预测 AlphaFold3在Custom和CASP RNA数据集上的INF_ALL指标上表现领先,DRfold在Custom数据集的TM-score指标上表现领先 NuFold在所有测试的数据集上都没有显示出相对于传统方法的优势 总体而言,尽管在使用天然二级结构作为输入时,不同RNA靶标的三维模型预测性能有所变化,但传统方法(无人力参与)和最近的深度学习方法预测结果相当,这与CASP15竞赛中的观察结果一致。 详细的性能数据请参阅附录C和附录D。 图1:使用天然二级结构作为输入时,六个RNA三维结构预测方法在三个测试数据集上的性能表现。图中展示了不同方法在RMSD、INF_ALL、TM-score和lDDT四个指标上的表现,每个指标的箱线图显示了中位数、四分位数和异常值。可以看出,trRosettaRNA在RNA-Puzzles和CASP RNA数据集上表现最佳。 基于不同模型预测二级结构的基准测试结果 现在考虑更一般的RNA三维结构预测方案:使用预生成的二级结构作为输入来预测查询序列的可能三维构象。研究测试了六个流行的二级结构预测工具来生成输入二级结构。 二级结构预测工具的准确性 为便于后续分析,研究首先调查了不同二维模型的二级结构预测准确性。由于RNA结构预测准确性(包括二维和三维)通常取决于其结构拓扑,研究将上述三个测试数据集合并为Combined数据集,然后根据其天然结构信息重新分类为三类:茎环、多路连接和假结。 所有六个测试的二维工具都显示出有限的预测准确性,表明准确的RNA二级结构预测仍然具有挑战性。 表3:不同二维模型预测的F1分数汇总 模型 茎环(21个RNA) 多路连接(16个RNA) 假结(25个RNA) RNAfold 0.609 0.723 0.637 NUPACK 0.516 0.546 0.597 Mfold 0.640 0.749 0.641 RNAStructure 0.630 0.757 0.646 CONTRAfold 0.574 0.724 0.696 MXfold2 0.633 0.795 0.705 AlphaFold3 0.791 0.917 0.940 从表中可以看出,对于茎环、多路连接和假结,最佳的平均F1分数分别为0.640(Mfold)、0.795(MXfold2)和0.705(MXfold2)。 有趣的是,使用DSSR (v2.4)从AlphaFold3的RNA三维结构预测中提取的二级结构在所有三个结构类别中都显示出显著更高的准确性,特别是对于多路连接和假结(平均F1分数 > 0.9)。由于它们相对较高的准确性,AlphaFold3衍生的二级结构也被用作另一个基线输入(除了天然二级结构)。 使用预测二级结构作为输入的三维预测性能 当使用预测的二级结构作为输入时,所选的三维模型在茎环上的表现相似,除了NuFold表现明显较差(详见附录中的性能表格)。 然而,对于多路连接和假结RNA,trRosettaRNA明显优于其他模型(详见附录中的性能表格)。 研究还注意到,对茎环的三维结构预测略差于多路连接和假结,即茎环的中位数RMSD值相对较大,尽管后两类通常在结构上更复杂。测试的茎环RNA中未配对核苷酸的比例相对较高可能解释了这一现象。 预测二级结构vs天然二级结构 值得注意的是,对于几乎所有六个所选的三维模型,使用预测的二级结构作为输入的RNA三维结构预测通常比基于天然二级结构的预测表现更差,即前者通常具有较高的中位数RMSD、较低的中位数INF_ALL和TM-score值。 具体而言,对于RNAComposer、IsRNA2和SimRNA,在所有三个结构类别上,使用天然二级结构与预测二级结构作为输入之间的预测性能差异显著;而对于FARFAR2和SimRNA在茎环RNA上的差异不太明显。 然而,对于trRosettaRNA、NuFold、FARFAR2、IsRNA2和SimRNA在多路连接RNA上以及SimRNA在假结RNA上,以及NuFold在茎环RNA上,研究发现使用预测二级结构作为输入的最佳三维预测优于基于天然二级结构的预测。 对于从AlphaFold3预测衍生的二维输入(在图2中表示为AlphaFold3-2D),这种现象更为明显。 总体而言,这些结果初步表明不同三维模型对输入二级结构准确性的依赖程度不同。 图2:使用预测的二级结构作为输入时,六个RNA三维结构预测方法在不同结构拓扑类别上的性能表现。图中展示了茎环、多路连接和假结三类RNA结构在不同指标上的表现。trRosettaRNA在多路连接和假结RNA上明显优于其他模型,而所有模型在茎环RNA上的表现相对较差。 三维结构预测性能对二级结构准确性的依赖性 一般来说,当前可用的二维工具生成的二级结构准确性有限,并且对于不同RNA序列准确性可能有所不同。因此,这些不完美的二级结构(F1分数 < 1.0)作为输入如何影响RNA三维结构预测方法的预测性能是一个值得进一步探索的问题。 F1分数与三维预测准确性的关系 对于所有六个三维方法,当F1分数从0.2增加到1.0时,RNA三维结构预测准确性的总体趋势呈上升态势(RMSD下降,INF_ALL上升)。重要发现: trRosettaRNA在特定F1分数区间内表现优于其他模型 NuFold在F1分数 = 0.2-0.65区间内显著优于其他五个三维模型 这表明深度学习模型对输入二级结构准确性的独特依赖性 按二级结构准确性分类的分析显示,对于具有中等准确性的输入二级结构,trRosettaRNA预测的三维结构可能具有更高的准确性。 图3:F1分数与三维结构预测准确性的关系。图中显示了当输入二级结构的F1分数从0.2增加到1.0时,六个三维模型的预测性能变化。随着F1分数增加,RMSD总体呈下降趋势,INF_ALL和TM-score总体呈上升趋势。trRosettaRNA在特定F1分数区间内表现优于其他模型,而NuFold在F1分数为0.2-0.65区间内显著优于其他模型。 真阳性和假阳性碱基对的影响 研究分析了真阳性比例($p_{\mathrm{TP}}$)和假阳性比例($p_{\mathrm{FP}}$)与三维结构预测准确性之间的关系。 关键发现:假阳性碱基对带来的负面影响通常大于真阳性碱基对带来的收益,而且这种敏感性在不同三维模型之间并不相同。 对于所有六个三维方法,INF_ALL值与真阳性比例正相关,与假阳性比例负相关 假阳性碱基对的危害大于真阳性碱基对的益处:三维结构预测性能对假阳性碱基对的敏感性高于真阳性碱基对 RNAComposer、FARFAR2和IsRNA2对假阳性碱基对的敏感性更高(Pearson相关系数 $ \rho \ge 0.7$) 详细的危害机制分析请参阅附录F。 图4:真阳性和假阳性碱基对比例与三维结构预测准确性的关系。图中显示INF_ALL值与真阳性比例($p_{\mathrm{TP}}$)呈正相关(A),与假阳性比例($p_{\mathrm{FP}}$)呈负相关(B)。RNAComposer、FARFAR2和IsRNA2对输入二级结构的依赖性更强(Pearson相关系数 $ \rho \ge 0.7$)。 三维结构建模过程中碱基配对相互作用的修改 在图4中,研究注意到即使输入二级结构中的真阳性碱基对为零($p_{\mathrm{TP}} = 0$),所有六个所选三维模型的大多数预测的INF_ALL值都非零,一些预测甚至给出INF_ALL > 0.5。 这表明所有这些三维模型都能够在三维结构建模过程中(部分地)修改输入的碱基配对相互作用,例如识别和形成正确的碱基对。类似的现象也在其他研究中被报道。 两个典型案例 图5中展示了两个说明性示例来进一步证明这一观察结果。这两个RNA作为输入的预测二级结构与其对应的天然二级结构显著偏差(F1分数分别为0和0.26)。 然而,SimRNA(见图5A)和trRosettaRNA(见图5B)仍然为这两个RNA生成了F1分数分别为0.63和0.9的三维结构预测。 这些特殊案例表明,即使输入的二级结构远离天然二级结构,在RNA三维结构建模过程中仍可以恢复一些关键的三级相互作用。 图5:两个典型案例展示三维模型如何在三维结构建模过程中改善碱基配对相互作用。图中显示了两个RNA的输入二级结构(左)和预测的三维结构(右)的对比。案例A中,SimRNA将F1分数从0提高到0.63;案例B中,trRosettaRNA将F1分数从0.26提高到0.90。 此外,研究还观察到在三维结构建模过程中碱基配对相互作用恶化的情况。 不同三维模型的修改能力分析 图6显示了所有六个所选的三维模型在使用不同准确性的二级结构作为输入时,预测的三维结构的相互作用网络的变化。 关键发现: trRosettaRNA和NuFold:许多预测相对于输入二级结构改善了其碱基配对相互作用($\Delta\text{F1} > 0$),特别是对于低准确性输入 IsRNA2和SimRNA:在使用低准确性二级结构作为输入时也观察到类似的结果 当使用高准确性二级结构作为输入时,一些预测的碱基配对相互作用反而恶化 这表明,在结构预测过程中修改输入碱基配对相互作用在测试的三维模型中很普遍,并且这种修改能力在不同三维模型之间有所不同。 图6:不同三维模型在三维结构建模过程中修改输入碱基配对相互作用的能力。图中显示了六个三维模型在不同输入二级结构准确性水平下,F1分数变化($\Delta\text{F1}$,A)、真阳性比例变化($\Delta p_{\mathrm{TP}}$,B)和假阳性比例变化($\Delta p_{\mathrm{FP}}$,C)的分布。trRosettaRNA和NuFold显示出更强的修改能力,特别是在低准确性输入时。 二维与三维结构预测的相互作用 研究建立了三维结构预测性能与修改输入碱基配对相互作用能力之间的联系。 核心发现: RNAComposer:修改输入碱基配对相互作用的能力可以忽略不计,性能严重依赖于输入二级结构的准确性 trRosettaRNA和NuFold:使用中等准确性输入时能显著改善碱基配对准确性,但使用高质量输入时反而可能恶化 这解释了为什么trRosettaRNA和NuFold在特定F1分数区间内表现独特 图7:不同三维模型在使用不同质量二级结构作为输入时的碱基配对相互作用修改能力。图中比较了使用最优预测二级结构、AlphaFold3衍生二级结构和天然二级结构作为输入时,F1分数变化($\Delta\text{F1}$,A)、真阳性比例变化($\Delta p_{\mathrm{TP}}$,B)和假阳性比例变化($\Delta p_{\mathrm{FP}}$,C)的分布。RNAComposer几乎不修改输入,而trRosettaRNA和NuFold在使用中等准确性输入时显著改善碱基配对。 F1分数变化的普遍性 研究还比较了预测的三维结构及其对应的二维输入之间的F1分数,并观察到了一致的结果。 即,所有六个所选的三维模型都能呈现预测的三维结构的F1分数大于对应的二维输入的预测(比例范围为0.25-0.54)。 NuFold的预测有最多的情况(比例 = 0.54),其中预测的三维结构的F1分数大于二维输入。 RNAComposer的预测有最多的情况(比例 = 0.54),其中F1分数没有变化 而trRosettaRNA和NuFold的预测有最少的情况(比例 = 0.07和0.09)。 总体而言,这些结果声明RNA二级和三维结构预测之间的相互作用是普遍的,并且三维结构预测性能对输入二级结构准确性的依赖性与模型修改输入碱基配对相互作用的能力密切相关。 关键结论与批判性总结 主要发现 本研究通过对六个代表性RNA三维结构预测方法的全面基准测试,揭示了RNA二级和三维结构预测之间复杂的相互作用关系: 三维结构预测性能普遍依赖于输入二级结构的准确性:随着输入二级结构F1分数的增加,三维结构预测准确性总体呈上升趋势(RMSD下降,INF_ALL和TM-score上升) 不同三维模型对输入二级结构准确性的依赖程度存在显著差异: 模板方法(如RNAComposer)修改输入碱基配对相互作用的能力很弱,因此其性能严重依赖于输入二级结构的准确性 深度学习方法(如trRosettaRNA和NuFold)具有更显著的修改输入碱基配对相互作用的能力,特别是在中等准确性输入时 假阳性碱基对的危害大于真阳性碱基对的益处:三维结构预测性能对假阳性碱基对的敏感性高于真阳性碱基对,Pearson相关系数的绝对值更大 三维模型普遍具有修改输入二级结构的能力:即使在输入二级结构的真阳性碱基对为零时,大多数模型仍能产生非零的INF_ALL值,表明它们能够在三维结构建模过程中纠正输入二级结构的错误 研究意义 本研究的发现为RNA结构预测领域的未来发展提供了重要指导: 减少假阳性碱基对是改进方向:未来的模型改进应重点关注减少错误预测的碱基配对相互作用,同时不牺牲正确相互作用的存在 迭代优化策略的前景:类似于之前研究的想法,整合二级和三维结构预测的迭代程序可能是未来同时实现准确的RNA二级和三维结构预测的有前景的解决方案之一 模型选择指导:用户可以根据二级结构预测的准确性和RNA的结构类型选择合适的三维预测方法 局限性 研究也指出了一些局限性: 评估工具数量有限:由于结合不同二维和三维结构预测工具产生的大量运行以及计算资源的限制,研究限制了评估的预测工具数量 快速发展的领域:鉴于RNA三维结构预测模型的快速发展,一些结论可能不适用于最新的方法 因果关系难以确定:由于修改输入碱基配对相互作用的能力是每个三维模型的固有特征,并且三维结构预测的准确性受各种因素(包括但不限于F1分数的变化)影响,未来研究需要采用一种巧妙的方法将F1分数变化的影响与其他因素的贡献区分开来 尽管如此,基于对各种二维和三维工具组合的广泛评估以及对数千个预测结果的评估,特别关注建模过程中碱基配对相互作用的变化,研究的发现可能仍为RNA结构预测工具的未来发展提供有用的参考点。 潜在影响 这项研究的发现可能会对RNA结构预测领域产生深远影响: 指导工具开发:为开发下一代RNA结构预测工具指明了方向,特别是在处理不完美二级结构输入方面 优化预测流程:为构建自动化的RNA三维结构建模流程提供了有用指导,通过系统分析不同二维和三维结构预测模型组合的结果 提高预测可靠性:通过揭示假阳性碱基对的特殊危害,有助于提高RNA结构预测的准确性和可靠性 促进方法创新:鼓励开发新的迭代优化策略,同时改进二级和三维结构预测 下期预告 更多详细内容(包括评估指标的详细定义、数据集的详细描述、各三维模型的详细性能分析、AlphaFold3和DRfold的参考性能、不同结构拓扑的预测难度分析、假阳性碱基对的特殊危害分析等)请参阅: 📄 RNA二级结构与三维结构预测的相互作用:附录
Other
· 2026-04-09
RNA结构预测深度学习基准的方法学与数据分析
【附录】RNA二级结构与三维结构预测的相互作用:一项全面研究 附录A:方法学详细描述 RNA三维结构预测的一般过程 RNA三维结构预测的一般过程包括两个步骤: 使用适当的二级结构预测模型从给定RNA序列生成二级结构 使用序列和生成的二级结构作为输入来预测三维结构 本研究中的二级结构仅包含标准碱基对(GC、AU和GU)。 测试的三维结构预测方法 研究选择了六个具有代表性的RNA三维结构预测方法进行基准测试: 表1:本研究中测试的RNA三维结构预测模型概述 模型 类别 访问方式 输入 AlphaFold3 深度学习 Webserver Seq NuFold 深度学习 Local Seq+2D DRfold 深度学习 Local Seq trRosettaRNA 深度学习 Local Seq+2D RNAComposer 模板方法 Webserver Seq+2D FARFAR2 模板方法 Local Seq+2D IsRNA2 从头方法 Local Seq+2D SimRNA 从头方法 Local Seq+2D 研究选择了trRosettaRNA和NuFold作为代表性深度学习方法,因为它们在近期RNA三维结构预测方法基准测试中表现领先,更重要的是它们官方支持自定义二级结构输入。 此外,研究还包括了AlphaFold3和DRfold作为参考模型,但它们不支持自定义二级结构输入,因此仅在天然二级结构输入时进行评估。 测试的二级结构预测工具 研究使用了六个流行的二级结构预测模型: 表2:本研究中测试的RNA二维结构预测模型概述 模型 类别 访问方式 RNAfold 热力学方法 Local NUPACK 热力学方法 Local Mfold 热力学方法 Local RNAStructure 热力学方法 Local CONTRAfold 统计模型 Local MXfold2 深度学习 Local 这六个模型可以分为两类:热力学方法和深度学习方法。 附录B:评估指标的详细定义 RMSD(Root-Mean-Square-Deviation,均方根偏差) RMSD衡量预测结构与天然结构之间的原子位置差异,定义为: [\text{RMSD} = \sqrt{\dfrac{1}{N} \sum_{i=1}^{N} |\mathbf{r}_i^{\text{pred}} - \mathbf{r}_i^{\text{native}}|^2}] 其中,$N$ 是原子数量,$\mathbf{r}_i^{\text{pred}}$ 和 $\mathbf{r}_i^{\text{native}}$ 分别是预测结构和天然结构中第 $i$ 个原子的位置向量。RMSD值越小表示预测越准确。 INF_ALL(Interaction Network Fidelity,相互作用网络保真度) INF_ALL衡量所有碱基-碱基相互作用的保真度,定义为: [\text{INF_ALL} = \dfrac{2 \cdot E_{\text{pred}} \cap E_{\text{native}} }{ E_{\text{pred}} + E_{\text{native}} }] 其中,$E_{\text{pred}}$ 和 $E_{\text{native}}$ 分别是预测结构和天然结构中的边(相互作用)集合。INF_ALL值范围为0-1,值越大表示预测越准确。 TM-score(Template Modeling Score,模板建模得分) TM-score衡量预测结构与天然结构之间的拓扑相似性,定义为: [\text{TM-score} = \dfrac{1}{L_{\text{native}}} \sum_{i=1}^{L_{\text{pred}}} \dfrac{1}{1 + \left(\dfrac{d_i}{d_0}\right)^2}] 其中,$L_{\text{native}}$ 和 $L_{\text{pred}}$ 分别是天然结构和预测结构的长度,$d_i$ 是第 $i$ 个残基对之间的距离,$d_0$ 是一个与长度相关的尺度参数。TM-score值范围为0-1,值越大表示预测越准确。 lDDT(Local Distance Difference Test,局部距离差异测试) lDDT衡量预测结构中局部距离的保真度,通过比较预测结构和天然结构中所有残基对之间的距离来计算。lDDT值范围为0-1,值越大表示预测越准确。 真阳性比例和假阳性比例 为研究输入二级结构对三维结构预测准确性的影响,研究引入了两个额外指标: 真阳性比例($p_{\mathrm{TP}}$):正确预测的标准碱基对比例 [p_{\mathrm{TP}} = \dfrac{N_{\mathrm{TP}}}{N_{\text{native}}}] 假阳性比例($p_{\mathrm{FP}}$):错误预测的标准碱基对比例 [p_{\mathrm{FP}} = \dfrac{N_{\mathrm{FP}}}{N_{\text{native}}}] 其中,$N_{\mathrm{TP}}$ 和 $N_{\mathrm{FP}}$ 分别表示正确预测和错误预测的标准碱基对数量,$N_{\text{native}}$ 表示天然二级结构中包含的标准碱基对数量。 真阳性比例的取值范围为 $[0, 1]$,而假阳性比例可能超过1。 附录C:数据集的详细描述 Custom数据集 为构建Custom数据集,研究首先从数据库RNAsolo收集了2021年3月至2024年12月发布的经过筛选的RNA-only结构。然后使用Cd-hit-est在80%序列相似性阈值下对相应序列进行聚类。最后,经过人工选择,准备了一个包含30个RNA分子的自定义数据集。 这30个RNA具有不同的长度和结构拓扑: 长度范围:从短RNA(< 50个核苷酸)到长RNA(> 200个核苷酸) 结构类型:包含茎环、多路连接和假结等多种拓扑结构 详细条目:具体分子列表见原文 SI Table S3 RNA-Puzzles数据集 RNA-Puzzles数据集包含18个从真实挑战性RNA-Puzzles实验中收集的RNA。RNA-Puzzles是一项集体性盲测实验,旨在评估RNA结构预测技术的前沿。 这些RNA靶标的特点包括: 结构复杂性:大多数靶标具有复杂的三维结构,包含多个结构域 实验方法:通过X射线晶体学或核磁共振确定 预测难度:代表了RNA结构预测领域的重大挑战 CASP RNA数据集 CASP RNA数据集涵盖14个在CASP15和CASP16竞赛中使用的RNA靶标。CASP(Critical Assessment of protein Structure Prediction)是蛋白质结构预测领域的重要盲测竞赛,从CASP15开始引入RNA靶标。 这些RNA靶标的特点包括: 部分靶标为合成RNA:其中一些CASP15靶标缺乏天然同源RNA序列和结构 多样化结构:涵盖不同的结构类型和长度 预测挑战:对当前RNA结构预测方法提出了严峻挑战 Combined数据集的分类 研究将三个测试数据集(Custom、RNA-Puzzles和CASP RNA)合并形成Combined数据集(62个RNA)。为深入分析,研究还将Combined数据集按结构拓扑重新分类为三类: 结构类别 RNA数量 比例 特点 茎环 21 33.9% 相对简单的结构,通常包含一个或多个茎环元件 多路连接 16 25.8% 包含三个或更多螺旋连接的复杂结构 假结 25 40.3% 包含假结相互作用的结构,通常具有复杂的折叠模式 基于天然二级结构,在Combined数据集中观察到核苷酸数量($N_{nt}$)和标准碱基对数量($N_{pair}$)之间呈近似线性关系,表明几乎所有测试的RNA都形成了实质性的二级结构。 附录D:各三维模型的详细性能分析 研究首先使用从实验结构使用DSSR (v2.4)提取的天然二级结构作为输入,探索了六个所选RNA三维模型的预测上限。为避免潜在的数据泄露,排除了出现在深度学习方法相关训练数据集中的RNA。 在Custom数据集上的详细表现 对于Custom数据集,基于模板的模型RNAComposer在RMSD指标上提供了最佳预测(中位数RMSD = 14.3 Å),而FARFAR2和trRosettaRNA分别在lDDT(中位数lDDT = 0.59)和TM-score指标(中位数TM-score = 0.27)上提供了最佳预测。 原文正文只明确给出了上述最佳或领先结果,并未在主文中逐项列出所有模型的完整中位数表。因此,这里只保留 PDF 明确报告的关键数值。更完整的逐模型结果请直接参看原文 Fig 1 以及 SI Tables S7-S8。 这些结果强调了评估RNA三维结构预测的复杂性以及使用多个指标的必要性。不同模型在不同指标上的表现差异较大,单一指标可能无法全面反映模型的性能。 在RNA-Puzzles数据集上的详细表现 对于RNA-Puzzles数据集,trRosettaRNA在六个所选三维模型中几乎在所有指标上都提供了最佳预测(中位数RMSD = 2.7 Å,中位数INF_ALL = 0.77,中位数TM-score = 0.57,中位数lDDT = 0.66)。这表明trRosettaRNA在处理具有挑战性的真实RNA靶标时具有明显优势。 原文正文明确给出的关键数值是:trRosettaRNA在 RNA-Puzzles 数据集上达到中位数 RMSD = 2.7 Å、INF_ALL = 0.77、TM-score = 0.57、lDDT = 0.66。其余模型的完整中位数分布请直接参考原文 Fig 1。 在CASP RNA数据集上的详细表现 对于CASP RNA数据集,trRosettaRNA同样在六个所选模型中排名第一(中位数RMSD = 9.9 Å,中位数INF_ALL = 0.82,中位数TM-score = 0.49,中位数lDDT = 0.66)。CASP RNA 数据集中的部分靶标缺乏天然同源RNA序列和结构,对三维结构预测方法提出了严峻挑战;因此,trRosettaRNA 在这一数据集上的结果表明其在该基准上表现较强。 原文正文明确给出的关键数值是:trRosettaRNA在 CASP RNA 数据集上达到中位数 RMSD = 9.9 Å、INF_ALL = 0.82、TM-score = 0.49、lDDT = 0.66。其余模型的完整中位数分布请直接参考原文 Fig 1。 按二级结构准确性分类的详细分析 为深入研究输入二级结构的准确性如何影响每个测试的RNA三维结构预测模型的性能,研究根据其F1分数将预测的二级结构分为三类: 低准确性($0.2 \le \text{F1} < 0.55$) 中等准确性($0.55 \le \text{F1} < 0.8$) 高准确性($0.8 \le \text{F1} \le 1.0$) 使用低准确性二级结构作为输入 使用低准确性二级结构作为输入时,大多数RNA的三维结构预测准确性通常较差。在六个所选的三维模型中: 最佳的中位数RMSD为19.9 Å(IsRNA2获得) 最高的中位数INF_ALL为0.56(trRosettaRNA获得) 最高的中位数TM-score为0.17(trRosettaRNA获得) 使用高准确性二级结构作为输入 相比之下,使用高准确性二级结构作为输入时,三维结构预测的准确性明显提高: 最佳的中位数RMSD降至11.8 Å(trRosettaRNA获得) 最佳的INF_ALL大幅升至0.81(RNAComposer获得) 最佳的中位数TM-score也升至0.44(trRosettaRNA获得) 使用中等准确性二级结构作为输入 有趣的是,当输入二级结构的准确性中等时,trRosettaRNA的TM-score明显优于其他四个三维模型。这说明对于具有中等准确性的输入二级结构,trRosettaRNA预测的三维结构可能具有更高的准确性。 总的来说,这些结果表明更准确的二级结构作为输入通常可以提高RNA三维结构预测的性能,但不同模型对不同准确性输入的响应存在显著差异。 附录E:AlphaFold3和DRfold的参考性能 尽管AlphaFold3和DRfold不支持自定义二级结构输入,研究仍将它们作为参考模型进行了评估。 AlphaFold3的性能 原文只明确指出:AlphaFold3在 Custom 和 CASP RNA 数据集上的 INF_ALL 指标表现领先。 DRfold的性能 原文只明确指出:对于 Custom 数据集,DRfold 在 TM-score 指标上表现领先,且其中位数 TM-score 为 0.27。 附录F:不同结构拓扑的预测难度分析 茎环RNA的预测挑战 研究发现,对茎环RNA的三维结构预测略差于多路连接和假结,即茎环的中位数RMSD值相对较大,尽管后两类通常在结构上更复杂。 可能的原因: 测试的茎环RNA中未配对核苷酸的比例相对较高 茎环结构的柔性较大,构象空间更广 较少的约束条件使得预测更困难 多路连接和假结RNA的预测优势 尽管多路连接和假结RNA通常在结构上更复杂,但三维结构预测在这些类别上的表现反而更好: 可能的原因: 更多的碱基配对约束提供了更多信息 复杂的拓扑结构限制了构象空间 结构元件之间的相互作用提供了额外的约束 trRosettaRNA在复杂结构上的优势 trRosettaRNA在多路连接和假结RNA上明显优于其他模型,可能的原因包括: 深度学习模型能够更好地学习复杂的结构模式 大规模训练数据使其能够识别各种结构拓扑 端到端的学习方式使其能够直接从序列到三维结构进行映射 附录G:假阳性碱基对的特殊危害分析 研究发现,RNA三维结构预测性能对假阳性碱基对的敏感性高于真阳性碱基对。 真阳性和假阳性碱基对的影响 研究考虑了预测的二级结构中的两种不同类型的碱基配对相互作用:正确预测的真阳性碱基对和在天然结构中没有对应关系的假阳性碱基对。 为加深对三维结构预测准确性与输入二级结构准确性之间关系的理解,研究分析了每个测试的三维模型的预测准确性(以RMSD和INF_ALL表征)与真阳性比例($p_{\mathrm{TP}}$)或假阳性比例($p_{\mathrm{FP}}$)之间的关系。 对于所有六个所选的三维方法,INF_ALL值与真阳性比例几乎正相关,与假阳性比例负相关,这再次声明输入二级结构中碱基对的准确性对最终预测的三维结构准确性有重大影响。 正如预期的那样: INF_ALL与真阳性比例的正相关以及RMSD与真阳性比例的负相关表明,输入二级结构中的碱基配对相互作用预测得越正确,实现高准确性RNA三维结构预测的可能性就越高 INF_ALL与假阳性比例的负相关以及RMSD与假阳性比例的正相关表明,输入二级结构中错误预测的碱基配对相互作用通常导致较低准确性的三维结构模型 一般来说,那些假阳性碱基对引入噪声并通过建议错误的折叠模式或相互作用网络来误导三维结构建模算法,特别是对于基于模板的方法。 此外,研究观察到RNAComposer、FARFAR2和IsRNA2的预测显示出INF_ALL对真阳性和假阳性比例的更高依赖性(Pearson相关系数 $ \rho \ge 0.7$)。 此外,尽管在某些情况下假阳性碱基对的数量超过天然碱基对的数量($p_{\mathrm{FP}} > 1$),但INF_ALL值没有显示出异常下降,这表明测试的三维模型在结构预测中具有鲁棒性。 假阳性碱基对的危害机制 假阳性碱基对(在天然结构中不存在的预测碱基对)通过以下机制影响三维结构预测: 引入噪声:假阳性碱基对在输入二级结构中引入了错误信息 误导折叠:错误的碱基配对模式可能引导三维结构建模算法沿着错误的路径进行 限制构象空间:不正确的约束可能排除正确的构象 破坏真实相互作用:假阳性碱基对可能与真实的碱基配对相互作用冲突 不同模型对假阳性碱基对的敏感性 原文并未逐一给出所有模型的精确 Pearson 相关系数表,但明确指出:RNAComposer、FARFAR2 和 IsRNA2 的预测结果对 $p_{\mathrm{TP}}$ 与 $p_{\mathrm{FP}}$ 的依赖更强,其 Pearson 相关系数满足 $ \rho \ge 0.7$。这说明这些方法,尤其是更依赖输入约束的模型,更容易受到假阳性碱基对的影响。 减少假阳性碱基对的策略 为减少假阳性碱基对的出现,可以考虑以下策略: 提高二级结构预测准确性:改进二级结构预测算法,减少错误预测 集成多个预测结果:结合多个二级结构预测工具的结果,取共识部分 使用实验数据约束:在可能的情况下,使用实验数据(如化学探针数据)来验证和修正二级结构预测 迭代优化:在三维结构建模过程中,根据三维结构的合理性来调整二级结构约束 附录H:不同三维模型修改输入二级结构能力的详细分析 图6显示了所有六个所选的三维模型在使用不同准确性的二级结构作为输入时,预测的三维结构的相互作用网络的变化,包括F1分数的变化($\Delta\text{F1}$)、真阳性碱基对比例的变化($\Delta p_{\mathrm{TP}}$)和假阳性碱基对比例的变化($\Delta p_{\mathrm{FP}}$)相对于输入二级结构的F1分数。 trRosettaRNA和NuFold的修改能力 总体而言,对于trRosettaRNA和NuFold,许多预测相对于输入二级结构改善了其碱基配对相互作用($\Delta\text{F1} > 0$),特别是对于F1分数 < 0.55的输入,这是通过在三维结构建模过程中引入更多的真阳性碱基对($\Delta p_{\mathrm{TP}} > 0$)和/或消除假阳性碱基对($\Delta p_{\mathrm{FP}} < 0$)来实现的。 研究还观察到IsRNA2和SimRNA的一些预测在使用低准确性二级结构(F1分数 < 0.55)作为输入时有类似的结果。 高准确性输入时的性能恶化 然而,当使用高准确性二级结构作为输入时,研究发现来自trRosettaRNA、NuFold、RNAComposer、IsRNA2和SimRNA的一些预测的碱基配对相互作用明显恶化($\Delta\text{F1} < 0$),即真阳性碱基对减少($\Delta p_{\mathrm{TP}} < 0$)和假阳性碱基对增加($\Delta p_{\mathrm{FP}} > 0$)。 这表明,在结构预测过程中修改输入碱基配对相互作用在测试的三维模型中很普遍,并且这种修改能力在不同三维模型之间有所不同。 RNAComposer的特殊性 RNAComposer修改输入碱基配对相互作用的能力可以忽略不计,其性能严重依赖于输入二级结构的准确性。这与RNAComposer基于模板的方法特性一致,它倾向于严格遵循输入的二级结构约束来构建三维模型。 相比之下,trRosettaRNA和NuFold使用中等准确性输入时能显著改善碱基配对准确性,但使用高质量输入时反而可能恶化。这解释了为什么trRosettaRNA和NuFold在特定F1分数区间内表现独特。 总体结论 总体而言,这些结果声明RNA二级和三维结构预测之间的相互作用是普遍的,并且三维结构预测性能对输入二级结构准确性的依赖性与模型修改输入碱基配对相互作用的能力密切相关。
Other
· 2026-04-09
机器学习与物理模拟的协同:通过三项研究看计算化学的方法学进展
机器学习与物理模拟的协同:三项研究透视计算化学的方法学进展 引言 在计算化学和药物发现领域,机器学习与物理模拟的结合正在改变研究方式。本文综述三项近期发表的研究,它们从不同角度展示了这一融合策略: ML/MM混合势:通过机器学习原子间势(MLIP)与分子力学(MM)结合,实现接近量子力学精度但快1000倍的自由能计算 生成式主动学习(GAL):将强化学习驱动的分子生成器(REINVENT)与物理精算(ESMACS)整合,在超算上实现化学空间探索 Gen-COMPAS框架:融合扩散生成模型与committor理论,无需预定义集合变量即可将罕见事件采样效率提升350倍 这三项研究体现了一个共同特点:机器学习提供计算加速,物理模拟保证结果可靠性,二者结合可显著提升研究效率。 研究一:ML/MM混合势——量子精度遇见经典效率 文献信息 作者: Xujian Wang, Xiongwu Wu, Bernard R. Brooks, Junmei Wang 单位: 匹兹堡大学;美国国立卫生研究院 Citation: J. Chem. Theory Comput. 2025, 21, 6979–6987 代码: https://github.com/ClickFF/MLMM4AMBER 方法学框架 ML/MM理论基础 ML/MM采用与QM/MM类似的力学嵌入方案,系统总能量划分为三个组成部分: [E_{\text{total}} = E_{\text{ML}} + E_{\text{MM}} + E_{\text{ML-MM}}] 其中: $E_{\text{ML}}$:MLIP描述的配体或活性区域能量(包含成键和非键合相互作用) $E_{\text{MM}}$:MM力场描述的溶剂和蛋白其余部分能量 $E_{\text{ML-MM}}$:两区域间的相互作用,通过库仑势和Lennard-Jones势描述: [E_{\text{ML-MM}} = \sum_{i \in \text{MM}} \sum_{j \in \text{ML}} \left[\frac{q_i q_j}{r_{ij}} + \frac{A_{ij}}{r_{ij}^{12}} - \frac{B_{ij}}{r_{ij}^6}\right]] 技术实现 使用LibTorch库实现高效的MLIP推理和力计算 采用CPU-GPU异步工作流:MD计算在CPU上执行,MLIP推理在GPU上并发运行 支持多种MLIP模型:ANI系列(ANI-1x、ANI-1ccx、ANI-2x)和MACE系列(MACE-OFF23 S/M/L) 性能评估: 方法 采样速度 加速倍数 ANI-2x 2+ ns/天 1000-2000× MACE-OFF23(S) 1.5 ns/天 约1000× 传统QM/MM <6 ps/天 基准 重组能(Reorganization Energy) 传统热力学积分(TI)依赖对势能项的λ扰动,但MLIP的总能量不可分割——无法单独提取ML区域内的非键合项。 解决方案:引入重组能补偿ML区域内非键合相互作用扰动的缺失 [\Delta G_{\text{solvation}} = \sum_i w_i \left\langle \frac{\partial V_{\text{MM-ML,non-bonded}}}{\partial \lambda} \right\rangle_{\text{wat},i} + \Delta G_{\text{reorg}}] 其中重组能定义为: [\Delta G_{\text{reorg}} = \langle E_{\text{ML}} \rangle_{\text{wat}} - \langle E_{\text{ML}} \rangle_{\text{gas}}] 物理意义: 只对MM-ML之间的相互作用进行λ扰动(可明确计算) ML区域内部不进行λ扰动(保持完整性) 重组能补偿由于环境变化导致的构象重组能量差 关键结果 性能验证 图1:ML/MM工作流程与性能对比 (a)CPU-GPU异步架构,GPU并行处理MLIP推理 (b)不同MLIP模型的采样速度,ANI-2x达到2.4 ns/天 (c)QM/MM vs ML/MM采样效率对比 稳定性验证(NVE系综模拟水中erlotinib): 守恒量 ML/MM表现 QM/MM参考 总能量标准差 0.03 kcal/mol 0.02 kcal/mol 质心速度 <0.02 - 平动/转动能量 <0.15 kcal/mol - 自由能计算精度 水化自由能验证(30个有机小分子): 方法 MAE (kcal/mol) ANI-2x 0.45 MACE-OFF23(S) 0.59 CGenFF 0.96 GAFF 0.80 蛋白-配体模拟改进(CDK2与19种配体的MM-PBSA,好了那么一点点吧): 采样方法 RMSE (kcal/mol) R² 传统MD 0.68 0.54 MACE-OFF23(S) 0.65 0.59 B因子验证: 大多数蛋白-配体复合物的计算B因子与实验值Pearson相关系数大于0.5 ML/MM在超过5纳秒的模拟中表现出色稳定性 核心洞察:ML/MM不仅提供更精确的能量,更重要的是改善了构象采样质量——这直接提升了依赖系综统计的终点法(如MM-PBSA)的预测能力。 图3:CDK2-配体复合物的B因子验证。ML/MM模拟计算的B因子(蓝色)与实验X-ray数据(橙色)高度一致,多数复合物Pearson相关系数>0.5,证明ML/MM能准确捕获蛋白-配体动力学特征。 局限性 力场一致性问题:ML势函数与MM力场的训练目标不同,界面处可能存在系统偏差,需更精细的混合策略 拓扑变化限制:当前框架难以处理相对结合自由能(RBFE)所需的配体拓扑变换,仅适用于绝对自由能计算 计算资源依赖:仍需GPU加速,对硬件有一定要求 研究二:生成式主动学习——超算驱动的化学空间探索 文献信息 作者: Hannes H. Loeffler, Shunzhou Wan, Marco Klähn, Agastya P. Bhati, Peter V. Coveney 单位: AstraZeneca(瑞典);伦敦大学学院(英国) Citation: J. Chem. Theory Comput. 2024, 20, 8308–8328 方法学框架 该研究建立的GAL循环由四个关键组件组成: graph LR subgraph Oracle["Oracle(预言者)"] ESMACS["ESMACS物理精算<br/>10副本MD × 4 ns<br/>精准结合自由能ΔG"] end subgraph Surrogate["代理模型"] ChemProp["ChemProp神经网络<br/>5折交叉验证<br/>快速亲和力预测"] end subgraph Generator["分子生成器"] REINVENT["REINVENT强化学习<br/>古典先验模型<br/>即时生成新分子"] end subgraph Acquisition["获取策略"] Cluster["聚类-贪心策略<br/>Butina算法<br/>选择最优代表"] end Oracle -->|真实ΔG| Surrogate Surrogate -->|更新评分| REINVENT REINVENT -->|生成候选| Cluster Cluster -->|筛选批次| Oracle style ESMACS fill:#e3f2fd style ChemProp fill:#f3e5f5 style REINVENT fill:#e8f5e9 style Cluster fill:#fff3e0 工作逻辑:每一轮GAL包括: ESMACS评估:对当前批次化合物进行10副本MD模拟(4 ns/副本),每个化合物约5分钟墙钟时间,计算精准结合自由能 代理模型更新:用真实ΔG数据训练ChemProp神经网络(5折交叉验证,5个集成模型),建立SMILES到亲和力的映射 强化学习生成:REINVENT基于更新的评分函数生成新化合物(300-500次RL迭代),每轮产生100-1000个候选分子 聚类与筛选:使用Butina算法(Tanimoto相似度>0.5)聚类,避免化学冗余,每簇选评分最优分子 循环迭代:将筛选后的批次(n=100-1000个分子)提交给Oracle进行下一轮物理精算 计算资源: 项目 配置 平台 艾字节级超算Frontier 单次迭代墙钟时间 50分钟(数百化合物) 总计算量 约2毫秒 两个靶点的对比实验 特征 3CLpro(开放型口袋) TNKS2(封闭型口袋) 初始模型 10,000个Docking化合物 27个实验同系物 测试批大小 250和500 100-1000 迭代轮数 7轮 4-5轮(快速收敛) ΔG提升 -30 → -56 kcal/mol -35 → -47 kcal/mol 代理模型质量 Spearman: 0.1→0.62 Spearman>0.7, R²>0.6 最优批大小 n=250 n=100或n≥500 深层洞察:靶点结构特征(开放vs封闭口袋)直接决定代理模型学习难度和GAL效率。封闭口袋建立了SMILES与3D结合姿态的清晰对应,使得1D描述符能有效预测3D亲和力。 物理精算的关键价值 Docking vs. ESMACS相关性对比: 方法 Spearman相关系数 可靠性 Docking评分 0.08 几乎无相关性 ESMACS评分 0.33 中等相关 虽然ESMACS绝对精度有限,但其相对排序能力足以为强化学习提供高质量训练信号,避免虚假优化陷阱。这证明了物理计算在驱动高质量分子生成中的核心价值。 图3:GAL在3CLpro靶点的优化轨迹 (a)各轮迭代的ΔG分布演化,批大小n=250 (b)代理模型预测准确度(Spearman相关系数)随迭代提升 (c)生成分子与种子库的Tanimoto相似度分布,后期生成高度新颖的化学结构 局限性 合成性盲区:REINVENT生成的分子未经逆合成分析,可能包含合成困难或不可行的结构,需整合合成性评分 超算资源依赖:50分钟/轮的效率基于艾字节级超算Frontier,对普通计算资源的可及性有限 Oracle噪声敏感:代理模型质量依赖ESMACS的排序准确性,如果物理精算存在系统偏差会影响收敛 研究三:Gen-COMPAS——罕见事件模拟的生成式方法 文献信息 作者: Chenyu Tang, Mayank Prakash Pandey, Cheng Giuseppe Chen, Alberto Megías, François Dehez, Christophe Chipot 单位: 法国洛林大学;西班牙马德里理工大学;美国芝加哥大学;美国伊利诺伊大学香槟分校 Citation: arXiv 2025, 2510.24979v1(预印本) 方法学框架 图1:Gen-COMPAS整体框架 (A)整体框架流程 (B)去噪扩散模型训练与推理寻找中间态 (C)使用Targeted MD获得对应过渡态的物理合理结构 (D)Gen-COMPAS在示意自由能景观中由committor (q)引导的两个亚稳态间的整体采样策略 核心工作流程 graph TB subgraph Init["初始化"] A["亚稳态A和B<br/>1-2 ns无偏MD"] --> B["初始数据集"] end subgraph Loop["迭代循环"] C["扩散生成模型<br/>生成中间态"] D["Committor预测<br/>识别q≈0.5结构"] E["targeted MD<br/>收敛至目标"] F["Shooting模拟<br/>短时无偏MD"] G["数据累积"] C --> D --> E --> F --> G --> C end subgraph Output["下游分析"] direction TB H["过渡态TSE"] I["Committor图谱"] J["CCS路径"] K["自由能FEL"] end Init --> Loop --> Output style C fill:#e8f5e9 style D fill:#fff3e0 style F fill:#e3f2fd 方法学细节 扩散生成模型(DDPM): 前向过程:通过逐步添加高斯噪声将数据分布 $p_{\text{data}}(\mathbf{x})$ 转化为标准高斯分布 $\mathcal{N}(0, I)$ 逆过程:训练神经网络学习去噪步骤,从噪声中生成新样本 应用:在蛋白质构象空间(Cartesian坐标)中训练,生成物理上合理的中间态构象,避免高能区域 Committor函数学习: 定义:Committor $q(\mathbf{x})$ 是从构象 $\mathbf{x}$ 出发、在到达A之前先到达B的概率 物理意义:$q = 0$ 对应A态,$q = 1$ 对应B态,$q = 0.5$ 的超曲面(separatrix)精确定义过渡态集合(TSE) 技术优势:直接在笛卡尔空间用神经网络表示,无需预定义集合变量(CVs),自动识别最优反应坐标 Targeted MD(TMD): 原理:在原子坐标上施加简谐约束势 $V_{\text{bias}} = k(\mathbf{r} - \mathbf{r}_{\text{target}})^2$ 功能:引导系统从起始态(A或B)沿低能路径收敛至DDPM生成的目标构象 优点:避免直接模拟高能垒跨越,快速生成separatrix附近的构象 Shooting模拟: 起点:从separatrix附近的构象(committor预测 $q \approx 0.5$)出发 执行:进行短时(纳秒级)无偏MD模拟,随机初始化速度 验证:统计最终落入A态或B态的概率,验证committor预测准确性 数据积累:成功的shooting轨迹加入训练集,迭代改进DDPM和committor模型 三个标志性案例 案例1:Trp-cage蛋白折叠(20残基微型蛋白) 指标 Gen-COMPAS 传统MD(DESRES) 采样时间 594 ns 208 μs 效率提升 约350倍 基准 折叠机制 双路径分叉 - 自由能验证 定量一致 参考值 发现:折叠机制呈双路径分叉 路径1:早期α-螺旋成核 → 核心固化 路径2:疏水塌缩(Trp残基周围)→ 螺旋形成滞后 案例2:RBP的binding-upon-folding过程 发现:两种协同机制 路径1:分步诱导契合(induced-fit,配体结合先于蛋白闭合) 路径2:同步结合与折叠(simultaneous binding and folding) 意义:展示了耦合过程的原子水平解析能力,对本征无序蛋白和周质结合蛋白(PBP)研究具有普适价值 案例3:线粒体AAC转运蛋白 重大发现:首次明确证实闭合中间态(O-state)的存在 转运路径:C-state → O-state → M-state C-state:$\ce{ADP^3-}$在胞质侧结合 O-state:$\ce{ADP^3-}$被完全包裹,与膜两侧隔绝(必经检查点) M-state:$\ce{ADP^3-}$释放到基质 能垒对比: 系统 C→O能垒 O→M能垒 C→M能垒 Holo-AAC 2.5 kcal/mol 2 kcal/mol - Apo-AAC - - ~10 kcal/mol 生理意义:O-state充当防泄漏保障机制,确保严格的1:1核苷酸交换,为理解线粒体疾病突变提供结构基础。 图4:AAC线粒体ADP/ATP载体的过渡路径 (A)Holo-AAC(ADP³⁻结合)的三个亚稳态、过渡态及从C-state到M-state通过O-state的转运路径 (B-D)构象转运路径C→O→M及其自由能盆地 (E)Apo-AAC的两个亚稳态及其沿d1和d2投影的FEL 局限性 两态假设限制:当前框架主要针对A↔B双态转变,对复杂多态网络(如蛋白折叠多路径)的扩展需进一步验证 迭代收敛判据:缺乏自动化的收敛诊断工具,需依赖人工判断何时停止迭代 计算成本分布不均:虽然总采样时间大幅降低,但每轮迭代的DDPM训练和committor学习仍需可观的GPU时间 与现有方法的根本差异 特性 传统增强采样 纯生成模型 Gen-COMPAS 需要预定义CVs ✓ ✗ ✗ 训练数据需求 中等 极大(ms级) 极小(ns级) 物理严格性 高(可能有偏) 低(潜空间) 高(无偏MD) 采样效率 低-中 高(训练后) 高 动力学信息 有限 近似 精确(committor) 异质体系 ✓ ✗(多数) ✓ 三项研究的协同洞察 共同主题:物理约束下的AI加速 三项研究虽然应用场景不同,但共享一个核心哲学:AI的价值不在于替代物理计算,而在于智能引导物理计算的方向和范围。 ML/MM:MLIP加速QM/MM,但保留MM描述溶剂;TI框架保持热力学循环封闭性 GAL:REINVENT生成候选,但ESMACS物理精算提供真实ΔG训练信号 Gen-COMPAS:扩散模型生成中间态,但shooting模拟基于无偏MD验证动力学 效率提升的量化对比 方法 传统方法 新方法 加速 ML/MM TI QM/MM: 6 ps/天 ML/MM: 2 ns/天 约1000倍 GAL 数月DMTA循环 3-7次迭代收敛 数十倍 Gen-COMPAS 暴力MD: 208 μs 594 ns采样 约350倍 方法学互补性 这三项研究可以形成完整的药物发现-分子设计工作流: GAL阶段:在化学空间中快速识别高亲和力先导化合物 ML/MM阶段:对GAL发现的候选分子进行精确结合自由能排序和构象采样 Gen-COMPAS阶段:解析关键配体-蛋白相互作用的动力学机制,指导结构优化
Other
· 2025-11-17
魔改光合作用引擎的“扳手”:用定向进化打破Rubisco伴侣的物种壁垒
“魔改”光合作用引擎的”扳手”:用定向进化打破Rubisco伴侣的物种壁垒 本文信息 标题: 定向进化一种具有改变底物识别能力的植物Rubisco分子伴侣 作者: Siyu Li, ByungUk Lee, Yichong Lao, Sirawit Lertwiriyapiti, Xuhui Huang, and Tina Wang 发表时间: 2025年9月11日 单位: 威斯康星大学麦迪逊分校生物化学系、化学系、生物物理学研究生项目、理论化学研究所 (美国) 摘要 提高卡尔文循环关键酶——核酮糖-1,5-二磷酸羧化酶/加氧酶(Rubisco)的效率,有望显著提升作物产量。然而,在高等植物中,介导Rubisco组装的分子伴侣(chaperone)对其天然识别的Rubisco具有高度特异性,这为Rubisco的蛋白质工程改造和异源Rubisco的转基因表达设置了巨大障碍。本文旨在探索是否能通过定向进化技术,对植物Rubisco伴侣进行“重新编程”,使其能够识别并组装非天然的底物。研究人员为此开发了一种高通量的筛选策略,用于快速评估Rubisco组装因子的活性,并利用该方法筛选了来自拟南芥的分子伴侣Raf1(AtRaf1)的突变体库,目标是使其能够组装烟草(Nicotiana tabacum)的Rubisco——野生型AtRaf1对此几乎没有活性。结果表明,定向进化成功获得了能够显著提升烟草Rubisco组装效率的AtRaf1突变体。功能评估显示,这些进化后的AtRaf1不仅保留了组装其天然底物(拟南芥Rubisco)的能力,还能组装其他未经进化筛选的双子叶植物Rubisco,展现出更广泛的底物识别能力。这项工作为解决分子伴侣特异性对Rubisco改造带来的限制提供了一种有效策略,为未来改良植物光合作用开辟了新途径。 背景 在自然界中,Rubisco是催化卡尔文循环第一步、将大气中CO₂固定为生物质的核心酶。然而,它存在两个致命弱点:催化速度缓慢,且容易与O₂反应产生有毒副产物,后者需要通过消耗能量的光呼吸途径进行补救。因此,Rubisco被普遍认为是光合作用的瓶颈,也是提升农业产量的关键改造靶点。科学家们一直试图通过两种途径改良Rubisco:一是直接对其进行蛋白质工程改造,创造出性能更优的突变体;二是在作物中表达来自其他物种(如蓝藻)的、催化效率更高的Rubisco同源物。然而,这些努力至今收效甚微。 造成这一困境的一个核心原因是Rubisco的生物合成过程极其复杂。植物中的Rubisco由8个大亚基(RbcL)和8个小亚基(RbcS)组成,其正确的折叠与组装需要多达七种不同的辅助蛋白(分子伴侣)协同作用。这个过程就像一条精密的“生产线”,每一步都需要特定的“工人”(分子伴侣)来完成。 这条“生产线”最大的问题在于其高度的物种特异性,即所谓的“分子伴侣选择性”。来自A植物的分子伴侣往往无法识别并组装来自B植物的Rubisco RbcL亚基,即便两者序列相似度高达94%。例如,将拟南芥的RbcL引入烟草中,最终组装成的Rubisco量会下降四倍,其原因之一就是烟草的Raf1伴侣无法有效识别拟南芥的RbcL。这种“不兼容”现象为所有旨在改变RbcL序列的工程(无论是突变还是替换)都设置了几乎无法逾越的障碍。因此,找到一种方法来“说服”或“改造”宿主的分子伴侣,使其能够接纳并组装外来的、性能更优的Rubisco,成为该领域亟待解决的瓶颈问题。 关键科学问题 本研究的核心科学问题是:我们能否利用强大的蛋白质工程工具——定向进化,来打破植物Rubisco分子伴侣严格的物种特异性,使其“学会”识别并组装一种它原本不认识的、来自外源物种的Rubisco? 为了回答这个问题,研究必须解决一个关键的技术挑战:定向进化需要对数以万计的蛋白质突变体进行快速筛选,而传统的Rubisco组装活性检测方法(如电泳、色谱)通量极低,无法满足需求。因此,本研究的首要任务是开发一种能够将Rubisco伴侣活性与易于检测的信号(如荧光)相关联的高通量筛选方法。 创新点 方法学突破:首创了一种将Rubisco组装中间体的形成与荧光蛋白(GFP)表达相偶联的遗传学筛选系统。该系统巧妙地利用一个依赖寡聚化激活的转录因子,首次实现了对植物Rubisco伴侣活性的高通量检测,为定向进化研究铺平了道路。 成功重编程伴侣蛋白:通过四轮定向进化,成功将拟南芥的分子伴侣AtRaf1改造为能够高效组装烟草Rubisco的突变体。与几乎无活性的野生型相比,最优突变体(4p)使烟草Rubisco的组装产量提升了超过10倍。 功能拓展而非替换:进化后的AtRaf1突变体不仅获得了组装新底物(烟草Rubisco)的能力,同时基本保留了其组装天然底物(拟南芥Rubisco)的原始功能,实现了“一专多能”。 获得广谱识别能力:进化筛选过程不仅达成了特定目标,还意外地使AtRaf1获得了更广泛的底物识别能力(broadened promiscuity),对多种未经筛选的双子叶植物Rubisco表现出比野生型更强的组装活性。 研究内容 核心方法:构建“伴侣活性”的荧光报告系统 为了实现对分子伴侣活性的高通量筛选,研究人员设计了一套精妙的遗传学报告系统。 图1:(A) 植物Rubisco在分子伴侣介导下的生物合成通路。(B) 利用依赖寡聚化的转录因子cCadC检测Rubisco伴侣活性的策略示意图。 该系统的核心思想是:植物Rubisco的组装会经过一个包含8个RbcL亚基的八聚体中间体($RbcL_8$)。研究人员将RbcL与一个名为cCadC的转录因子进行融合。cCadC自身是无活性的单体,但当多个cCadC分子被拉近时,它们会发生自缔合,从而激活下游的报告基因(GFP)的转录。 graph TD subgraph A1 ["无活性伴侣或伴侣缺失"] A["cCadC-RbcL融合蛋白"] --> B["保持单体状态<br/>cCadC无活性"] B --> C["GFP基因沉默<br/>无荧光信号"] end subgraph A2 ["存在活性伴侣"] D["cCadC-RbcL融合蛋白"] -->|"在活性伴侣作用下"| E["组装成RbcL8伴侣复合物"] E --> F["融合的cCadC被迫靠近<br/>发生自缔合激活转录"] F --> G["GFP基因表达<br/>产生绿色荧光"] end 图2:cCadC-AtRbcL活性与未融合的拟南芥Rubisco组装情况的比较。(A) cCadC-RbcL植物Rubisco伴侣活性传感器的遗传元件图。(B) cCadC-AtRbcL融合蛋白与所有七种拟南芥Rubisco组装因子(“all”)或缺少其中一种伴侣共表达时,GFP的表达激活情况。“BSD2 mut”指W108A/L109E双突变体。左Y轴:三次重复的GFP荧光平均值及标准差;右Y轴:相同重复的细胞密度(OD₆₀₀)的散点图。(C) 在(B)中测试的相同组装因子组合下,通过天然PAGE凝胶电泳检测未融合的拟南芥Rubisco的组装情况。 通过实验验证,该系统非常可靠。当所有关键的拟南芥组装伴侣都存在时,表达拟南芥cCadC-RbcL的细胞会发出强烈的绿色荧光。而一旦移除关键伴侣如Raf1、Raf2或BSD2,荧光信号便会急剧下降。这一结果与传统的天然PAGE电泳分析(图2C)完全吻合,证明了荧光信号的强度可以准确反映Rubisco的组装效率。更重要的是,该系统对伴侣的物种特异性也很敏感:拟南芥的伴侣系统无法点亮烟草的cCadC-RbcL。至此,一个强大的定向进化筛选工具诞生了。 结果与分析 定向进化总体策略 研究人员通过一个多轮、递进的定向进化策略,逐步提升了AtRaf1对烟草Rubisco(NtRbcL)的组装能力。 graph TD subgraph B3 ["协同进化(第4轮)"] G["α结构域随机诱变库<br/>源自2b、2g"] -->|"与优化的β结构域随机组合"| H["构建结构域改组文库<br/>约30万克隆"] H -->|"FACS分选"| I["获得最优突变体<br/>4h、4p"] end subgraph B4 ["最终成果"] J["产量提升超10倍<br/>保留原始功能<br/>获得广谱识别能力"] end subgraph B1 ["起始与随机探索(第1-2轮)"] A["野生型AtRaf1基因"] -->|"易错PCR全长随机诱变"| B["构建初级文库<br/>约40万克隆"] B -->|"FACS分选与荧光菌落挑取"| C["获得活性提升的<br/>突变体2b、2g等"] end subgraph B2 ["靶向优化(第3轮)"] D["识别关键区域<br/>β结构域helix14"] -->|"定点饱和诱变"| E["构建靶向文库<br/>约50万克隆"] E -->|"荧光菌落挑取"| F["获得活性进一步提升的<br/>突变体3n"] end C -->|"以2g为模板"| D I --> J 第一、二轮进化:随机诱变与初步筛选 图3:筛选AtRaf1随机诱变文库以提高其组装NtRbcL的能力。(A) AtRaf1二聚体与S. elongatus PCC 6301 Rubisco结合的冷冻电镜结构。(B) 定向进化策略概览。(C) 经过两轮定向进化后,在AtRaf1突变体中观察到的突变。(D) AtRaf1突变体激活cCadC-NtRbcL的能力。(E) 筛选出的AtRaf1突变体促进未融合烟草Rubisco组装的能力。 研究人员首先对AtRaf1全基因进行随机诱变,构建了一个包含约40万个突变体的随机文库。利用新建立的荧光筛选系统和流式细胞分选技术(FACS),他们从文库中筛选出了能够微弱“点亮”烟草cCadC-RbcL的细胞。经过两轮“诱变-筛选”循环后,获得了16个活性显著提升的突变株(2a-p)。 突变分布:测序显示,突变广泛分布于AtRaf1的α结构域、β结构域以及连接两者的柔性接头中。 活性验证:这些突变体不仅在荧光测试中表现优异(图3D),在传统的天然PAGE凝胶分析中也显示出比野生型AtRaf1更强的烟草Rubisco组装能力,最强者活性提升约4倍(图3E)。 “假阳性”问题:一个有趣的现象是,部分突变体(如2j, 2l, 2m)能产生极高的荧光信号,但实际组装完整Rubisco的效率提升有限。这可能是因为这些突变增强了AtRaf1与RbcL八聚体中间体的结合,但却不利于后续小亚基(RbcS)的结合与释放,从而卡在了中间步骤。 分子动力学模拟揭示“假阳性”机制 图S8:E314K/E336K突变的分子动力学模拟。(a) 野生型(wt)和2j突变型AtRaf1 β结构域中,E/K336-R343和E/K314-R343残基对之间距离随时间的变化。(b) 各结构中残基相互作用的细节视图。(c) 三种AtRaf1β构象的结构比对。(d) 各系统中残基对的平均距离。 为了探究“假阳性”突变体(如含有E314K/E336K突变的2j)的机制,研究人员进行了分子动力学(MD)模拟。 破坏关键相互作用:模拟显示,在野生型AtRaf1β二聚体中,E314和E336分别与R343形成稳定的分子内和分子间盐桥,平均距离仅为 $5.5 \pm 0.4$ Å 和 $4.8 \pm 0.2$ Å。而在2j突变体中,E变为K后,这些盐桥被破坏,导致K314-R343和K336-R343的平均距离显著增加至 $15.2 \pm 1.3$ Å 和 $7.1 \pm 0.7$ Å,这使得AtRaf1β结构域变得更加灵活。 模拟结合状态:有趣的是,通过与已解析的AtRaf1结合RbcL的冷冻电镜(Cryo-EM)结构(PDB: 8IOJ)对比发现,野生型AtRaf1在结合RbcL后,其E336-R343的距离会从4.8 Å增加到8.9 Å。 核心假说:这表明,E314K/E336K突变可能通过破坏内部盐桥,使AtRaf1预先采纳了一种类似于“已结合RbcL”的构象。这种“预激活”状态有利于形成$RbcL_8$中间体(导致高荧光),但这种非自然的构象可能过度稳定,反而阻碍了后续小亚基(RbcS)的正确进入和伴侣的解离,最终导致了“假阳性”现象。 第三轮进化:靶向关键区域的饱和诱变 图4:Raf1 β结构域螺旋14的定点饱和诱变。(A) AtRbcL和NtRbcL上邻近Raf1β螺旋14区域的序列比较,差异以红色标出。AtRaf1β螺旋14中被选择进行定点饱和诱变的残基以紫色显示。(B) 筛选出的AtRaf1β螺旋14突变体中观察到的突变。(C) 筛选出的螺旋14突变体的序列标识图。(D) 螺旋14突变体促进未融合烟草Rubisco组装的能力。 在第二轮的突变体中,2b的N351Y突变位于Raf1 β结构域的第14号螺旋(helix 14),该区域正好与RbcL上一个在拟南芥和烟草间存在序列差异的区域相互作用(图4A)。研究人员对该螺旋上的五个氨基酸进行了“饱和诱变”。通过筛选,他们再次获得了一批活性增强的突变体,其中突变株3n在促进烟草Rubisco组装方面比其亲本2g提升了约3倍。 第四轮进化:结构域改组与功能优化 图5:第四轮定向进化。(A) AtRaf1突变体文库的克隆策略。(B) 第四轮筛选后在AtRaf1突变体中观察到的突变。(C) AtRaf1突变体促进未融合烟草Rubisco组装的能力。(D, E) 在进化株4p中发现的突变(粉色棒状)在AtRaf1二聚体(蓝绿色)与S. elongatus Rubisco(灰色表面)结合的冷冻电镜结构上的位置。(F) AtRaf1突变体4p中单个突变逆转后对未融合烟草Rubisco组装的影响。 为避免β结构域突变可能导致的“假阳性”问题,并整合前几轮的有效突变,研究人员采取了“结构域改组”策略。他们只对优良突变体的α结构域进行新一轮的随机诱变,然后将其与前几轮中最好的β结构域进行随机组合。经过最终筛选,获得了迄今为止性能最强的突变体,包括4h和4p。 突变分析:将4p中的突变位点标在三维结构上发现,大部分突变都位于Raf1与RbcL的结合界面上,直接参与了相互作用的调控(图5D, E)。 协同效应:将4p中的突变逐一恢复为野生型,发现没有任何一个单点回复会完全消除其活性(图5F)。这表明,活性的巨大提升是多个突变协同作用、共同累积微小优势的结果。 最终成果:进化伴侣的功能表征 图6:进化后的AtRaf1突变体对双子叶植物Rubisco同源物的活性。(A) 野生型和进化型AtRaf1/NtRaf1组装未融合烟草Rubisco的能力比较。(B) 本图中测试的双子叶植物的系统发育关系。(C) 组装未融合拟南芥Rubisco的能力比较。(D) 组装来自不同双子叶植物物种的未融合Rubisco的能力比较。 最后,研究人员对几轮进化中得到的最佳突变体(2b, 2g, 3n, 4h, 4p)进行了全面功能表征。 高效组装烟草Rubisco:与几乎没有活性的野生型AtRaf1相比,所有进化突变体都能组装烟草Rubisco,其中3n, 4h和4p活性最强(图6A)。通过小规模亲和纯化定量(Table S1),最优突变体产生的烟草Rubisco产量(例如4h为15 µg)比野生型(0.026 µg)提高了数十倍,至少是10倍以上的提升。 保留原始功能:在测试组装其天然底物——拟南芥Rubisco时,除2g外,所有进化突变体的效率都与野生型AtRaf1相当(图6C)。这说明它们在获得新功能的同时,没有丢失原有功能。 获得广谱识别能力:研究人员进一步测试了这些进化伴侣组装其它双子叶植物(马铃薯、大豆、棉花等)Rubisco的能力(图6D)。结果显示,相比于野生型AtRaf1,进化后的伴侣(特别是4p)对大豆和蒺藜苜蓿的Rubisco表现出更强的组装能力。这意味着,针对烟草Rubisco的定向进化,意外地赋予了AtRaf1一种更广泛的、跨物种的底物识别能力。 Q&A Q1: 既然目标是组装烟草的Rubisco,为什么不直接从烟草自己的分子伴侣(NtRaf1)出发进行改造,而是选择从一个几乎没活性的拟南芥伴侣(AtRaf1)开始? A1: 这是一个非常好的策略性问题。研究的根本目的并不仅仅是为了获得一个能组装烟草Rubisco的伴侣,而是为了回答一个更基本、更重要的问题:分子伴侣的底物特异性是否是“可塑的”?我们能否通过工程手段,教会一个伴侣去识别一个全新的底物? 从一个几乎没有活性的“白板”(AtRaf1对NtRbcL)出发,更能证明定向进化这一方法的强大和原理的可行性。此外,从长远应用看,科学家们更希望获得一个具有广泛适用性的“万能”伴侣,能够在一个模式植物(如拟南芥)中组装来自各种不同物种的高效Rubisco。因此,将拟南芥自身的伴侣改造得更具“包容性”,比单纯优化一个已具备特异性的烟草伴侣更具普遍意义和挑战性。 Q2: 研究中提到的β结构域突变可能导致的“假阳性”问题,其背后的分子机制是什么? A2: 这个问题的核心在于伴侣蛋白作用的动态平衡。MD模拟结果(图S8)为我们提供了很好的线索。在野生型AtRaf1中,β结构域通过内部的盐桥(如E314-R343, E336-R343)维持着一个相对稳定的构象。而“假阳性”突变(如E314K/E336K)破坏了这些盐桥,使β结构域变得异常灵活。研究者推测,这种高度灵活的构象可能模仿了伴侣蛋白结合底物RbcL后的“激活”状态。这种“预激活”构象能高效地捕捉RbcL并形成$RbcL_8$中间体,从而产生强烈的GFP荧光信号。然而,这个过度稳定或构象异常的中间复合物可能难以进行下一步——即被小亚基RbcS取代并顺利解离。这就好比一个工人能很快地抓住零件,但因为抓得太紧或姿势不对,导致零件无法安装到下一个工位,整个“生产线”因此中断。 Q3: 最优突变体4p的活性提升是多个突变协同作用的结果,这对于蛋白质工程有什么启示? A3: 这一发现(图5F)体现了定向进化的强大之处。它告诉我们,蛋白质功能的巨大改变,未必依赖于某个单一的、颠覆性的“关键突变”。更多时候,它是由多个微小、分散的突变累积起来的协同效应。这些突变的单独作用可能微不足道,但组合在一起就能产生质变。这对于理性设计蛋白质是一个重要的启示:我们很难预测并同时设计多个协同作用的突变,而定向进化通过模拟自然选择,能够探索广阔的序列空间,自动找出这些复杂的、非线性的解决方案。 Q4: 进化后的伴侣获得了“广谱识别能力”,这对于作物工程总是好事吗? A4: 在当前背景下,这通常被认为是一个非常理想的特性。野生型伴侣的高度特异性是当前Rubisco工程的巨大障碍。一个广谱的伴侣蛋白就像一把“万能扳手”,理论上可以用来组装来自多种不同物种的高效Rubisco,大大增加了我们在作物中进行异源表达的选择范围,而无需为每一种新的Rubisco都重新进化一套伴侣。然而,从长远生物学角度看,过度“滥情”的伴侣也可能存在潜在风险,比如在细胞内错误地与其他蛋白相互作用,产生非预期的副作用。因此,理想的工程伴侣应该是在保持高活性的同时,其“广谱性”仍被限定在一个安全和有效的功能范围内。 关键结论与批判性总结 本研究成功地应用定向进化技术,“重编程”了植物Rubisco分子伴侣AtRaf1,使其能够识别并高效组装其原本不兼容的烟草Rubisco,且组装产量提升超过10倍。这项工作的核心突破在于开发了一种创新的、基于荧光报告基因的高通量筛选策略,首次将定向进化这一强大的蛋白质工程工具引入到复杂的植物Rubisco组装体系中。进化后的AtRaf1不仅获得了新功能,还保留了原有功能,并展现出更广泛的底物识别谱,为解决长期困扰Rubisco工程的“伴侣特异性”瓶颈问题提供了强有力的概念验证和实用工具。 局限性1:体外模型系统:所有实验均在大肠杆菌模型系统中进行。尽管该系统与植物体内的组装情况有较好的相关性,但最终仍需在真实的植物模型(如转基因烟草)中验证这些进化伴侣的功效。 局限性2:活性未达顶峰:尽管活性提升显著,但进化后AtRaf1组装烟草Rubisco的效率(最高约25%)仍未达到烟草自身伴侣NtRaf1的水平,表明其仍有进一步优化的空间。 局限性3:筛选方法的改进:研究中出现的“假阳性”问题提示,未来的筛选策略或许需要改进,例如增加一个直接与最终产物活性挂钩的次级筛选步骤,以确保筛选到的突变体能够高效完成整个组装流程。 小编锐评: 定向进化的思路,靠多聚化来report,我不是做这个的,长见识了 和MD模拟的关系不大,感觉就是提一个机制来回答审稿人疑问,需要进一步探究
Other
· 2025-10-07
<
>
Touch background to close