会议摄影怎么拍得稳妥、正式又不翻车

会议摄影怎么拍得稳妥、正式又不翻车整理自2026.3.27新媒体培训的录音会议摄影最难的地方，往往不是按下快门，而是在有限时间里把最该交代的内容拍对。整理这份培训记录时，我最大的感受是：它讲的不是“怎么拍得花”，而是怎么拍得稳、拍得正式、拍完能直接用。会议摄影最核心的目标，其实很朴素：把层级关系、现场状态和关键环节交代清楚。好看的照片当然加分，但首先得能用、能发、符合新闻逻辑。先记住一个总原则：会议摄影拍的是“秩序” 很多人刚拍会议，最容易把注意力放在“谁拍得更大、更近、更清楚”上。但新闻照片不是人像写真，也不是随手记录。会议摄影更看重的是主次关系、场景完整性和版面规范。转录里反复强调的一点，我觉得特别值得提前记住：不是所有参会者都要有特写，也不是所有领导都应该被拍成同样大的画面。学校新闻网一般只放主要领导的重点照片，到了学院层面，也可以参照这个逻辑，适当降一级，但仍然要有明确主次。如果你把主要领导拍成远景，把副职领导或者相对次要的嘉宾拍成大半身特写，从新闻规范上看就会有点“失衡”。这不是拍得清不清楚的问题，而是画面传递出的信息顺序不对。落到院系层面，一个很实操的判断标准是：院长、书记通常可以有特写，其他副职领导一般不必单独给大特写。如果发言嘉宾确实很重要，可以补图，但数量和版面权重通常也不应超过两个主要领导。原培训里还有一个很细、但很实用的判断：学校新闻网的放图逻辑，本身就可以当参照系。到了学院层面，完全可以对标学校的标准，必要时再往下放一到两级，但不要自己把层级打乱。新闻图一旦主次失衡，读者哪怕说不出来，也会觉得哪里不对。所以出发前，最好先把三件事想清楚：先分清最重要的领导是谁。哪些人必须重点交代，哪些人只需要在全景或环节图里出现；这一点如果前面没想清楚，现场很容易拍成“谁都拍了，但主位没拍好”。再分清最重要的嘉宾是谁。如果有重磅发言人、签约嘉宾、揭牌嘉宾，他们的镜头权重通常高于一般参会者，后面补图时也应该优先围绕这些人展开。最后列出必须留下图的关键环节。例如揭牌、签约、颁奖、赠书、合影、领导讲话、嘉宾发言、现场互动等；心里先有清单，现场就不容易漏。拍会议，最好的时机通常不是中间，而是刚开始很多会议开到中段以后，现场状态会明显松掉。有人开始看手机，有人盯电脑，有人离场，有的主背景也会切换成各种 PPT 页面。这时候你再去补全景，经常会发现人少了、背景乱了、场子不够“大气”了。所以这份培训里很强调一个经验：会议开场阶段往往是全场状态最好的时刻。领导和嘉宾刚入场时，大家通常精神状态还比较好。掌声、入座、开场主持这些瞬间，画面更整齐，也更有仪式感。主背景通常还是活动主视觉，而不是后面五花八门的演示文稿。人员最齐，后排不会那么早空掉，拍全景更容易体现规模感。如果有条件，主持稿里甚至可以预留一个小提醒。例如嘉宾入座后，主持人先请大家坐好，现场短暂停顿一下，让摄影有机会抓到一张状态整齐的开场图。这不是“摆拍”，而是在不破坏流程的前提下，给摄影留出一个最干净的时间点。如果你只能抓住一个时间窗口优先拍全景，那就优先开场。很多会议最后用的主图，往往就是开场那一轮里选出来的。机位不要偷懒，四角、中轴、对角线都要走会议摄影不是站定一个位置一直拍。更稳的做法是：固定几个基础机位，多走、多拍，最后再回去选。常用的几个位置包括：四个角落要走一遍。角落位适合交代会场整体结构，也更容易把第一排领导、台上背景和会场纵深一起带进去。中轴线要拍一张标准图。中轴线适合拍方方正正、庄重正式的主会场画面，很多单位发布新闻时都会优先用这种规整的全景。对角线要补一组灵活图。对角线常常比正中间更灵活，既能带出层次，也能避免某些座位遮挡，尤其适合会场结构复杂、主位容易被挡的时候。如果是普通长方形会场，中轴位往往比较适合拍一张“标准全景”。但如果现场存在遮挡，例如中轴线上正好有人头挡住主位，或者前排椅背太高，导致关键领导被遮住，那就不要死守中轴。新闻图优先保证的是关键人物能看见，而不是机位看上去最“标准”。有些会场是半包围、回字形或者会议桌对坐布局。这样的场地如果硬拍正中，画面容易变成一排脑袋，既不好看，也不利于交代主位关系。培训里提到，这类会场往往不太建议死守中轴，而更适合从会议桌对角去拍全景，再补一些侧面机位。如果椅背特别高、主位又在正中间，更要提前预判遮挡。先分清三类照片：全景、中景、近景会议报道里，最稳妥的做法通常不是只交一堆“大头照”，也不是只交会场大全景，而是按三个层次来拍。全景：交代场面、规格和秩序全景最重要的任务，是把会议的规模感、庄重感和空间秩序拍出来。它最主要的作用，就是把会议的场面、规格和秩序交代清楚。全景要特别注意这几点：先把画面拍正。会议照片一旦歪了，正式感会立刻掉下来；哪怕现场来不及完全拍正，后期也要第一时间拉平。别把会场拍得稀稀拉拉。如果拍得像只来了几个人，哪怕实际会议很重要，视觉上也会显得冷清，所以开场、人最齐的时候一定要先抢一轮。主位一定尽量清楚可见。全景不是一定要把领导拍得很大，但至少不能被人头完全挡住；主位被挡，这张图后面通常就很难作为主图来用。背景要尽量干净统一。能用主视觉背景就尽量别用满屏 PPT 的时刻，因为后一种虽然信息多，但画面通常不够大气。画幅比例尽量统一。培训里提到，新闻照片通常更常用 2:3 比例；现场拍得松一点没关系，但后期最好裁成统一、稳定的版式。如果学院办的是大型论坛、学术会议、开幕式，这类活动的全景尤其要把人数规模和正式规格拍出来。很多时候，一张工整的大全景，就足够撑起整篇新闻的主图。中景：交代关键环节中景最适合拍一些动作明确、事件属性很强的环节，例如揭牌、颁奖、赠书、签约、握手、鼓掌、合影。这类画面和全景最大的区别在于，它不是交代“场子有多大”，而是交代“事情具体发生到了哪一步”。这些画面为什么重要？因为它们能最直接地告诉读者：这场会议到底发生了什么。例如签约，如果只拍两个人坐着低头写字，读者未必能第一时间看出“签约”已经完成。反而是签完以后，把签约文本或证书展示出来、双方站位完整、见证方也在场的那一瞬间，更适合作为报道里的关键图。这也是为什么摄影师有时候不能只当“旁观者”，还要当一个适度的流程提醒者。如果台上嘉宾签完字就准备起身，而你知道这个动作一过就没法交代签约环节了，就应该及时提醒，让签约双方和见证领导重新站位，补到那张必须有的图。近景：拍发言人和关键人物状态近景主要拍发言人、主讲嘉宾、主要领导和关键受访者。这类图不只是“拍到这个人”，而是要尽量拍到状态好的瞬间。几个非常实用的细节：尽量平视，不要仰拍。发言人本来就站在台上，如果你再站得低、镜头再往上举，脸会被拉变形，气质也不够稳；新闻照片里，端正通常比“冲击力”更重要。必要时站远一点，用长焦拍。比起贴脸仰拍，远一点平拍通常更正式，也更容易避开讲台、桌牌和麦克风的干扰。讲话时多用连拍，重点盯开头和结尾。培训里专门提到，很多领导中间会一直低头念稿，但开场问候和结束致辞时通常会抬头，这两个时间点往往最容易抓到能用的近景。注意手势和表情。带手势的发言往往说明讲者更在状态，神态也更生动，这类图通常比低头念稿的画面更适合发。如果提前知道人物更适合正面还是侧面，可以心里有数。有些人正面更稳，有些人略带角度更自然；这类经验不必太刻意，但有准备总比临场乱试好。如果你已经知道某位领导或嘉宾更适合哪个角度，例如正面更稳、45度更立体，那当然可以有针对性地拍。但前提仍然是：符合新闻语境，先稳，再谈好看。会议现场最常见的翻车点，其实都很基础转录里举了不少“反面案例”，总结下来，翻车往往不是因为设备差，而是因为一些基础问题没有处理好。 1.画面太暗、太灰、反光严重会场灯光往往不好，顶灯偏黄、屏幕反光、局部直射都很常见。结果就是照片拍出来灰蒙蒙、像“烟雾缭绕”一样，甚至人物脸上有很怪的反光。如果现场已经拍到了，后期可以适当拉亮、调光、做智能修复。培训里也直接提到，可以快速用美图秀秀或带 AI 修复功能的软件把曝光、歪斜、轻微灰雾感先救回来。但更重要的是前期先尽量避开最糟糕的角度和光线。能少修，就别指望后期救一切。 2.对焦没对准，意图也不清楚有的照片想拍主讲人，结果焦点落在前排观众身上；有的照片看不出来到底想拍全景、观众还是发言人。这样的图即使内容真实，也很难用。会议照片一定要尽量让读者一眼就看懂：你这张图到底想交代什么。 3.画面歪、比例变形会议摄影里，横平竖直几乎是底线。拍歪了可以后期拉正，怕的是既没拉正，又在上传时被随手拉伸，最后人物比例都变形了。这样的图一旦发出来，会非常影响正式感。 4.会场显得空、乱、散人少、座位空、队形散、背景杂乱，都会让活动显得“不够像一场正式会议”。尤其是一些手机拍摄的图，如果椅背挡人、前景乱、后排空、屏幕杂，最后会显得又拥挤又冷清，很难看。桌面、背景和人群状态，比你想得更重要会议照片常常坏在“人物以外的东西”上。桌面不能乱桌上的东西非常影响新闻照片的质感。尤其现在很多场合都更强调规范性，摄影时要特别留意这些细节：桌面文件是否凌乱，会不会让画面显得很杂。有没有奶茶、咖啡、果盘，这些东西一旦分散摆开，后期很难修干净。有没有不适合出现在正式会场里的摆设，例如过于生活化的小物件。鲜花、饮品、杂物会不会破坏画面统一性，尤其是前排领导桌面最要当心。这些东西如果零零散散摆在每个人面前，后期几乎不可能修得很干净。所以摄影师不能只顾着按快门，也要提前观察会场，必要时提醒会务人员微调。背后不要长“人头”和“手臂” 拍领导特写时，一个很经典的翻车点就是：后面突然冒出半个脑袋、一只手、一个模糊的人影。位置再巧一点，还可能形成非常奇怪、甚至搞笑的视觉效果。所以拍近景和特写时，要特别注意人物后方背景。你宁愿挪一步，也不要让主角背后长出奇怪的“配件”。玩手机、开电脑、表情出戏，都要尽量避开开会时总有人会看手机、玩电脑、走神，这很正常，但新闻照片通常不会选这种状态特别明显的瞬间。如果正在拍摄，可以适度用眼神、机位靠近等方式提醒一下。很多人看到镜头其实会自然收敛。真避不开，后期选片时也要优先淘汰这类画面。培训里还提到一个细节：亮着的手机屏幕往往比低头动作更显眼，这类画面要特别小心。同样的道理，拍观众时不能只看前景那个“认真做笔记”的人，还要看周围一圈人有没有明显出戏。培训里提到两个比较稳的观众细节：认真做记录，以及举手机拍现场。这两类动作都能传达“在认真参与会议”。但只要周围有人明显玩手机、神游、动作夸张，这张图依然可能不能用。前景很优秀、背景很灾难，这张图照样可能不能用。选片时，先问自己这张图“能不能发”，再问“好不好看” 很多摄影新手拍完以后，选片容易只看某一个主体拍得好不好，却忽略整张图能不能进入新闻稿。我觉得可以按下面这个顺序来筛：检查项要看什么主次是否正确主要领导、主要嘉宾有没有被正确交代，画面有没有喧宾夺主场景是否清楚这张图是在交代全景、环节还是人物状态，意图是否明确人物状态是否合适有没有低头、闭眼、玩手机、张嘴、肢体失控等明显问题背景是否干净有没有半个脑袋、亮屏、杂物、奇怪灯光、比例变形画面是否端正横平竖直、曝光正常、主体清楚、裁切合理会议照片的筛选逻辑很简单：优先保“正确”，再保“好看”。一张很生动但不合规范的图，最后往往还是发不出去。关于“C位”，摄影师有时确实要主动提醒转录里有个点我很认同：摄影师在某些关键环节里，不只是记录者，也应该是适度的引导者。比如：合影时前排站太满、后排被挡住了，可以提醒大家稍微错开。签约后没有展示文本，可以提醒签约和见证方短暂停留。会场中心位置挡住了最关键的领导，可以临时调整自己机位，或者提醒站位稍微让开一点。如果全景里主位被挡住，而两侧人物都完整，也应优先选主位清楚的那一张，而不是机械追求“每排人都拍全”。因为这些问题如果当场不说，后期几乎没有补救空间。会议摄影不能只是“拍到什么算什么”，而要提前知道这张图在新闻里要承担什么功能。这样到了现场，你才会自然地去补位、提醒和调整。还有几个容易漏掉、但很实用的细节全景加特写，通常是最常见的搭配。一张负责交代场面，一张负责交代关键人物。很多会议新闻并不需要给很多人都安排一张单独特写。主位一定尽量在画面里的视觉中心。不一定非要几何正中央，但读者一眼要能看出谁是 C 位。椅背过高、桌签过密、前排站位过满时，要提前预判遮挡。这类问题不是按快门之后才发现，而是举机前就该意识到。如果手机拍全景时一侧座位特别容易挡人，可以考虑让对应一侧尽量别坐满。这条来自培训现场的举例，核心意思还是：拍之前先替自己把遮挡问题想一遍。上传前别忘了检查裁切和比例。有些图现场拍得还可以，最后毁在后台拉伸、压缩或者裁切失衡。如果只能记住一个拍摄清单，就记这个出发前：先看议程，知道有哪些必拍环节，避免到了现场才想起“这一段还没拍”。再看名单，知道哪些领导和嘉宾最重要，这决定了你后面镜头到底往哪边倾斜。最后看场地，预判中轴、对角线和角落位怎么走，心里先把机位路线过一遍。开场前 5 分钟：先抢一轮全景，因为这通常是最稳的主图来源。确认主背景是否干净，尽量用主视觉，不要等 PPT 切满屏再拍。确认主位人物不会被遮挡，尤其是中轴线和前排椅背的问题。会议进行中：补中景环节图，特别是揭牌、颁奖、签约、合影、握手，这些图最能交代“发生了什么”。补近景发言图，多抓抬头、手势和互动瞬间，尽量别只留一堆低头念稿照。注意观众状态，拍认真记录、拍照、鼓掌等投入镜头，同时留意周围有没有人出戏。选片时：先删歪的、糊的、暗的、变形的，这些通常没有必要犹豫。再删玩手机、亮屏、背景出戏的，别让一处细节毁掉整张图。最后从全景、中景、近景里各留最稳的，保证整套图片结构完整。最后一句话如果把会议摄影理解成一种新闻表达，很多判断就会简单一些。你不是在“随便拍拍现场”，而是在用画面回答几个问题：谁来了、什么场合、发生了什么、谁最重要、现场状态怎样。这几个问题交代清楚，照片通常就能用；机位、主次和人物状态再稳一点，整组图就会很顺。

Other · 2026-04-13

IMPRINT解码TCR识别：几何深度学习捕捉pMHC界面免疫指纹

IMPRINT解码TCR识别：几何深度学习捕捉pMHC界面免疫指纹本文信息标题：通过免疫指纹的几何深度学习解码TCR识别作者：Chun Shang, Kevin C. Chan, Ruhong Zhou 发表时间：2026年3月16日单位：浙江大学定量生物中心、浙江大学上海高等研究院（中国）；西交利物浦大学生物科学与生物信息学系（中国）等引用格式：Shang, C., Chan, K. C., & Zhou, R. (2026). Decoding TCR recognition via geometric deep learning of immunological fingerprints. Briefings in Bioinformatics, 27(2), bbag048. https://doi.org/10.1093/bib/bbag048 摘要 T细胞受体（TCR）对肽段-主要组织相容性复合体（pMHC）分子的识别，是适应性免疫激活的关键第一步，决定了机体对病原体、肿瘤以及自身抗原的反应方式。尽管TCR–pMHC复合物已积累了相当数量的结构研究，这一识别过程的分子规律仍未被完全厘清，核心困难在于TCR同时表现出高度特异性与广泛交叉反应性。本文提出一个多模态几何深度学习框架，从pMHC界面系统提取并学习几何、理化与空间特征，以捕捉驱动TCR识别的关键免疫线索。应用于精心整理的HLA-A*02–肽段–TCR晶体结构数据集后，模型能够稳健预测TCR结合偏好，并识别界面的免疫指纹特征。借助集成的可解释性分析，作者进一步定位了关键接触残基和相互作用基序，从而为TCR特异性的结构决定因素提供了可解释证据。最后，研究还在HLA-B*27–肽段复合物上测试了模型的泛化能力，揭示了等位基因差异如何通过局部界面特征影响TCR识别。核心结论 IMPRINT框架在HLA-A*02数据集上实现0.80的平均判别准确率，显著超过随机预期发现了pMHC界面的“免疫指纹”模式，被同一TCR识别的pMHC共享相似的界面特征通过patch级可解释性分析识别关键接触残基，如1E6 TCR识别中的“GPD”基序零样本推理成功应用于HLA-B*27，揭示了单残基多态性（D116H）对TCR交叉反应性的影响背景 T细胞受体（TCR）识别pMHC分子是适应性免疫系统最核心的分子事件之一。一个TCR是否能够识别某个肽段，不仅决定T细胞能否被激活，也直接关系到病原体清除、肿瘤免疫监视以及自身耐受能否维持。因此，TCR–pMHC识别规律既是基础免疫学问题，也是TCR工程、肿瘤免疫治疗和疫苗设计中的关键前提。真正困难的地方在于，TCR识别天然具有“既专一、又宽容”的双重属性。一方面，TCR需要对少量关键界面差异保持敏感，才能区分不同抗原；另一方面，它又必须保留一定交叉反应性，才能在有限受体库条件下覆盖庞大的潜在病原体空间。原文在引言中强调，这种特异性与交叉反应性的并存，使得单靠序列模式或少数局部接触规则，很难完整解释TCR为何会识别某个pMHC而不识别另一个。另一个现实瓶颈是数据极度不对称。人体内估计存在约$2.5 \times 10^7$个独特TCR克隆型，但目前可用于结构分析的TCR–pMHC复合物仍然只占极小一部分。与TCR repertoire（受体库）的巨大多样性相比，结构数据稀缺、类别分布不均、等位基因覆盖有限，都会限制模型训练与机制归纳。也正因此，作者并没有把问题简单设定为“序列配对预测”，而是转向更接近真实识别界面的结构表面表示。 TCR–pMHC识别的挑战当前TCR–pMHC识别研究面临以下挑战：结构数据稀缺：尽管人体内存在约$2.5 \times 10^7$个独特TCR克隆型，但PDB数据库中可直接用于这类任务的TCR–pMHC复合物仍然很少，难以支撑大规模监督学习传统方法的局限：很多结构分析依赖人工观察、接触统计或定性比较，能够提出解释，但不容易形成统一、可推广的判别模型界面信息高度多模态：TCR同时感知表面形状、局部曲率、静电环境、疏水性与氢键供受体特征，而非只“看见”某几个残基可解释性要求高：即使模型做出正确预测，研究者仍然希望知道到底是哪些界面局部patch、哪些肽段位置、哪些局部化学环境在驱动识别分子表面表示的优势分子表面提供了一种很适合处理这类问题的中观表示。与只看一级序列或残基接触表不同，表面表示会把蛋白质视为具有连续几何形貌和理化属性的三维对象，从而更直接地对应真实的分子识别界面。原文借鉴了MaSIF一类表面学习思路：先在分子表面定义局部patch，再把曲率、静电、疏水性以及氢键相关特征映射到这些局部patch上，最后交给几何深度网络学习。从这个角度看，本文真正想回答的，不只是“某个TCR会不会结合”，而是：pMHC表面是否存在可被学习、可被解释、并且能够跨体系迁移的免疫指纹。如果这一点成立，那么结构生物学中的局部表面特征就能被组织成更系统的判别框架，而不再只是零散的结构观察。关键科学问题 pMHC界面是否包含可识别的免疫指纹？被同一TCR识别的pMHC是否共享相似的界面特征模式？能否通过几何深度学习预测TCR结合偏好？如何从pMHC界面提取和学习多模态特征？如何解释模型的预测结果？哪些界面区域对TCR识别至关重要？模型能否泛化到不同HLA等位基因？能否通过零样本推理揭示新的生物学机制？创新点提出IMPRINT框架：基于分子表面的免疫指纹概念，系统提取pMHC界面的多模态几何和理化特征几何深度学习管道：结合表面三角剖分、径向patch采样和随机局部patch采样，实现端到端学习可解释性分析：通过patch级重要性评分识别关键接触残基和相互作用基序跨等位基因泛化：在HLA-B*27上的零样本推理揭示单残基多态性的功能影响研究内容方法学概述研究构建了IMPRINT（Immunological Fingerprinting）框架，通过表面判别建模分析TCR–pMHC识别。该框架包括四个主要步骤：数据集准备：从PDB收集HLA-A*02–肽段–TCR复合物结构，涵盖7个TCR类别共40个结构表面特征化：计算pMHC界面的几何和理化特征，包括形状指数、静电势和疏水性深度学习建模：训练几何深度网络预测TCR结合偏好可解释性分析：通过patch级重要性评分解释模型预测 IMPRINT框架的核心思想核心假设：pMHC界面——肽段周围的子表面——嵌入了指纹状的几何和理化特征模式，这些模式揭示了免疫学信息。被同一TCR识别的pMHC可能共享可以通过高维分析有效捕获的微妙界面特征模式。图1：基于表面的TCR–pMHC识别判别建模整体概念：图中给出了IMPRINT的整体概念框架，TCR被概念化为通过感知pMHC表面的免疫指纹来扫描潜在结合界面上部：从pMHC界面提取免疫指纹的流程，包括获取pMHC结构、计算分子表面、以肽段邻近区域定义界面，并在界面上插值理化与几何特征下部：随机抽样得到的指纹片段局部patch被共同输入深度网络，用于预测TCR结合偏好，并通过输出与局部patch的相关性定位高重要性区域数据集构建 HLA-A*02数据集（训练集）属性详情 TCR类别 7种（A6：10个结构、1E6：9个、DMF5：6个、JM22：5个、a24b17：4个、868：3个、T4H2：3个）总结构数 40个复合物结构（均为实验解析的晶体结构）肽段长度 9-10个氨基酸选择标准至少包含3个结构的TCR类别 HLA-B*27数据集（测试集）属性详情结构数 4个复合物结构来源 2个B*27:05复合物直接来自PDB；2个B*27:09复合物通过单点突变建模并经100 ns MD弛豫后获得生物学意义与强直性脊柱炎（AS）等炎症性疾病相关等位基因差异包含疾病相关等位基因B*27:05和非疾病相关等位基因B*27:09 表面特征化流程研究采用基于MaSIF框架的表面特征化管道，包含四个主要步骤：表面三角剖分：将pMHC表面三角化为离散网格径向patch提取：在每个网格顶点周围提取半径$r = 12$ Å的径向局部patch 特征计算：计算两个几何特征（形状指数、曲率）和三个理化特征（静电势、疏水性、氢键潜力）上下文映射：将多模态特征映射到重叠表面局部patch的测地极坐标系中对于每个天然pMHC结构，研究识别了距离任何肽段原子4 Å以内的表面点，并将以这些点为中心的局部patch定义为界面patch（通常有数百个）。图2：pMHC界面建模的几何深度学习流程图2a：pMHC表面特征化管道的四个主要步骤，包括表面三角剖分、径向patch提取、特征计算和上下文映射图2b：模型架构通过基于采样的随机建模方案支持可解释性预测。对于每个pMHC，从数百个界面patch中随机选择32个局部patch输入几何深度网络。为提高鲁棒性，每个pMHC界面采样100次，最终通过平均或多数投票聚合预测模型架构与训练策略集成学习框架参数设置模型数量训练50个模型的集成采样策略对于每个pMHC，随机采样32个界面patch 重复采样每个pMHC采样100次，产生100个预测向量聚合方法通过向量平均或多数投票得到最终预测交叉验证策略：All-test迭代验证研究实施了名为“All-test”的迭代交叉验证策略，这一设计专门针对小规模结构数据集（仅40个晶体结构）的挑战。核心思想：通过多次迭代训练，确保数据集中的每一个结构最终都会被用作测试集，从而充分利用有限的数据资源进行全面评估。参数设置训练集每次迭代27个结构（约70%）测试集每次迭代13个结构（约30%）类别平衡保持训练和测试集中TCR类别的结构分布一致集成规模 50个模型，每个在不同随机子集上训练最终预测通过等权重集成所有50个模型的预测结果关键设计考虑随机迭代划分：在50次迭代中，每次从40个结构中随机采样27个作为训练集，剩余13个作为测试集，每次迭代的划分都不同，确保每个结构最终都会在某些迭代中作为测试集无独立验证集：由于部分TCR类别样本极少（如MS1-A3只有2个结构），无法划出独立的验证集，而是通过交叉验证直接进行超参数调优类别平衡约束：每次划分训练/测试集时，确保7个TCR类别都能在两个子集中保持合理分布，避免某些类别在测试集中完全缺失集成学习优势：50个模型的预测结果通过等权重平均或多数投票聚合，显著降低了单一模型因数据划分偶然性而产生的方差。具体而言，对于每个测试结构，收集所有将其作为测试实例的模型的预测向量（每个向量是7个TCR类别的概率分布），然后对这些向量进行算术平均，每个模型的贡献完全平等主要结果模型在HLA-A*02上的预测性能研究在精心策划的HLA-A*02数据集上评估了IMPRINT框架的预测性能。准确性评估指标结果平均判别准确率 0.80（显著超过随机预期的0.14）置信度分析模型对正确预测的置信度显著高于错误预测类别特异性不同TCR类别的预测准确率存在差异，1E6 TCR达到最高准确率图3：HLA-A*02结构的预测准确性与置信度交叉验证图3a：各类别样本量分布，每轮约按7∶3划分为27个训练结构和13个测试结构图3b：判别准确率与混淆矩阵分析，给出不同类别之间的平均误判概率图3c：40个复合物各自的判别置信度，定义为对其真实TCR类别的平均预测概率。模型在全部40个复合物上达到0.80的平均判别准确率与现有方法对比研究将IMPRINT与三种代表性方法进行了基准比较，包括结构方法TCRen以及两个序列预训练模型TEINet和TEIM-Seq。方法类别 Top-1 准确率 Top-3 准确率说明 TCRen 结构方法未报告未报告具有竞争力的排序性能，与IMPRINT捕获的是互补信息 TEINet 序列方法 0.35 0.78 序列预训练模型 TEIM-Seq 序列方法 0.48 0.75 序列预训练模型 IMPRINT 本研究 0.80 - 在相同评估设定下的 Top-1 判别准确率因此，原文支持的更稳妥结论是：IMPRINT在相同任务设定下优于两个序列预训练基线，并与TCRen形成互补的结构解释视角。 patch级可解释性分析为揭示模型判别决策的免疫学机制，研究实现了patch级可解释性分析框架，核心思想是通过量化每个界面patch对TCR判别的贡献度，将抽象的预测转化为可解释的结构生物学洞察。分析方法：patch级归因分析具体步骤：步骤操作目的 1. 收集预测向量对于每个结构，收集所有将其作为测试实例的集成模型的预测向量。在HLA-A*02交叉验证中，每个测试结构采样100次（每次随机选择32个patch），产生100个预测向量获取该结构的完整预测分布 2. 筛选高置信度预测选择前10**%的高置信度预测（即对真实类别预测概率最高的那些预测）聚焦于模型最有把握的预测 3. 统计patch频率统计每个界面patch在这些高置信度预测中被采样的频率识别哪些patch在正确预测中频繁出现 4. 归一化得分将频率归一化，定义每个patch的判别得分消除不同patch采样次数的差异 5. 映射到表面将判别得分映射到pMHC表面的对应patch位置可视化关键区域得分解释：判别得分高于平均值的patch表示对TCR判别有更强贡献，这些区域往往对应关键的接触残基或相互作用基序。 1E6 TCR的识别模式 1E6 TCR在七个类别中实现了最高的判别准确率。研究对9个1E6类内结构的分析发现：位置重要性谱：肽段位置4-6的判别得分始终升高保守基序：这些位置与该类别肽段共享的保守“GPD”基序一致结构特征：这些高分区域对应肽段中央的局部凸起，尤其以Pro5为中心最为突出图4：1E6 TCR结合的 patch 级可解释性分析图4a：9个HLA-A*02–肽段–TCR结构的判别得分谱沿肽段位置分布。参考得分1.0表示所有界面patch的平均贡献图4b：1E6类别肽段序列的序列标识图，突出显示保守的“GPD”基序（肽段位置4-6）图4c：在3UTS结构上映射的归一化判别得分，红色区域表示高重要性局部patch 图4d：结构图显示Tyr97α和Trp97β与以Pro5为中心的“GPD”基序形成互补作用关键接触残基识别通过patch级归一化判别得分分析，研究识别了以下关键发现：肽段中心区域：位置4-6对TCR识别最关键局部拓扑凸起：该区域由“GPD”基序，尤其是Pro5，形成明显的表面凸起相互作用模式：TCR残基Tyr97α和Trp97β与这一中心区域形成互补相互作用模型泛化能力：HLA-B*27零样本推理研究评估了模型跨HLA等位基因的泛化能力，使用HLA-B*27–肽段–TCR复合物作为零样本推理案例。疾病相关背景疾病关联：HLA-B*27与强直性脊柱炎（AS）等炎症性疾病相关等位基因差异：B*27:05（疾病相关）与B*27:09（非疾病相关）在位置116存在单残基多态性（D116H） TCR交叉反应性：AS衍生的TCR AS4.3交叉识别自身肽段 self-GQV 和细菌肽段 bacterial-LRV 零样本推理方法模型重训练：使用全部40个HLA-A*02结构重新训练单个判别模型（200个epoch），用于对4个HLA-B*27–肽段结构进行推理。大规模重复预测：对每个HLA-B*27–肽段结构，模型会通过反复随机采样32个界面patch来生成10 000 次预测。每次预测都输出一个7维概率向量，对应7个TCR类别。相似度定义：某个结构对特定TCR类别的相似度得分，定义为该类别在全部10 000 次预测中的平均预测概率。归因分析：针对目标类别（如类别6），选取相似度最高的前10%预测，再沿用HLA-A*02数据集中的归因流程，计算并归一化patch级重要性得分，并将其映射回pMHC界面进行可视化。零样本推理结果图5：模型泛化实现HLA-B*27交叉反应性的可解释性图5a：自身来源GQV肽段（左）与细菌来源LRV肽段（右）分别结合两种功能不同的HLA-B*27等位基因，图中标出了位于MHC结合槽底部、邻近肽段P9的单残基替换D116H 图5b：基于用全部40个HLA-A*02复合物重新训练的判别模型，对四个HLA-B*27–肽段界面的相似度推断结果图5c：左侧为相对于类别6的patch级判别得分映射，右侧为对应区域的表面电荷分布，突出P9附近的局部差异图5d：四个HLA-B*27–pMHC结构中残基116与肽段P9之间的残基接触网络，对比显示不同电荷匹配关系关键发现等位基因肽段类别6相似度类别5相似度变化说明 B*27:05 self-GQV 0.63 0.19 基线水平 B*27:05 bacterial-LRV 0.83 - 病原体肽段被明确识别为类别6 B*27:09 self-GQV 0.21 0.59 类别6显著下降，类别5显著上升 B*27:09 bacterial-LRV 0.84 - 保持一致，界面指纹得以保留机制解释：关键残基：patch级归一化分析识别出MHC残基116是驱动类别6推断的最具影响力因素物理属性：特征分析揭示静电势是该区域最具判别性的属性突变效应：D116H取代显著改变了局部静电环境，从而影响了TCR识别模式方法学的生物学意义表面指纹的有效性研究结果支持pMHC界面包含可识别的免疫指纹模式：模式共享：被同一TCR识别的pMHC共享相似的界面特征高维特征：多模态几何和理化特征能够编码功能相关信息可学习性：几何深度网络能够有效学习这些模式可解释性的价值 IMPRINT框架的可解释性模块提供了：关键区域识别：精确定位对TCR识别至关重要的界面区域相互作用基序：揭示保守的序列和结构特征机制洞察：理解等位基因多态性如何影响TCR交叉反应性关键结论与批判性总结主要发现本研究通过IMPRINT框架系统揭示了TCR–pMHC识别的分子基础：免疫指纹的普遍性：pMHC界面确实包含可识别的几何和理化特征模式，被同一TCR识别的pMHC共享这些“免疫指纹” 预测性能的优越性：IMPRINT在HLA-A*02数据集上实现0.80的平均准确率，显著优于现有方法可解释性进展：patch级分析揭示了关键接触残基和相互作用基序，如1E6 TCR识别中的“GPD”基序跨等位基因泛化：零样本推理在HLA-B*27上成功揭示了单残基多态性对TCR交叉反应性的机制影响研究意义意义类型详情理论意义为TCR特异性和交叉反应性的双重性提供了结构解释方法学意义展示了表面多模态特征在蛋白质-蛋白质相互作用预测中的强大潜力临床应用前景为理解HLA等位基因多态性与疾病关联的分子机制提供了新工具药物开发启示可指导TCR工程疗法的设计和优化局限性局限性详情数据规模限制仅使用40个HLA-A*02结构进行训练，数据集规模仍然较小等位基因覆盖主要关注HLA-A*02，对其他HLA等位基因的验证有限体内验证缺失预测结果需要进一步的实验验证，特别是在体内环境中结合亲和力数据缺乏定量结合亲和力数据，限制了模型对结合强度的预测能力潜在影响免疫学机制研究：为理解TCR识别的分子基础提供了新视角和工具个性化医疗：可帮助预测患者特定TCR对病原体或肿瘤抗原的反应性疫苗设计：指导优化疫苗抗原以引发所需的T细胞反应自身免疫病：深化对HLA等位基因多态性与疾病关联机制的理解

Other · 2026-04-10

三维建模如何修改RNA二级结构输入

Other · 2026-04-09

RNA结构预测深度学习基准的方法学与数据分析

Other · 2026-04-09

机器学习与物理模拟的协同：通过三项研究看计算化学的方法学进展

机器学习与物理模拟的协同：三项研究透视计算化学的方法学进展引言在计算化学和药物发现领域，机器学习与物理模拟的结合正在改变研究方式。本文综述三项近期发表的研究，它们从不同角度展示了这一融合策略： ML/MM混合势：通过机器学习原子间势（MLIP）与分子力学（MM）结合，实现接近量子力学精度但快1000倍的自由能计算生成式主动学习（GAL）：将强化学习驱动的分子生成器（REINVENT）与物理精算（ESMACS）整合，在超算上实现化学空间探索 Gen-COMPAS框架：融合扩散生成模型与committor理论，无需预定义集合变量即可将罕见事件采样效率提升350倍这三项研究体现了一个共同特点：机器学习提供计算加速，物理模拟保证结果可靠性，二者结合可显著提升研究效率。研究一：ML/MM混合势——量子精度遇见经典效率文献信息作者: Xujian Wang, Xiongwu Wu, Bernard R. Brooks, Junmei Wang 单位: 匹兹堡大学；美国国立卫生研究院 Citation: J. Chem. Theory Comput. 2025, 21, 6979–6987 代码: https://github.com/ClickFF/MLMM4AMBER 方法学框架 ML/MM理论基础 ML/MM采用与QM/MM类似的力学嵌入方案，系统总能量划分为三个组成部分： [E_{\text{total}} = E_{\text{ML}} + E_{\text{MM}} + E_{\text{ML-MM}}] 其中： $E_{\text{ML}}$：MLIP描述的配体或活性区域能量（包含成键和非键合相互作用） $E_{\text{MM}}$：MM力场描述的溶剂和蛋白其余部分能量 $E_{\text{ML-MM}}$：两区域间的相互作用，通过库仑势和Lennard-Jones势描述： [E_{\text{ML-MM}} = \sum_{i \in \text{MM}} \sum_{j \in \text{ML}} \left[\frac{q_i q_j}{r_{ij}} + \frac{A_{ij}}{r_{ij}^{12}} - \frac{B_{ij}}{r_{ij}^6}\right]] 技术实现使用LibTorch库实现高效的MLIP推理和力计算采用CPU-GPU异步工作流：MD计算在CPU上执行，MLIP推理在GPU上并发运行支持多种MLIP模型：ANI系列（ANI-1x、ANI-1ccx、ANI-2x）和MACE系列（MACE-OFF23 S/M/L）性能评估：方法采样速度加速倍数 ANI-2x 2+ ns/天 1000-2000× MACE-OFF23(S) 1.5 ns/天约1000× 传统QM/MM <6 ps/天基准重组能（Reorganization Energy）传统热力学积分（TI）依赖对势能项的λ扰动，但MLIP的总能量不可分割——无法单独提取ML区域内的非键合项。解决方案：引入重组能补偿ML区域内非键合相互作用扰动的缺失 [\Delta G_{\text{solvation}} = \sum_i w_i \left\langle \frac{\partial V_{\text{MM-ML,non-bonded}}}{\partial \lambda} \right\rangle_{\text{wat},i} + \Delta G_{\text{reorg}}] 其中重组能定义为： [\Delta G_{\text{reorg}} = \langle E_{\text{ML}} \rangle_{\text{wat}} - \langle E_{\text{ML}} \rangle_{\text{gas}}] 物理意义：只对MM-ML之间的相互作用进行λ扰动（可明确计算） ML区域内部不进行λ扰动（保持完整性）重组能补偿由于环境变化导致的构象重组能量差关键结果性能验证图1：ML/MM工作流程与性能对比（a）CPU-GPU异步架构，GPU并行处理MLIP推理（b）不同MLIP模型的采样速度，ANI-2x达到2.4 ns/天（c）QM/MM vs ML/MM采样效率对比稳定性验证（NVE系综模拟水中erlotinib）：守恒量 ML/MM表现 QM/MM参考总能量标准差 0.03 kcal/mol 0.02 kcal/mol 质心速度 <0.02 - 平动/转动能量 <0.15 kcal/mol - 自由能计算精度水化自由能验证（30个有机小分子）：方法 MAE (kcal/mol) ANI-2x 0.45 MACE-OFF23(S) 0.59 CGenFF 0.96 GAFF 0.80 蛋白-配体模拟改进（CDK2与19种配体的MM-PBSA，好了那么一点点吧）：采样方法 RMSE (kcal/mol) R² 传统MD 0.68 0.54 MACE-OFF23(S) 0.65 0.59 B因子验证：大多数蛋白-配体复合物的计算B因子与实验值Pearson相关系数大于0.5 ML/MM在超过5纳秒的模拟中表现出色稳定性核心洞察：ML/MM不仅提供更精确的能量，更重要的是改善了构象采样质量——这直接提升了依赖系综统计的终点法（如MM-PBSA）的预测能力。图3：CDK2-配体复合物的B因子验证。ML/MM模拟计算的B因子（蓝色）与实验X-ray数据（橙色）高度一致，多数复合物Pearson相关系数>0.5，证明ML/MM能准确捕获蛋白-配体动力学特征。局限性力场一致性问题：ML势函数与MM力场的训练目标不同，界面处可能存在系统偏差，需更精细的混合策略拓扑变化限制：当前框架难以处理相对结合自由能（RBFE）所需的配体拓扑变换，仅适用于绝对自由能计算计算资源依赖：仍需GPU加速，对硬件有一定要求研究二：生成式主动学习——超算驱动的化学空间探索文献信息作者: Hannes H. Loeffler, Shunzhou Wan, Marco Klähn, Agastya P. Bhati, Peter V. Coveney 单位: AstraZeneca（瑞典）；伦敦大学学院（英国） Citation: J. Chem. Theory Comput. 2024, 20, 8308–8328 方法学框架该研究建立的GAL循环由四个关键组件组成： graph LR subgraph Oracle["Oracle（预言者）"] ESMACS["ESMACS物理精算 10副本MD × 4 ns 精准结合自由能ΔG"] end subgraph Surrogate["代理模型"] ChemProp["ChemProp神经网络 5折交叉验证 快速亲和力预测"] end subgraph Generator["分子生成器"] REINVENT["REINVENT强化学习 古典先验模型 即时生成新分子"] end subgraph Acquisition["获取策略"] Cluster["聚类-贪心策略 Butina算法 选择最优代表"] end Oracle -->|真实ΔG| Surrogate Surrogate -->|更新评分| REINVENT REINVENT -->|生成候选| Cluster Cluster -->|筛选批次| Oracle style ESMACS fill:#e3f2fd style ChemProp fill:#f3e5f5 style REINVENT fill:#e8f5e9 style Cluster fill:#fff3e0 工作逻辑：每一轮GAL包括： ESMACS评估：对当前批次化合物进行10副本MD模拟（4 ns/副本），每个化合物约5分钟墙钟时间，计算精准结合自由能代理模型更新：用真实ΔG数据训练ChemProp神经网络（5折交叉验证，5个集成模型），建立SMILES到亲和力的映射强化学习生成：REINVENT基于更新的评分函数生成新化合物（300-500次RL迭代），每轮产生100-1000个候选分子聚类与筛选：使用Butina算法（Tanimoto相似度>0.5）聚类，避免化学冗余，每簇选评分最优分子循环迭代：将筛选后的批次（n=100-1000个分子）提交给Oracle进行下一轮物理精算计算资源：项目配置平台艾字节级超算Frontier 单次迭代墙钟时间 50分钟（数百化合物）总计算量约2毫秒两个靶点的对比实验特征 3CLpro（开放型口袋） TNKS2（封闭型口袋）初始模型 10,000个Docking化合物 27个实验同系物测试批大小 250和500 100-1000 迭代轮数 7轮 4-5轮（快速收敛） ΔG提升 -30 → -56 kcal/mol -35 → -47 kcal/mol 代理模型质量 Spearman: 0.1→0.62 Spearman>0.7, R²>0.6 最优批大小 n=250 n=100或n≥500 深层洞察：靶点结构特征（开放vs封闭口袋）直接决定代理模型学习难度和GAL效率。封闭口袋建立了SMILES与3D结合姿态的清晰对应，使得1D描述符能有效预测3D亲和力。物理精算的关键价值 Docking vs. ESMACS相关性对比：方法 Spearman相关系数可靠性 Docking评分 0.08 几乎无相关性 ESMACS评分 0.33 中等相关虽然ESMACS绝对精度有限，但其相对排序能力足以为强化学习提供高质量训练信号，避免虚假优化陷阱。这证明了物理计算在驱动高质量分子生成中的核心价值。图3：GAL在3CLpro靶点的优化轨迹（a）各轮迭代的ΔG分布演化，批大小n=250 （b）代理模型预测准确度（Spearman相关系数）随迭代提升（c）生成分子与种子库的Tanimoto相似度分布，后期生成高度新颖的化学结构局限性合成性盲区：REINVENT生成的分子未经逆合成分析，可能包含合成困难或不可行的结构，需整合合成性评分超算资源依赖：50分钟/轮的效率基于艾字节级超算Frontier，对普通计算资源的可及性有限 Oracle噪声敏感：代理模型质量依赖ESMACS的排序准确性，如果物理精算存在系统偏差会影响收敛研究三：Gen-COMPAS——罕见事件模拟的生成式方法文献信息作者: Chenyu Tang, Mayank Prakash Pandey, Cheng Giuseppe Chen, Alberto Megías, François Dehez, Christophe Chipot 单位: 法国洛林大学；西班牙马德里理工大学；美国芝加哥大学；美国伊利诺伊大学香槟分校 Citation: arXiv 2025, 2510.24979v1（预印本）方法学框架图1：Gen-COMPAS整体框架（A）整体框架流程（B）去噪扩散模型训练与推理寻找中间态（C）使用Targeted MD获得对应过渡态的物理合理结构（D）Gen-COMPAS在示意自由能景观中由committor (q)引导的两个亚稳态间的整体采样策略核心工作流程 graph TB subgraph Init["初始化"] A["亚稳态A和B 1-2 ns无偏MD"] --> B["初始数据集"] end subgraph Loop["迭代循环"] C["扩散生成模型 生成中间态"] D["Committor预测 识别q≈0.5结构"] E["targeted MD 收敛至目标"] F["Shooting模拟 短时无偏MD"] G["数据累积"] C --> D --> E --> F --> G --> C end subgraph Output["下游分析"] direction TB H["过渡态TSE"] I["Committor图谱"] J["CCS路径"] K["自由能FEL"] end Init --> Loop --> Output style C fill:#e8f5e9 style D fill:#fff3e0 style F fill:#e3f2fd 方法学细节扩散生成模型（DDPM）：前向过程：通过逐步添加高斯噪声将数据分布 $p_{\text{data}}(\mathbf{x})$ 转化为标准高斯分布 $\mathcal{N}(0, I)$ 逆过程：训练神经网络学习去噪步骤，从噪声中生成新样本应用：在蛋白质构象空间（Cartesian坐标）中训练，生成物理上合理的中间态构象，避免高能区域 Committor函数学习：定义：Committor $q(\mathbf{x})$ 是从构象 $\mathbf{x}$ 出发、在到达A之前先到达B的概率物理意义：$q = 0$ 对应A态，$q = 1$ 对应B态，$q = 0.5$ 的超曲面（separatrix）精确定义过渡态集合（TSE）技术优势：直接在笛卡尔空间用神经网络表示，无需预定义集合变量（CVs），自动识别最优反应坐标 Targeted MD（TMD）：原理：在原子坐标上施加简谐约束势 $V_{\text{bias}} = k(\mathbf{r} - \mathbf{r}_{\text{target}})^2$ 功能：引导系统从起始态（A或B）沿低能路径收敛至DDPM生成的目标构象优点：避免直接模拟高能垒跨越，快速生成separatrix附近的构象 Shooting模拟：起点：从separatrix附近的构象（committor预测 $q \approx 0.5$）出发执行：进行短时（纳秒级）无偏MD模拟，随机初始化速度验证：统计最终落入A态或B态的概率，验证committor预测准确性数据积累：成功的shooting轨迹加入训练集，迭代改进DDPM和committor模型三个标志性案例案例1：Trp-cage蛋白折叠（20残基微型蛋白）指标 Gen-COMPAS 传统MD（DESRES）采样时间 594 ns 208 μs 效率提升约350倍基准折叠机制双路径分叉 - 自由能验证定量一致参考值发现：折叠机制呈双路径分叉路径1：早期α-螺旋成核 → 核心固化路径2：疏水塌缩（Trp残基周围）→ 螺旋形成滞后案例2：RBP的binding-upon-folding过程发现：两种协同机制路径1：分步诱导契合（induced-fit，配体结合先于蛋白闭合）路径2：同步结合与折叠（simultaneous binding and folding）意义：展示了耦合过程的原子水平解析能力，对本征无序蛋白和周质结合蛋白（PBP）研究具有普适价值案例3：线粒体AAC转运蛋白重大发现：首次明确证实闭合中间态（O-state）的存在转运路径：C-state → O-state → M-state C-state：$\ce{ADP^3-}$在胞质侧结合 O-state：$\ce{ADP^3-}$被完全包裹，与膜两侧隔绝（必经检查点） M-state：$\ce{ADP^3-}$释放到基质能垒对比：系统 C→O能垒 O→M能垒 C→M能垒 Holo-AAC 2.5 kcal/mol 2 kcal/mol - Apo-AAC - - ~10 kcal/mol 生理意义：O-state充当防泄漏保障机制，确保严格的1:1核苷酸交换，为理解线粒体疾病突变提供结构基础。图4：AAC线粒体ADP/ATP载体的过渡路径（A）Holo-AAC（ADP³⁻结合）的三个亚稳态、过渡态及从C-state到M-state通过O-state的转运路径（B-D）构象转运路径C→O→M及其自由能盆地（E）Apo-AAC的两个亚稳态及其沿d1和d2投影的FEL 局限性两态假设限制：当前框架主要针对A↔B双态转变，对复杂多态网络（如蛋白折叠多路径）的扩展需进一步验证迭代收敛判据：缺乏自动化的收敛诊断工具，需依赖人工判断何时停止迭代计算成本分布不均：虽然总采样时间大幅降低，但每轮迭代的DDPM训练和committor学习仍需可观的GPU时间与现有方法的根本差异特性传统增强采样纯生成模型 Gen-COMPAS 需要预定义CVs ✓ ✗ ✗ 训练数据需求中等极大（ms级）极小（ns级）物理严格性高（可能有偏）低（潜空间）高（无偏MD）采样效率低-中高（训练后）高动力学信息有限近似精确（committor）异质体系 ✓ ✗（多数） ✓ 三项研究的协同洞察共同主题：物理约束下的AI加速三项研究虽然应用场景不同，但共享一个核心哲学：AI的价值不在于替代物理计算，而在于智能引导物理计算的方向和范围。 ML/MM：MLIP加速QM/MM，但保留MM描述溶剂；TI框架保持热力学循环封闭性 GAL：REINVENT生成候选，但ESMACS物理精算提供真实ΔG训练信号 Gen-COMPAS：扩散模型生成中间态，但shooting模拟基于无偏MD验证动力学效率提升的量化对比方法传统方法新方法加速 ML/MM TI QM/MM: 6 ps/天 ML/MM: 2 ns/天约1000倍 GAL 数月DMTA循环 3-7次迭代收敛数十倍 Gen-COMPAS 暴力MD: 208 μs 594 ns采样约350倍方法学互补性这三项研究可以形成完整的药物发现-分子设计工作流： GAL阶段：在化学空间中快速识别高亲和力先导化合物 ML/MM阶段：对GAL发现的候选分子进行精确结合自由能排序和构象采样 Gen-COMPAS阶段：解析关键配体-蛋白相互作用的动力学机制，指导结构优化

Other · 2025-11-17

魔改光合作用引擎的“扳手”：用定向进化打破Rubisco伴侣的物种壁垒

“魔改”光合作用引擎的”扳手”：用定向进化打破Rubisco伴侣的物种壁垒本文信息标题: 定向进化一种具有改变底物识别能力的植物Rubisco分子伴侣作者: Siyu Li, ByungUk Lee, Yichong Lao, Sirawit Lertwiriyapiti, Xuhui Huang, and Tina Wang 发表时间: 2025年9月11日单位: 威斯康星大学麦迪逊分校生物化学系、化学系、生物物理学研究生项目、理论化学研究所 (美国) 摘要提高卡尔文循环关键酶——核酮糖-1,5-二磷酸羧化酶/加氧酶（Rubisco）的效率，有望显著提升作物产量。然而，在高等植物中，介导Rubisco组装的分子伴侣（chaperone）对其天然识别的Rubisco具有高度特异性，这为Rubisco的蛋白质工程改造和异源Rubisco的转基因表达设置了巨大障碍。本文旨在探索是否能通过定向进化技术，对植物Rubisco伴侣进行“重新编程”，使其能够识别并组装非天然的底物。研究人员为此开发了一种高通量的筛选策略，用于快速评估Rubisco组装因子的活性，并利用该方法筛选了来自拟南芥的分子伴侣Raf1（AtRaf1）的突变体库，目标是使其能够组装烟草（Nicotiana tabacum）的Rubisco——野生型AtRaf1对此几乎没有活性。结果表明，定向进化成功获得了能够显著提升烟草Rubisco组装效率的AtRaf1突变体。功能评估显示，这些进化后的AtRaf1不仅保留了组装其天然底物（拟南芥Rubisco）的能力，还能组装其他未经进化筛选的双子叶植物Rubisco，展现出更广泛的底物识别能力。这项工作为解决分子伴侣特异性对Rubisco改造带来的限制提供了一种有效策略，为未来改良植物光合作用开辟了新途径。背景在自然界中，Rubisco是催化卡尔文循环第一步、将大气中CO₂固定为生物质的核心酶。然而，它存在两个致命弱点：催化速度缓慢，且容易与O₂反应产生有毒副产物，后者需要通过消耗能量的光呼吸途径进行补救。因此，Rubisco被普遍认为是光合作用的瓶颈，也是提升农业产量的关键改造靶点。科学家们一直试图通过两种途径改良Rubisco：一是直接对其进行蛋白质工程改造，创造出性能更优的突变体；二是在作物中表达来自其他物种（如蓝藻）的、催化效率更高的Rubisco同源物。然而，这些努力至今收效甚微。造成这一困境的一个核心原因是Rubisco的生物合成过程极其复杂。植物中的Rubisco由8个大亚基（RbcL）和8个小亚基（RbcS）组成，其正确的折叠与组装需要多达七种不同的辅助蛋白（分子伴侣）协同作用。这个过程就像一条精密的“生产线”，每一步都需要特定的“工人”（分子伴侣）来完成。这条“生产线”最大的问题在于其高度的物种特异性，即所谓的“分子伴侣选择性”。来自A植物的分子伴侣往往无法识别并组装来自B植物的Rubisco RbcL亚基，即便两者序列相似度高达94%。例如，将拟南芥的RbcL引入烟草中，最终组装成的Rubisco量会下降四倍，其原因之一就是烟草的Raf1伴侣无法有效识别拟南芥的RbcL。这种“不兼容”现象为所有旨在改变RbcL序列的工程（无论是突变还是替换）都设置了几乎无法逾越的障碍。因此，找到一种方法来“说服”或“改造”宿主的分子伴侣，使其能够接纳并组装外来的、性能更优的Rubisco，成为该领域亟待解决的瓶颈问题。关键科学问题本研究的核心科学问题是：我们能否利用强大的蛋白质工程工具——定向进化，来打破植物Rubisco分子伴侣严格的物种特异性，使其“学会”识别并组装一种它原本不认识的、来自外源物种的Rubisco？为了回答这个问题，研究必须解决一个关键的技术挑战：定向进化需要对数以万计的蛋白质突变体进行快速筛选，而传统的Rubisco组装活性检测方法（如电泳、色谱）通量极低，无法满足需求。因此，本研究的首要任务是开发一种能够将Rubisco伴侣活性与易于检测的信号（如荧光）相关联的高通量筛选方法。创新点方法学突破：首创了一种将Rubisco组装中间体的形成与荧光蛋白（GFP）表达相偶联的遗传学筛选系统。该系统巧妙地利用一个依赖寡聚化激活的转录因子，首次实现了对植物Rubisco伴侣活性的高通量检测，为定向进化研究铺平了道路。成功重编程伴侣蛋白：通过四轮定向进化，成功将拟南芥的分子伴侣AtRaf1改造为能够高效组装烟草Rubisco的突变体。与几乎无活性的野生型相比，最优突变体（4p）使烟草Rubisco的组装产量提升了超过10倍。功能拓展而非替换：进化后的AtRaf1突变体不仅获得了组装新底物（烟草Rubisco）的能力，同时基本保留了其组装天然底物（拟南芥Rubisco）的原始功能，实现了“一专多能”。获得广谱识别能力：进化筛选过程不仅达成了特定目标，还意外地使AtRaf1获得了更广泛的底物识别能力（broadened promiscuity），对多种未经筛选的双子叶植物Rubisco表现出比野生型更强的组装活性。研究内容核心方法：构建“伴侣活性”的荧光报告系统为了实现对分子伴侣活性的高通量筛选，研究人员设计了一套精妙的遗传学报告系统。图1：(A) 植物Rubisco在分子伴侣介导下的生物合成通路。(B) 利用依赖寡聚化的转录因子cCadC检测Rubisco伴侣活性的策略示意图。该系统的核心思想是：植物Rubisco的组装会经过一个包含8个RbcL亚基的八聚体中间体（$RbcL_8$）。研究人员将RbcL与一个名为cCadC的转录因子进行融合。cCadC自身是无活性的单体，但当多个cCadC分子被拉近时，它们会发生自缔合，从而激活下游的报告基因（GFP）的转录。 graph TD subgraph A1 ["无活性伴侣或伴侣缺失"] A["cCadC-RbcL融合蛋白"] --> B["保持单体状态 cCadC无活性"] B --> C["GFP基因沉默 无荧光信号"] end subgraph A2 ["存在活性伴侣"] D["cCadC-RbcL融合蛋白"] -->|"在活性伴侣作用下"| E["组装成RbcL8伴侣复合物"] E --> F["融合的cCadC被迫靠近 发生自缔合激活转录"] F --> G["GFP基因表达 产生绿色荧光"] end 图2：cCadC-AtRbcL活性与未融合的拟南芥Rubisco组装情况的比较。(A) cCadC-RbcL植物Rubisco伴侣活性传感器的遗传元件图。(B) cCadC-AtRbcL融合蛋白与所有七种拟南芥Rubisco组装因子（“all”）或缺少其中一种伴侣共表达时，GFP的表达激活情况。“BSD2 mut”指W108A/L109E双突变体。左Y轴：三次重复的GFP荧光平均值及标准差；右Y轴：相同重复的细胞密度（OD₆₀₀）的散点图。(C) 在(B)中测试的相同组装因子组合下，通过天然PAGE凝胶电泳检测未融合的拟南芥Rubisco的组装情况。通过实验验证，该系统非常可靠。当所有关键的拟南芥组装伴侣都存在时，表达拟南芥cCadC-RbcL的细胞会发出强烈的绿色荧光。而一旦移除关键伴侣如Raf1、Raf2或BSD2，荧光信号便会急剧下降。这一结果与传统的天然PAGE电泳分析（图2C）完全吻合，证明了荧光信号的强度可以准确反映Rubisco的组装效率。更重要的是，该系统对伴侣的物种特异性也很敏感：拟南芥的伴侣系统无法点亮烟草的cCadC-RbcL。至此，一个强大的定向进化筛选工具诞生了。结果与分析定向进化总体策略研究人员通过一个多轮、递进的定向进化策略，逐步提升了AtRaf1对烟草Rubisco（NtRbcL）的组装能力。 graph TD subgraph B3 ["协同进化（第4轮）"] G["α结构域随机诱变库 源自2b、2g"] -->|"与优化的β结构域随机组合"| H["构建结构域改组文库 约30万克隆"] H -->|"FACS分选"| I["获得最优突变体 4h、4p"] end subgraph B4 ["最终成果"] J["产量提升超10倍 保留原始功能 获得广谱识别能力"] end subgraph B1 ["起始与随机探索（第1-2轮）"] A["野生型AtRaf1基因"] -->|"易错PCR全长随机诱变"| B["构建初级文库 约40万克隆"] B -->|"FACS分选与荧光菌落挑取"| C["获得活性提升的 突变体2b、2g等"] end subgraph B2 ["靶向优化（第3轮）"] D["识别关键区域 β结构域helix14"] -->|"定点饱和诱变"| E["构建靶向文库 约50万克隆"] E -->|"荧光菌落挑取"| F["获得活性进一步提升的 突变体3n"] end C -->|"以2g为模板"| D I --> J 第一、二轮进化：随机诱变与初步筛选图3：筛选AtRaf1随机诱变文库以提高其组装NtRbcL的能力。(A) AtRaf1二聚体与S. elongatus PCC 6301 Rubisco结合的冷冻电镜结构。(B) 定向进化策略概览。(C) 经过两轮定向进化后，在AtRaf1突变体中观察到的突变。(D) AtRaf1突变体激活cCadC-NtRbcL的能力。(E) 筛选出的AtRaf1突变体促进未融合烟草Rubisco组装的能力。研究人员首先对AtRaf1全基因进行随机诱变，构建了一个包含约40万个突变体的随机文库。利用新建立的荧光筛选系统和流式细胞分选技术（FACS），他们从文库中筛选出了能够微弱“点亮”烟草cCadC-RbcL的细胞。经过两轮“诱变-筛选”循环后，获得了16个活性显著提升的突变株（2a-p）。突变分布：测序显示，突变广泛分布于AtRaf1的α结构域、β结构域以及连接两者的柔性接头中。活性验证：这些突变体不仅在荧光测试中表现优异（图3D），在传统的天然PAGE凝胶分析中也显示出比野生型AtRaf1更强的烟草Rubisco组装能力，最强者活性提升约4倍（图3E）。 “假阳性”问题：一个有趣的现象是，部分突变体（如2j, 2l, 2m）能产生极高的荧光信号，但实际组装完整Rubisco的效率提升有限。这可能是因为这些突变增强了AtRaf1与RbcL八聚体中间体的结合，但却不利于后续小亚基（RbcS）的结合与释放，从而卡在了中间步骤。分子动力学模拟揭示“假阳性”机制图S8：E314K/E336K突变的分子动力学模拟。(a) 野生型（wt）和2j突变型AtRaf1 β结构域中，E/K336-R343和E/K314-R343残基对之间距离随时间的变化。(b) 各结构中残基相互作用的细节视图。(c) 三种AtRaf1β构象的结构比对。(d) 各系统中残基对的平均距离。为了探究“假阳性”突变体（如含有E314K/E336K突变的2j）的机制，研究人员进行了分子动力学（MD）模拟。破坏关键相互作用：模拟显示，在野生型AtRaf1β二聚体中，E314和E336分别与R343形成稳定的分子内和分子间盐桥，平均距离仅为 $5.5 \pm 0.4$ Å 和 $4.8 \pm 0.2$ Å。而在2j突变体中，E变为K后，这些盐桥被破坏，导致K314-R343和K336-R343的平均距离显著增加至 $15.2 \pm 1.3$ Å 和 $7.1 \pm 0.7$ Å，这使得AtRaf1β结构域变得更加灵活。模拟结合状态：有趣的是，通过与已解析的AtRaf1结合RbcL的冷冻电镜（Cryo-EM）结构（PDB: 8IOJ）对比发现，野生型AtRaf1在结合RbcL后，其E336-R343的距离会从4.8 Å增加到8.9 Å。核心假说：这表明，E314K/E336K突变可能通过破坏内部盐桥，使AtRaf1预先采纳了一种类似于“已结合RbcL”的构象。这种“预激活”状态有利于形成$RbcL_8$中间体（导致高荧光），但这种非自然的构象可能过度稳定，反而阻碍了后续小亚基（RbcS）的正确进入和伴侣的解离，最终导致了“假阳性”现象。第三轮进化：靶向关键区域的饱和诱变图4：Raf1 β结构域螺旋14的定点饱和诱变。(A) AtRbcL和NtRbcL上邻近Raf1β螺旋14区域的序列比较，差异以红色标出。AtRaf1β螺旋14中被选择进行定点饱和诱变的残基以紫色显示。(B) 筛选出的AtRaf1β螺旋14突变体中观察到的突变。(C) 筛选出的螺旋14突变体的序列标识图。(D) 螺旋14突变体促进未融合烟草Rubisco组装的能力。在第二轮的突变体中，2b的N351Y突变位于Raf1 β结构域的第14号螺旋（helix 14），该区域正好与RbcL上一个在拟南芥和烟草间存在序列差异的区域相互作用（图4A）。研究人员对该螺旋上的五个氨基酸进行了“饱和诱变”。通过筛选，他们再次获得了一批活性增强的突变体，其中突变株3n在促进烟草Rubisco组装方面比其亲本2g提升了约3倍。第四轮进化：结构域改组与功能优化图5：第四轮定向进化。(A) AtRaf1突变体文库的克隆策略。(B) 第四轮筛选后在AtRaf1突变体中观察到的突变。(C) AtRaf1突变体促进未融合烟草Rubisco组装的能力。(D, E) 在进化株4p中发现的突变（粉色棒状）在AtRaf1二聚体（蓝绿色）与S. elongatus Rubisco（灰色表面）结合的冷冻电镜结构上的位置。(F) AtRaf1突变体4p中单个突变逆转后对未融合烟草Rubisco组装的影响。为避免β结构域突变可能导致的“假阳性”问题，并整合前几轮的有效突变，研究人员采取了“结构域改组”策略。他们只对优良突变体的α结构域进行新一轮的随机诱变，然后将其与前几轮中最好的β结构域进行随机组合。经过最终筛选，获得了迄今为止性能最强的突变体，包括4h和4p。突变分析：将4p中的突变位点标在三维结构上发现，大部分突变都位于Raf1与RbcL的结合界面上，直接参与了相互作用的调控（图5D, E）。协同效应：将4p中的突变逐一恢复为野生型，发现没有任何一个单点回复会完全消除其活性（图5F）。这表明，活性的巨大提升是多个突变协同作用、共同累积微小优势的结果。最终成果：进化伴侣的功能表征图6：进化后的AtRaf1突变体对双子叶植物Rubisco同源物的活性。(A) 野生型和进化型AtRaf1/NtRaf1组装未融合烟草Rubisco的能力比较。(B) 本图中测试的双子叶植物的系统发育关系。(C) 组装未融合拟南芥Rubisco的能力比较。(D) 组装来自不同双子叶植物物种的未融合Rubisco的能力比较。最后，研究人员对几轮进化中得到的最佳突变体（2b, 2g, 3n, 4h, 4p）进行了全面功能表征。高效组装烟草Rubisco：与几乎没有活性的野生型AtRaf1相比，所有进化突变体都能组装烟草Rubisco，其中3n, 4h和4p活性最强（图6A）。通过小规模亲和纯化定量（Table S1），最优突变体产生的烟草Rubisco产量（例如4h为15 µg）比野生型（0.026 µg）提高了数十倍，至少是10倍以上的提升。保留原始功能：在测试组装其天然底物——拟南芥Rubisco时，除2g外，所有进化突变体的效率都与野生型AtRaf1相当（图6C）。这说明它们在获得新功能的同时，没有丢失原有功能。获得广谱识别能力：研究人员进一步测试了这些进化伴侣组装其它双子叶植物（马铃薯、大豆、棉花等）Rubisco的能力（图6D）。结果显示，相比于野生型AtRaf1，进化后的伴侣（特别是4p）对大豆和蒺藜苜蓿的Rubisco表现出更强的组装能力。这意味着，针对烟草Rubisco的定向进化，意外地赋予了AtRaf1一种更广泛的、跨物种的底物识别能力。 Q&A Q1: 既然目标是组装烟草的Rubisco，为什么不直接从烟草自己的分子伴侣（NtRaf1）出发进行改造，而是选择从一个几乎没活性的拟南芥伴侣（AtRaf1）开始？ A1: 这是一个非常好的策略性问题。研究的根本目的并不仅仅是为了获得一个能组装烟草Rubisco的伴侣，而是为了回答一个更基本、更重要的问题：分子伴侣的底物特异性是否是“可塑的”？我们能否通过工程手段，教会一个伴侣去识别一个全新的底物？从一个几乎没有活性的“白板”（AtRaf1对NtRbcL）出发，更能证明定向进化这一方法的强大和原理的可行性。此外，从长远应用看，科学家们更希望获得一个具有广泛适用性的“万能”伴侣，能够在一个模式植物（如拟南芥）中组装来自各种不同物种的高效Rubisco。因此，将拟南芥自身的伴侣改造得更具“包容性”，比单纯优化一个已具备特异性的烟草伴侣更具普遍意义和挑战性。 Q2: 研究中提到的β结构域突变可能导致的“假阳性”问题，其背后的分子机制是什么？ A2: 这个问题的核心在于伴侣蛋白作用的动态平衡。MD模拟结果（图S8）为我们提供了很好的线索。在野生型AtRaf1中，β结构域通过内部的盐桥（如E314-R343, E336-R343）维持着一个相对稳定的构象。而“假阳性”突变（如E314K/E336K）破坏了这些盐桥，使β结构域变得异常灵活。研究者推测，这种高度灵活的构象可能模仿了伴侣蛋白结合底物RbcL后的“激活”状态。这种“预激活”构象能高效地捕捉RbcL并形成$RbcL_8$中间体，从而产生强烈的GFP荧光信号。然而，这个过度稳定或构象异常的中间复合物可能难以进行下一步——即被小亚基RbcS取代并顺利解离。这就好比一个工人能很快地抓住零件，但因为抓得太紧或姿势不对，导致零件无法安装到下一个工位，整个“生产线”因此中断。 Q3: 最优突变体4p的活性提升是多个突变协同作用的结果，这对于蛋白质工程有什么启示？ A3: 这一发现（图5F）体现了定向进化的强大之处。它告诉我们，蛋白质功能的巨大改变，未必依赖于某个单一的、颠覆性的“关键突变”。更多时候，它是由多个微小、分散的突变累积起来的协同效应。这些突变的单独作用可能微不足道，但组合在一起就能产生质变。这对于理性设计蛋白质是一个重要的启示：我们很难预测并同时设计多个协同作用的突变，而定向进化通过模拟自然选择，能够探索广阔的序列空间，自动找出这些复杂的、非线性的解决方案。 Q4: 进化后的伴侣获得了“广谱识别能力”，这对于作物工程总是好事吗？ A4: 在当前背景下，这通常被认为是一个非常理想的特性。野生型伴侣的高度特异性是当前Rubisco工程的巨大障碍。一个广谱的伴侣蛋白就像一把“万能扳手”，理论上可以用来组装来自多种不同物种的高效Rubisco，大大增加了我们在作物中进行异源表达的选择范围，而无需为每一种新的Rubisco都重新进化一套伴侣。然而，从长远生物学角度看，过度“滥情”的伴侣也可能存在潜在风险，比如在细胞内错误地与其他蛋白相互作用，产生非预期的副作用。因此，理想的工程伴侣应该是在保持高活性的同时，其“广谱性”仍被限定在一个安全和有效的功能范围内。关键结论与批判性总结本研究成功地应用定向进化技术，“重编程”了植物Rubisco分子伴侣AtRaf1，使其能够识别并高效组装其原本不兼容的烟草Rubisco，且组装产量提升超过10倍。这项工作的核心突破在于开发了一种创新的、基于荧光报告基因的高通量筛选策略，首次将定向进化这一强大的蛋白质工程工具引入到复杂的植物Rubisco组装体系中。进化后的AtRaf1不仅获得了新功能，还保留了原有功能，并展现出更广泛的底物识别谱，为解决长期困扰Rubisco工程的“伴侣特异性”瓶颈问题提供了强有力的概念验证和实用工具。局限性1：体外模型系统：所有实验均在大肠杆菌模型系统中进行。尽管该系统与植物体内的组装情况有较好的相关性，但最终仍需在真实的植物模型（如转基因烟草）中验证这些进化伴侣的功效。局限性2：活性未达顶峰：尽管活性提升显著，但进化后AtRaf1组装烟草Rubisco的效率（最高约25%）仍未达到烟草自身伴侣NtRaf1的水平，表明其仍有进一步优化的空间。局限性3：筛选方法的改进：研究中出现的“假阳性”问题提示，未来的筛选策略或许需要改进，例如增加一个直接与最终产物活性挂钩的次级筛选步骤，以确保筛选到的突变体能够高效完成整个组装流程。小编锐评：定向进化的思路，靠多聚化来report，我不是做这个的，长见识了和MD模拟的关系不大，感觉就是提一个机制来回答审稿人疑问，需要进一步探究

Other · 2025-10-07

Mendelevium

Contact

Other