TNKS2靶点详细结果与补充分析(附录)
本附录包含TNKS2靶点的详细figure描述、图表解读和补充分析,是主文档的延伸。
TNKS2详细结果分析
代理模型质量对比
图9:TNKS2中代理模型预测精度的提升
对比了批大小为100、500和1000分子的ChemProp代理模型对ΔG的预测与ESMACS计算值,展示选定的GAL迭代步骤。图中插入R²系数及Spearman/Kendall秩相关系数(ρ和τ)。每次迭代中所有代理模型预测和ESMACS计算的平均ΔG值用红色圆圈标示。所有能量值单位为kcal/mol。完整的所有训练批大小和迭代步骤的结果见补充图S8。与3CLpro相比,TNKS2的代理模型质量明显更优。
结合自由能分布与收敛性
图10:TNKS2中结合自由能分布的演变
展示了TNKS2在选定GAL迭代轮次和不同批大小(100、500、1000)下,计算得到的ΔG分布。10000个种子化合物的初始分布用绿色显示(批次0)。27个实验验证的同系物的ΔG分布用红色显示,用于对比。与3CLpro相比,TNKS2的收敛速度极快,仅需单次迭代甚至部分批次就可实现显著改善。所有批大小和迭代步骤的完整结果见补充图S9。
多维性能指标
图11:TNKS2的多维分析(a−d)
展示了四个关键指标的演变:
-
(a) 结合自由能分布:各批大小下,累积生成化合物库中ΔG最低的100个化合物的ΔG分布演变。随迭代逐步向更低能量移动。
-
(b) Tanimoto相似度分布:所有分子对的相似度分布,反映生成化合物的结构多样性。越往较大值延伸表示结构越相似。
-
(c) 结构簇数:Butina算法(相似度截断0.5)检测到的结构簇数,随迭代递减,体现化学空间收敛。
-
(d) 与初始库的差异度:生成高分子与初始27个实验同系物间的Tanimoto相似度分布,多数值<0.3,证明了真正的结构创新而非简单的同系物延伸。
化学结构创新
图12:TNKS2的代表性化合物结构
展示了ΔG最低的代表性化学结构,来自TNKS2的精选结构簇。选择了8个最多人口的簇,以及4个ΔG最低的簇。聚类分析基于各迭代后积累池中ΔG最低的100个化合物,对应(a) n=100和(b) n=1000的GAL训练批大小。
值得注意的是,尽管初始样本仅基于一个小的同系物群体(共享喹唑啉酮支架),生成的高分子却体现了多种不同的化学支架,包括腈基、桥环和其他特殊取代基。这说明GAL有效地突破了初始库的限制,发现了本质上新颖的分子。
化学空间探索
图13:TNKS2的化学空间探索(t-SNE可视化)
使用t-SNE将所有批大小组合数据的Morgan指纹投影到二维空间,展示GAL过程中不同训练批大小所遍历的化学空间。
- 迭代0(黄色):来自10000个初始化合物
- 实验配体(浅蓝色):27个实验验证的同系物,聚集在一个极小区域内
- 生成分子(按不同颜色编码):大幅扩展到远离初始库的新化学空间,形成多个分离的簇
这一特征与3CLpro形成对比,反映了封闭口袋对化学空间探索范围的约束。
配体结合模式分析
图14:TNKS2中四个代表性高亲和力配体的结合模式
展示了(a−d)四个精选配体与TNKS2结合口袋的三维相互作用。配体来自最大(1000, a,b)和最小(100, c,d)的训练批大小。
与3CLpro明显不同的是,TNKS2的封闭结合口袋限制了结合模式的多样性。生成的配体采用更加一致的结合策略,但同时能够通过精细的取代基优化(如腈基定位)来逐步提升亲和力。这解释了为什么TNKS2的代理模型质量更优——1D SMILES与3D结合姿态的对应性更明确。
计算效率详细分析
图15:TNKS2中计算效率指标
展示了GAL对TNKS2的计算效率η(定义为每次Oracle调用发现的结构簇数),按不同的训练批大小着色,各迭代步骤后计算。
参数设定:
- ΔG max = -35 kcal/mol:强调多样性探索(命中发现阶段)
- ΔG max = -40 kcal/mol:强调亲和力优化(先导优化阶段)
- 相似度截断(s cutoff):分别为0.7和0.3
与3CLpro相比,TNKS2的效率在n≥500时提升最显著,而n=100在多数探索情景下表现最优。这反映了靶点特性与批大小参数的耦合关系:封闭口袋需要较大批大小来保证代理模型收敛,但过小的批大小反而能在探索阶段保持多样性。
靶点对比的深层洞察
3CLpro vs TNKS2:结构与函数的对话
| 维度 | 3CLpro(开放口袋) | TNKS2(封闭口袋) |
|---|---|---|
| 蛋白结构 | 大型、多区域、分叉 | 狭窄、单一、受限 |
| 配体结合模式 | 高度多样(>5种主要模式) | 一致性强(1-2种主导模式) |
| 代理模型质量 | 初期低(ρ~0.1),后期中等(ρ~0.6) | 早期高(ρ>0.7),保持稳定 |
| 收敛速度 | 缓慢(需7轮迭代) | 快速(需1-3轮迭代) |
| 化学空间探索 | 广泛分散,多个独立簇 | 相对集中,逐步深化 |
| 最优批大小 | n=250(小批,多迭代) | n=100或n≥500(分化策略) |
| 特征官能团 | 多样化 | 重复出现特定基团(腈、桥环) |
为什么TNKS2更优?
-
结构约束性强:狭窄口袋建立了SMILES→3D结合姿态的清晰映射,使ChemProp能有效学习配体结构与亲和力的关系
-
数据质量高:初始27个同系物来自实验验证,而3CLpro的10000个化合物基于Docking评分(可能含假阳性)
-
样本多样性:虽然初始库小,但通过GAL生成的化合物跨越多个化学支架,为代理模型提供了足够的训练信号
-
最优化目标清晰:口袋的拓扑局限性使得优化目标明确(特定基团定位),而非3CLpro的多模式竞争
补充技术细节
BindingDB增强实验
研究还探索了用BindingDB中的TNKS2 IC50数据增强代理模型。结果表明:
- 代理模型质量与未增强版本相当(补充图S12)
- 平均Tanimoto相似度基本相同(0.16 vs 0.15)
- BindingDB数据的增益有限
这反映出:当已有高质量同系物数据时,额外的异源数据可能引入噪声而非增益。设计实验时应谨慎权衡。
药物性评估
研究观察到大批大小(n≥700)的生成分子具有更高的QED评分(补充图S14),表示更高的”药物性”。但同时也发现某些分子含有非典型药物官能团(补充图S12b),需要额外的合成可行性评估。
失败案例分析
论文未详细讨论failed ESMACS runs的处理,但在实际应用中应:
- 设置收敛标准:如果10副本中<70%收敛,标记为失败
- 重新运行策略:失败分子可重新评估或标记为”不可评估”
- 反向使用:某些失败信号可能反映分子的固有不稳定性,可用于过滤
与传统方法的成本比较
虽然论文未给出详细的RBFE(相对结合自由能)成本对比,但可估算:
- ESMACS单分子评估:~5分钟(GPU)或~20分钟(CPU)
- Docking单分子评估:~秒级,但精度差
- 传统HTS(实验):~天级,且成本~$1000-10000/化合物
GAL的优势在于用Oracle调用(~100-1000次)代替盲目筛选(百万级),在超算支持下成本可控。
计算效率与实现
该研究在Frontier超算(美国橡岭国家实验室,全球首台艾字节级超算)上部署:
- 总计算量:~17,440(3CLpro)+ ~22,000(TNKS2)次ESMACS计算 ≈ 2毫秒MD
- 墙钟时间:单个GAL迭代(整批化合物评估)仅需50分钟(GPU使用率:150 ns/day/AMD Instinct MI250X)
- 并行度:所有化合物同步评估,充分利用超算的并行性能
- 协议精简:采用粗粒化ESMACS(10副本而非标准25副本),牺牲少量精度换取>2倍加速
这一效率水平在实验室规模GPU集群上难以实现,说明高性能计算与AI算法的结合是实现GAL大规模应用的必要条件。
推荐的后续研究
- 多轮集成强化学习:运行多个独立REINVENT进程,用多个ChemProp模型集成,量化随机性对多样性的贡献
- 结构感知的代理模型:将蛋白质结构编码进ChemProp(如蛋白质embedding或接触图),突破目前的”仅配体”限制
- 多保真度学习:结合便宜的Docking与贵的ESMACS,设计多保真度代理(本研究BindingDB实验表明有限效益,可重新设计)
- 实验验证:选中几个GAL生成的高分子进行体外实验(细胞膜透性、激酶抑制)和晶体结构验证