TNKS2靶点详细结果与补充分析（附录）

本附录包含TNKS2靶点的详细figure描述、图表解读和补充分析，是主文档的延伸。

TNKS2详细结果分析

代理模型质量对比

图9：TNKS2中代理模型预测精度的提升

对比了批大小为100、500和1000分子的ChemProp代理模型对ΔG的预测与ESMACS计算值，展示选定的GAL迭代步骤。图中插入R²系数及Spearman/Kendall秩相关系数（ρ和τ）。每次迭代中所有代理模型预测和ESMACS计算的平均ΔG值用红色圆圈标示。所有能量值单位为kcal/mol。完整的所有训练批大小和迭代步骤的结果见补充图S8。与3CLpro相比，TNKS2的代理模型质量明显更优。

结合自由能分布与收敛性

图10：TNKS2中结合自由能分布的演变

展示了TNKS2在选定GAL迭代轮次和不同批大小（100、500、1000）下，计算得到的ΔG分布。10000个种子化合物的初始分布用绿色显示（批次0）。27个实验验证的同系物的ΔG分布用红色显示，用于对比。与3CLpro相比，TNKS2的收敛速度极快，仅需单次迭代甚至部分批次就可实现显著改善。所有批大小和迭代步骤的完整结果见补充图S9。

多维性能指标

图11：TNKS2的多维分析（a−d）

展示了四个关键指标的演变：

(a) 结合自由能分布：各批大小下，累积生成化合物库中ΔG最低的100个化合物的ΔG分布演变。随迭代逐步向更低能量移动。
(b) Tanimoto相似度分布：所有分子对的相似度分布，反映生成化合物的结构多样性。越往较大值延伸表示结构越相似。
(c) 结构簇数：Butina算法（相似度截断0.5）检测到的结构簇数，随迭代递减，体现化学空间收敛。
(d) 与初始库的差异度：生成高分子与初始27个实验同系物间的Tanimoto相似度分布，多数值<0.3，证明了真正的结构创新而非简单的同系物延伸。

化学结构创新

图12：TNKS2的代表性化合物结构

展示了ΔG最低的代表性化学结构，来自TNKS2的精选结构簇。选择了8个最多人口的簇，以及4个ΔG最低的簇。聚类分析基于各迭代后积累池中ΔG最低的100个化合物，对应(a) n=100和(b) n=1000的GAL训练批大小。

值得注意的是，尽管初始样本仅基于一个小的同系物群体（共享喹唑啉酮支架），生成的高分子却体现了多种不同的化学支架，包括腈基、桥环和其他特殊取代基。这说明GAL有效地突破了初始库的限制，发现了本质上新颖的分子。

化学空间探索

图13：TNKS2的化学空间探索（t-SNE可视化）

使用t-SNE将所有批大小组合数据的Morgan指纹投影到二维空间，展示GAL过程中不同训练批大小所遍历的化学空间。

迭代0（黄色）：来自10000个初始化合物
实验配体（浅蓝色）：27个实验验证的同系物，聚集在一个极小区域内
生成分子（按不同颜色编码）：大幅扩展到远离初始库的新化学空间，形成多个分离的簇

这一特征与3CLpro形成对比，反映了封闭口袋对化学空间探索范围的约束。

配体结合模式分析

图14：TNKS2中四个代表性高亲和力配体的结合模式

展示了(a−d)四个精选配体与TNKS2结合口袋的三维相互作用。配体来自最大(1000, a,b)和最小(100, c,d)的训练批大小。

与3CLpro明显不同的是，TNKS2的封闭结合口袋限制了结合模式的多样性。生成的配体采用更加一致的结合策略，但同时能够通过精细的取代基优化（如腈基定位）来逐步提升亲和力。这解释了为什么TNKS2的代理模型质量更优——1D SMILES与3D结合姿态的对应性更明确。

计算效率详细分析

图15：TNKS2中计算效率指标

展示了GAL对TNKS2的计算效率η（定义为每次Oracle调用发现的结构簇数），按不同的训练批大小着色，各迭代步骤后计算。

参数设定：

ΔG max = -35 kcal/mol：强调多样性探索（命中发现阶段）
ΔG max = -40 kcal/mol：强调亲和力优化（先导优化阶段）
相似度截断(s cutoff)：分别为0.7和0.3

与3CLpro相比，TNKS2的效率在n≥500时提升最显著，而n=100在多数探索情景下表现最优。这反映了靶点特性与批大小参数的耦合关系：封闭口袋需要较大批大小来保证代理模型收敛，但过小的批大小反而能在探索阶段保持多样性。

靶点对比的深层洞察

3CLpro vs TNKS2：结构与函数的对话

维度	3CLpro（开放口袋）	TNKS2（封闭口袋）
蛋白结构	大型、多区域、分叉	狭窄、单一、受限
配体结合模式	高度多样（>5种主要模式）	一致性强（1-2种主导模式）
代理模型质量	初期低（ρ~0.1），后期中等（ρ~0.6）	早期高（ρ>0.7），保持稳定
收敛速度	缓慢（需7轮迭代）	快速（需1-3轮迭代）
化学空间探索	广泛分散，多个独立簇	相对集中，逐步深化
最优批大小	n=250（小批，多迭代）	n=100或n≥500（分化策略）
特征官能团	多样化	重复出现特定基团（腈、桥环）

为什么TNKS2更优？

结构约束性强：狭窄口袋建立了SMILES→3D结合姿态的清晰映射，使ChemProp能有效学习配体结构与亲和力的关系
数据质量高：初始27个同系物来自实验验证，而3CLpro的10000个化合物基于Docking评分（可能含假阳性）
样本多样性：虽然初始库小，但通过GAL生成的化合物跨越多个化学支架，为代理模型提供了足够的训练信号
最优化目标清晰：口袋的拓扑局限性使得优化目标明确（特定基团定位），而非3CLpro的多模式竞争

补充技术细节

BindingDB增强实验

研究还探索了用BindingDB中的TNKS2 IC50数据增强代理模型。结果表明：

代理模型质量与未增强版本相当（补充图S12）
平均Tanimoto相似度基本相同（0.16 vs 0.15）
BindingDB数据的增益有限

这反映出：当已有高质量同系物数据时，额外的异源数据可能引入噪声而非增益。设计实验时应谨慎权衡。

药物性评估

研究观察到大批大小(n≥700)的生成分子具有更高的QED评分（补充图S14），表示更高的”药物性”。但同时也发现某些分子含有非典型药物官能团（补充图S12b），需要额外的合成可行性评估。

失败案例分析

论文未详细讨论failed ESMACS runs的处理，但在实际应用中应：

设置收敛标准：如果10副本中<70%收敛，标记为失败
重新运行策略：失败分子可重新评估或标记为”不可评估”
反向使用：某些失败信号可能反映分子的固有不稳定性，可用于过滤

与传统方法的成本比较

虽然论文未给出详细的RBFE（相对结合自由能）成本对比，但可估算：

ESMACS单分子评估：~5分钟（GPU）或~20分钟（CPU）
Docking单分子评估：~秒级，但精度差
传统HTS（实验）：~天级，且成本~$1000-10000/化合物

GAL的优势在于用Oracle调用（~100-1000次）代替盲目筛选（百万级），在超算支持下成本可控。

计算效率与实现

该研究在Frontier超算（美国橡岭国家实验室，全球首台艾字节级超算）上部署：

总计算量：~17,440（3CLpro）+ ~22,000（TNKS2）次ESMACS计算 ≈ 2毫秒MD
墙钟时间：单个GAL迭代（整批化合物评估）仅需50分钟（GPU使用率：150 ns/day/AMD Instinct MI250X）
并行度：所有化合物同步评估，充分利用超算的并行性能
协议精简：采用粗粒化ESMACS（10副本而非标准25副本），牺牲少量精度换取>2倍加速

这一效率水平在实验室规模GPU集群上难以实现，说明高性能计算与AI算法的结合是实现GAL大规模应用的必要条件。

Mendelevium

Contact