Mendelevium
Diary
Drug Design
Field Knowledge
Academia
Yang
Biology
Physics
Free Energy
Machine Learning & AI
Active Learning
Basics
Boltz-2
Data
Generation
Interpretability
QSAR application
Representations
Mol2Image
Workflow & Agent
Molecular Dynamics
FF & Algorithm
Small Molecule
martini
water
Interaction
Modeling & Tools
QM
Sampling & Analysis
Allostery
Fundamental
Other
Specific Sytems
Enzyme Engineering
Fiber & LLPS
Membrane
orientation_penetration
Metal
Nano Polymers
Skin Permeation
Techniques
Linux
Python
Research
Web
about
Home
Contact
Copyright © 2025 Xufan Gao | Academic Research Blog
Home
>
Machine Learning & AI
> Workflow & Agent
A Bunch of Biophysics is Loading ...
Workflow & Agent
零代码玩转化学信息学CADS平台整合:DOPtools实现从分子结构到性质预测的全流程自动化
零代码玩转化学信息学CADS平台整合:DOPtools实现从分子结构到性质预测的全流程自动化 本文信息 标题: 整合DOPtools与CADS的网页用户界面,用于结构描述符计算、模型优化与预测 作者: Philippe Gantzer, Micke Kuwahara, Keisuke Takahashi, Pavel Sidorov 发表时间: March 19, 2026 单位: 日本北海道大学化学反应设计与发现研究所(ICReDD)、北海道大学化学系 引用格式: Gantzer, P., Kuwahara, M., Takahashi, K., & Sidorov, P. (2025). Integration of DOPtools and CADS in a Web-Based User Interface for Structural Descriptor Calculation, Model Optimization, and Prediction. Journal of Chemical Information and Modeling. https://doi.org/10.1021/acs.jcim.5c03055 代码与平台: CADS平台在线访问:https://cads.eng.hokudai.ac.jp CADS源代码:https://github.com/Material-MADS/mads-app (revision 84f74c3及以上) DOPtools库:https://github.com/POSidorov/DOPtools 摘要 定量构效关系(QSPR)建模通常需要在不同工具间切换来完成描述符计算和模型构建,这对缺乏编程经验的实验科学家构成了障碍。本研究将DOPtools——一个专门用于分子描述符计算和模型构建的Python库——无缝整合到CADS(基于数据科学的催化剂获取)平台中。这一整合使得用户无需编写代码,即可通过网页界面完成从分子结构(SMILES编码)到描述符计算、再到模型超参数优化和性质预测的全流程。新增功能包括:支持分子结构的2D可视化、自动化超参数优化(基于Optuna)、批量预测能力,以及通过ColorAtom模块实现的模型可解释性可视化(展示每个原子对预测结果的贡献)。该平台支持私有数据部署,为化学、材料和药物研发领域提供了开放、可定制且用户友好的QSPR建模解决方案。 核心结论 无缝整合:将DOPtools的11种描述符计算能力和机器学习模型优化功能嵌入CADS的网页界面,用户无需编程即可完成复杂建模任务。 自动化建模流程:支持从SMILES字符串自动计算分子描述符、进行超参数优化(支持SVM和随机森林),并自动选择最优模型。 模型可解释性:集成ColorAtom功能,可在预测结果上叠加原子级别的贡献热图(绿色表示增加性质值,紫色表示降低),帮助用户理解模型决策。 私有数据友好:CADS平台开源且支持本地服务器部署,适合处理敏感或专有化学数据。 性能稳健:在ddG性质预测任务中,500次优化尝试即可达到R² ≈ 0.85,且预测1000个分子仅需约45秒。 背景 在药物发现、催化剂设计和材料开发中,从分子结构预测其性质(如溶解度、血脑屏障穿透性、反应选择性等)是核心任务之一。传统的实验筛选方法成本高、周期长,而定量构效关系(QSPR)建模通过建立分子结构与性质之间的数学关系,提供了一种高效的替代方案。 然而,QSPR建模的落地面临三重障碍:计算描述符需要编程(如RDKit、Mordred等库需通过Python调用)、模型优化需要机器学习专业知识(超参数调优、交叉验证等)、工具链碎片化(描述符计算、模型训练、预测往往需要多个独立软件)。尽管已有像KNIME、Pipeline Pilot这样的图形化工作流平台,但它们通常需要本地安装,计算能力受限于个人电脑,且难以处理敏感数据。而网页平台如OCHEM虽然免安装,但多为闭源,无法部署在本地网络。 正是在这一背景下,CADS平台应运而生。它最初是为催化剂数据科学设计的开源网页平台,支持数据管理、分析和预测。但其早期版本不支持分子描述符的自动计算,也不具备模型超参数优化功能。本研究将DOPtools——一个同样由该团队开发的Python库——整合进CADS,填补了这一空白。 DOPtools技术架构:该库基于成熟的化学信息学工具链构建,包括Chython(1.78版本)用于结构解析、RDKit(2024.9.5版本)用于分子操作、scikit-learn(1.6.1版本)用于机器学习,以及Optuna(4.2.1版本)用于超参数优化。支持的算法包括支持向量机、随机森林和XGBoost(命令行版本),模型可保存为标准的scikit-learn pipeline格式,便于复用和部署。 这种整合实现了优势互补:DOPtools作为“引擎”提供强大的计算能力,CADS作为“驾驶舱”提供友好的用户界面,使得用户可以在网页上完成从分子结构输入到模型部署的全流程,无需编写一行Python代码。 图1:CADS平台总体架构概览 图中将平台分成两个互补部分:服务器端负责计算、存储和任务执行,客户端提供面向用户的图形界面。 这张图的意义在于先交代整个平台的分工,再去理解后面新增的“含分子的表格”“描述符”“优化器”和预测模块升级各自落在哪一层。 从工作流角度看,DOPtools主要嵌入在服务器端的数据处理与建模链条中,而CADS负责把这些能力组织成可交互、可管理、可部署的网页组件。 创新点 零代码分子描述符计算:用户只需上传包含SMILES列的CSV文件,即可通过网页表单选择描述符类型(如Morgan指纹、RDKit指纹、Mordred 2D描述符等),后台自动调用DOPtools和RDKit完成计算。 一体化模型优化:在同一个网页组件中,用户可完成“描述符计算 → 超参数优化 → 模型保存”的完整流程,无需在多个工具间切换。 原子水平模型解释:预测页面集成ColorAtom,以2D分子图形式展示每个原子对预测值的贡献(绿色为正贡献,紫色为负贡献),使黑箱模型透明化。 灵活的数据输入:不仅支持分子结构,还支持溶剂名称(自动匹配物化性质)和用户自定义数值特征,适配多种建模场景。 性能基准公开:论文提供了详细的性能测试数据(不同尝试次数、交叉验证折数下的时间与R²),为用户评估计算资源需求提供参考。 研究内容 核心方法:平台架构与工作流 CADS平台采用客户端-服务器架构,前端基于React提供交互界面,后端使用Django框架和Python脚本执行计算任务。本次整合主要新增了三个核心组件和一个预测模块的升级。 图2:含分子的表格组件和描述符组件的数据处理展示 左侧“含分子的表格”组件将SMILES文本编码的结构转换为2D分子图,便于用户直接检查分子或反应条目是否被正确解析。 右侧“描述符”组件从SMILES编码的结构(包括R基团和反应)以及溶剂名称自动计算描述符值,并以表格形式展示结果。 初始数据来自Tsuji等人的数据集,包含分子、溶剂和相关性质,仅用于演示目的。 1. 含分子的表格组件 核心功能:将数据表中SMILES编码的分子或反应式转换为2D结构图(SVG格式) 实现方式:利用Chython库解析SMILES并生成矢量图,支持任意缩放而不失真 应用场景:在建模前快速检查数据质量,或建模后查看预测效果较好的分子结构 数据管理:支持三级访问权限控制 权限级别 访问范围 适用场景 私有 仅上传者和指定用户可访问 企业专有数据、未公开研究结果 内部 平台所有注册用户可访问 实验室内部共享数据 公开 所有人可访问 公开数据集、已发表研究数据 这种灵活的权限管理使得平台既能处理公开数据集,也能安全地管理企业或实验室的专有数据。 2. 描述符组件 核心功能:从SMILES自动计算分子描述符,生成特征表。支持的11种描述符类型: 类别 描述符名称 可调参数 指纹类 Morgan指纹 位数 指纹类 Morgan特征指纹 最大半径 指纹类 RDKit指纹 位数 指纹类 RDKit线性指纹 最大长度 指纹类 RDKit分层指纹 无 指纹类 Avalon指纹 位数 指纹类 Atom Pair指纹 无 指纹类 Torsion指纹 无 碎片类 ChyLine碎片 最小/最大长度 碎片类 Circus碎片 最小/最大半径 全描述符 Mordred 2D描述符 计算超过1800种2D分子描述符 输入灵活性 支持SMILES字符串作为输入格式,这是化学信息学最通用的文本表示方式 对于反应体系,支持SMILES CGR(缩合图表示)格式 可同时输入溶剂名称,自动匹配152种溶剂的Catalán物化性质描述符 支持用户自定义外部数值特征,扩展性极强 这里的“溶剂”并不是所有任务都必须提供的输入列,而是一个可选的上下文特征。当目标性质本身会随着实验介质变化时,平台可以把溶剂名称映射为Catalán参数,让模型同时学习分子结构与反应/测量环境对结果的共同影响;在ddG这类反应选择性任务中,这一点尤其重要。 在特征计算阶段,DOPtools会自动跳过无法计算的分子(如包含非标准元素的SMILES),并在日志中记录错误。平台会自动移除方差为零的特征(即所有分子在该特征上的值相同),因为这些特征对模型没有区分能力。用户也可以在建模前通过“描述符”组件预览特征表,手动检查是否存在异常条目或不合理特征。输出为一张包含所有特征和性质列的表格,用户可下载为CSV用于其他分析。 3. 优化器组件(分回归和分类两个版本) 这是本次整合的核心,将DOPtools的模型优化能力以表单形式呈现给用户。 配置流程(以回归任务为例) 描述符设置:与“描述符”组件相同,选择要计算的特征类型 建模设置: 选择目标列(要预测的性质) 选择算法:支持支持向量回归(SVR)和随机森林回归(Random Forest) 设置交叉验证折数(如3、5、10折)和重复次数(如3、5、10次) 可选留出一部分数据作为外部测试集,用于独立评估;不过论文正文只说明了平台支持这一功能,并未展开具体的切分方式或默认设置 保存模型:优化完成后,可将最佳模型(按交叉验证平均R²最高选择)保存到服务器,供后续预测使用 优化算法详解 DOPtools底层使用Optuna框架进行超参数搜索,采用k-fold交叉验证策略来评估每组参数的性能 交叉验证支持多次重复,以减少数据划分随机性带来的偏差,确保评估结果稳健 对于SVR,搜索空间包括C值(1e-9到1e9)、核函数(线性、RBF、多项式、sigmoid)等 对于随机森林,搜索空间包括最大深度(3–10)、树的数量(20–200)、最大特征选择方式等 模型选择标准:回归任务选择交叉验证平均R²最高的模型,分类任务选择平衡准确率最高的模型 关于XGBoost:论文明确给出两层限制。第一,DOPtools 1.2的方法表中注明,由于实现层面的技术困难,XGBoost当前在网页GUI中被禁用;第二,正文又补充说,在当前CADS版本里,XGBoost仍可通过DOPtools命令行版本使用,但不在网页优化器中开放,因为其优化和训练耗时更长。作者同时指出,未来版本有望重新接入这一算法。 4. 升级的预测模块 本次更新不仅增强了预测功能,还引入了智能输入验证机制,确保预测过程的鲁棒性。 特性 说明 输入方式 用户可一次性提交多个分子(每行一个),格式与训练时特征顺序一致(如“SMILES 溶剂名 数值特征”) 智能验证 服务器端Python脚本会自动检查每行输入:验证字段数量、确认SMILES有效性和溶剂名称存在性、自动跳过无效行 输出内容 预测值列表,可选“预测并着色”功能生成ColorAtom热图直观显示原子贡献 批量性能 预测1000个分子约需45秒(在16核服务器上) 数据安全 模型保存时引入了input_type元数据字段,自动识别所需的输入类型,防止用户误用模型 ColorAtom的作用 ColorAtom会把模型预测结果映射回2D分子结构,用原子级着色来展示不同原子对预测值的相对贡献,从而提供一种更直观的模型逻辑可视化。在平台层面,它的价值在于把原本难以阅读的数值预测转成化学家更容易理解的结构图,帮助用户快速判断哪些局部结构更可能推动性质升高或降低。 至于ColorAtom更底层的理论与实现,论文主要通过引用Marcou等人的原始工作加以说明,而没有在本文中展开算法推导。 图4:使用Huuskonen等人溶解度数据集构建的模型进行预测 SMILES列和Real列显示用户提供的输入信息及可选的真实值。 Predicted列给出模型预测值。 ColorAtom列展示对应SMILES的2D分子图,其中绿色原子表示对预测性质有增加作用,紫色原子表示对预测性质有降低作用,颜色深浅反映相对贡献大小。 数据仅用于演示目的。 案例演示与结果分析 论文用三个数据集展示了平台的核心功能,我们逐一解读。 案例一:ddG性质预测(回归任务) Tsuji等人2023年发表的手性催化剂数据集包含反应条件、溶剂和产物对映选择性。这里的 ddG 指的是与对映选择性相关的自由能差,文中具体建模的目标列名为 ddG calib (C=0.05),单位为 kcal/mol。 描述符选择理由:CircuS碎片(大小0到3)能够同时捕捉局部与全局结构特征,特别适合手性催化剂这类骨架较复杂的体系;溶剂描述符则量化了介质的极性、酸碱性等物化性质,对反应选择性有重要影响。 算法选择理由:支持向量回归(SVR)在中小样本量下表现稳健,且对高维特征空间不敏感。 交叉验证策略:采用3次重复、每次10折,目的是降低随机划分带来的偶然性,提高模型评估的可靠性。 优化尝试次数:设置为500次,在精度与计算时间之间取得平衡。 图3a展示了优化后的模型在交叉验证训练集上的预测值与真实值散点图。点越靠近对角线,模型越准确。从图中可见,大部分点落在对角线附近,说明模型具有较好的拟合与泛化表现。经过500次优化尝试后,$R^2$ 约为0.86,而RMSE和MAE也保持在较低水平,说明平台已经能够在网页端稳定完成一轮像样的回归建模。用户还可以通过鼠标悬停查看每个点的详细信息,点击后在其他组件中联动高亮对应结构,这使得异常点分析不再需要来回切换工具。 图3:优化器组件运行后的界面展示 (a)回归优化器组件展示使用Tsuji等人数据预测ddG性质的最佳模型性能。散点图显示交叉验证中预测值与真实值的对应关系,右侧列出模型详细信息和验证指标。 (b)分类优化器组件展示使用Roy等人数据集预测血脑屏障穿透性的最佳模型。左侧为ROC曲线,其中深蓝色表示平均曲线,浅蓝色表示各次重复曲线;右侧显示模型参数和验证指标(如平衡准确率、AUC),类别1被视为正类。 案例二:血脑屏障穿透性预测(分类任务) Roy等人2019年发布的数据集,分子被标记为“可穿透”或“不可穿透”。 算法选择理由:随机森林分类器(RFC)天然适合处理分类任务,且对特征缩放不敏感,能自动处理特征之间的交互作用。 评估指标选择理由:平衡准确率(Balanced Accuracy,即两类召回率的平均值)能更好地处理类别不平衡问题,避免模型偏向多数类。 可视化工具:ROC曲线和AUC提供了模型在不同阈值下的综合性能概览。 图3b展示了ROC曲线。曲线越靠近左上角,模型区分正负类的能力越强。图中同时显示了每次交叉验证重复的ROC曲线(浅蓝色)和平均曲线(深蓝色),因此读者不仅能看到平均表现,还能直观看到重复之间的波动范围。相比普通准确率,平衡准确率更适合这类潜在类别不平衡任务;论文也正是用它作为交叉验证重复平均后的模型选择标准。AUC则提供了另一个角度的佐证:从平均ROC曲线位置看,模型具备较好的类别区分能力。 案例三:溶解度预测与原子贡献可视化 Huuskonen等人2000年发表的溶解度数据集,包含多种有机化合物。 描述符选择理由:Mordred 2D描述符覆盖了超过1800种分子特征,包含拓扑、电子和理化性质等多个维度,适合用来做这类通用小分子性质建模。 算法选择理由:随机森林回归对高维特征空间具有较好的适应性,同时也便于后续解释。 ColorAtom价值:对于溶解度这类常常受局部官能团影响的性质,原子贡献可视化尤其直观。 用户在预测页面输入SMILES后,选择“Predict and color”,即可得到预测值和一个带颜色的分子结构图(图4)。其中,绿色原子表示对预测溶解度有正向贡献,紫色原子表示有负向贡献,颜色深浅反映相对贡献大小。这里最重要的 punchline 是平台把预测值和结构解释放到了同一个界面里:用户不只知道模型给了什么答案,还能快速看到答案主要来自分子的哪些局部结构。不过这种解释仍然更适合作为启发式线索,而不是直接替代化学机理判断。 下图展示了从数据上传到模型预测的完整工作流: graph TB subgraph S1["1.数据准备"] direction TB A1["上传CSV文件<br/>(含SMILES列、性质列)"] A2["数据管理模块<br/>(私有/内部/公开)"] end subgraph S2["2.特征计算与可视化"] direction TB B1["含分子的表格组件<br/>SMILES转2D结构图"] B2["描述符组件<br/>选择11种描述符类型<br/>自动计算特征"] end subgraph S3["3.模型优化"] direction LR C1["优化器组件<br/>选择算法"] --> C2["设置交叉验证"] --> C3["Optuna超参数优化"] --> C4["保存最佳模型"] end subgraph S4["4.模型预测与解释"] direction LR D1["预测模块<br/>批量输入分子"] --> D2["ColorAtom原子贡献热图<br/>绿色↑ 紫色↓"] --> D3["导出预测结果CSV"] end S1 --> S2 --> S3 --> S4 style A1 fill:#e1f5ff style A2 fill:#e1f5ff style B1 fill:#fff9c4 style B2 fill:#fff9c4 style C1 fill:#ffe0b2 style C2 fill:#ffe0b2 style C3 fill:#ffe0b2 style C4 fill:#ffe0b2 style D1 fill:#c8e6c9 style D2 fill:#c8e6c9 style D3 fill:#c8e6c9 性能基准测试 论文附录提供了详细的性能测试数据(基于16核Intel Xeon Silver 4314服务器),帮助用户预估计算资源需求: 表ST1:不同 Optuna 超参数尝试次数下的回归模型性能(Tsuji 数据集中的 ddG calib (C=0.05) 性质) 尝试次数 平均 R² 平均时间(秒) 时间范围(秒) 50 0.835±0.012 68±5 63–72 100 0.840±0.012 93±21 66–133 250 0.854±0.003 170±14 158–197 500 0.862±0.004 324±16 308–351 1000 0.861±0.003 623±17 604–653 解读:这里的“尝试次数”指的是 Optuna 在超参数优化过程中评估了多少组参数。当尝试次数从50增加到500时,$R^2$ 从0.835提升到0.862,但计算时间也从68秒增加到324秒。继续增加到1000次后,性能几乎不再提升,说明大约500次尝试已经接近收益平台期。这组结果给出的核心信息不是“越多越好”,而是网页端建模同样需要考虑精度与时间的平衡。 表ST5:不同测试集规模下的批量预测耗时(使用保存的模型) 测试集大小 10 100 1000 3000 平均时间(秒) 0.46±0.009 5.22±0.06 44.9±0.1 133.6±0.1 解读:这里的“10、100、1000、3000”指的是待预测条目数,也就是通过重复Tsuji数据集的外部测试集得到的 TEST SIZE,并不是优化尝试次数。按这一设置,1000条输入约需45秒,3000条约需133秒,整体呈近似线性增长。这说明平台已经能支撑中等规模的批量预测,至少不会卡在“一次只能点一个分子”的演示级阶段。 关键结论与批判性总结 平台价值 CADS与DOPtools的整合显著降低了QSPR建模的技术门槛,使实验科学家能够更专注于化学问题,而不是被脚本、依赖和模型封装细节绊住。 私有部署这一点很关键,它让平台既保留了网页工具的便利性,又能适配敏感或专有数据场景,补上了很多公共在线平台做不到的一环。 ColorAtom可视化的价值不只是“好解释”,而是把预测结果直接投回结构层面,让模型输出更接近化学家真正会使用的工作语言。 局限性 网页端算法支持仍有限:虽然DOPtools本身支持SVM、随机森林和XGBoost,但当前网页GUI中XGBoost仍被禁用,这会限制部分任务的性能上限。 平台论文更偏功能展示而非系统 benchmark:文中通过三个案例说明组件可用,但并没有在多数据集上系统比较不同描述符或算法组合的优劣,因此它更像“可用性证明”,而不是通用性能排名。 适用域仍待补齐:作者在结尾明确提到未来希望引入Applicability Domain功能;这说明平台虽然已经能做预测和可解释性展示,但对“哪些预测值得信任”的提示仍不充分。 未来方向 引入Applicability Domain:作者明确点名了Fragment Control、Bounding Box以及基于距离的方法(如leverage)作为未来可接入CADS的平台能力。 增加新描述符与新算法:论文在结尾明确提到,未来DOPtools若加入新的描述符和机器学习算法,这些能力也可以继续整合进CADS。 扩展平台的高级建模能力:随着DOPtools后续演进,CADS有望持续扩展其面向化学信息学工作流与模型构建的功能边界。 小编锐评: 看来主要还是好在训练过程有界面,没有真去弄性能,那跟我还是有差距。 前面处理之类的技术细节还是可以借鉴下人家的,比如:方便地对新分子进行预测、设置交叉验证折数和重复次数等
Machine Learning & AI
· 2026-03-21
可审计的自动化药物分子优化多智能体平台
可审计的自动化药物分子优化多智能体平台 本文信息 标题:An Auditable Agent Platform for Automated Molecular Optimisation 作者:Atabey Ünlü, Phil Rohr, Ahmet Celebi 单位:DeltaWave 期刊:arXiv预印本 发表时间:2025年8月5日 引用格式:Ünlü, A.; Rohr, P.; Celebi, A. An Auditable Agent Platform for Automated Molecular Optimisation. arXiv, 2025, arXiv:2508.03444v1. 摘要 药物发现常常因数据、专业知识和工具的分散而失去动力,减缓了设计循环。为了缩短这一循环,我们构建了一个分层的、工具使用的多智能体框架来自动化分子优化。一个首席研究员定义每个目标,数据库智能体检索靶点信息,AI专家使用序列到分子深度学习模型从头生成骨架,药物化学家在调用对接工具的同时编辑它们,排名智能体对候选分子评分,科学评审监督逻辑的正确性。每次工具调用都被总结和存储,使得完整的推理路径保持可检查。智能体通过简洁的溯源记录进行通信,捕获分子谱系,构建可审计的、以分子为中心的推理轨迹,并通过上下文学习重用成功的转化。 核心结论 多智能体架构在专注优化时表现卓越:在针对单一目标(如结合亲和力)的优化中,多智能体架构将平均预测结合亲和力提高了31% 单智能体架构生成更优的药物样性质:单智能体运行产生的分子具有更优的药物样性质,但代价是结合亲和力得分较低 可审计性是关键优势:与单一大语言模型相比,智能体框架创建了透明的推理轨迹审计跟踪 上下文学习和反馈循环至关重要:测试时缩放、专注的反馈循环和溯源记录将通用LLM转化为分子设计的可审计系统 背景 药物发现常被认为是一个漫长而昂贵的过程,往往需要10-15年和数十亿美元的研发投入。在这个过程的早期阶段,计算化学家需要从头设计新的分子结构,优化它们的药物样性质,并预测它们与生物靶点的结合亲和力。这个流程传统上需要多个专业领域的紧密协作:生物信息学家检索靶点信息,计算化学家运行分子对接模拟,合成化学家评估可合成性,药物化学家平衡多个竞争目标。 然而,这种多学科协作模式存在明显瓶颈:专业知识分散在不同工具和数据库中,数据转移和沟通成本高昂,迭代周期长。即使有了人工智能辅助,目前的AI工具往往是孤立的“黑箱”,缺乏对整个优化流程的系统性协调。 近年来,大语言模型在化学推理和分子设计方面展现出惊人的能力。但如何将LLM的化学知识与专业的计算工具结合,构建一个可解释、可审计、可复现的自动化分子优化流程,仍然是一个开放性问题。 关键科学问题 本研究系统地探索了以下核心问题: 多智能体架构的有效性:相比单一LLM,分工明确的多智能体系统能否在分子优化任务中取得更好表现? 架构设计的权衡:在专注优化单一目标(如结合亲和力)和平衡多个药物性质之间,不同架构如何取舍? 可审计性与透明度:如何让AI系统的推理过程变得可检查、可理解、可复现? LLM的化学推理能力:不同的大语言模型在执行复杂的多步骤分子优化任务时表现如何? 创新点 分层多智能体架构:构建了包含6个智能体和5个工具的分子优化系统 可审计的推理轨迹:每次工具调用和决策都被记录,构建完整的分子谱系和推理路径 系统性的架构对比:在真实药物靶点(AKT1)上系统比较了单一LLM、单智能体和多智能体架构 五大大语言模型评测:对GPT-4.1-turbo、Sonnet-3.7、Sonnet-4、Gemini 2.5 Pro、o3等5个模型进行了全方位评估 研究内容 多智能体系统架构 研究构建了一个分层多智能体系统,在顺序对话模型下运行,旨在自动化从头药物发现的分子优化阶段。该架构由首席研究员智能体协调,该智能体定义高层目标并协调专业下级智能体在顺序工作流中的任务。 图1:多智能体架构。该系统采用6个智能体和5个工具的架构,其中3个工具(UniProt、PDB、ChEMBL)通过单一API调用访问,另外2个(Vina-Mol-Gen和Vina-Report)是复合工作流,将多个工具打包到单次调用中。 系统包括以下六个智能体: 智能体 主要职责 关键工具 首席研究员(Principal Researcher) 定义高层目标,协调任务顺序,启动优化循环 无 数据库智能体(Database Agent) 检索靶点的基础数据 UniProt、PDB、ChEMBL AI专家(AI Expert) 从头生成分子骨架 Prot2Mol深度学习模型 药物化学家(Medicinal Chemist) 编辑分子结构,调用对接工具 Vina-Mol-Gen工作流 排名智能体(Ranking Agent) 综合评分和候选分子排序 Vina-Report工作流 科学评审(Scientific Critic) 监督逻辑正确性,检查科学假设 无 工作流程详解 每个优化循环由首席研究员启动,然后按预定顺序将控制和上下文传递给相应的智能体: 首席研究员定义目标(例如:“优化AKT1抑制剂的结合亲和力”) 数据库智能体从UniProt检索AKT1蛋白信息,从PDB获取结构数据,从ChEMBL收集已知配体 AI专家智能体使用Prot2Mol模型生成从头分子骨架 药物化学家智能体执行多轮迭代优化(详见下) 排名智能体综合所有结果,对候选分子进行排序 科学评审检查逻辑链条,识别有缺陷的科学假设 工具驱动的迭代流程详解 药物化学家智能体通过多轮迭代反馈实现分子优化: graph TB A[接收候选分子] --> B[Vina-Mol-Gen工作流] B --> C[AutoDock Vina对接] C --> D[PLIP分析结合模式] D --> E[评估分子性质] E --> F[设计分子修饰] F --> G[测试修饰效果] G --> H{满意改进?} H -->|否| F H -->|是| I[输出优化分子] D --> J[检测相互作用] J --> K[氢键/疏水/盐桥] K --> F 核心工具与功能: AutoDock Vina:预测结合亲和力(kcal/mol)和结合姿态 PLIP:自动检测蛋白质-配体非共价相互作用,包括氢键、疏水相互作用、π-π堆积、盐桥等 RDKit:计算QED、SAS、LogP等药物样性质 核心设计原则 系统的核心设计原则是将LLM驱动的推理与领域专用工具集成。每个智能体都配备了一组计算工具,从执行单一计算的原子工具(如从特定数据库检索数据)到管理复杂、多步骤操作的复合工作流不等。 这些工具由成熟的科学软件驱动,包括:RDKit(化学信息学计算)、Prot2Mol(分子生成)、AutoDock Vina(分子对接)、PLIP(相互作用分析)。 可审计与上下文管理机制 论文还补充了系统“可审计性”的具体实现方式,核心在于上下文压缩与分子溯源记录: 摘要解析器(Summary Parser):所有智能体读写同一条时间序列记录,但只把关键摘要写入共享历史,避免把冗长的原始日志塞进上下文 工具输出隔离:详细的对接日志只对调用该工具的智能体可见,且只在当前回合有效,迫使智能体先完成“理解—提炼—总结”的认知步骤 跨轮次记忆压缩:新一轮研究循环只接收上一轮的最终总结与目标,避免历史负担过重 溯源超图结构:系统用有向超图记录分子改造路径,同时维护时间序列链与直系谱系树,每一步改造都标注具体发起的智能体,确保可追溯 技术实现架构 系统的技术栈采用模块化Python框架,确保可扩展性和可维护性: 核心框架 LiteLLM统一接口:使用LiteLLM库作为标准化接口,统一调用Anthropic、OpenAI、Google等不同供应商的LLM API 直接构建:不依赖LangChain等高层agent库,直接在LiteLLM上构建,以实现对上下文管理和工作流逻辑的细粒度控制 开源代码:所有agent定义、提示词和实现细节已公开,可在GitHub仓库获取:https://github.com/deltawave-tech/delta Agent定义策略 结构化提示:每个智能体都遵循Virtual Lab风格,使用标题、专业知识、目标、角色四个维度定义 统一优化:系统提示词在Sonnet-3.7上调优,然后不经修改应用于其他LLM(可能对不同模型的最优提示策略有影响) 顺序执行:采用同步、基于轮次的多智能体架构,每个智能体按固定顺序行动 并行化与可扩展性 并行执行策略:同时运行N=20个独立的完整发现流程,而非单一长流程 Best-of-N选择:所有并行run完成后,聚合候选分子,基于主要优化目标(如对接分数)进行最终选择 加速探索:并行化策略使系统能够同时探索化学空间的不同区域,显著提升发现高质量候选分子的效率 溯源服务实现 有向超图核心:用有向超图建模分子关系,transformations作为hyperedges连接输入和输出分子 三重结构:依赖超图(数据流)+ 时间序列链(不可变线性记录)+ 直系谱系树(快速回溯) 内存数据库:实时记录所有分子候选的进化历史,支持快速查询和分析 实验设计:针对AKT1的分子优化 研究以AKT1蛋白为靶点进行系统性评估,AKT1是一个重要的药物靶点,参与细胞生长、增殖和存活的调节,与多种癌症密切相关。 模型选择与评估 研究评估了5个大语言模型驱动的智能体团队:Claude 3 Sonnet(Sonnet-3.7,Anthropic)、Claude 4 Sonnet(Sonnet-4,Anthropic)、GPT-4.1-turbo(OpenAI)、Gemini 2.5 Pro(Google)和o3(OpenAI)。 每个模型都驱动上述多智能体系统,进行三轮优化循环,每个模型至少进行了三次独立重复。主要评估指标包括: 对接分数(Docking Score):预测结合亲和力,越低越好(单位:kcal/mol) 药物样性质(QED):Quantitative Estimate of Drug-likeness,越高越好(范围0-1) 合成可及性(SAS):Synthetic Accessibility Score,越低越好(范围1-10) 脂溶性(LogP):脂水分配系数,用于评估药代动力学性质 相似性与分布一致性:与已知AKT1抑制剂的Tanimoto相似性,以及FCD(Frechet ChemNet Distance,越低越好) 分子表示说明:论文在生成与评估阶段以SMILES作为核心表示形式,SMILES有效性与唯一性由RDKit解析与规范化完成;进入对接前,SMILES会被转换为三维构象用于AutoDock Vina与PLIP分析。 实验设置 研究设计了三种架构配置进行对比,并基于领先模型进行对照实验: 架构配置 描述 优势 劣势 单一LLM(LLM-only) 不使用工具,仅依赖LLM的内在知识 最快,无需外部工具调用 推理路径不可验证,缺乏精确计算 单智能体(Single-Agent) 一个全能智能体访问所有工具 架构简单,平衡多个目标 可能采用保守策略,优化不够专注 多智能体(Multi-Agent) 6个专业智能体分工协作 专注优化单一目标,可审计性强 复杂度高,可能忽视次要目标 核心发现1:多智能体架构显著提升结合亲和力 研究首先比较了5个LLM驱动的多智能体系统在三轮优化后的表现。结果显示,Sonnet-3.7在提高预测结合亲和力方面最为有效。 图2:各LLM驱动的智能体团队在AI专家基线分子和第3轮迭代后的分子之间,对接分数、QED和SAS的绝对变化(A)和百分比变化(B)。误差线表示三次重复运行的标准误差均值。 关键观察 所有模型在对接分数上都有显著提升: Sonnet-3.7:平均对接分数下降约3 kcal/mol,相对提升约30% GPT-4.1-turbo:对接分数下降幅度明显小于Sonnet-3.7 其他模型:提升幅度较小 然而,这种专注的优化也带来了权衡:在追求更高结合亲和力的同时,药物样性质和合成可及性可能下降。这揭示了多智能体架构的一个重要特征——通过隔离反馈循环实现专注的优化策略。 多智能体架构的优势 多智能体架构的优势在于其分层和专业化的结构: 首席研究员确保整个团队专注于单一主要目标 药物化学家智能体可以大胆地进行结构修饰,因为排名智能体会基于客观指标进行评估 科学评审的逻辑监督避免了有缺陷的科学假设 这种架构在专注优化结合亲和力时表现出色,平均预测结合亲和力提高了31%。但也暴露了一个问题:过度优化单一目标可能导致其他重要性质的忽视。 核心发现2:分子相似性热图揭示不同的优化策略 为了理解不同LLM的优化行为,研究分析了Tanimoto相似性热图,比较起始分子(数据库智能体和AI专家智能体)与三轮药物化学家智能体优化后产生的分子之间的结构相似性。 图3:Tanimoto相似性热图。面板A-E分别报告了Gemini、GPT-4.1-turbo、o3、Sonnet-3.7和Sonnet-4的数据库智能体化合物、AI专家智能体从头生成物、以及三轮药物化学家智能体优化循环后产生的分子之间的相似性。较深的方块表示更高的结构重叠(标度0-1)。 两种探索模式 热图揭示了两种截然不同的优化模式: 模式 模型 Tanimoto相似性变化 优化策略 推理风格 保守优化模式 GPT-4.1-turbo 0.76→0.73(几乎不变) 局部编辑为主,变化幅度小 “思考太快”,偏向低风险编辑 Sonnet-4 约0.76→0.54(小幅下降) 相对保守但略微“放开” 标准自回归模型 激进探索模式 o3、Gemini、Sonnet-3.7 大幅下降 大幅度骨架转变,探索广化学空间 愿意承担风险,大胆结构改变 这反映了不同LLM的内在推理风格:标准自回归模型“思考太快”,优先考虑早期不确定性信号,因此偏向于保守、低风险的编辑。而其他模型更愿意进行大胆的结构改变。 补充:与已知AKT1抑制剂的相似性 作者还比较了生成分子与已知AKT1抑制剂的相似性与分布一致性,结论要点如下: 新颖性确认:所有模型生成的分子与已知AKT1抑制剂相比均为新结构 结构相似性:Sonnet-3.7的平均最大Tanimoto相似性最高,达到0.458 物化分布一致性:FCD结果显示Sonnet-4的物化分布最接近已知抑制剂,略优于Sonnet-3.7 药物样性质:o3在平均QED与Lipinski合规性上领先,Gemini在SA分数上表现最好 核心发现3:迭代的分子性质优化 研究详细分析了药物化学家智能体的迭代优化过程,揭示了智能体如何在多目标之间权衡并调整策略。 图4:药物化学家智能体(MC)与AI专家智能体基线(Sonnet-3.7)的迭代分子性质优化。子图展示了:(A)对接分数(越低越好),(B)药物样性质(QED,越高越好),(C)合成可及性评分(SAS,越低越好),以及(D)LogP(脂溶性,参考信息)。实线表示MC平均性能,虚线表示最佳单个MC分子性能,蓝点线表示AI专家智能体的平均初始输出,红点线表示AI专家智能体的最佳初始输出。 关键发现 在每个迭代中,智能体都成功地将平均预测结合亲和力推向更低:初始-10.05 kcal/mol → 最终-11.91 kcal/mol,提升31.5%。这一改进展示了智能体利用对接工具进行有针对性优化的强大能力。更令人印象深刻的是,智能体并非盲目地追求更好的对接分数,而是在多个性质之间进行复杂的权衡。 多路径权衡 论文给出的案例展示了智能体的多路径优化与权衡能力: 起点分子:de novo骨架对接分数约-9.73 kcal/mol,QED约0.618 路径A:引入氧二唑酮-喹唑啉核心,并将哌嗪替换为哌啶(修饰1-3),对接提升到约-10.68,但QED下降到约0.481 路径B:将噻吩换为羟基苯基,并对哌嗪进行N-甲基化(修饰4-5),对接保持在约-10.0,同时QED提升到约0.84 后续迭代:在氧二唑酮系列上引入二氟甲基与二氟乙基(修饰6与8),对接改善到约-10.71与-11.12,但QED下降到约0.300-0.442 收敛策略:同时引入二氟甲基与二氟乙基侧链(修饰9)维持较强结合并提示潜在代谢稳定性;在羟基苯基支路上去甲基(修饰10)得到更高QED(约0.863),对接仅小幅下降至约-9.33 这个案例说明智能体并非盲目追求单一指标,而是在多目标之间持续权衡,并通过并行策略保留可用的改造路径。 图5:LLM驱动的多步分子改造路径示意。 (A)从de novo分子出发,连续两步修改得到两个分支产物,红圈标记关键结构变化。 (B)三轮优化中的并行分支路径,展示智能体在不同支路上同步探索并保留高潜力改造。 核心发现4:架构对比——专注与平衡的权衡 研究先按平均对接分数筛选出表现最好的模型,并对排名靠前的模型进行了20次独立放大运行以降低随机性偏差。在此基础上,再用领先模型对比单一LLM、单智能体与多智能体三种架构。 性能对比 架构配置 对接分数表现 药物样性质 优势 代价 多智能体(Multi-Agent) 提升最明显(平均结合亲和力提升31%) 中等 专注优化单一目标,反馈回路清晰 可能牺牲部分药物样性质 单智能体(Single-Agent) 中等 更优 更自然地平衡多目标 结合亲和力提升有限 单一LLM(LLM-only) 变化有限 变化有限 速度最快 推理路径不可验证 关键洞察 研究揭示了架构设计的权衡: 多智能体架构: 最适合专注优化:通过隔离反馈循环,能够激进地追求单一主要目标 分层专业化:首席研究员确保团队专注,药物化学家智能体大胆尝试,排名智能体客观评估 31%提升:在预测结合亲和力上取得显著改进 单智能体架构: 自然采用平衡策略:当面临多参数复杂性时,倾向于保守、平衡的策略 更优的药物样性质:虽然结合亲和力提升较小,但生成的分子具有更好的药物样性质 避免瓶颈:不需要在不同智能体间传递上下文 无论采用单智能体还是多智能体架构,相比单一LLM,都有显著的透明度优势: 显式的工具调用记录了推理步骤 智能体间的通信创建了透明的审计跟踪 可分析的推理过程允许理解系统的决策逻辑 Q&A Q1:多智能体架构的“可审计性”具体体现在哪里?为什么这对药物发现很重要? A1:可审计性体现在多个层面: 工具调用记录:每次对接计算、性质计算都被记录 分子谱系追踪:从起始分子到最终候选,每一步修饰都有完整记录 推理轨迹透明:药物化学家智能体的决策过程(为何进行这个修饰)被明确记录 同行评审模拟:科学评审的监督避免了有缺陷的科学假设 这对药物发现至关重要,因为: 知识积累:成功和失败的经验可以被团队学习和重用 责任追溯:当候选分子进入后续验证阶段时,可以回溯设计依据 Q2:研究提到部分模型“思考太快”,偏向保守编辑,这是什么意思? A2:这反映了LLM在处理复杂优化任务时的推理风格差异: “思考太快”:标准自回归模型在生成过程中,一旦对某个方向产生信心,就会快速推进,不太愿意重新考虑 早期不确定性信号:模型过于依赖早期的微弱信号,导致风险规避 保守编辑:更倾向于进行局部的、安全的修饰,而不是大胆的结构改变 从分子相似性热图可以看出: GPT-4.1-turbo的结构变化最小,三轮后仍保持较高相似性 Sonnet-4比GPT-4.1-turbo更“放开”,但仍偏保守 o3、Gemini、Sonnet-3.7更愿意进行大幅度骨架跃迁 这暗示了不同的探索-利用权衡策略 Q3:智能体的多路径权衡能力是如何实现的?这是模型本身的能力还是架构设计的优势? A3:这是架构设计与LLM能力的结合: 架构优势:多智能体系统将复杂问题分解为子任务,每个智能体专注于自己的领域 工具反馈:对接分数和性质计算提供了客观反馈,智能体基于这些结果调整策略 上下文积累:每次迭代的完整记录都传递给下一轮,形成了上下文学习 LLM能力:现代LLM具备了理解失败原因、识别成功部分、组合多种策略的推理能力 具体来说: 智能体会同时维护多个支路,并用对接与性质反馈筛选“可保留的改造” 这种并行探索—择优保留的机制,既来自于LLM的推理能力,也来自于架构提供的结构化反馈 单一LLM也能尝试类似策略,但缺乏稳定的工具反馈与可追溯记录,难以系统化复用 关键结论与批判性总结 核心贡献 本研究构建了可审计的多智能体平台用于药物分子优化,并在真实药物靶点上进行了系统性评估: 架构权衡的量化:多智能体架构在专注优化时表现卓越(31%提升),单智能体在平衡目标时更优 可审计性的实现:通过溯源记录和工具调用日志,构建了完整的推理轨迹 LLM化学推理的评估:系统比较了5个SOTA大语言模型在复杂分子优化任务中的表现 多路径权衡的机制:揭示了智能体如何通过多步骤策略解耦问题并迭代改进 局限性与挑战 靶点依赖性:研究仅针对AKT1一个靶点,结论在其他靶点上的普适性需要验证 工具覆盖范围:目前仅包括对接和基础性质计算,尚未整合ADMET和选择性预测 评估指标:主要依赖预测的对接分数,缺乏实验验证 未来方向 扩展工具集:整合ADMET预测、选择性预测、合成路线规划等更多专业工具 多靶点优化:将系统应用于更多药物靶点,验证结论的普适性 实验验证:对AI设计的候选分子进行合成和实验测试,验证预测准确性 人机协作模式:探索人类专家如何与智能体团队更有效地协作 对实践者的建议 明确优化目标:如果你的主要目标是结合亲和力,使用多智能体架构;如果需要平衡多个性质,考虑单智能体架构 投资可审计性:即使性能略有牺牲,完整的推理轨迹记录对长期成功至关重要 选择合适的LLM:Sonnet-3.7在专注优化时表现最佳,但不同任务可能适合不同模型 监控多目标平衡:即使专注优化主要目标,也要定期检查其他关键性质,避免过度优化 最后的话:本研究展示了多智能体系统如何将通用大语言模型转化为可审计的、领域专用的专家团队,并验证了分层协作与工具驱动的可行性。它更像是一种工作流层面的升级:把分散的工具与知识组织为可追溯的链条。对实践者而言,关键不是“是否用AI”,而是如何定义目标、设置反馈回路、保留可审计证据,让自动化真正服务于科学判断。
Machine Learning & AI
· 2026-03-04
ChemLint对话式分子机器学习平台揭开数据质量危机:63.6%测试集骨架已在训练集中出现
ChemLint对话式分子机器学习平台揭开数据质量危机:63.6%测试集骨架已在训练集中出现 本文信息 标题: ChemLint: Conversational Cheminformatics with Large Language Models 作者: Derek van Tilborg, Francesca Grisoni 发表时间: 2026年2月24日 单位: 荷兰埃因霍温理工大学,复杂分子系统研究所、生物医学工程系 引用格式: van Tilborg, D., & Grisoni, F. (2026). ChemLint: Conversational Cheminformatics with Large Language Models. ChemRxiv Preprints. https://doi.org/10.26434/chemrxiv.15000386/v1 源代码: https://github.com/derekvantilborg/ChemLint 摘要 本研究提出了ChemLint,这是一个开源的Model Context Protocol服务器,它将任何兼容MCP的大语言模型连接到精选的本地化学信息学和机器学习工具套件,通过对话界面实现严格的分子数据处理。分子机器学习研究常常受到不一致数据预处理的破坏,包括无效SMILES、未解决的重复项和训练测试泄漏,然而现有的基于LLM的化学工具并没有解决这些以数据为中心的挑战。ChemLint为数据探索和诊断、分子标准化以及机器学习建模提供了工具。所有操作都由既定的库确定性执行,并记录在项目清单中,追踪每个操作,支持可复现性并使管理选择明确。我们通过几个示例展示了ChemLint如何用于识别常见的数据质量问题、评估分割策略以及执行从原始数据到评估的完整建模流程。 核心结论 & 贡献 【科学发现】分子机器学习的数据质量危机被系统性揭示 本研究首次对MoleculeNet的7个主流数据集进行系统审计,揭示了令人震惊的数据质量缺陷,详见“被忽视的领域危机”部分 最致命的发现:随机分割导致训练集和测试集之间的scaffold重叠率高达42.5%至63.6%,这意味着数千篇已发表论文的模型性能可能被严重高估 【工具贡献】ChemLint通过MCP协议提供约150个对话式工具,重构分子机器学习工作流 ChemLint是一个开源的Model Context Protocol(MCP)服务器,它将任何兼容MCP的大语言模型(Claude、ChatGPT、Gemini等)连接到精选的本地化学信息学和机器学习工具套件。 系统性地提供13类约150个工具,涵盖数据管理、分子清洗、描述符、机器学习(33种算法、6种交叉验证、超参数调优)、统计检验、可视化、质量报告等领域 所有操作由既定的库(RDKit、scikit-learn、SciPy)确定性执行,并记录在项目清单中,支持可复现性并使管理选择明确。 背景 被忽视的领域危机 分子机器学习正在显著影响药物发现的范式——从虚拟筛选到性质预测,再到从头分子设计,越来越多的研究依赖于数据驱动的建模方法。然而,在这个蓬勃发展的领域背后,隐藏着一个被长期忽视的危机:主流基准数据集存在严重的数据质量问题,这正在系统性地高估模型性能,并从根本上动摇了人们对已发表研究的信任。 MoleculeNet自2018年发布以来,已被引用数千次,成为分子机器学习领域无可争议的最广泛使用的基准数据集。然而,本研究首次系统性地审计揭示,这些黄金标准数据集存在令人震惊的根本性缺陷: HIV数据集:7.5%的分子包含盐或溶剂片段——这些杂质根本不应该出现在药物分子数据中 HIV数据集:完全未指定立体化学,比例为0%——这意味着所有手性分子的3D结构信息都丢失了 所有数据集:普遍存在化学无效SMILES、未指定的立体化学中心、隐藏的结构异构体重复 最致命的问题:随机分割导致训练集和测试集之间的scaffold重叠率高达42.5%至63.6% 这意味着什么?基于这些数据集和随机分割发表的数千篇论文——包括高引用研究——其性能评估可能严重高估模型的真实能力。 现有工具的局限性 虽然分子数据预处理的最佳实践已经存在,但在实践中并不总是得到一致应用。该领域的跨学科性质意味着并非所有研究人员和审稿人都熟悉这些惯例,而常见的工具链是灵活的而非规定性的。 现有的基于LLM的化学工具(如ChemCrow、ChatInvent等agent系统)主要关注协调端到端的分子设计和合成工作流,但并未解决这些以数据为中心的挑战。这些工具在数据质量控制、标准化和可复现性方面存在明显的空白。 关键科学问题 面对这一危机,本研究提出了三个亟待解决的关键科学问题: 如何让数据质量控制变得普及化?数据质量问题的检测和修复需要深度的专业知识,但每个研究人员都应该能够轻松地识别和解决这些问题,而不需要成为化学信息学专家。这需要工具的智能化和自动化。 如何让数据预处理的选择变得完全透明?不同的标准化和分割策略会导致截然不同的结果,但这些关键选择往往在论文的方法部分被一笔带过,使得读者无法评估其合理性,也无法真正复现研究结果。这需要标准化和可追溯性。 如何让工作流变得完全可复现?从原始数据到最终模型,每一个中间步骤、参数选择和数据处理决策都应该被完整记录和精确追踪,但目前缺乏自动化和标准化的解决方案。这需要系统性的框架设计。 创新点 本研究在方法论和工具设计上提出了四个关键改进: 首个专注于数据质量的对话式化学信息学系统:ChemLint不同于现有的agent系统,它不盲目追求端到端的自动化,而是专注于分子数据的质量控制、诊断和可复现评估,通过对话界面让研究人员以自然语言的方式执行严格的数据管理操作。这种设计理念强调严谨性优于便利性的原则。 基于Model Context Protocol的开放模块化架构:通过MCP协议,ChemLint可以连接任何兼容的LLM客户端,例如Claude、ChatGPT、Gemini等,同时保持所有计算在本地执行,使用既定的化学信息学库(RDKit、scikit-learn、SciPy等),确保结果的确定性和可审计性。这种架构设计既保证了科学严谨性,又提供了前所未有的灵活性。 项目清单系统实现完全可追溯性:ChemLint引入了项目清单的概念,每次数据变异操作都会创建新的资源版本,并自动记录操作类型、时间戳、输入参数和用户提供的解释,形成完整的审计轨迹,使得从原始数据到最终模型的每一个步骤都可追溯和复现。这一设计借鉴了实验室笔记本的理念,但将其自动化和系统化了。 系统化的分割质量诊断:ChemLint提供了8项系统检查来检测数据分割的潜在问题,包括精确重复SMILES、基于相似性的泄漏、scaffold重叠、立体异构体/互变异构体变体、物理化学性质分布差异、标签分布差异、官能团组成差异等,并给出明确的警告和建议。这种全面性和系统性的诊断在领域内是前所未有的。 研究内容 ChemLint系统架构 ChemLint的核心设计理念是将大语言模型的对话能力与化学信息学的严谨方法相结合,通过Model Context Protocol实现两者的无缝集成。系统架构包含三个核心组件:数据探索和诊断、分子标准化、以及机器学习建模,并通过一个跨层面的可复现性系统,即项目清单系统,支撑所有功能。 图1:ChemLint系统架构概览 ChemLint通过MCP协议与LLM客户端通信,将用户的自然语言提示转换为具体的化学信息学操作,并在本地执行计算,返回结果的同时记录操作到项目清单。这种设计确保了所有操作都是确定性的、可追踪的。 系统工作流程 graph TB Start([用户输入自然语言提示]) --> Parse{LLM客户端解析提示} Parse -->|数据探索| Diag[数据探索与诊断工具] Parse -->|分子标准化| Std[分子标准化工具] Parse -->|机器学习建模| ML[机器学习建模工具] Diag --> Exec[本地执行<br/>RDKit/pandas/scikit-learn] Std --> Exec ML --> Exec Exec --> Mutate{是否修改数据?} Mutate -->|是| Create[创建新资源版本<br/>生成唯一标识符] Create --> Log[记录操作到项目清单<br/>操作类型+时间戳+参数+解释] Log --> Return[返回结果到LLM客户端] Mutate -->|否| Return Return --> End([显示结果给用户]) 这个工作流程确保了所有数据变异操作都被记录,形成了完整的审计轨迹。每次操作都会创建新的资源版本,而不是就地修改,这样可以回溯到任何历史状态。 ChemLint的核心功能全景 ChemLint向LLM客户端暴露约150个工具,涵盖分子机器学习工作流的各个环节,系统性地分为13个功能类别: 数据管理:共15个工具,覆盖数据导入、导出、合并、子集提取、检查、过滤数据集 分子清洗:共10个工具,覆盖SMILES标准化、去盐、去重、标签处理 分子描述符:共12个工具,覆盖简单性质(分子量、LogP、TPSA)、指纹(ECFP、MACCS、RDKit)、SMILES编码 骨架分析:共8个工具,覆盖Bemis-Murcko骨架提取、通用骨架、循环骨架、多样性分析 相似性分析:共6个工具,覆盖成对相似度矩阵、k-近邻、训练集相似度评估 聚类分析:共5个工具,覆盖DBSCAN、层次聚类、k-means、Butina聚类算法 机器学习:共40个工具: 33种算法:分类与回归(随机森林、梯度提升、SVM、线性模型、集成方法) 6种交叉验证策略:k-fold、分层、Monte Carlo、scaffold、cluster、leave-P-out 超参数调优:网格搜索、随机搜索,可自定义参数空间 模型评估:20+种评估指标(准确率、ROC-AUC、PR-AUC等)、混淆矩阵、ROC曲线、校准曲线 统计检验:共15个工具,覆盖t检验、方差分析(ANOVA)、相关性分析、正态性检验、Mann-Whitney U检验、Kruskal-Wallis检验、卡方检验 可视化:共8个工具,覆盖带分子提示的交互式散点图、直方图、密度图、箱线图、热图 质量报告:共5个工具: 数据质量分析:19个部分的全面报告(PAINS过滤器、Lipinski规则、重复检测、立体化学完整性等) 分割质量分析:8项数据泄漏检查(精确重复、高相似度对、scaffold重叠、立体异构体、互变异构体等) 骨架报告:多样性度量(Gini系数、Shannon熵)、富集分析、结构离群点检测 活性悬崖检测:共4个工具,寻找结构相似但活性差异大的分子对(分类和回归任务) 异常值检测:共6个工具,覆盖Z-score、IQR、孤立森林、局部异常因子(LOF) 降维可视化:共2个工具,PCA、t-SNE用于化学空间可视化 分子标准化:11步严谨流程 分子标准化是数据质量控制的核心步骤。ChemLint提供了一个11步的标准化流程,每一步都有明确的化学和统计学依据。 整理表:ChemLint分子标准化的11步流程 步骤 操作 化学原理 适用场景 1 生成规范SMILES RDKit的canonicalization算法确保唯一表示 所有分子 2 移除盐 去除抗衡离子,保留母核结构 来源自多处的数据集 3 移除溶剂 去除结晶溶剂、反应溶剂片段 药物筛选数据集 4 去碎片化 保留最大片段,去除不相连的离子/分子 包多个片段的SMILES 5 官能团规范化 标准化常见官能团表示(如硝基、磺酸基) 多来源数据集 6 去离子化 移除金属离子,保留有机骨架 有机金属化合物数据集 7 电荷中性化 将可电离基团转为中性形式 非pH依赖性研究 8 移除同位素 去除同位素标记 放射性标记不重要时 9 互变异构规范化 统一互变异构体表示 需要一致性的数据集 10 立体化学扁平化 移除所有立体化学信息 立体化学不完全指定时 11 最终验证 检查化学有效性,移除无效分子 质量控制最后一步 这些步骤并非总是全部应用,而是应该根据数据集的具体情况和研究目标进行选择。ChemLint的优势在于它让每一步的决策都变得显式,并在项目清单中记录下来。 Supplementary Figure S1:标准化协议的交互决策界面 这张图展示了ChemLint在执行11步标准化协议时与用户的交互界面。当需要用户做出重要的标准化决策时(如是否保留电荷、是否扁平化立体化学等),客户端会向用户询问选择,确保每一步都符合研究需求。 标准化流程的Mermaid图 graph TB Input[原始SMILES数据集] --> S1 subgraph S1["阶段1:结构规范化"] direction LR Step1[1.生成规范SMILES<br/>RDKit canonicalization] --> Step2[2.移除盐<br/>去除抗衡离子] --> Step3[3.移除溶剂<br/>去除结晶/反应溶剂] --> Step4[4.去碎片化<br/>保留最大片段] --> Step5[5.官能团规范化<br/>统一常见官能团表示] end subgraph S2["阶段2:化学性质调整"] direction LR Step6[6.去离子化<br/>移除金属离子] --> Step7[7.电荷中性化<br/>可电离基团转中性] --> Step8[8.移除同位素<br/>去除同位素标记] end subgraph S3["阶段3:结构简化与验证"] direction LR Step9[9.互变异构规范化<br/>统一互变异构体] --> Step10[10.立体化学扁平化<br/>移除立体化学信息] --> Step11[11.最终验证<br/>检查化学有效性] end S1 --> S2 --> S3 Step11 --> Output[标准化后数据集] Step11 -->|发现无效分子| Reject[移除无效分子] Reject --> Step11 style Input fill:#e1f5ff style Output fill:#c8e6c9 style Step11 fill:#fff9c4 数据探索与诊断 在开始任何建模工作之前,了解数据集的质量和特性是至关重要的。ChemLint提供了两个主要的诊断报告。 数据质量报告 数据质量报告执行广泛的数据检查,涵盖基础数据集统计、分子有效性、物理化学性质、统计分布和结构特征等多个方面: 结构有效性检查:识别化学无效的SMILES字符串,违反价态规则的原子,无法解析的分子结构 杂质检测:检测并计数盐抗衡离子、溶剂片段、无机离子 立体化学完整性:统计手性中心(四面体立体中心)的指定情况,立体双键的E/Z指定情况 电荷状态分析:统计携带形式电荷的分子比例,分析电荷分布模式 scaffold多样性:计算Bemis-Murcko scaffold的数量和分布,评估骨架多样性 官能团分布:识别和统计常见官能团的出现频率,检查不同数据集间官能团组成的差异 标签分布分析:对于分类任务,检查类别平衡;对于回归任务,检查数值分布和异常值 结构活性相关性:计算分子描述符与活性标签的相关性,识别潜在的结构活性关系 药物相似性过滤:Lipinski Rule of Five、Veber规则、QED阈值违规检测 异常值检测:使用IQR方法进行异常值检测 这些检查最终会生成一份优先级排序的清理建议列表,每个问题都被分配严重程度级别(“OK”、“low”、“medium”、“high”、“critical”),帮助研究人员系统性地解决数据质量问题。 分割质量报告 分割质量报告专门针对数据集的分割策略进行诊断,执行以下8项检查: 精确重复泄漏:训练集和测试集中是否存在完全相同的SMILES(分子编码) 高相似度泄漏:检测训练集和测试集中是否存在高度相似的分子对(相似度>90%,就像“同卵双胞胎”一样) scaffold重叠:训练集和测试集之间共享Bemis-Murcko scaffold(分子骨架)的比例 立体异构体泄漏:在扁平化立体化学后,检查结构异构体是否跨越分割 互变异构体泄漏:在规范化互变异构体后,检查结构异构体是否跨越分割 分布差异:比较训练集和测试集的分子性质分布(分子量、logP、极性表面积等) 类别分布:对于分类任务,检查类别的平衡性 聚类分析:通过聚类方法识别潜在的聚集结构 标签质量处理 实验生物活性数据不可避免地包含测量误差、缺失值、带有异常值的技术重复,以及对相同分子的矛盾测量结果。然而,许多已发表的研究临时性地处理这些问题或完全忽略它们。 ChemLint提供了系统性的工具来识别和解决标签质量问题: 缺失值处理:自动识别并移除缺失的活性值 异常值检测:支持多种统计方法(Z-score、修正Z-score、IQR、Grubbs检验、广义ESD),并可配置阈值 重复分子处理:对于具有矛盾标签的重复分子(例如,在分子标准化后聚合的立体异构体),ChemLint可以通过统计检验确定这些冲突代表真实的测量变异性还是系统性分歧 合并策略:提供多种重复合并策略(多数投票、均值、中位数)或完全丢弃有冲突的条目 数据集分割策略 数据分割是将分子数据集分成训练集(用于学习,相当于“练习题”)和测试集(用于评估,相当于“考试”)。分割策略的选择会严重影响模型性能评估的可靠性。 整理表:ChemLint支持的4种数据集分割策略 分割策略 原理 适用场景 局限性 随机分割 完全随机分配分子到训练/测试集 先导化合物优化(内插性能) 严重高估外推性能 分层分割 保持标签分布一致 类别不平衡的数据集 仍然存在结构泄漏 scaffold-based 相同scaffold的分子分配到同一集合 评估新颖scaffold的泛化能力 互变异构可能改变scaffold导致泄漏 cluster-based 基于分子相似性聚类,整个聚类分配到同一集合 评估分子簇的泛化能力 聚类算法和参数选择影响结果 对于cluster-based分割,ChemLint支持5种聚类算法(DBSCAN、层次聚类、谱聚类、k-means、Butina),可以使用所有可用的分子表示方法。 在经验上,更严格的分割策略(scaffold-based和cluster-based)往往比随机分割的准确率低10%至30%,但这揭示了在结构新颖分子上更现实的预测性能估计。 机器学习建模 ChemLint提供了33种经典机器学习算法,涵盖分类和回归任务。这些算法包括: 集成方法:随机森林、AdaBoost、梯度提升 线性模型:岭回归、Lasso、Elastic Net 支持向量机:支持分类和回归 最近邻:k-近邻算法 决策树:单棵可解释树 朴素贝叶斯:高斯朴素贝叶斯、多项式朴素贝叶斯 判别分析:线性判别分析、二次判别分析 为确保稳健的性能估计,ChemLint支持多种交叉验证策略(交叉验证就像多次“小考”取平均,避免一次考试的偶然性): k-fold交叉验证(将数据分成k份,轮流用每一份做测试) 分层交叉验证(保证每个分割中类别比例一致) scaffold-based交叉验证(确保相同骨架的分子在同一分割) cluster-based交叉验证(将相似分子聚簇后分配到同一分割) Monte Carlo交叉验证(随机重复多次分割) leave-p-out交叉验证(每次留出p个样本做测试) 对于不确定性量化,部分算法支持贝叶斯集成变体,通过计算预测标准差或集成熵来量化预测不确定性。 超参数调优与模型评估 ChemLint不仅提供模型训练,还支持完整的模型优化和评估流程: 超参数调优:支持网格搜索和随机搜索,研究者可以自定义参数空间,自动寻找最优模型配置 模型评估指标:提供20+种评估指标,包括准确率、精确率、召回率、F1分数、ROC-AUC、PR-AUC等,以及混淆矩阵、ROC曲线、校准曲线等可视化 交互式可视化:生成带分子提示的散点图(鼠标悬停可查看分子结构)、热图、密度图、箱线图等,帮助直观理解数据分布和模型行为 统计检验:支持15+种统计检验方法(t检验、方差分析、Mann-Whitney U检验、Kruskal-Wallis检验、卡方检验、正态性检验等),用于验证结果的统计显著性 异常值检测:提供4种异常值检测方法(Z-score、IQR、孤立森林、局部异常因子),识别数据中的离群点 应用示例1:主流基准数据集的质量审计 作为首次演示,研究团队使用ChemLint评估了MoleculeNet的7个流行单任务基准数据集的质量,仅用一个对话提示:“Check the data quality of dataset.csv”。 Supplementary Figure S2:数据质量报告实际输出示例 这张图展示了ChemLint生成的数据质量报告的实际界面,包括结构有效性检查、杂质检测、立体化学完整性分析等多维度诊断结果。可以看到对每个数据集的详细统计信息和改进建议。 表1:MoleculeNet数据集的质量问题统计 数据集 样本量 无效分子 带电荷分子 含盐/溶剂片段 手性中心指定率 E/Z指定率 结构异构体组数 BACE 1,513 0 55.92% 0.00% 3,150 (25.5%) 97 (29.9%) 45 BBBP 2,050 11 5.74% 5.12% 4,425 (66.0%) 726 (21.5%) 92 ClinTox 1,484 4 60.20% 0.94% 3,731 (82.1%) 537 (37.2%) 80 Delaney 1,128 0 5.23% 0.00% 701 (0.0%) 154 (3.9%) 13 FreeSolv 642 0 5.92% 0.00% 87 (98.9%) 36 (27.8%) 3 HIV 41,127 7 12.78% 7.51% 49,613 (0.0%) 13,481 (0.0%) 181 Lipophilicity 4,200 0 2.36% 0.02% 2,530 (72.9%) 192 (39.1%) 82 结果揭示了几个令人担忧的问题: 化学无效SMILES普遍存在:BBBP数据集包含11个无效SMILES,HIV有7个,ClinTox有4个 盐和溶剂片段污染:许多条目包含盐抗衡离子或溶剂片段,HIV数据集高达7.5% 电荷状态不一致:超过55%的BACE分子和60%的ClinTox分子携带形式电荷 立体化学不完全指定:HIV数据集完全未指定立体化学(0%),其他数据集的指定率也普遍较低 隐藏的结构异构体重复:在扁平化立体化学和规范化互变异构体后,发现了大量隐藏的冗余 然后,研究团队要求ChemLint清理每个数据集:“Clean this dataset so it’s ready for machine learning (don’t split the data yet). After cleaning, run another data quality analysis.” Supplementary Figure S3:数据集清洗对话界面示例 这张图展示了LLM客户端通过对话界面调用ChemLint工具执行数据集清洗的实际过程。展示了从标准化SMILES、移除盐和溶剂、去碎片化、电荷中性化到立体化学扁平化的完整清洗流程,以及ChemLint自动记录的每一步操作和参数。 由于除了HIV之外的所有数据集都是从多个原始来源编译的,团队让客户端对所有数据集进行电荷中性化、移除片段和扁平化立体化学,因为这些分子细节不太可能反映跨原始来源的一致实验条件。 标准化效果是显著的: BACE数据集:带电荷分子从约56%降至约2%,丢弃了66个分子(主要包含无效结构或冲突的重复标签) ClinTox数据集:带电荷分子从约60%降至约8%,丢弃了144个分子 HIV数据集:带电荷分子从约3%增至约13%(因为去除了溶剂和盐片段,暴露了更多带电分子),丢弃了238个分子 所有7个数据集:在标准化后,都免于无效分子、盐和片段,残留电荷主要反映永久离子物种 表2:标准化后的数据集质量 数据集 样本量(丢弃数) 无效分子 带电荷分子 含盐/溶剂片段 BACE 1,447 (66) 0 1.9% 0.00% BBBP 1,922 (128) 0 3.2% 0.00% ClinTox 1,340 (144) 0 8.1% 0.00% Delaney 1,114 (14) 0 5.6% 0.00% FreeSolv 639 (3) 0 5.9% 0.00% HIV 40,889 (238) 0 13.1% 0.00% Lipophilicity 4,092 (108) 0 2.4% 0.00% 应用示例2:数据分割质量危机的揭示 这是本研究最震撼的发现。作为第二个演示,研究团队使用ChemLint系统性地分析了MoleculeNet提供的预定义数据分割的质量,结果揭示了一个被整个领域忽视的严重问题。 对于每个数据集,ChemLint生成了一个详细的分割质量报告,解释每种分割方法的优缺点,并给出明确的警告。例如,对于Lipophilicity数据集,ChemLint得出结论: scaffold-based分割方法提供了最可靠的评估框架,具有完全的结构分离和良好匹配的分布。Fingerprint-based分割提供了关于模型外推的有趣见解,但受到显著的域偏移影响。由于严重的结构泄漏,应该避免随机分割用于模型评估。 在所有情况下,ChemLint都建议不要使用随机分割。例如,对于ClinTox,它警告说由于严重的结构泄漏,随机分割会“给出误导性的乐观结果”。 表3:不同分割方法的泄漏指标对比 分割方法 数据集 训练集(测试集) Scaffold重叠 立体异构体重叠 互变异构体重叠 高相似度分子 ROC-AUC RMSE 随机 BACE 1,210(152) 47.1% 1 0 13 0.88 ± 0.01 - 随机 BBBP 1,631(204) 42.5% 13 11 16 0.91 ± 0.02 - 随机 ClinTox 1,184(148) 46.5% 14 10 16 0.66 ± 0.03 - 随机 Delaney 902(113) 58.1% 2 1 10 - 0.64 ± 0.00 随机 FreeSolv 513(65) 63.6% 1 0 6 - 0.46 ± 0.02 随机 HIV 32,896(4,112) 48.0% 0 4 173 0.77 ± 0.01 - 随机 Lipophilicity 3,360(420) 46.5% 18 3 31 - 0.70 ± 0.01 Scaffold BACE 1,210(152) 0.0% 0 0 2 0.73 ± 0.01 - Scaffold BBBP 1,631(204) 0.0% 0 1 0 0.67 ± 0.01 - Scaffold ClinTox 1,184(148) 0.0% 0 0 0 0.66 ± 0.08 - Scaffold Delaney 902(113) 0.0% 0 0 2 - 0.82 ± 0.01 Scaffold FreeSolv 513(65) 0.0% 0 0 1 - 0.86 ± 0.01 Scaffold HIV 32,896(4,112) 0.0% 0 8 29 0.77 ± 0.01 - Scaffold Lipophilicity 3,360(420) 0.0% 0 0 21 - 0.77 ± 0.01 Fingerprint BACE 1,210(152) 3.2% 0 0 1 0.73 ± 0.06 - Fingerprint BBBP 1,631(205) 4.6% 0 0 0 0.37 ± 0.06 - Fingerprint ClinTox 1,184(148) 5.8% 0 0 0 0.56 ± 0.10 - Fingerprint Delaney 902(114) 28.1% 0 0 0 - 1.23 ± 0.04 Fingerprint FreeSolv 513(65) 100.0% 0 0 0 - 1.36 ± 0.02 Fingerprint HIV 32,896(4,112) 10.9% 0 0 0 0.56 ± 0.03 - Fingerprint Lipophilicity 3,360(420) 4.4% 0 0 0 - 0.84 ± 0.01 对于随机分割,ChemLint识别出训练集和测试集之间的scaffold重叠范围从42.5%到63.6%,以及几个数据集中的立体异构体、互变异构体和近重复泄漏。对于scaffold-based分割,ChemLint确认大多数泄漏已解决,但指出高度相似的分子仍然可能最终出现在两个分割中,而且互变异构化偶尔会改变Bemis-Murcko scaffold,允许互变异构体对跨越集合泄漏。 为什么scaffold重叠是致命的数据泄漏? Scaffold(骨架)是药物化学中的核心概念,指分子的核心结构框架(通过移除侧链原子得到)。Bemis-Murcko scaffold是药物设计中广泛使用的分子骨架表示方法,是药物化学家的共同语言。 当训练集和测试集存在scaffold重叠时,这意味着: 模型学到的是记骨架而非真正的预测能力:测试集中的分子骨架在训练集中已经见过,模型只需要记住“scaffold X倾向于有高活性”,而不需要真正学习分子结构-活性关系的复杂规律。这类似于学生通过记忆题目模板而非理解原理来考试。 这相当于考试前看到了部分试题:如果考试题目和练习题有相同的解题模式,考出的高分不代表学生的真实能力。在药物发现中,真正的挑战是预测全新scaffold的活性——这是最有价值的预测目标——而随机分割根本无法评估这种能力。 导致虚假的最优模型选择:研究者可能选择了在随机分割上表现最好的模型,但这种模型在面对全新骨架时可能完全失效,导致资源浪费和错误的项目决策。 这正是为什么scaffold重叠42.5%至63.6%是一个领域级的严重问题:它表明基于MoleculeNet随机分割发表的数千篇论文,其性能评估可能严重高估了模型的实际预测能力。在药物发现这种成本高昂的领域,这种高估可能导致数百万美元的研发投入被错误地引导。 应用示例3:从原始数据到可复现的完整工作流 作为第三个演示,研究团队使用ChemLint执行了从原始数据到评估报告的完整建模流程。使用Claude Desktop和Claude Sonnet 4.6作为客户端,提供了以下提示: For a drug discovery project, I want to know if the molecules I’m working with can pass the blood brain barrier. Train a robust predictive model based on this raw data set ‘/moleculenet_data/bbbp.csv’ and evaluate it critically. LLM客户端自动使用ChemLint的工具执行了以下步骤: 数据质量分析:生成了全面的数据质量报告,识别了无效SMILES、盐片段、电荷状态等问题 分子标准化:应用了11步标准化流程,包括规范SMILES生成、移除盐和溶剂、去碎片化、电荷中性化、立体化学扁平化等 重复移除:基于规范SMILES识别重复结构,对于精确标签重复折叠为单个条目,对于无法通过二项检验解决的冲突完全移除 基于scaffold的分割:将分子按80/20比例分割为训练集和测试集,确保没有scaffold重叠 随机森林训练:使用ECFP4指纹(一种将分子转换为数字特征的方法)进行分子特征化,训练随机森林分类器,使用5-fold交叉验证 模型评估:在保持的测试集上达到ROC-AUC为0.93±0.01(ROC-AUC是分类模型性能指标,1.0为完美,0.5为随机猜测,0.93意味着模型有很强的预测能力) 为了测试清单系统的可复现性,团队创建了一个新的客户端实例,并要求它在没有访问原始提示的情况下重现实验: Check this old manifest ‘../manifest.json’ and re-do all the experimental steps exactly. You should make a new project and manifest to track everything. 客户端以相同的顺序执行了所有步骤,使用相同的参数,并达到了相同的测试集性能。这证明了项目清单系统的有效性:即使没有原始提示,仅凭清单中的操作记录,新的LLM客户端也能够完全复现整个实验。 LLM生成的Materials and Methods节选 研究团队还要求客户端生成适合在科学期刊发表的材料和方法部分: Write a Materials and Methods section suitable for publishing in a scientific journal. I am tight on words so it should be to the point. 客户端自动使用ChemLint查阅项目清单,然后生成了以下文本(经人工验证每个记录的步骤确认准确): 数据集和数据管理。 BBBP数据集(2050个化合物,二元BBB渗透性标签)从MoleculeNet获得。 SMILES使用ChemLint实现的11步流程进行标准化:规范SMILES生成、盐和溶剂移除、去碎片化(保留最大片段)、官能团规范化、去离子化、电荷中性化、同位素移除、互变异构规范化、立体化学扁平化。 未能通过最终验证的结构被丢弃(保留2039个;99.5%)。 基于规范SMILES识别重复结构;精确标签重复折叠为单个条目,无法通过二项检验解决的冲突被完全移除,最终得到1922个化合物的管理集。 数据集分割。化合物使用Bemis-Murcko scaffold-based分割分为训练集(80%,n = 1557)和测试集(20%,n = 365),集合间无scaffold重叠。无环化合物(n = 96)分配到训练集。 建模。分子被特征化为ECFP4指纹(半径 = 2,2048位),使用scikit-learn的随机森林分类器(默认超参数)通过ChemLint进行5-fold scaffold交叉验证训练。所有实验使用固定随机种子(42)。 这个例子表明,即使LLM客户端在不同提示下可能行为不同,通过清单系统建立清晰的审计轨迹使得即使在对话设置中也能实现可复现性。 实现细节 ChemLint向MCP兼容的LLM客户端暴露约150个工具,使用mcp-cli包。每个工具对应单个、范围明确的分子数据操作。计算工作委托给既定的库,主要是: RDKit:用于分子处理和化学信息学计算 pandas:用于数据集处理 scikit-learn:用于建模和统计程序 SciPy:用于统计检验 ChemLint的功能围绕三个典型的分子机器学习工作流层次组织:(1)数据探索和诊断,(2)分子标准化,以及(3)机器学习建模。一个跨层面的可复现性系统支撑着这三个层次。 资源管理 资源管理通过为每个文件分配唯一标识符来处理,该标识符附加到客户端提供的文件名上(例如,cleaned_data_A3F2B1D4.csv)。这些存储为数据集列,使得失败是透明的,包括哪些分子在哪个步骤被拒绝以及原因。这是故意冗长的,因为诊断拒绝原因往往比获得单个最终的“清理的”数据集更重要。 项目清单系统 项目清单是ChemLint可复现性的核心。对于每个创建的工件,清单记录: 资源类型:数据集、模型、报告等 时间戳:创建时间 创建工具:哪个工具创建它 输入参数:使用的所有参数 客户端提供的解释:为什么执行这个操作 这个清单存储在项目目录的manifest.json文件中,可以被客户端和用户访问,使得每个中间资源都可以被回溯。 当前范围与局限 当前的范围专注于2D分子表示和定量构效关系(Quantitative Structure-Activity Relationship,QSAR,即通过分子结构预测其生物活性的方法)建模工作流典型的功能。3D构象体生成、量子化学和深度学习模型训练等功能在当前版本中故意排除在外,以保持ChemLint专注于数据质量、诊断和可复现评估,而不是充当通用建模环境。 Q&A Q1:ChemLint与现有的化学agent系统(如ChemCrow、ChatInvent)有何区别? A1:ChemLint专注于数据质量控制、诊断和可复现评估,而ChemCrow和ChatInvent等agent系统专注于协调端到端的分子设计和合成工作流。主要区别包括: 定位不同:ChemLint不试图取代传统的建模环境,也不消除对专家判断的需求,而是通过降低领域准入门槛和提供结构化框架来减少数据处理决策的歧义 开放性:ChemLint基于Model Context Protocol,这是一个开放标准,使得它可以与任何MCP兼容的LLM客户端(Claude、ChatGPT、Gemini等)集成,而agent系统通常绑定到特定的模型或平台 Q2:为什么scaffold-based分割会降低模型性能,这难道不是说明模型变差了吗? A2:这是一个常见的误解。scaffold-based分割降低的准确率实际上揭示了模型在结构新颖分子上的真实泛化能力,而随机分割的高准确率往往是虚假的,因为训练集和测试集之间存在结构泄漏。 考试比喻:如果你在考试前看到了大部分试题的答案,你的考试成绩会很高,但这并不代表你真正掌握了知识 机器学习对应:随机分割让模型在考试前“看到”了类似的结构,而scaffold-based分割确保模型在面对全新scaffold时进行真正的“开卷考试” 实证数据:研究表明,更严格的分割策略往往比随机分割的准确率低10%至30%,但这更接近模型在实际应用中的表现 Q3:ChemLint的项目清单系统如何确保可复现性,它是否记录了足够的信息? A3:项目清单系统记录了每个操作的完整上下文:资源类型、时间戳、创建工具、输入参数和用户提供的解释。 全面性:这比传统的实验室笔记本更全面,因为它不仅记录了“做了什么”,还记录了“怎么做的”和“为什么做” 可复现性验证:在示例3中,一个新的LLM客户端实例仅通过读取manifest.json文件,就能够完全复现整个实验,达到相同的测试集性能。这种级别的可复现性在分子机器学习领域是前所未有的 局限性:清单系统并不完美,它依赖于LLM客户端正确解释和执行清单中的指令,而且它不能记录环境差异(如RDKit版本、Python版本等),这些可能仍需要通过容器化(如Docker)来解决 关键结论与批判性总结 潜在影响 ChemLint通过将大语言模型的对话能力与化学信息学的严谨方法相结合,显著降低了分子数据管理的准入门槛,使得非专家研究人员也能执行严格的数据质量控制。这一贡献的意义在于:它将需要深厚专业知识的复杂操作,转化为通过自然语言即可完成的日常任务。 更重要的是,通过项目清单系统,ChemLint让数据预处理的选择变得前所未有的透明,使得每个决策都被记录和追踪。这有助于从根本上提高分子机器学习研究的可复现性和可信度。 然而,ChemLint的最重要的贡献在于它系统性揭示的数据质量危机。主流基准数据集的严重质量问题(无效SMILES、盐/溶剂片段、立体化学不完全指定、隐藏重复)以及数据分割的普遍泄漏问题(scaffold重叠高达63.6%),表明我们需要重新审视许多已发表研究的结论,并在未来的研究中采用更严格的数据管理和评估标准。 这一发现的意义远超工具本身:它挑战了整个领域的基础假设,并可能推动分子机器学习研究范式的再校准。 局限性 2D表示的限制:ChemLint当前专注于2D分子表示和QSAR(定量构效关系,即通过分子结构预测生物活性)建模工作流,不支持3D构象体生成、量子化学计算和基于结构的建模方法,这些对于某些药物发现任务(如分子对接、结合自由能计算)是必不可少的 深度学习支持缺失:ChemLint目前仅提供经典机器学习算法(33种),不支持深度学习模型(如图神经网络、 Transformer模型),而这些模型在分子性质预测和分子生成任务中越来越流行 环境依赖未隔离:虽然清单系统记录了所有操作和参数,但它不隔离计算环境(RDKit版本、Python版本、依赖库版本等),这些环境差异可能在不同机器或时间点导致结果不一致 未来发展方向 ChemLint的设计理念是通过将对话界面与基于约束的API配对,支持数据集探索、系统性诊断常见数据质量问题,以及应用最佳实践策略,而无需依赖临时脚本或未记录的手动步骤。正如原文Conclusion部分所指出的,ChemLint虽然不取代传统的建模环境,也不消除对专家判断的需求,但它降低了领域准入门槛,提供了结构化框架来减少数据处理决策中的歧义,最终提高分子机器学习工作流的透明度和可复现性。 批判性思考 ChemLint暴露了问题还是真正解决了问题? ChemLint的价值首先在于系统性揭示了数据质量危机,这是其最重要的贡献。它提供了诊断工具和manifest系统,但这些工具的实际影响将取决于其采用率 如果大多数研究者继续使用随机分割而不检查数据质量,问题依然存在。更重要的是,ChemLint无法从根本上解决问题:我们需要从头构建高质量、无泄漏的基准数据集,而不仅仅是诊断现有数据集的问题。这一挑战需要整个社区的共同努力 降低门槛是否总是好事? 对话式界面确实让非专家更容易使用化学信息学工具,但这可能是一把双刃剑 如果使用者不理解数据质量的重要性,更容易的工具可能产生更多低质量研究——这是对领域的双重打击:既有问题被更广泛地传播,同时因为“专业性门槛降低”而更难被发现 作者也明确指出ChemLint“不消除对专家判断的需求”,这提示我们需要在“易用性”和“必需的领域知识”之间找到微妙但关键的平衡 问题为何持续了7年? MoleculeNet于2018年发布,这些质量问题一直存在,但为什么直到现在才被系统性地审计?这反映了领域的几个深层次问题: 审稿人和编辑可能没有要求数据质量报告,导致缺乏制度性压力 研究者可能倾向于选择“更容易达到高性能”的方法(随机分割),导致存在结构性激励偏差 领域缺乏标准化的数据质量评估流程和共同的最佳实践 ChemLint的出现是一个重要的开始,但真正解决问题需要整个领域的文化和标准改变。这可能需要:期刊要求提供数据质量报告、审稿人更加关注数据分割策略、以及社区共同努力构建新的高质量基准数据集。
Machine Learning & AI
· 2026-02-27
“MolAgent:智能体时代下的自动化分子性质预测系统”
MolAgent:智能体时代下的自动化分子性质预测系统 本文信息 标题: MolAgent:Biomolecular Property Estimation in the Agentic Era 作者: Jose Carlos Gómez-Tamayo, Joris Tavernier, Roy Aerts, Natalia Dyubankova, Dries Van Rompaey, 等 发表时间: 2025年10月16日 单位: Johnson & Johnson(比利时、新泽西州)、Open Analytics、比利时安特卫普大学、美国 引用格式: Gómez-Tamayo, J. C., Tavernier, J., Aerts, R., Dyubankova, N., Van Rompaey, D., Menon, S., Steijaert, M., Wegner, J. K., Ceulemans, H., Tresadern, G., De Winter, H., & Ahmad, M. (2025). MolAgent: Biomolecular property estimation in the agentic era. Journal of Chemical Information and Modeling, 65(10), 10808–10818. https://doi.org/10.1021/acs.jcim.5c01938 参考资源: GitHub仓库:https://github.com/openanalytics/MolAgent Therapeutics Data Commons:https://tdcommons.ai/ Model Context Protocol文档:https://docs.anthropic.com/en/docs/agents-and-tools/mcp FLAME框架(对比参考):https://github.com/Open-Source-Systems-Lab/flame_public 摘要 Agentic AI系统的出现正在推动科学与技术领域的深刻变革。大语言模型(LLM)、推理能力与外部工具集成的进步,催生了一个全新时代——AI智能体能够自主执行传统上由人类完成的计算任务。计算机辅助药物设计(CADD)作为一个包含复杂、相互依赖任务的多面过程,从这些进步中获益最大。然而,关键挑战在于构建与人类专家开发的模型相当的分子性质估计模型。MolAgent正是为了解决这一瓶颈而设计的——一个系统无关的agentic AI框架,专注于端到端自动化分子性质建模,支持2D/3D结构、传统描述符与深度学习特征的融合,并完全遵循Model Context Protocol(MCP)以实现与多样化agentic基础设施的无缝互操作。 核心结论 Agentic AI转变:从被动的单步完成模型演进到具备自主多步规划、环境适应性与多工具协调能力的智能体架构 MCP标准化集成:MolAgent完全遵循Anthropic的Model Context Protocol,使其能够灵活接入各类agentic AI框架,包括Smolagents和其他LLM系统 自动化模型构建能力:框架实现完全自动化的特征工程、模型选择、超参数优化与验证,无需人工专家干预 多模态特征融合:整合RDKit描述符、Morgan指纹、深度学习嵌入(BottleneckTransformer)与基于3D结构的特征(AffinityGraph、ProLIF),在ADMET基准上达到与人类微调模型相当的性能 实证验证:在TDC基准的23项ADMET任务上,MolAgent在“廉价”计算预算下展现出竞争力表现;在脂溶性(logP)预测中R²达0.89,在binding affinity建模中R²达0.72 背景 大背景:Agentic AI的蓬勃发展 2024-2025年标志着人工智能的范式转变。LLM不再是被动的查询-响应工具,而是演变为具备动态推理、持久内存与函数调用能力的智能体。Gartner报告预测,到本十年末,数字智能体将独立管理高达80%的常规服务任务。 这一转变对科学计算意义重大。最近的工作(van Weesep等,2025)展示了模块化LLM智能体系统如何协调化学信息学工具、进行文献驱动推理,并动态选择分子模拟、性质预测与假设生成模块——所有这些无需人工微观管理。 药物发现中的关键瓶颈 早期药物研发面临复杂、资源密集的挑战: 多学科整合困难:传统管道依赖分区化专业知识(结构化学、药物化学、ADMET预测) 数据碎片化:实验数据、文献、公开数据库之间缺乏无缝协调 人工主导的高成本:模型开发、特征工程、超参数优化严重依赖专家人工操作,周期长、成本高 可复现性困难:QSAR模型性能波动大,往往因特征选择、模型架构选择的武断性而难以再现 当前的技术瓶颈 尽管LLM在化学领域展现出潜力(ChemLLM在分子命名、分子生成等任务上超越GPT-3.5/GPT-4),agentic系统在分子性质建模中仍缺乏高保真工具: 现有QSAR框架(FLAME、AutoML解决方案)往往面向通用ML应用,不能充分利用分子数据的特殊结构 模型质量与自动化程度的权衡:自动化程度越高,通常意味着性能下降 MCP标准缺失:现有工具与agentic基础设施的互操作性不足,难以在复杂multi-agent工作流中无缝使用 MolAgent正是为了弥合这一鸿沟而设计的。 关键科学问题 1. 能否实现“专家级”的自动化QSAR建模? 问题核心:自动化系统是否能在无人工干预的前提下,构建与人类专家微调模型相当或更优的性质预测模型? 这不仅涉及算法的先进性,更涉及对分子数据特殊性的深入理解——例如,化学系列内的相似性、活性悬崖等。 2. 如何在多种特征表示间实现高效的融合与选择? 传统QSAR依赖手工选择的描述符集;深度学习方法提供自动学习但缺乏解释性。如何统一这两类信息? 3. 3D结构信息能否显著提升binding affinity预测? Structure-based descriptors(如蛋白质-配体相互作用)在虚拟筛选中被广泛使用,但如何系统地整合到端到端自动模型中? 4. Agentic系统中的模型自主选择机制如何工作? LLM何时、如何决定采用“廉价”vs “昂贵”的计算配置?自主决策的质量如何保证? 创新点 系统级创新:首个完全MCP-ready的分子性质建模框架,设计为agentic AI系统的一流公民 特征工程自动化:集成五类特征生成器(RDKit、Morgan指纹、BottleneckTransformer、AffinityGraph、ProLIF),并实现自适应特征选择,无需专家指导 嵌套交叉验证框架:采用leave-group-out策略,确保模型验证反映真实的新化学序列泛化能力,而非仅在相似化合物上的性能 3D感知的binding affinity建模:利用图神经网络(GRAPHGPS架构)整合原子与残基级别编码、蛋白质-配体相互作用指纹,在ABL1激酶案例中展示显著改进(R²从0.60提升至0.72) 研究内容 核心架构:端到端的agentic工作流 graph TB User["用户询问<br/>(自然语言)"] --> Manager["经理智能体<br/>(任务分解与协调)"] Manager --> DataAgent["数据检索智能体<br/>(TDC/CSV/SDF处理)"] Manager --> ModelAgent["模型训练智能体<br/>(MolAgent核心)"] DataAgent --> DataPrep["数据预处理<br/>(SMILES验证、聚类)"] ModelAgent --> FeatureGen["特征生成<br/>(多模态融合)"] FeatureGen --> Clustering["分子聚类<br/>(Murcko/Butina)"] Clustering --> DataSplit["数据分割<br/>(leave-group-out)"] DataSplit --> ModelSearch["模型搜索<br/>(嵌套交叉验证)"] ModelSearch --> Ensemble["集成与堆叠<br/>(多策略组合)"] Ensemble --> Validation["综合验证<br/>(混合策略)"] Validation --> Output["结果输出<br/>(指标、可视化、JSON)"] Output --> User MolAgent核心组件 1. MCP层(Model Context Protocol集成) MCP是Anthropic定义的标准化智能体-工具通信协议。MolAgent实现Python包装器,使得LLM能够通过简单的JSON RPC调用触发模型训练: LLM → automol_classification_model(data, target, features=“bottleneck", budget=“cheap") 这一设计确保了框架与任意MCP兼容的agentic基础设施的互操作性——无论是Claude API、Anthropic的agents还是第三方系统(如Hugging Face的Smolagents)。 2. 特征生成(Feature Generation) MolAgent支持五大类特征,形成一个渐进式丰富的特征生成管道: 第一层:传统描述符(RDKITGenerator) 物化学性质:分子量、logP、TPSA、HBA/HBD 拓扑描述符:连接性指数(Chi0-Chi4v/n)、Kier形状指数 电子性质:部分电荷、Electrotopological State指数 官能团计数(75+个):醛基频率、酯基频率等 第二层:指纹(ECFPGenerator) Morgan/ECFP指纹(可调半径与位长) MACCS keys(166维) Topological torsion指纹 Atom pair指纹 优势:快速、可解释、基于化学结构的物理意义 第三层:深度学习嵌入(BottleneckTransformer) 加载在ChEMBL上预训练的transformer模型,通过自注意机制学习原子间的上下文关系,从“瓶颈层”提取512维的密集嵌入。 我没查到这个东西? 优势:无需再训练,捕捉全局分子特征,通常性能优于传统描述符 第四、五层:3D结构特征 AffinityGraph:基于GRAPHGPS架构,采用消息传递神经网络与全局自注意,处理: 原子级编码:配体原子特征的图表示 残基级编码:蛋白质残基信息的聚合 相互作用编码:配体原子与蛋白质残基间的Prolif相互作用(氢键、π-stacking、疏水作用等) 位置编码:基于随机游走与指数衰减注意(GradFormer思想) 在PDBbind与BindingNet上预训练,自动捕捉3D识别关键。 ProLIF交互指纹: 氢键(供体/受体)、π-stacking、π-cation、离子相互作用、van der Waals接触 提供药效团层面的解释性,有助于虚拟筛选 3. 数据聚类与分割(Clustering & Data Splitting) 关键洞察:分子数据中的相似性偏差会导致过度乐观的验证结果。MolAgent实现三种聚类策略: 策略 原理 使用场景 Murcko Scaffold 按Bemis-Murcko支架分组 药物化学项目,注重支架多样性 Butina 基于指纹的层次聚类 通用分子池,保留拓扑相似性 K-Means++ 在嵌入空间中聚类 深度学习特征,自适应聚类数 leave-group-out验证:整个聚类作为一个单元从训练集中移除,评估模型对新化学序列的真实泛化能力。 4. 嵌套交叉验证(Nested Cross-Validation) 外层循环(k折): 将数据分为k个fold,每个fold依次作为验证集 最终性能报告为k个fold的未偏差估计 内层循环(k折,在每个外层训练fold内): 进行超参数搜索与模型选择 防止选择偏差(避免在验证集上过度优化) 三种超参数搜索策略: GridSearch:穷举预定义的参数网格,适合小参数空间 RandomizedSearch:随机采样,计算效率高,100次迭代 HyperoptSearch(Bayesian优化):使用Tree-structured Parzen Estimator (TPE),高效定位高维参数空间中的有前景区域 5. 模型集成(Model Stacking & Ensembling) MolAgent实现六层级的集成策略,从简到复: Inner Methods:基础模型输出简单平均(回归)或投票(分类) Inner Stacking:多个stacking模型(每个外fold一个),输出再次聚合 Single Stack:单个meta-model在整个外折优化 Top Method:独立训练基础模型,单个meta-model学习组合权重 Top Stacking:基础模型在内fold训练,meta-model使用交叉验证输出 Stacking on Stacking(仅分类):层级堆叠,形成meta-meta-model 示例:假设基础模型为[SVR, LightGBM, LogisticRegression],meta-model为LightGBM,则最终预测为: \(\hat{y} = \text{LightGBM}([SVR(\mathbf{X}), LightGBM(\mathbf{X}), LogReg(\mathbf{X})])\) 6. 验证程序(Validation Procedures) 分层验证:确保训练集与验证集中活性类别的比例一致(对不平衡数据集至关重要) 混合验证:同时应用: 活性悬崖识别(Activity cliff) 基于group的分割 分层采样 创造多维度的挑战,更接近真实部署情景。 计算预算与模型配置 MolAgent通过三个预设计算预算级别来适应不同场景,每个级别对应不同的特征选择、超参优化策略和模型复杂度: 回归任务(Regression) 配置项 Cheap(快速执行) Moderate(平衡速度与精度) Expensive(最高精度) 特征层级 RDKit + Morgan(第1-2层) RDKit + Morgan +BottleneckTransformer(第1-3层) 全部五层特征(含AffinityGraph、ProLIF) 最终模型 单一模型或简单集成 单一模型或混合器 Stacking回归器 候选/基础模型 候选:SVR、Lasso、Kernel Ridge基础:SVR、Lasso、PLS、Kernel Ridge 候选:SVR、Lasso、KernelRidge、LightGBM基础:SVR、Lasso、PLS、KernelRidge、SGD、Decision Trees、LightGBM 基础:SVR、Lasso、PLS、KernelRidge、SGD、Decision Trees、4个LightGBM(不同超参)Meta-learner:SVR、Lasso、KernelRidge或LightGBM 超参优化 GridSearch(穷举) RandomizedSearch(100次迭代) Bayesian优化(HyperOpt,100次) 集成策略 简单平均 (averaging) 加权集成 (weighted) Stacking-on-stacking 分类任务(Classification) 配置项 Cheap(快速执行) Moderate(平衡速度与精度) Expensive(最高精度) 特征层级 RDKit + Morgan RDKit + Morgan +BottleneckTransformer 全部五层特征 最终模型 单一模型或简单集成 单一模型或混合器 Stacking分类器 候选/基础模型 候选:Logistic Regression基础:LogReg、SVM、k-NN 候选:LogReg或LightGBM基础:LogReg、SVM、k-NN、SGD、LightGBM 基础:LogReg、SVM、k-NN、SGD、Decision Trees、4个LightGBMMeta-learner:LogReg、Lasso、KernelRidge或LightGBM 超参优化 GridSearch RandomizedSearch(100次) Bayesian优化(HyperOpt,100次) 集成策略 投票分类器 (voting) 加权集成 (weighted) Stacking-on-stacking 术语解释: 单一模型(Single Model):从候选模型中选择性能最优的一个模型作为最终预测器 简单集成(Simple Blender):使用基础模型的简单组合策略 回归任务:对所有基础模型的预测值进行简单平均(averaging) 分类任务:使用投票分类器(voting classifier),按多数投票决定最终类别 混合器(Blender):更复杂的集成策略,对基础模型的输出进行加权组合(weighted ensemble),权重通过交叉验证优化 Stacking:两层集成架构 第一层:多个基础模型(base estimators)独立训练并产生预测 第二层:元学习器(meta-learner)学习如何最优地组合第一层的预测结果 Stacking-on-stacking:在stacking基础上进一步叠加,形成更深的集成层次 关键设计:三个预算级别通过特征深度(从传统描述符到3D结构特征)、超参优化策略(从穷举到贝叶斯)和集成复杂度(从简单平均到stacking-on-stacking)形成递进式的性能-成本权衡。 相对与绝对建模(Relative vs Absolute Modeling) 对于数据稀缺的情景,MolAgent支持成对delta建模: 不直接预测绝对性质,而是学习两个化合物间的相对差异: \(\Delta_{\text{delta}} = f(X_i) - f(X_j)\) 优势: 有效数据点数量翻倍(N个化合物可产生$N(N-1)/2$个成对比较) 尤其适合lead优化场景(往往关注相对改进,而非绝对值) 研究结果与验证 结果1:ADMET基准性能(Table 1) 在Therapeutics Data Commons的23项ADMET任务上,MolAgent采用cheap计算预算(GridSearch超参数优化)评估: 任务 MolAgent 最佳已发布 排名 指标 Caco2_Wang 0.303±0.002 0.276±0.005 6/排行榜 MAE Lipophilicity_astrazeneca 0.309±0.001 0.467±0.006 1/排行榜 MAE Solubility_aqsoldb 0.889±0.001 0.761±0.024 8/排行榜 MAE herg 0.624±0.02 0.880±0.002 17/排行榜 AUROC ames 0.793±0.005 0.871±0.002 13/排行榜 AUROC 关键观察: 脂溶性(logP)预测中排名第一,且仅用单次自动运行(无多次参数调整) 在18/23任务中进入排行榜前20% 计算成本远低于人类微调(“廉价”预算 vs 多轮手工优化) 结果2:脂溶性案例(Use Case II) 用户指令:“使用最快的可用模型和bottleneck特征,训练脂溶性回归模型” 系统自主决策(多智能体协调): 数据检索智能体从TDC获取脂溶性数据集(4,200分子) 计算分子描述符(LogP、TPSA等) 管理员智能体注意到LogP与脂溶性的强正相关(Pearson r ≈ 0.8) 自主决策:将RDKit LogP添加为额外特征,尽管用户未明确提及 模型训练智能体构建blender模型(bottleneck + LogP) 最终性能: R² = 0.8692 Pearson r = 0.9327 MAE = 0.3235 原理:bottleneck特征捕捉全局分子性质,而LogP提供显式的关键驱动因子,两者的组合产生协同效应。 ⚠ 小编锐评:脂溶性本身在化学中常用LogP量化。技术上不算作弊,但确实降低了科学价值: 角度 评价 实用性 ✅ 如果目标是”快速得到好性能”,这完全合理 科学性 ⚠️ 缺乏新洞察:我们早就知道LogP算法与实验LogP高度相关 模型泛化 ⚠️ 对其他ADMET性质(如溶解度、渗透性),这种”捷径”不存在 Agentic能力展示 ✅ 证明了LLM能发现特征-目标相关性并自主利用 图1:多智能体框架在脂溶性任务中的工作流程 原文中的Figure 1展示了以下步骤: 用户层:提出“使用最快的可用模型和bottleneck特征训练脂溶性回归模型”的自然语言指令 数据检索智能体:从Therapeutics Data Commons(TDC)自动定位并获取脂溶性数据集 管理员智能体的智能决策:系统被提示使用bottleneck特征进行快速执行,但框架自主发现了关键洞察——RDKit LogP与脂溶性具有显著的正相关性(Pearson相关系数 ≈ 0.8),因此主动决定将RDKit LogP添加为建模管道中的额外特征,尽管用户未明确要求 模型训练智能体:基于扩充的特征集(bottleneck + LogP)构建最终的回归模型 性能输出:包含预测与真实值的散点图以及模型性能指标 这个案例充分体现了agentic系统的自主推理能力——框架不是被动地执行指令,而是能够发现数据中的关键相关性并主动整合到建模流程中。 结果3:ABL1激酶Binding Affinity(Use Case III) 背景:ABL1(tyrosine-protein kinase ABL1)是关键的药物靶点(例如,伊马替尼靶向ABL1的癌症治疗)。准确的binding affinity预测对lead optimization至关重要。 数据: 1,078个化合物的3D结构、SDF与PDB文件 目标:pKi(结合亲和力) 系统采用的特征: BottleneckTransformer(2D) RDKit描述符 AffinityGraph(3D):整合原子-配体图、残基-蛋白质图、相互作用编码 fps_1024_2(另一Morgan指纹变体) 性能: R² = 0.72 Pearson r = 0.87 MAE = 0.75 kcal/mol RMSE = 0.91 kcal/mol RMSE解读:±0.91 kcal/mol的平均误差在药物设计中可接受(药物discovery通常目标精度为±1 kcal/mol)。 关键发现:AffinityGraph的加入相比仅用2D特征,R²提升约0.12,充分展示了3D信息的显著价值。 图2:智能体框架在ABL1激酶binding affinity任务中的工作流程 原文中的Figure 2概览了框架在binding affinity预测任务中的工作流程: 数据获取层:系统根据用户指令获取ABL1激酶复合物的3D结构数据(SDF与PDB文件),这些数据来自之前发表的研究 3D特征感知能力:框架能够整合和处理结构化学信息,充分利用3D结构数据的优势 特征生成管道:同时提取多类特征——BottleneckTransformer(2D学习)、RDKit描述符、AffinityGraph(3D图神经网络)与ProLIF相互作用指纹 智能体协调:各个智能体协同工作,将3D结构信息无缝集成到建模流程中 结果输出:最终的binding affinity预测模型,附带性能指标与可视化 案例的科学意义:这个案例演示了3D结构信息对binding affinity预测的关键作用,也展示了agentic框架在处理复杂、多模态数据时的灵活性——即使仅有2D分子结构,系统也能运行(如脂溶性案例);一旦有3D结构可用,框架又能自动利用这些信息以大幅提升性能。 Q&A Q1:为什么需要三个不同的计算预算级别? A1:反映现实中的资源约束与精度权衡。在早期筛选中,速度优先(Cheap预算,数秒内得到结果);在lead优化中,精度优先(Expensive,可接受数分钟计算)。LLM可根据任务的关键性自主选择。 Q2:AffinityGraph为何在binding affinity预测中效果显著? A2:Binding affinity是3D特异性的强函数。AffinityGraph通过图神经网络捕捉: 原子级细节:配体原子的类型、形式电荷 蛋白质环境:靶点残基的类型、位置、rotamer状态 相互作用指纹:特定的氢键、疏水接触等 这些信息无法仅从2D分子结构中获得。 Q3:MCP为什么对agentic系统至关重要? A3:MCP定义了标准化的JSON-RPC通信协议,使得: 任何LLM(Claude、GPT-4、开源模型)都能无缝调用 MolAgent 不同的agentic框架(Smolagents、LangChain、自定义系统)都能互操作 避免vendor lock-in,提升系统的可组合性与可维护性 Q4:Leave-group-out验证相比stratified validation的优势是什么? A4: Stratified validation:确保类别平衡,但可能让化学相似的化合物同时出现在训练与验证集中——导致过度乐观的性能估计(这在药物设计中很常见,称为activity cliff问题) Leave-group-out:整个化学系列(共享支架的化合物组)被保留,强制模型泛化到新颖的化学空间——更接近实际应用 Q5:为什么要进行嵌套交叉验证而不是简单的CV + 单独测试集? A5: 简单CV:在同一数据上进行模型选择和评估,产生选择偏差(选择的模型在特定CV分割上过度优化) 嵌套CV:内层用于选择,外层用于无偏评估,两者解耦,产生可靠的性能估计。学术标准实践。 关键结论与批判性总结 潜在影响 Agentic drug discovery的可行性验证:MolAgent证明了高保真的分子建模可以完全自动化,为autonomous discovery pipelines铺平道路 生成式AI在CADD中的实际应用:不再是“LLM可以生成分子”的宽泛声明,而是具体的、可部署的工具 学术-产业交汇:来自J&J等大制药公司的投入,表明业界对agentic方法的认真态度 开源生态:源代码开放(GitHub),降低采用门槛,可能激发后续的创新与改进 存在的局限性 数据集规模与多样性:TDC基准多为公开可用的数据(ChEMBL衍生),未必代表真实的药物discovery项目的数据分布(往往涉及专有数据、更复杂的化学空间) 模型可解释性:BottleneckTransformer与AffinityGraph均为黑箱模型。虽然ProLIF提供相互作用指纹的解释,但整体模型输出的解释性仍不如传统QSAR描述符 3D结构依赖:AffinityGraph需要高质量的3D复合物结构(PDB或MD快照)。在高通量筛选或早期发现阶段(仅有2D结构),这一优势无法充分利用 计算成本:虽然“廉价”预算已相对便宜,但Expensive预算(Bayesian优化+复杂集成)的计算成本未充分讨论。对大规模、数百万化合物的虚拟筛选,仍可能昂贵 agentic决策的可靠性:MolAgent展示了LLM能自主添加特征(脂溶性案例),但何时这种自主决策会失败(e.g., 添加无关特征导致过拟合)尚未系统研究 未来研究方向 跨领域迁移学习:预训练的BottleneckTransformer基于ChEMBL,对专有化学空间(例如蛋白降解剂、ADC)的适应性有待探索 多任务与多目标建模:现有框架主要针对单一性质。多约束优化(ADMET + 合成可行性 + 知识产权风险)的agentic协调仍是开放问题 动态特征选择:目前特征集相对固定。数据驱动的特征选择(在模型训练过程中动态移除低信息特征)可能进一步提升效率 不确定性量化:模型输出的置信度估计对drug discovery至关重要。集成方法提供某种形式的不确定性,但贝叶斯方法可能更鲁棒 小编锐评: 工具还是很容易被抢发,“要抓紧时间实施”。 这篇做得比较简单,但还是占坑了。
Machine Learning & AI
· 2025-11-09
<
>
Touch background to close