零代码玩转化学信息学CADS平台整合：DOPtools实现从分子结构到性质预测的全流程自动化

零代码玩转化学信息学CADS平台整合：DOPtools实现从分子结构到性质预测的全流程自动化本文信息标题: 整合DOPtools与CADS的网页用户界面，用于结构描述符计算、模型优化与预测作者: Philippe Gantzer, Micke Kuwahara, Keisuke Takahashi, Pavel Sidorov 发表时间: March 19, 2026 单位: 日本北海道大学化学反应设计与发现研究所（ICReDD）、北海道大学化学系引用格式: Gantzer, P., Kuwahara, M., Takahashi, K., & Sidorov, P. (2025). Integration of DOPtools and CADS in a Web-Based User Interface for Structural Descriptor Calculation, Model Optimization, and Prediction. Journal of Chemical Information and Modeling. https://doi.org/10.1021/acs.jcim.5c03055 代码与平台: CADS平台在线访问：https://cads.eng.hokudai.ac.jp CADS源代码：https://github.com/Material-MADS/mads-app （revision 84f74c3及以上） DOPtools库：https://github.com/POSidorov/DOPtools 摘要定量构效关系（QSPR）建模通常需要在不同工具间切换来完成描述符计算和模型构建，这对缺乏编程经验的实验科学家构成了障碍。本研究将DOPtools——一个专门用于分子描述符计算和模型构建的Python库——无缝整合到CADS（基于数据科学的催化剂获取）平台中。这一整合使得用户无需编写代码，即可通过网页界面完成从分子结构（SMILES编码）到描述符计算、再到模型超参数优化和性质预测的全流程。新增功能包括：支持分子结构的2D可视化、自动化超参数优化（基于Optuna）、批量预测能力，以及通过ColorAtom模块实现的模型可解释性可视化（展示每个原子对预测结果的贡献）。该平台支持私有数据部署，为化学、材料和药物研发领域提供了开放、可定制且用户友好的QSPR建模解决方案。核心结论无缝整合：将DOPtools的11种描述符计算能力和机器学习模型优化功能嵌入CADS的网页界面，用户无需编程即可完成复杂建模任务。自动化建模流程：支持从SMILES字符串自动计算分子描述符、进行超参数优化（支持SVM和随机森林），并自动选择最优模型。模型可解释性：集成ColorAtom功能，可在预测结果上叠加原子级别的贡献热图（绿色表示增加性质值，紫色表示降低），帮助用户理解模型决策。私有数据友好：CADS平台开源且支持本地服务器部署，适合处理敏感或专有化学数据。性能稳健：在ddG性质预测任务中，500次优化尝试即可达到R² ≈ 0.85，且预测1000个分子仅需约45秒。背景在药物发现、催化剂设计和材料开发中，从分子结构预测其性质（如溶解度、血脑屏障穿透性、反应选择性等）是核心任务之一。传统的实验筛选方法成本高、周期长，而定量构效关系（QSPR）建模通过建立分子结构与性质之间的数学关系，提供了一种高效的替代方案。然而，QSPR建模的落地面临三重障碍：计算描述符需要编程（如RDKit、Mordred等库需通过Python调用）、模型优化需要机器学习专业知识（超参数调优、交叉验证等）、工具链碎片化（描述符计算、模型训练、预测往往需要多个独立软件）。尽管已有像KNIME、Pipeline Pilot这样的图形化工作流平台，但它们通常需要本地安装，计算能力受限于个人电脑，且难以处理敏感数据。而网页平台如OCHEM虽然免安装，但多为闭源，无法部署在本地网络。正是在这一背景下，CADS平台应运而生。它最初是为催化剂数据科学设计的开源网页平台，支持数据管理、分析和预测。但其早期版本不支持分子描述符的自动计算，也不具备模型超参数优化功能。本研究将DOPtools——一个同样由该团队开发的Python库——整合进CADS，填补了这一空白。 DOPtools技术架构：该库基于成熟的化学信息学工具链构建，包括Chython（1.78版本）用于结构解析、RDKit（2024.9.5版本）用于分子操作、scikit-learn（1.6.1版本）用于机器学习，以及Optuna（4.2.1版本）用于超参数优化。支持的算法包括支持向量机、随机森林和XGBoost（命令行版本），模型可保存为标准的scikit-learn pipeline格式，便于复用和部署。这种整合实现了优势互补：DOPtools作为“引擎”提供强大的计算能力，CADS作为“驾驶舱”提供友好的用户界面，使得用户可以在网页上完成从分子结构输入到模型部署的全流程，无需编写一行Python代码。图1：CADS平台总体架构概览图中将平台分成两个互补部分：服务器端负责计算、存储和任务执行，客户端提供面向用户的图形界面。这张图的意义在于先交代整个平台的分工，再去理解后面新增的“含分子的表格”“描述符”“优化器”和预测模块升级各自落在哪一层。从工作流角度看，DOPtools主要嵌入在服务器端的数据处理与建模链条中，而CADS负责把这些能力组织成可交互、可管理、可部署的网页组件。创新点零代码分子描述符计算：用户只需上传包含SMILES列的CSV文件，即可通过网页表单选择描述符类型（如Morgan指纹、RDKit指纹、Mordred 2D描述符等），后台自动调用DOPtools和RDKit完成计算。一体化模型优化：在同一个网页组件中，用户可完成“描述符计算 → 超参数优化 → 模型保存”的完整流程，无需在多个工具间切换。原子水平模型解释：预测页面集成ColorAtom，以2D分子图形式展示每个原子对预测值的贡献（绿色为正贡献，紫色为负贡献），使黑箱模型透明化。灵活的数据输入：不仅支持分子结构，还支持溶剂名称（自动匹配物化性质）和用户自定义数值特征，适配多种建模场景。性能基准公开：论文提供了详细的性能测试数据（不同尝试次数、交叉验证折数下的时间与R²），为用户评估计算资源需求提供参考。研究内容核心方法：平台架构与工作流 CADS平台采用客户端-服务器架构，前端基于React提供交互界面，后端使用Django框架和Python脚本执行计算任务。本次整合主要新增了三个核心组件和一个预测模块的升级。图2：含分子的表格组件和描述符组件的数据处理展示左侧“含分子的表格”组件将SMILES文本编码的结构转换为2D分子图，便于用户直接检查分子或反应条目是否被正确解析。右侧“描述符”组件从SMILES编码的结构（包括R基团和反应）以及溶剂名称自动计算描述符值，并以表格形式展示结果。初始数据来自Tsuji等人的数据集，包含分子、溶剂和相关性质，仅用于演示目的。 1. 含分子的表格组件核心功能：将数据表中SMILES编码的分子或反应式转换为2D结构图（SVG格式）实现方式：利用Chython库解析SMILES并生成矢量图，支持任意缩放而不失真应用场景：在建模前快速检查数据质量，或建模后查看预测效果较好的分子结构数据管理：支持三级访问权限控制权限级别访问范围适用场景私有仅上传者和指定用户可访问企业专有数据、未公开研究结果内部平台所有注册用户可访问实验室内部共享数据公开所有人可访问公开数据集、已发表研究数据这种灵活的权限管理使得平台既能处理公开数据集，也能安全地管理企业或实验室的专有数据。 2. 描述符组件核心功能：从SMILES自动计算分子描述符，生成特征表。支持的11种描述符类型：类别描述符名称可调参数指纹类 Morgan指纹位数指纹类 Morgan特征指纹最大半径指纹类 RDKit指纹位数指纹类 RDKit线性指纹最大长度指纹类 RDKit分层指纹无指纹类 Avalon指纹位数指纹类 Atom Pair指纹无指纹类 Torsion指纹无碎片类 ChyLine碎片最小/最大长度碎片类 Circus碎片最小/最大半径全描述符 Mordred 2D描述符计算超过1800种2D分子描述符输入灵活性支持SMILES字符串作为输入格式，这是化学信息学最通用的文本表示方式对于反应体系，支持SMILES CGR（缩合图表示）格式可同时输入溶剂名称，自动匹配152种溶剂的Catalán物化性质描述符支持用户自定义外部数值特征，扩展性极强这里的“溶剂”并不是所有任务都必须提供的输入列，而是一个可选的上下文特征。当目标性质本身会随着实验介质变化时，平台可以把溶剂名称映射为Catalán参数，让模型同时学习分子结构与反应/测量环境对结果的共同影响；在ddG这类反应选择性任务中，这一点尤其重要。在特征计算阶段，DOPtools会自动跳过无法计算的分子（如包含非标准元素的SMILES），并在日志中记录错误。平台会自动移除方差为零的特征（即所有分子在该特征上的值相同），因为这些特征对模型没有区分能力。用户也可以在建模前通过“描述符”组件预览特征表，手动检查是否存在异常条目或不合理特征。输出为一张包含所有特征和性质列的表格，用户可下载为CSV用于其他分析。 3. 优化器组件（分回归和分类两个版本）这是本次整合的核心，将DOPtools的模型优化能力以表单形式呈现给用户。配置流程（以回归任务为例）描述符设置：与“描述符”组件相同，选择要计算的特征类型建模设置：选择目标列（要预测的性质）选择算法：支持支持向量回归（SVR）和随机森林回归（Random Forest）设置交叉验证折数（如3、5、10折）和重复次数（如3、5、10次）可选留出一部分数据作为外部测试集，用于独立评估；不过论文正文只说明了平台支持这一功能，并未展开具体的切分方式或默认设置保存模型：优化完成后，可将最佳模型（按交叉验证平均R²最高选择）保存到服务器，供后续预测使用优化算法详解 DOPtools底层使用Optuna框架进行超参数搜索，采用k-fold交叉验证策略来评估每组参数的性能交叉验证支持多次重复，以减少数据划分随机性带来的偏差，确保评估结果稳健对于SVR，搜索空间包括C值（1e-9到1e9）、核函数（线性、RBF、多项式、sigmoid）等对于随机森林，搜索空间包括最大深度（3–10）、树的数量（20–200）、最大特征选择方式等模型选择标准：回归任务选择交叉验证平均R²最高的模型，分类任务选择平衡准确率最高的模型关于XGBoost：论文明确给出两层限制。第一，DOPtools 1.2的方法表中注明，由于实现层面的技术困难，XGBoost当前在网页GUI中被禁用；第二，正文又补充说，在当前CADS版本里，XGBoost仍可通过DOPtools命令行版本使用，但不在网页优化器中开放，因为其优化和训练耗时更长。作者同时指出，未来版本有望重新接入这一算法。 4. 升级的预测模块本次更新不仅增强了预测功能，还引入了智能输入验证机制，确保预测过程的鲁棒性。特性说明输入方式用户可一次性提交多个分子（每行一个），格式与训练时特征顺序一致（如“SMILES 溶剂名数值特征”）智能验证服务器端Python脚本会自动检查每行输入：验证字段数量、确认SMILES有效性和溶剂名称存在性、自动跳过无效行输出内容预测值列表，可选“预测并着色”功能生成ColorAtom热图直观显示原子贡献批量性能预测1000个分子约需45秒（在16核服务器上）数据安全模型保存时引入了input_type元数据字段，自动识别所需的输入类型，防止用户误用模型 ColorAtom的作用 ColorAtom会把模型预测结果映射回2D分子结构，用原子级着色来展示不同原子对预测值的相对贡献，从而提供一种更直观的模型逻辑可视化。在平台层面，它的价值在于把原本难以阅读的数值预测转成化学家更容易理解的结构图，帮助用户快速判断哪些局部结构更可能推动性质升高或降低。至于ColorAtom更底层的理论与实现，论文主要通过引用Marcou等人的原始工作加以说明，而没有在本文中展开算法推导。图4：使用Huuskonen等人溶解度数据集构建的模型进行预测 SMILES列和Real列显示用户提供的输入信息及可选的真实值。 Predicted列给出模型预测值。 ColorAtom列展示对应SMILES的2D分子图，其中绿色原子表示对预测性质有增加作用，紫色原子表示对预测性质有降低作用，颜色深浅反映相对贡献大小。数据仅用于演示目的。案例演示与结果分析论文用三个数据集展示了平台的核心功能，我们逐一解读。案例一：ddG性质预测（回归任务） Tsuji等人2023年发表的手性催化剂数据集包含反应条件、溶剂和产物对映选择性。这里的 ddG 指的是与对映选择性相关的自由能差，文中具体建模的目标列名为 ddG calib (C=0.05)，单位为 kcal/mol。描述符选择理由：CircuS碎片（大小0到3）能够同时捕捉局部与全局结构特征，特别适合手性催化剂这类骨架较复杂的体系；溶剂描述符则量化了介质的极性、酸碱性等物化性质，对反应选择性有重要影响。算法选择理由：支持向量回归（SVR）在中小样本量下表现稳健，且对高维特征空间不敏感。交叉验证策略：采用3次重复、每次10折，目的是降低随机划分带来的偶然性，提高模型评估的可靠性。优化尝试次数：设置为500次，在精度与计算时间之间取得平衡。图3a展示了优化后的模型在交叉验证训练集上的预测值与真实值散点图。点越靠近对角线，模型越准确。从图中可见，大部分点落在对角线附近，说明模型具有较好的拟合与泛化表现。经过500次优化尝试后，$R^2$ 约为0.86，而RMSE和MAE也保持在较低水平，说明平台已经能够在网页端稳定完成一轮像样的回归建模。用户还可以通过鼠标悬停查看每个点的详细信息，点击后在其他组件中联动高亮对应结构，这使得异常点分析不再需要来回切换工具。图3：优化器组件运行后的界面展示（a）回归优化器组件展示使用Tsuji等人数据预测ddG性质的最佳模型性能。散点图显示交叉验证中预测值与真实值的对应关系，右侧列出模型详细信息和验证指标。（b）分类优化器组件展示使用Roy等人数据集预测血脑屏障穿透性的最佳模型。左侧为ROC曲线，其中深蓝色表示平均曲线，浅蓝色表示各次重复曲线；右侧显示模型参数和验证指标（如平衡准确率、AUC），类别1被视为正类。案例二：血脑屏障穿透性预测（分类任务） Roy等人2019年发布的数据集，分子被标记为“可穿透”或“不可穿透”。算法选择理由：随机森林分类器（RFC）天然适合处理分类任务，且对特征缩放不敏感，能自动处理特征之间的交互作用。评估指标选择理由：平衡准确率（Balanced Accuracy，即两类召回率的平均值）能更好地处理类别不平衡问题，避免模型偏向多数类。可视化工具：ROC曲线和AUC提供了模型在不同阈值下的综合性能概览。图3b展示了ROC曲线。曲线越靠近左上角，模型区分正负类的能力越强。图中同时显示了每次交叉验证重复的ROC曲线（浅蓝色）和平均曲线（深蓝色），因此读者不仅能看到平均表现，还能直观看到重复之间的波动范围。相比普通准确率，平衡准确率更适合这类潜在类别不平衡任务；论文也正是用它作为交叉验证重复平均后的模型选择标准。AUC则提供了另一个角度的佐证：从平均ROC曲线位置看，模型具备较好的类别区分能力。案例三：溶解度预测与原子贡献可视化 Huuskonen等人2000年发表的溶解度数据集，包含多种有机化合物。描述符选择理由：Mordred 2D描述符覆盖了超过1800种分子特征，包含拓扑、电子和理化性质等多个维度，适合用来做这类通用小分子性质建模。算法选择理由：随机森林回归对高维特征空间具有较好的适应性，同时也便于后续解释。 ColorAtom价值：对于溶解度这类常常受局部官能团影响的性质，原子贡献可视化尤其直观。用户在预测页面输入SMILES后，选择“Predict and color”，即可得到预测值和一个带颜色的分子结构图（图4）。其中，绿色原子表示对预测溶解度有正向贡献，紫色原子表示有负向贡献，颜色深浅反映相对贡献大小。这里最重要的 punchline 是平台把预测值和结构解释放到了同一个界面里：用户不只知道模型给了什么答案，还能快速看到答案主要来自分子的哪些局部结构。不过这种解释仍然更适合作为启发式线索，而不是直接替代化学机理判断。下图展示了从数据上传到模型预测的完整工作流： graph TB subgraph S1["1.数据准备"] direction TB A1["上传CSV文件 （含SMILES列、性质列）"] A2["数据管理模块 （私有/内部/公开）"] end subgraph S2["2.特征计算与可视化"] direction TB B1["含分子的表格组件 SMILES转2D结构图"] B2["描述符组件 选择11种描述符类型 自动计算特征"] end subgraph S3["3.模型优化"] direction LR C1["优化器组件 选择算法"] --> C2["设置交叉验证"] --> C3["Optuna超参数优化"] --> C4["保存最佳模型"] end subgraph S4["4.模型预测与解释"] direction LR D1["预测模块 批量输入分子"] --> D2["ColorAtom原子贡献热图 绿色↑ 紫色↓"] --> D3["导出预测结果CSV"] end S1 --> S2 --> S3 --> S4 style A1 fill:#e1f5ff style A2 fill:#e1f5ff style B1 fill:#fff9c4 style B2 fill:#fff9c4 style C1 fill:#ffe0b2 style C2 fill:#ffe0b2 style C3 fill:#ffe0b2 style C4 fill:#ffe0b2 style D1 fill:#c8e6c9 style D2 fill:#c8e6c9 style D3 fill:#c8e6c9 性能基准测试论文附录提供了详细的性能测试数据（基于16核Intel Xeon Silver 4314服务器），帮助用户预估计算资源需求：表ST1：不同 Optuna 超参数尝试次数下的回归模型性能（Tsuji 数据集中的 ddG calib (C=0.05) 性质）尝试次数平均 R² 平均时间（秒）时间范围（秒） 50 0.835±0.012 68±5 63–72 100 0.840±0.012 93±21 66–133 250 0.854±0.003 170±14 158–197 500 0.862±0.004 324±16 308–351 1000 0.861±0.003 623±17 604–653 解读：这里的“尝试次数”指的是 Optuna 在超参数优化过程中评估了多少组参数。当尝试次数从50增加到500时，$R^2$ 从0.835提升到0.862，但计算时间也从68秒增加到324秒。继续增加到1000次后，性能几乎不再提升，说明大约500次尝试已经接近收益平台期。这组结果给出的核心信息不是“越多越好”，而是网页端建模同样需要考虑精度与时间的平衡。表ST5：不同测试集规模下的批量预测耗时（使用保存的模型）测试集大小 10 100 1000 3000 平均时间（秒） 0.46±0.009 5.22±0.06 44.9±0.1 133.6±0.1 解读：这里的“10、100、1000、3000”指的是待预测条目数，也就是通过重复Tsuji数据集的外部测试集得到的 TEST SIZE，并不是优化尝试次数。按这一设置，1000条输入约需45秒，3000条约需133秒，整体呈近似线性增长。这说明平台已经能支撑中等规模的批量预测，至少不会卡在“一次只能点一个分子”的演示级阶段。关键结论与批判性总结平台价值 CADS与DOPtools的整合显著降低了QSPR建模的技术门槛，使实验科学家能够更专注于化学问题，而不是被脚本、依赖和模型封装细节绊住。私有部署这一点很关键，它让平台既保留了网页工具的便利性，又能适配敏感或专有数据场景，补上了很多公共在线平台做不到的一环。 ColorAtom可视化的价值不只是“好解释”，而是把预测结果直接投回结构层面，让模型输出更接近化学家真正会使用的工作语言。局限性网页端算法支持仍有限：虽然DOPtools本身支持SVM、随机森林和XGBoost，但当前网页GUI中XGBoost仍被禁用，这会限制部分任务的性能上限。平台论文更偏功能展示而非系统 benchmark：文中通过三个案例说明组件可用，但并没有在多数据集上系统比较不同描述符或算法组合的优劣，因此它更像“可用性证明”，而不是通用性能排名。适用域仍待补齐：作者在结尾明确提到未来希望引入Applicability Domain功能；这说明平台虽然已经能做预测和可解释性展示，但对“哪些预测值得信任”的提示仍不充分。未来方向引入Applicability Domain：作者明确点名了Fragment Control、Bounding Box以及基于距离的方法（如leverage）作为未来可接入CADS的平台能力。增加新描述符与新算法：论文在结尾明确提到，未来DOPtools若加入新的描述符和机器学习算法，这些能力也可以继续整合进CADS。扩展平台的高级建模能力：随着DOPtools后续演进，CADS有望持续扩展其面向化学信息学工作流与模型构建的功能边界。小编锐评：看来主要还是好在训练过程有界面，没有真去弄性能，那跟我还是有差距。前面处理之类的技术细节还是可以借鉴下人家的，比如：方便地对新分子进行预测、设置交叉验证折数和重复次数等

Machine Learning & AI · 2026-03-21

可审计的自动化药物分子优化多智能体平台

Machine Learning & AI · 2026-03-04

ChemLint对话式分子机器学习平台揭开数据质量危机：63.6%测试集骨架已在训练集中出现

ChemLint对话式分子机器学习平台揭开数据质量危机：63.6%测试集骨架已在训练集中出现本文信息标题： ChemLint: Conversational Cheminformatics with Large Language Models 作者： Derek van Tilborg, Francesca Grisoni 发表时间： 2026年2月24日单位：荷兰埃因霍温理工大学，复杂分子系统研究所、生物医学工程系引用格式： van Tilborg, D., & Grisoni, F. (2026). ChemLint: Conversational Cheminformatics with Large Language Models. ChemRxiv Preprints. https://doi.org/10.26434/chemrxiv.15000386/v1 源代码： https://github.com/derekvantilborg/ChemLint 摘要本研究提出了ChemLint，这是一个开源的Model Context Protocol服务器，它将任何兼容MCP的大语言模型连接到精选的本地化学信息学和机器学习工具套件，通过对话界面实现严格的分子数据处理。分子机器学习研究常常受到不一致数据预处理的破坏，包括无效SMILES、未解决的重复项和训练测试泄漏，然而现有的基于LLM的化学工具并没有解决这些以数据为中心的挑战。ChemLint为数据探索和诊断、分子标准化以及机器学习建模提供了工具。所有操作都由既定的库确定性执行，并记录在项目清单中，追踪每个操作，支持可复现性并使管理选择明确。我们通过几个示例展示了ChemLint如何用于识别常见的数据质量问题、评估分割策略以及执行从原始数据到评估的完整建模流程。核心结论 & 贡献【科学发现】分子机器学习的数据质量危机被系统性揭示本研究首次对MoleculeNet的7个主流数据集进行系统审计，揭示了令人震惊的数据质量缺陷，详见“被忽视的领域危机”部分最致命的发现：随机分割导致训练集和测试集之间的scaffold重叠率高达42.5%至63.6%，这意味着数千篇已发表论文的模型性能可能被严重高估【工具贡献】ChemLint通过MCP协议提供约150个对话式工具，重构分子机器学习工作流 ChemLint是一个开源的Model Context Protocol（MCP）服务器，它将任何兼容MCP的大语言模型（Claude、ChatGPT、Gemini等）连接到精选的本地化学信息学和机器学习工具套件。系统性地提供13类约150个工具，涵盖数据管理、分子清洗、描述符、机器学习（33种算法、6种交叉验证、超参数调优）、统计检验、可视化、质量报告等领域所有操作由既定的库（RDKit、scikit-learn、SciPy）确定性执行，并记录在项目清单中，支持可复现性并使管理选择明确。背景被忽视的领域危机分子机器学习正在显著影响药物发现的范式——从虚拟筛选到性质预测，再到从头分子设计，越来越多的研究依赖于数据驱动的建模方法。然而，在这个蓬勃发展的领域背后，隐藏着一个被长期忽视的危机：主流基准数据集存在严重的数据质量问题，这正在系统性地高估模型性能，并从根本上动摇了人们对已发表研究的信任。 MoleculeNet自2018年发布以来，已被引用数千次，成为分子机器学习领域无可争议的最广泛使用的基准数据集。然而，本研究首次系统性地审计揭示，这些黄金标准数据集存在令人震惊的根本性缺陷： HIV数据集：7.5%的分子包含盐或溶剂片段——这些杂质根本不应该出现在药物分子数据中 HIV数据集：完全未指定立体化学，比例为0%——这意味着所有手性分子的3D结构信息都丢失了所有数据集：普遍存在化学无效SMILES、未指定的立体化学中心、隐藏的结构异构体重复最致命的问题：随机分割导致训练集和测试集之间的scaffold重叠率高达42.5%至63.6% 这意味着什么？基于这些数据集和随机分割发表的数千篇论文——包括高引用研究——其性能评估可能严重高估模型的真实能力。现有工具的局限性虽然分子数据预处理的最佳实践已经存在，但在实践中并不总是得到一致应用。该领域的跨学科性质意味着并非所有研究人员和审稿人都熟悉这些惯例，而常见的工具链是灵活的而非规定性的。现有的基于LLM的化学工具（如ChemCrow、ChatInvent等agent系统）主要关注协调端到端的分子设计和合成工作流，但并未解决这些以数据为中心的挑战。这些工具在数据质量控制、标准化和可复现性方面存在明显的空白。关键科学问题面对这一危机，本研究提出了三个亟待解决的关键科学问题：如何让数据质量控制变得普及化？数据质量问题的检测和修复需要深度的专业知识，但每个研究人员都应该能够轻松地识别和解决这些问题，而不需要成为化学信息学专家。这需要工具的智能化和自动化。如何让数据预处理的选择变得完全透明？不同的标准化和分割策略会导致截然不同的结果，但这些关键选择往往在论文的方法部分被一笔带过，使得读者无法评估其合理性，也无法真正复现研究结果。这需要标准化和可追溯性。如何让工作流变得完全可复现？从原始数据到最终模型，每一个中间步骤、参数选择和数据处理决策都应该被完整记录和精确追踪，但目前缺乏自动化和标准化的解决方案。这需要系统性的框架设计。创新点本研究在方法论和工具设计上提出了四个关键改进：首个专注于数据质量的对话式化学信息学系统：ChemLint不同于现有的agent系统，它不盲目追求端到端的自动化，而是专注于分子数据的质量控制、诊断和可复现评估，通过对话界面让研究人员以自然语言的方式执行严格的数据管理操作。这种设计理念强调严谨性优于便利性的原则。基于Model Context Protocol的开放模块化架构：通过MCP协议，ChemLint可以连接任何兼容的LLM客户端，例如Claude、ChatGPT、Gemini等，同时保持所有计算在本地执行，使用既定的化学信息学库（RDKit、scikit-learn、SciPy等），确保结果的确定性和可审计性。这种架构设计既保证了科学严谨性，又提供了前所未有的灵活性。项目清单系统实现完全可追溯性：ChemLint引入了项目清单的概念，每次数据变异操作都会创建新的资源版本，并自动记录操作类型、时间戳、输入参数和用户提供的解释，形成完整的审计轨迹，使得从原始数据到最终模型的每一个步骤都可追溯和复现。这一设计借鉴了实验室笔记本的理念，但将其自动化和系统化了。系统化的分割质量诊断：ChemLint提供了8项系统检查来检测数据分割的潜在问题，包括精确重复SMILES、基于相似性的泄漏、scaffold重叠、立体异构体/互变异构体变体、物理化学性质分布差异、标签分布差异、官能团组成差异等，并给出明确的警告和建议。这种全面性和系统性的诊断在领域内是前所未有的。研究内容 ChemLint系统架构 ChemLint的核心设计理念是将大语言模型的对话能力与化学信息学的严谨方法相结合，通过Model Context Protocol实现两者的无缝集成。系统架构包含三个核心组件：数据探索和诊断、分子标准化、以及机器学习建模，并通过一个跨层面的可复现性系统，即项目清单系统，支撑所有功能。图1：ChemLint系统架构概览 ChemLint通过MCP协议与LLM客户端通信，将用户的自然语言提示转换为具体的化学信息学操作，并在本地执行计算，返回结果的同时记录操作到项目清单。这种设计确保了所有操作都是确定性的、可追踪的。系统工作流程 graph TB Start([用户输入自然语言提示]) --> Parse{LLM客户端解析提示} Parse -->|数据探索| Diag[数据探索与诊断工具] Parse -->|分子标准化| Std[分子标准化工具] Parse -->|机器学习建模| ML[机器学习建模工具] Diag --> Exec[本地执行 RDKit/pandas/scikit-learn] Std --> Exec ML --> Exec Exec --> Mutate{是否修改数据?} Mutate -->|是| Create[创建新资源版本 生成唯一标识符] Create --> Log[记录操作到项目清单 操作类型+时间戳+参数+解释] Log --> Return[返回结果到LLM客户端] Mutate -->|否| Return Return --> End([显示结果给用户]) 这个工作流程确保了所有数据变异操作都被记录，形成了完整的审计轨迹。每次操作都会创建新的资源版本，而不是就地修改，这样可以回溯到任何历史状态。 ChemLint的核心功能全景 ChemLint向LLM客户端暴露约150个工具，涵盖分子机器学习工作流的各个环节，系统性地分为13个功能类别：数据管理：共15个工具，覆盖数据导入、导出、合并、子集提取、检查、过滤数据集分子清洗：共10个工具，覆盖SMILES标准化、去盐、去重、标签处理分子描述符：共12个工具，覆盖简单性质（分子量、LogP、TPSA）、指纹（ECFP、MACCS、RDKit）、SMILES编码骨架分析：共8个工具，覆盖Bemis-Murcko骨架提取、通用骨架、循环骨架、多样性分析相似性分析：共6个工具，覆盖成对相似度矩阵、k-近邻、训练集相似度评估聚类分析：共5个工具，覆盖DBSCAN、层次聚类、k-means、Butina聚类算法机器学习：共40个工具： 33种算法：分类与回归（随机森林、梯度提升、SVM、线性模型、集成方法） 6种交叉验证策略：k-fold、分层、Monte Carlo、scaffold、cluster、leave-P-out 超参数调优：网格搜索、随机搜索，可自定义参数空间模型评估：20+种评估指标（准确率、ROC-AUC、PR-AUC等）、混淆矩阵、ROC曲线、校准曲线统计检验：共15个工具，覆盖t检验、方差分析（ANOVA）、相关性分析、正态性检验、Mann-Whitney U检验、Kruskal-Wallis检验、卡方检验可视化：共8个工具，覆盖带分子提示的交互式散点图、直方图、密度图、箱线图、热图质量报告：共5个工具：数据质量分析：19个部分的全面报告（PAINS过滤器、Lipinski规则、重复检测、立体化学完整性等）分割质量分析：8项数据泄漏检查（精确重复、高相似度对、scaffold重叠、立体异构体、互变异构体等）骨架报告：多样性度量（Gini系数、Shannon熵）、富集分析、结构离群点检测活性悬崖检测：共4个工具，寻找结构相似但活性差异大的分子对（分类和回归任务）异常值检测：共6个工具，覆盖Z-score、IQR、孤立森林、局部异常因子（LOF）降维可视化：共2个工具，PCA、t-SNE用于化学空间可视化分子标准化：11步严谨流程分子标准化是数据质量控制的核心步骤。ChemLint提供了一个11步的标准化流程，每一步都有明确的化学和统计学依据。整理表：ChemLint分子标准化的11步流程步骤操作化学原理适用场景 1 生成规范SMILES RDKit的canonicalization算法确保唯一表示所有分子 2 移除盐去除抗衡离子，保留母核结构来源自多处的数据集 3 移除溶剂去除结晶溶剂、反应溶剂片段药物筛选数据集 4 去碎片化保留最大片段，去除不相连的离子/分子包多个片段的SMILES 5 官能团规范化标准化常见官能团表示（如硝基、磺酸基）多来源数据集 6 去离子化移除金属离子，保留有机骨架有机金属化合物数据集 7 电荷中性化将可电离基团转为中性形式非pH依赖性研究 8 移除同位素去除同位素标记放射性标记不重要时 9 互变异构规范化统一互变异构体表示需要一致性的数据集 10 立体化学扁平化移除所有立体化学信息立体化学不完全指定时 11 最终验证检查化学有效性，移除无效分子质量控制最后一步这些步骤并非总是全部应用，而是应该根据数据集的具体情况和研究目标进行选择。ChemLint的优势在于它让每一步的决策都变得显式，并在项目清单中记录下来。 Supplementary Figure S1：标准化协议的交互决策界面这张图展示了ChemLint在执行11步标准化协议时与用户的交互界面。当需要用户做出重要的标准化决策时（如是否保留电荷、是否扁平化立体化学等），客户端会向用户询问选择，确保每一步都符合研究需求。标准化流程的Mermaid图 graph TB Input[原始SMILES数据集] --> S1 subgraph S1["阶段1：结构规范化"] direction LR Step1[1.生成规范SMILES RDKit canonicalization] --> Step2[2.移除盐 去除抗衡离子] --> Step3[3.移除溶剂 去除结晶/反应溶剂] --> Step4[4.去碎片化 保留最大片段] --> Step5[5.官能团规范化 统一常见官能团表示] end subgraph S2["阶段2：化学性质调整"] direction LR Step6[6.去离子化 移除金属离子] --> Step7[7.电荷中性化 可电离基团转中性] --> Step8[8.移除同位素 去除同位素标记] end subgraph S3["阶段3：结构简化与验证"] direction LR Step9[9.互变异构规范化 统一互变异构体] --> Step10[10.立体化学扁平化 移除立体化学信息] --> Step11[11.最终验证 检查化学有效性] end S1 --> S2 --> S3 Step11 --> Output[标准化后数据集] Step11 -->|发现无效分子| Reject[移除无效分子] Reject --> Step11 style Input fill:#e1f5ff style Output fill:#c8e6c9 style Step11 fill:#fff9c4 数据探索与诊断在开始任何建模工作之前，了解数据集的质量和特性是至关重要的。ChemLint提供了两个主要的诊断报告。数据质量报告数据质量报告执行广泛的数据检查，涵盖基础数据集统计、分子有效性、物理化学性质、统计分布和结构特征等多个方面：结构有效性检查：识别化学无效的SMILES字符串，违反价态规则的原子，无法解析的分子结构杂质检测：检测并计数盐抗衡离子、溶剂片段、无机离子立体化学完整性：统计手性中心（四面体立体中心）的指定情况，立体双键的E/Z指定情况电荷状态分析：统计携带形式电荷的分子比例，分析电荷分布模式 scaffold多样性：计算Bemis-Murcko scaffold的数量和分布，评估骨架多样性官能团分布：识别和统计常见官能团的出现频率，检查不同数据集间官能团组成的差异标签分布分析：对于分类任务，检查类别平衡；对于回归任务，检查数值分布和异常值结构活性相关性：计算分子描述符与活性标签的相关性，识别潜在的结构活性关系药物相似性过滤：Lipinski Rule of Five、Veber规则、QED阈值违规检测异常值检测：使用IQR方法进行异常值检测这些检查最终会生成一份优先级排序的清理建议列表，每个问题都被分配严重程度级别（“OK”、“low”、“medium”、“high”、“critical”），帮助研究人员系统性地解决数据质量问题。分割质量报告分割质量报告专门针对数据集的分割策略进行诊断，执行以下8项检查：精确重复泄漏：训练集和测试集中是否存在完全相同的SMILES（分子编码）高相似度泄漏：检测训练集和测试集中是否存在高度相似的分子对（相似度>90%，就像“同卵双胞胎”一样） scaffold重叠：训练集和测试集之间共享Bemis-Murcko scaffold（分子骨架）的比例立体异构体泄漏：在扁平化立体化学后，检查结构异构体是否跨越分割互变异构体泄漏：在规范化互变异构体后，检查结构异构体是否跨越分割分布差异：比较训练集和测试集的分子性质分布（分子量、logP、极性表面积等）类别分布：对于分类任务，检查类别的平衡性聚类分析：通过聚类方法识别潜在的聚集结构标签质量处理实验生物活性数据不可避免地包含测量误差、缺失值、带有异常值的技术重复，以及对相同分子的矛盾测量结果。然而，许多已发表的研究临时性地处理这些问题或完全忽略它们。 ChemLint提供了系统性的工具来识别和解决标签质量问题：缺失值处理：自动识别并移除缺失的活性值异常值检测：支持多种统计方法（Z-score、修正Z-score、IQR、Grubbs检验、广义ESD），并可配置阈值重复分子处理：对于具有矛盾标签的重复分子（例如，在分子标准化后聚合的立体异构体），ChemLint可以通过统计检验确定这些冲突代表真实的测量变异性还是系统性分歧合并策略：提供多种重复合并策略（多数投票、均值、中位数）或完全丢弃有冲突的条目数据集分割策略数据分割是将分子数据集分成训练集（用于学习，相当于“练习题”）和测试集（用于评估，相当于“考试”）。分割策略的选择会严重影响模型性能评估的可靠性。整理表：ChemLint支持的4种数据集分割策略分割策略原理适用场景局限性随机分割完全随机分配分子到训练/测试集先导化合物优化（内插性能）严重高估外推性能分层分割保持标签分布一致类别不平衡的数据集仍然存在结构泄漏 scaffold-based 相同scaffold的分子分配到同一集合评估新颖scaffold的泛化能力互变异构可能改变scaffold导致泄漏 cluster-based 基于分子相似性聚类，整个聚类分配到同一集合评估分子簇的泛化能力聚类算法和参数选择影响结果对于cluster-based分割，ChemLint支持5种聚类算法（DBSCAN、层次聚类、谱聚类、k-means、Butina），可以使用所有可用的分子表示方法。在经验上，更严格的分割策略（scaffold-based和cluster-based）往往比随机分割的准确率低10%至30%，但这揭示了在结构新颖分子上更现实的预测性能估计。机器学习建模 ChemLint提供了33种经典机器学习算法，涵盖分类和回归任务。这些算法包括：集成方法：随机森林、AdaBoost、梯度提升线性模型：岭回归、Lasso、Elastic Net 支持向量机：支持分类和回归最近邻：k-近邻算法决策树：单棵可解释树朴素贝叶斯：高斯朴素贝叶斯、多项式朴素贝叶斯判别分析：线性判别分析、二次判别分析为确保稳健的性能估计，ChemLint支持多种交叉验证策略（交叉验证就像多次“小考”取平均，避免一次考试的偶然性）： k-fold交叉验证（将数据分成k份，轮流用每一份做测试）分层交叉验证（保证每个分割中类别比例一致） scaffold-based交叉验证（确保相同骨架的分子在同一分割） cluster-based交叉验证（将相似分子聚簇后分配到同一分割） Monte Carlo交叉验证（随机重复多次分割） leave-p-out交叉验证（每次留出p个样本做测试）对于不确定性量化，部分算法支持贝叶斯集成变体，通过计算预测标准差或集成熵来量化预测不确定性。超参数调优与模型评估 ChemLint不仅提供模型训练，还支持完整的模型优化和评估流程：超参数调优：支持网格搜索和随机搜索，研究者可以自定义参数空间，自动寻找最优模型配置模型评估指标：提供20+种评估指标，包括准确率、精确率、召回率、F1分数、ROC-AUC、PR-AUC等，以及混淆矩阵、ROC曲线、校准曲线等可视化交互式可视化：生成带分子提示的散点图（鼠标悬停可查看分子结构）、热图、密度图、箱线图等，帮助直观理解数据分布和模型行为统计检验：支持15+种统计检验方法（t检验、方差分析、Mann-Whitney U检验、Kruskal-Wallis检验、卡方检验、正态性检验等），用于验证结果的统计显著性异常值检测：提供4种异常值检测方法（Z-score、IQR、孤立森林、局部异常因子），识别数据中的离群点应用示例1：主流基准数据集的质量审计作为首次演示，研究团队使用ChemLint评估了MoleculeNet的7个流行单任务基准数据集的质量，仅用一个对话提示：“Check the data quality of dataset.csv”。 Supplementary Figure S2：数据质量报告实际输出示例这张图展示了ChemLint生成的数据质量报告的实际界面，包括结构有效性检查、杂质检测、立体化学完整性分析等多维度诊断结果。可以看到对每个数据集的详细统计信息和改进建议。表1：MoleculeNet数据集的质量问题统计数据集样本量无效分子带电荷分子含盐/溶剂片段手性中心指定率 E/Z指定率结构异构体组数 BACE 1,513 0 55.92% 0.00% 3,150 (25.5%) 97 (29.9%) 45 BBBP 2,050 11 5.74% 5.12% 4,425 (66.0%) 726 (21.5%) 92 ClinTox 1,484 4 60.20% 0.94% 3,731 (82.1%) 537 (37.2%) 80 Delaney 1,128 0 5.23% 0.00% 701 (0.0%) 154 (3.9%) 13 FreeSolv 642 0 5.92% 0.00% 87 (98.9%) 36 (27.8%) 3 HIV 41,127 7 12.78% 7.51% 49,613 (0.0%) 13,481 (0.0%) 181 Lipophilicity 4,200 0 2.36% 0.02% 2,530 (72.9%) 192 (39.1%) 82 结果揭示了几个令人担忧的问题：化学无效SMILES普遍存在：BBBP数据集包含11个无效SMILES，HIV有7个，ClinTox有4个盐和溶剂片段污染：许多条目包含盐抗衡离子或溶剂片段，HIV数据集高达7.5% 电荷状态不一致：超过55%的BACE分子和60%的ClinTox分子携带形式电荷立体化学不完全指定：HIV数据集完全未指定立体化学（0%），其他数据集的指定率也普遍较低隐藏的结构异构体重复：在扁平化立体化学和规范化互变异构体后，发现了大量隐藏的冗余然后，研究团队要求ChemLint清理每个数据集：“Clean this dataset so it’s ready for machine learning (don’t split the data yet). After cleaning, run another data quality analysis.” Supplementary Figure S3：数据集清洗对话界面示例这张图展示了LLM客户端通过对话界面调用ChemLint工具执行数据集清洗的实际过程。展示了从标准化SMILES、移除盐和溶剂、去碎片化、电荷中性化到立体化学扁平化的完整清洗流程，以及ChemLint自动记录的每一步操作和参数。由于除了HIV之外的所有数据集都是从多个原始来源编译的，团队让客户端对所有数据集进行电荷中性化、移除片段和扁平化立体化学，因为这些分子细节不太可能反映跨原始来源的一致实验条件。标准化效果是显著的： BACE数据集：带电荷分子从约56%降至约2%，丢弃了66个分子（主要包含无效结构或冲突的重复标签） ClinTox数据集：带电荷分子从约60%降至约8%，丢弃了144个分子 HIV数据集：带电荷分子从约3%增至约13%（因为去除了溶剂和盐片段，暴露了更多带电分子），丢弃了238个分子所有7个数据集：在标准化后，都免于无效分子、盐和片段，残留电荷主要反映永久离子物种表2：标准化后的数据集质量数据集样本量（丢弃数）无效分子带电荷分子含盐/溶剂片段 BACE 1,447 (66) 0 1.9% 0.00% BBBP 1,922 (128) 0 3.2% 0.00% ClinTox 1,340 (144) 0 8.1% 0.00% Delaney 1,114 (14) 0 5.6% 0.00% FreeSolv 639 (3) 0 5.9% 0.00% HIV 40,889 (238) 0 13.1% 0.00% Lipophilicity 4,092 (108) 0 2.4% 0.00% 应用示例2：数据分割质量危机的揭示这是本研究最震撼的发现。作为第二个演示，研究团队使用ChemLint系统性地分析了MoleculeNet提供的预定义数据分割的质量，结果揭示了一个被整个领域忽视的严重问题。对于每个数据集，ChemLint生成了一个详细的分割质量报告，解释每种分割方法的优缺点，并给出明确的警告。例如，对于Lipophilicity数据集，ChemLint得出结论： scaffold-based分割方法提供了最可靠的评估框架，具有完全的结构分离和良好匹配的分布。Fingerprint-based分割提供了关于模型外推的有趣见解，但受到显著的域偏移影响。由于严重的结构泄漏，应该避免随机分割用于模型评估。在所有情况下，ChemLint都建议不要使用随机分割。例如，对于ClinTox，它警告说由于严重的结构泄漏，随机分割会“给出误导性的乐观结果”。表3：不同分割方法的泄漏指标对比分割方法数据集训练集（测试集） Scaffold重叠立体异构体重叠互变异构体重叠高相似度分子 ROC-AUC RMSE 随机 BACE 1,210（152） 47.1% 1 0 13 0.88 ± 0.01 - 随机 BBBP 1,631（204） 42.5% 13 11 16 0.91 ± 0.02 - 随机 ClinTox 1,184（148） 46.5% 14 10 16 0.66 ± 0.03 - 随机 Delaney 902（113） 58.1% 2 1 10 - 0.64 ± 0.00 随机 FreeSolv 513（65） 63.6% 1 0 6 - 0.46 ± 0.02 随机 HIV 32,896（4,112） 48.0% 0 4 173 0.77 ± 0.01 - 随机 Lipophilicity 3,360（420） 46.5% 18 3 31 - 0.70 ± 0.01 Scaffold BACE 1,210（152） 0.0% 0 0 2 0.73 ± 0.01 - Scaffold BBBP 1,631（204） 0.0% 0 1 0 0.67 ± 0.01 - Scaffold ClinTox 1,184（148） 0.0% 0 0 0 0.66 ± 0.08 - Scaffold Delaney 902（113） 0.0% 0 0 2 - 0.82 ± 0.01 Scaffold FreeSolv 513（65） 0.0% 0 0 1 - 0.86 ± 0.01 Scaffold HIV 32,896（4,112） 0.0% 0 8 29 0.77 ± 0.01 - Scaffold Lipophilicity 3,360（420） 0.0% 0 0 21 - 0.77 ± 0.01 Fingerprint BACE 1,210（152） 3.2% 0 0 1 0.73 ± 0.06 - Fingerprint BBBP 1,631（205） 4.6% 0 0 0 0.37 ± 0.06 - Fingerprint ClinTox 1,184（148） 5.8% 0 0 0 0.56 ± 0.10 - Fingerprint Delaney 902（114） 28.1% 0 0 0 - 1.23 ± 0.04 Fingerprint FreeSolv 513（65） 100.0% 0 0 0 - 1.36 ± 0.02 Fingerprint HIV 32,896（4,112） 10.9% 0 0 0 0.56 ± 0.03 - Fingerprint Lipophilicity 3,360（420） 4.4% 0 0 0 - 0.84 ± 0.01 对于随机分割，ChemLint识别出训练集和测试集之间的scaffold重叠范围从42.5%到63.6%，以及几个数据集中的立体异构体、互变异构体和近重复泄漏。对于scaffold-based分割，ChemLint确认大多数泄漏已解决，但指出高度相似的分子仍然可能最终出现在两个分割中，而且互变异构化偶尔会改变Bemis-Murcko scaffold，允许互变异构体对跨越集合泄漏。为什么scaffold重叠是致命的数据泄漏？ Scaffold（骨架）是药物化学中的核心概念，指分子的核心结构框架（通过移除侧链原子得到）。Bemis-Murcko scaffold是药物设计中广泛使用的分子骨架表示方法，是药物化学家的共同语言。当训练集和测试集存在scaffold重叠时，这意味着：模型学到的是记骨架而非真正的预测能力：测试集中的分子骨架在训练集中已经见过，模型只需要记住“scaffold X倾向于有高活性”，而不需要真正学习分子结构-活性关系的复杂规律。这类似于学生通过记忆题目模板而非理解原理来考试。这相当于考试前看到了部分试题：如果考试题目和练习题有相同的解题模式，考出的高分不代表学生的真实能力。在药物发现中，真正的挑战是预测全新scaffold的活性——这是最有价值的预测目标——而随机分割根本无法评估这种能力。导致虚假的最优模型选择：研究者可能选择了在随机分割上表现最好的模型，但这种模型在面对全新骨架时可能完全失效，导致资源浪费和错误的项目决策。这正是为什么scaffold重叠42.5%至63.6%是一个领域级的严重问题：它表明基于MoleculeNet随机分割发表的数千篇论文，其性能评估可能严重高估了模型的实际预测能力。在药物发现这种成本高昂的领域，这种高估可能导致数百万美元的研发投入被错误地引导。应用示例3：从原始数据到可复现的完整工作流作为第三个演示，研究团队使用ChemLint执行了从原始数据到评估报告的完整建模流程。使用Claude Desktop和Claude Sonnet 4.6作为客户端，提供了以下提示： For a drug discovery project, I want to know if the molecules I’m working with can pass the blood brain barrier. Train a robust predictive model based on this raw data set ‘/moleculenet_data/bbbp.csv’ and evaluate it critically. LLM客户端自动使用ChemLint的工具执行了以下步骤：数据质量分析：生成了全面的数据质量报告，识别了无效SMILES、盐片段、电荷状态等问题分子标准化：应用了11步标准化流程，包括规范SMILES生成、移除盐和溶剂、去碎片化、电荷中性化、立体化学扁平化等重复移除：基于规范SMILES识别重复结构，对于精确标签重复折叠为单个条目，对于无法通过二项检验解决的冲突完全移除基于scaffold的分割：将分子按80/20比例分割为训练集和测试集，确保没有scaffold重叠随机森林训练：使用ECFP4指纹（一种将分子转换为数字特征的方法）进行分子特征化，训练随机森林分类器，使用5-fold交叉验证模型评估：在保持的测试集上达到ROC-AUC为0.93±0.01（ROC-AUC是分类模型性能指标，1.0为完美，0.5为随机猜测，0.93意味着模型有很强的预测能力）为了测试清单系统的可复现性，团队创建了一个新的客户端实例，并要求它在没有访问原始提示的情况下重现实验： Check this old manifest ‘../manifest.json’ and re-do all the experimental steps exactly. You should make a new project and manifest to track everything. 客户端以相同的顺序执行了所有步骤，使用相同的参数，并达到了相同的测试集性能。这证明了项目清单系统的有效性：即使没有原始提示，仅凭清单中的操作记录，新的LLM客户端也能够完全复现整个实验。 LLM生成的Materials and Methods节选研究团队还要求客户端生成适合在科学期刊发表的材料和方法部分： Write a Materials and Methods section suitable for publishing in a scientific journal. I am tight on words so it should be to the point. 客户端自动使用ChemLint查阅项目清单，然后生成了以下文本（经人工验证每个记录的步骤确认准确）：数据集和数据管理。 BBBP数据集（2050个化合物，二元BBB渗透性标签）从MoleculeNet获得。 SMILES使用ChemLint实现的11步流程进行标准化：规范SMILES生成、盐和溶剂移除、去碎片化（保留最大片段）、官能团规范化、去离子化、电荷中性化、同位素移除、互变异构规范化、立体化学扁平化。未能通过最终验证的结构被丢弃（保留2039个；99.5%）。基于规范SMILES识别重复结构；精确标签重复折叠为单个条目，无法通过二项检验解决的冲突被完全移除，最终得到1922个化合物的管理集。数据集分割。化合物使用Bemis-Murcko scaffold-based分割分为训练集（80%，n = 1557）和测试集（20%，n = 365），集合间无scaffold重叠。无环化合物（n = 96）分配到训练集。建模。分子被特征化为ECFP4指纹（半径 = 2，2048位），使用scikit-learn的随机森林分类器（默认超参数）通过ChemLint进行5-fold scaffold交叉验证训练。所有实验使用固定随机种子（42）。这个例子表明，即使LLM客户端在不同提示下可能行为不同，通过清单系统建立清晰的审计轨迹使得即使在对话设置中也能实现可复现性。实现细节 ChemLint向MCP兼容的LLM客户端暴露约150个工具，使用mcp-cli包。每个工具对应单个、范围明确的分子数据操作。计算工作委托给既定的库，主要是： RDKit：用于分子处理和化学信息学计算 pandas：用于数据集处理 scikit-learn：用于建模和统计程序 SciPy：用于统计检验 ChemLint的功能围绕三个典型的分子机器学习工作流层次组织：（1）数据探索和诊断，（2）分子标准化，以及（3）机器学习建模。一个跨层面的可复现性系统支撑着这三个层次。资源管理资源管理通过为每个文件分配唯一标识符来处理，该标识符附加到客户端提供的文件名上（例如，cleaned_data_A3F2B1D4.csv）。这些存储为数据集列，使得失败是透明的，包括哪些分子在哪个步骤被拒绝以及原因。这是故意冗长的，因为诊断拒绝原因往往比获得单个最终的“清理的”数据集更重要。项目清单系统项目清单是ChemLint可复现性的核心。对于每个创建的工件，清单记录：资源类型：数据集、模型、报告等时间戳：创建时间创建工具：哪个工具创建它输入参数：使用的所有参数客户端提供的解释：为什么执行这个操作这个清单存储在项目目录的manifest.json文件中，可以被客户端和用户访问，使得每个中间资源都可以被回溯。当前范围与局限当前的范围专注于2D分子表示和定量构效关系（Quantitative Structure-Activity Relationship，QSAR，即通过分子结构预测其生物活性的方法）建模工作流典型的功能。3D构象体生成、量子化学和深度学习模型训练等功能在当前版本中故意排除在外，以保持ChemLint专注于数据质量、诊断和可复现评估，而不是充当通用建模环境。 Q&A Q1：ChemLint与现有的化学agent系统（如ChemCrow、ChatInvent）有何区别？ A1：ChemLint专注于数据质量控制、诊断和可复现评估，而ChemCrow和ChatInvent等agent系统专注于协调端到端的分子设计和合成工作流。主要区别包括：定位不同：ChemLint不试图取代传统的建模环境，也不消除对专家判断的需求，而是通过降低领域准入门槛和提供结构化框架来减少数据处理决策的歧义开放性：ChemLint基于Model Context Protocol，这是一个开放标准，使得它可以与任何MCP兼容的LLM客户端（Claude、ChatGPT、Gemini等）集成，而agent系统通常绑定到特定的模型或平台 Q2：为什么scaffold-based分割会降低模型性能，这难道不是说明模型变差了吗？ A2：这是一个常见的误解。scaffold-based分割降低的准确率实际上揭示了模型在结构新颖分子上的真实泛化能力，而随机分割的高准确率往往是虚假的，因为训练集和测试集之间存在结构泄漏。考试比喻：如果你在考试前看到了大部分试题的答案，你的考试成绩会很高，但这并不代表你真正掌握了知识机器学习对应：随机分割让模型在考试前“看到”了类似的结构，而scaffold-based分割确保模型在面对全新scaffold时进行真正的“开卷考试” 实证数据：研究表明，更严格的分割策略往往比随机分割的准确率低10%至30%，但这更接近模型在实际应用中的表现 Q3：ChemLint的项目清单系统如何确保可复现性，它是否记录了足够的信息？ A3：项目清单系统记录了每个操作的完整上下文：资源类型、时间戳、创建工具、输入参数和用户提供的解释。全面性：这比传统的实验室笔记本更全面，因为它不仅记录了“做了什么”，还记录了“怎么做的”和“为什么做” 可复现性验证：在示例3中，一个新的LLM客户端实例仅通过读取manifest.json文件，就能够完全复现整个实验，达到相同的测试集性能。这种级别的可复现性在分子机器学习领域是前所未有的局限性：清单系统并不完美，它依赖于LLM客户端正确解释和执行清单中的指令，而且它不能记录环境差异（如RDKit版本、Python版本等），这些可能仍需要通过容器化（如Docker）来解决关键结论与批判性总结潜在影响 ChemLint通过将大语言模型的对话能力与化学信息学的严谨方法相结合，显著降低了分子数据管理的准入门槛，使得非专家研究人员也能执行严格的数据质量控制。这一贡献的意义在于：它将需要深厚专业知识的复杂操作，转化为通过自然语言即可完成的日常任务。更重要的是，通过项目清单系统，ChemLint让数据预处理的选择变得前所未有的透明，使得每个决策都被记录和追踪。这有助于从根本上提高分子机器学习研究的可复现性和可信度。然而，ChemLint的最重要的贡献在于它系统性揭示的数据质量危机。主流基准数据集的严重质量问题（无效SMILES、盐/溶剂片段、立体化学不完全指定、隐藏重复）以及数据分割的普遍泄漏问题（scaffold重叠高达63.6%），表明我们需要重新审视许多已发表研究的结论，并在未来的研究中采用更严格的数据管理和评估标准。这一发现的意义远超工具本身：它挑战了整个领域的基础假设，并可能推动分子机器学习研究范式的再校准。局限性 2D表示的限制：ChemLint当前专注于2D分子表示和QSAR（定量构效关系，即通过分子结构预测生物活性）建模工作流，不支持3D构象体生成、量子化学计算和基于结构的建模方法，这些对于某些药物发现任务（如分子对接、结合自由能计算）是必不可少的深度学习支持缺失：ChemLint目前仅提供经典机器学习算法（33种），不支持深度学习模型（如图神经网络、 Transformer模型），而这些模型在分子性质预测和分子生成任务中越来越流行环境依赖未隔离：虽然清单系统记录了所有操作和参数，但它不隔离计算环境（RDKit版本、Python版本、依赖库版本等），这些环境差异可能在不同机器或时间点导致结果不一致未来发展方向 ChemLint的设计理念是通过将对话界面与基于约束的API配对，支持数据集探索、系统性诊断常见数据质量问题，以及应用最佳实践策略，而无需依赖临时脚本或未记录的手动步骤。正如原文Conclusion部分所指出的，ChemLint虽然不取代传统的建模环境，也不消除对专家判断的需求，但它降低了领域准入门槛，提供了结构化框架来减少数据处理决策中的歧义，最终提高分子机器学习工作流的透明度和可复现性。批判性思考 ChemLint暴露了问题还是真正解决了问题？ ChemLint的价值首先在于系统性揭示了数据质量危机，这是其最重要的贡献。它提供了诊断工具和manifest系统，但这些工具的实际影响将取决于其采用率如果大多数研究者继续使用随机分割而不检查数据质量，问题依然存在。更重要的是，ChemLint无法从根本上解决问题：我们需要从头构建高质量、无泄漏的基准数据集，而不仅仅是诊断现有数据集的问题。这一挑战需要整个社区的共同努力降低门槛是否总是好事？对话式界面确实让非专家更容易使用化学信息学工具，但这可能是一把双刃剑如果使用者不理解数据质量的重要性，更容易的工具可能产生更多低质量研究——这是对领域的双重打击：既有问题被更广泛地传播，同时因为“专业性门槛降低”而更难被发现作者也明确指出ChemLint“不消除对专家判断的需求”，这提示我们需要在“易用性”和“必需的领域知识”之间找到微妙但关键的平衡问题为何持续了7年？ MoleculeNet于2018年发布，这些质量问题一直存在，但为什么直到现在才被系统性地审计？这反映了领域的几个深层次问题：审稿人和编辑可能没有要求数据质量报告，导致缺乏制度性压力研究者可能倾向于选择“更容易达到高性能”的方法（随机分割），导致存在结构性激励偏差领域缺乏标准化的数据质量评估流程和共同的最佳实践 ChemLint的出现是一个重要的开始，但真正解决问题需要整个领域的文化和标准改变。这可能需要：期刊要求提供数据质量报告、审稿人更加关注数据分割策略、以及社区共同努力构建新的高质量基准数据集。

Machine Learning & AI · 2026-02-27

“MolAgent：智能体时代下的自动化分子性质预测系统”

MolAgent：智能体时代下的自动化分子性质预测系统本文信息标题: MolAgent：Biomolecular Property Estimation in the Agentic Era 作者: Jose Carlos Gómez-Tamayo, Joris Tavernier, Roy Aerts, Natalia Dyubankova, Dries Van Rompaey, 等发表时间: 2025年10月16日单位: Johnson & Johnson（比利时、新泽西州）、Open Analytics、比利时安特卫普大学、美国引用格式: Gómez-Tamayo, J. C., Tavernier, J., Aerts, R., Dyubankova, N., Van Rompaey, D., Menon, S., Steijaert, M., Wegner, J. K., Ceulemans, H., Tresadern, G., De Winter, H., & Ahmad, M. (2025). MolAgent: Biomolecular property estimation in the agentic era. Journal of Chemical Information and Modeling, 65(10), 10808–10818. https://doi.org/10.1021/acs.jcim.5c01938 参考资源： GitHub仓库：https://github.com/openanalytics/MolAgent Therapeutics Data Commons：https://tdcommons.ai/ Model Context Protocol文档：https://docs.anthropic.com/en/docs/agents-and-tools/mcp FLAME框架（对比参考）：https://github.com/Open-Source-Systems-Lab/flame_public 摘要 Agentic AI系统的出现正在推动科学与技术领域的深刻变革。大语言模型（LLM）、推理能力与外部工具集成的进步，催生了一个全新时代——AI智能体能够自主执行传统上由人类完成的计算任务。计算机辅助药物设计（CADD）作为一个包含复杂、相互依赖任务的多面过程，从这些进步中获益最大。然而，关键挑战在于构建与人类专家开发的模型相当的分子性质估计模型。MolAgent正是为了解决这一瓶颈而设计的——一个系统无关的agentic AI框架，专注于端到端自动化分子性质建模，支持2D/3D结构、传统描述符与深度学习特征的融合，并完全遵循Model Context Protocol（MCP）以实现与多样化agentic基础设施的无缝互操作。核心结论 Agentic AI转变：从被动的单步完成模型演进到具备自主多步规划、环境适应性与多工具协调能力的智能体架构 MCP标准化集成：MolAgent完全遵循Anthropic的Model Context Protocol，使其能够灵活接入各类agentic AI框架，包括Smolagents和其他LLM系统自动化模型构建能力：框架实现完全自动化的特征工程、模型选择、超参数优化与验证，无需人工专家干预多模态特征融合：整合RDKit描述符、Morgan指纹、深度学习嵌入（BottleneckTransformer）与基于3D结构的特征（AffinityGraph、ProLIF），在ADMET基准上达到与人类微调模型相当的性能实证验证：在TDC基准的23项ADMET任务上，MolAgent在“廉价”计算预算下展现出竞争力表现；在脂溶性（logP）预测中R²达0.89，在binding affinity建模中R²达0.72 背景大背景：Agentic AI的蓬勃发展 2024-2025年标志着人工智能的范式转变。LLM不再是被动的查询-响应工具，而是演变为具备动态推理、持久内存与函数调用能力的智能体。Gartner报告预测，到本十年末，数字智能体将独立管理高达80%的常规服务任务。这一转变对科学计算意义重大。最近的工作（van Weesep等，2025）展示了模块化LLM智能体系统如何协调化学信息学工具、进行文献驱动推理，并动态选择分子模拟、性质预测与假设生成模块——所有这些无需人工微观管理。药物发现中的关键瓶颈早期药物研发面临复杂、资源密集的挑战：多学科整合困难：传统管道依赖分区化专业知识（结构化学、药物化学、ADMET预测）数据碎片化：实验数据、文献、公开数据库之间缺乏无缝协调人工主导的高成本：模型开发、特征工程、超参数优化严重依赖专家人工操作，周期长、成本高可复现性困难：QSAR模型性能波动大，往往因特征选择、模型架构选择的武断性而难以再现当前的技术瓶颈尽管LLM在化学领域展现出潜力（ChemLLM在分子命名、分子生成等任务上超越GPT-3.5/GPT-4），agentic系统在分子性质建模中仍缺乏高保真工具：现有QSAR框架（FLAME、AutoML解决方案）往往面向通用ML应用，不能充分利用分子数据的特殊结构模型质量与自动化程度的权衡：自动化程度越高，通常意味着性能下降 MCP标准缺失：现有工具与agentic基础设施的互操作性不足，难以在复杂multi-agent工作流中无缝使用 MolAgent正是为了弥合这一鸿沟而设计的。关键科学问题 1. 能否实现“专家级”的自动化QSAR建模？问题核心：自动化系统是否能在无人工干预的前提下，构建与人类专家微调模型相当或更优的性质预测模型？这不仅涉及算法的先进性，更涉及对分子数据特殊性的深入理解——例如，化学系列内的相似性、活性悬崖等。 2. 如何在多种特征表示间实现高效的融合与选择？传统QSAR依赖手工选择的描述符集；深度学习方法提供自动学习但缺乏解释性。如何统一这两类信息？ 3. 3D结构信息能否显著提升binding affinity预测？ Structure-based descriptors（如蛋白质-配体相互作用）在虚拟筛选中被广泛使用，但如何系统地整合到端到端自动模型中？ 4. Agentic系统中的模型自主选择机制如何工作？ LLM何时、如何决定采用“廉价”vs “昂贵”的计算配置？自主决策的质量如何保证？创新点系统级创新：首个完全MCP-ready的分子性质建模框架，设计为agentic AI系统的一流公民特征工程自动化：集成五类特征生成器（RDKit、Morgan指纹、BottleneckTransformer、AffinityGraph、ProLIF），并实现自适应特征选择，无需专家指导嵌套交叉验证框架：采用leave-group-out策略，确保模型验证反映真实的新化学序列泛化能力，而非仅在相似化合物上的性能 3D感知的binding affinity建模：利用图神经网络（GRAPHGPS架构）整合原子与残基级别编码、蛋白质-配体相互作用指纹，在ABL1激酶案例中展示显著改进（R²从0.60提升至0.72）研究内容核心架构：端到端的agentic工作流 graph TB User["用户询问 （自然语言）"] --> Manager["经理智能体 （任务分解与协调）"] Manager --> DataAgent["数据检索智能体 （TDC/CSV/SDF处理）"] Manager --> ModelAgent["模型训练智能体 （MolAgent核心）"] DataAgent --> DataPrep["数据预处理 （SMILES验证、聚类）"] ModelAgent --> FeatureGen["特征生成 （多模态融合）"] FeatureGen --> Clustering["分子聚类 （Murcko/Butina）"] Clustering --> DataSplit["数据分割 （leave-group-out）"] DataSplit --> ModelSearch["模型搜索 （嵌套交叉验证）"] ModelSearch --> Ensemble["集成与堆叠 （多策略组合）"] Ensemble --> Validation["综合验证 （混合策略）"] Validation --> Output["结果输出 （指标、可视化、JSON）"] Output --> User MolAgent核心组件 1. MCP层（Model Context Protocol集成） MCP是Anthropic定义的标准化智能体-工具通信协议。MolAgent实现Python包装器，使得LLM能够通过简单的JSON RPC调用触发模型训练： LLM → automol_classification_model(data, target, features=“bottleneck", budget=“cheap") 这一设计确保了框架与任意MCP兼容的agentic基础设施的互操作性——无论是Claude API、Anthropic的agents还是第三方系统（如Hugging Face的Smolagents）。 2. 特征生成（Feature Generation） MolAgent支持五大类特征，形成一个渐进式丰富的特征生成管道：第一层：传统描述符（RDKITGenerator）物化学性质：分子量、logP、TPSA、HBA/HBD 拓扑描述符：连接性指数（Chi0-Chi4v/n）、Kier形状指数电子性质：部分电荷、Electrotopological State指数官能团计数（75+个）：醛基频率、酯基频率等第二层：指纹（ECFPGenerator） Morgan/ECFP指纹（可调半径与位长） MACCS keys（166维） Topological torsion指纹 Atom pair指纹优势：快速、可解释、基于化学结构的物理意义第三层：深度学习嵌入（BottleneckTransformer）加载在ChEMBL上预训练的transformer模型，通过自注意机制学习原子间的上下文关系，从“瓶颈层”提取512维的密集嵌入。我没查到这个东西？优势：无需再训练，捕捉全局分子特征，通常性能优于传统描述符第四、五层：3D结构特征 AffinityGraph：基于GRAPHGPS架构，采用消息传递神经网络与全局自注意，处理：原子级编码：配体原子特征的图表示残基级编码：蛋白质残基信息的聚合相互作用编码：配体原子与蛋白质残基间的Prolif相互作用（氢键、π-stacking、疏水作用等）位置编码：基于随机游走与指数衰减注意（GradFormer思想）在PDBbind与BindingNet上预训练，自动捕捉3D识别关键。 ProLIF交互指纹：氢键（供体/受体）、π-stacking、π-cation、离子相互作用、van der Waals接触提供药效团层面的解释性，有助于虚拟筛选 3. 数据聚类与分割（Clustering & Data Splitting）关键洞察：分子数据中的相似性偏差会导致过度乐观的验证结果。MolAgent实现三种聚类策略：策略原理使用场景 Murcko Scaffold 按Bemis-Murcko支架分组药物化学项目，注重支架多样性 Butina 基于指纹的层次聚类通用分子池，保留拓扑相似性 K-Means++ 在嵌入空间中聚类深度学习特征，自适应聚类数 leave-group-out验证：整个聚类作为一个单元从训练集中移除，评估模型对新化学序列的真实泛化能力。 4. 嵌套交叉验证（Nested Cross-Validation）外层循环（k折）：将数据分为k个fold，每个fold依次作为验证集最终性能报告为k个fold的未偏差估计内层循环（k折，在每个外层训练fold内）：进行超参数搜索与模型选择防止选择偏差（避免在验证集上过度优化）三种超参数搜索策略： GridSearch：穷举预定义的参数网格，适合小参数空间 RandomizedSearch：随机采样，计算效率高，100次迭代 HyperoptSearch（Bayesian优化）：使用Tree-structured Parzen Estimator (TPE)，高效定位高维参数空间中的有前景区域 5. 模型集成（Model Stacking & Ensembling） MolAgent实现六层级的集成策略，从简到复： Inner Methods：基础模型输出简单平均（回归）或投票（分类） Inner Stacking：多个stacking模型（每个外fold一个），输出再次聚合 Single Stack：单个meta-model在整个外折优化 Top Method：独立训练基础模型，单个meta-model学习组合权重 Top Stacking：基础模型在内fold训练，meta-model使用交叉验证输出 Stacking on Stacking（仅分类）：层级堆叠，形成meta-meta-model 示例：假设基础模型为[SVR, LightGBM, LogisticRegression]，meta-model为LightGBM，则最终预测为： $\hat{y} = \text{LightGBM}([SVR(\mathbf{X}), LightGBM(\mathbf{X}), LogReg(\mathbf{X})])$ 6. 验证程序（Validation Procedures）分层验证：确保训练集与验证集中活性类别的比例一致（对不平衡数据集至关重要）混合验证：同时应用：活性悬崖识别（Activity cliff）基于group的分割分层采样创造多维度的挑战，更接近真实部署情景。计算预算与模型配置 MolAgent通过三个预设计算预算级别来适应不同场景，每个级别对应不同的特征选择、超参优化策略和模型复杂度：回归任务（Regression）配置项 Cheap（快速执行） Moderate（平衡速度与精度） Expensive（最高精度）特征层级 RDKit + Morgan（第1-2层） RDKit + Morgan +BottleneckTransformer（第1-3层）全部五层特征（含AffinityGraph、ProLIF）最终模型单一模型或简单集成单一模型或混合器 Stacking回归器候选/基础模型候选：SVR、Lasso、Kernel Ridge基础：SVR、Lasso、PLS、Kernel Ridge 候选：SVR、Lasso、KernelRidge、LightGBM基础：SVR、Lasso、PLS、KernelRidge、SGD、Decision Trees、LightGBM 基础：SVR、Lasso、PLS、KernelRidge、SGD、Decision Trees、4个LightGBM（不同超参）Meta-learner：SVR、Lasso、KernelRidge或LightGBM 超参优化 GridSearch（穷举） RandomizedSearch（100次迭代） Bayesian优化（HyperOpt，100次）集成策略简单平均 (averaging) 加权集成 (weighted) Stacking-on-stacking 分类任务（Classification）配置项 Cheap（快速执行） Moderate（平衡速度与精度） Expensive（最高精度）特征层级 RDKit + Morgan RDKit + Morgan +BottleneckTransformer 全部五层特征最终模型单一模型或简单集成单一模型或混合器 Stacking分类器候选/基础模型候选：Logistic Regression基础：LogReg、SVM、k-NN 候选：LogReg或LightGBM基础：LogReg、SVM、k-NN、SGD、LightGBM 基础：LogReg、SVM、k-NN、SGD、Decision Trees、4个LightGBMMeta-learner：LogReg、Lasso、KernelRidge或LightGBM 超参优化 GridSearch RandomizedSearch（100次） Bayesian优化（HyperOpt，100次）集成策略投票分类器 (voting) 加权集成 (weighted) Stacking-on-stacking 术语解释：单一模型（Single Model）：从候选模型中选择性能最优的一个模型作为最终预测器简单集成（Simple Blender）：使用基础模型的简单组合策略回归任务：对所有基础模型的预测值进行简单平均（averaging）分类任务：使用投票分类器（voting classifier），按多数投票决定最终类别混合器（Blender）：更复杂的集成策略，对基础模型的输出进行加权组合（weighted ensemble），权重通过交叉验证优化 Stacking：两层集成架构第一层：多个基础模型（base estimators）独立训练并产生预测第二层：元学习器（meta-learner）学习如何最优地组合第一层的预测结果 Stacking-on-stacking：在stacking基础上进一步叠加，形成更深的集成层次关键设计：三个预算级别通过特征深度（从传统描述符到3D结构特征）、超参优化策略（从穷举到贝叶斯）和集成复杂度（从简单平均到stacking-on-stacking）形成递进式的性能-成本权衡。相对与绝对建模（Relative vs Absolute Modeling）对于数据稀缺的情景，MolAgent支持成对delta建模：不直接预测绝对性质，而是学习两个化合物间的相对差异： $\Delta_{\text{delta}} = f(X_i) - f(X_j)$ 优势：有效数据点数量翻倍（N个化合物可产生$N(N-1)/2$个成对比较）尤其适合lead优化场景（往往关注相对改进，而非绝对值）研究结果与验证结果1：ADMET基准性能（Table 1）在Therapeutics Data Commons的23项ADMET任务上，MolAgent采用cheap计算预算（GridSearch超参数优化）评估：任务 MolAgent 最佳已发布排名指标 Caco2_Wang 0.303±0.002 0.276±0.005 6/排行榜 MAE Lipophilicity_astrazeneca 0.309±0.001 0.467±0.006 1/排行榜 MAE Solubility_aqsoldb 0.889±0.001 0.761±0.024 8/排行榜 MAE herg 0.624±0.02 0.880±0.002 17/排行榜 AUROC ames 0.793±0.005 0.871±0.002 13/排行榜 AUROC 关键观察：脂溶性（logP）预测中排名第一，且仅用单次自动运行（无多次参数调整）在18/23任务中进入排行榜前20% 计算成本远低于人类微调（“廉价”预算 vs 多轮手工优化）结果2：脂溶性案例（Use Case II）用户指令：“使用最快的可用模型和bottleneck特征，训练脂溶性回归模型” 系统自主决策（多智能体协调）：数据检索智能体从TDC获取脂溶性数据集（4,200分子）计算分子描述符（LogP、TPSA等）管理员智能体注意到LogP与脂溶性的强正相关（Pearson r ≈ 0.8）自主决策：将RDKit LogP添加为额外特征，尽管用户未明确提及模型训练智能体构建blender模型（bottleneck + LogP）最终性能： R² = 0.8692 Pearson r = 0.9327 MAE = 0.3235 原理：bottleneck特征捕捉全局分子性质，而LogP提供显式的关键驱动因子，两者的组合产生协同效应。 ⚠ 小编锐评：脂溶性本身在化学中常用LogP量化。技术上不算作弊，但确实降低了科学价值：角度评价实用性 ✅ 如果目标是”快速得到好性能”，这完全合理科学性 ⚠️ 缺乏新洞察：我们早就知道LogP算法与实验LogP高度相关模型泛化 ⚠️ 对其他ADMET性质（如溶解度、渗透性），这种”捷径”不存在 Agentic能力展示 ✅ 证明了LLM能发现特征-目标相关性并自主利用图1：多智能体框架在脂溶性任务中的工作流程原文中的Figure 1展示了以下步骤：用户层：提出“使用最快的可用模型和bottleneck特征训练脂溶性回归模型”的自然语言指令数据检索智能体：从Therapeutics Data Commons（TDC）自动定位并获取脂溶性数据集管理员智能体的智能决策：系统被提示使用bottleneck特征进行快速执行，但框架自主发现了关键洞察——RDKit LogP与脂溶性具有显著的正相关性（Pearson相关系数 ≈ 0.8），因此主动决定将RDKit LogP添加为建模管道中的额外特征，尽管用户未明确要求模型训练智能体：基于扩充的特征集（bottleneck + LogP）构建最终的回归模型性能输出：包含预测与真实值的散点图以及模型性能指标这个案例充分体现了agentic系统的自主推理能力——框架不是被动地执行指令，而是能够发现数据中的关键相关性并主动整合到建模流程中。结果3：ABL1激酶Binding Affinity（Use Case III）背景：ABL1（tyrosine-protein kinase ABL1）是关键的药物靶点（例如，伊马替尼靶向ABL1的癌症治疗）。准确的binding affinity预测对lead optimization至关重要。数据： 1,078个化合物的3D结构、SDF与PDB文件目标：pKi（结合亲和力）系统采用的特征： BottleneckTransformer（2D） RDKit描述符 AffinityGraph（3D）：整合原子-配体图、残基-蛋白质图、相互作用编码 fps_1024_2（另一Morgan指纹变体）性能： R² = 0.72 Pearson r = 0.87 MAE = 0.75 kcal/mol RMSE = 0.91 kcal/mol RMSE解读：±0.91 kcal/mol的平均误差在药物设计中可接受（药物discovery通常目标精度为±1 kcal/mol）。关键发现：AffinityGraph的加入相比仅用2D特征，R²提升约0.12，充分展示了3D信息的显著价值。图2：智能体框架在ABL1激酶binding affinity任务中的工作流程原文中的Figure 2概览了框架在binding affinity预测任务中的工作流程：数据获取层：系统根据用户指令获取ABL1激酶复合物的3D结构数据（SDF与PDB文件），这些数据来自之前发表的研究 3D特征感知能力：框架能够整合和处理结构化学信息，充分利用3D结构数据的优势特征生成管道：同时提取多类特征——BottleneckTransformer（2D学习）、RDKit描述符、AffinityGraph（3D图神经网络）与ProLIF相互作用指纹智能体协调：各个智能体协同工作，将3D结构信息无缝集成到建模流程中结果输出：最终的binding affinity预测模型，附带性能指标与可视化案例的科学意义：这个案例演示了3D结构信息对binding affinity预测的关键作用，也展示了agentic框架在处理复杂、多模态数据时的灵活性——即使仅有2D分子结构，系统也能运行（如脂溶性案例）；一旦有3D结构可用，框架又能自动利用这些信息以大幅提升性能。 Q&A Q1：为什么需要三个不同的计算预算级别？ A1：反映现实中的资源约束与精度权衡。在早期筛选中，速度优先（Cheap预算，数秒内得到结果）；在lead优化中，精度优先（Expensive，可接受数分钟计算）。LLM可根据任务的关键性自主选择。 Q2：AffinityGraph为何在binding affinity预测中效果显著？ A2：Binding affinity是3D特异性的强函数。AffinityGraph通过图神经网络捕捉：原子级细节：配体原子的类型、形式电荷蛋白质环境：靶点残基的类型、位置、rotamer状态相互作用指纹：特定的氢键、疏水接触等这些信息无法仅从2D分子结构中获得。 Q3：MCP为什么对agentic系统至关重要？ A3：MCP定义了标准化的JSON-RPC通信协议，使得：任何LLM（Claude、GPT-4、开源模型）都能无缝调用 MolAgent 不同的agentic框架（Smolagents、LangChain、自定义系统）都能互操作避免vendor lock-in，提升系统的可组合性与可维护性 Q4：Leave-group-out验证相比stratified validation的优势是什么？ A4： Stratified validation：确保类别平衡，但可能让化学相似的化合物同时出现在训练与验证集中——导致过度乐观的性能估计（这在药物设计中很常见，称为activity cliff问题） Leave-group-out：整个化学系列（共享支架的化合物组）被保留，强制模型泛化到新颖的化学空间——更接近实际应用 Q5：为什么要进行嵌套交叉验证而不是简单的CV + 单独测试集？ A5：简单CV：在同一数据上进行模型选择和评估，产生选择偏差（选择的模型在特定CV分割上过度优化）嵌套CV：内层用于选择，外层用于无偏评估，两者解耦，产生可靠的性能估计。学术标准实践。关键结论与批判性总结潜在影响 Agentic drug discovery的可行性验证：MolAgent证明了高保真的分子建模可以完全自动化，为autonomous discovery pipelines铺平道路生成式AI在CADD中的实际应用：不再是“LLM可以生成分子”的宽泛声明，而是具体的、可部署的工具学术-产业交汇：来自J&J等大制药公司的投入，表明业界对agentic方法的认真态度开源生态：源代码开放（GitHub），降低采用门槛，可能激发后续的创新与改进存在的局限性数据集规模与多样性：TDC基准多为公开可用的数据（ChEMBL衍生），未必代表真实的药物discovery项目的数据分布（往往涉及专有数据、更复杂的化学空间）模型可解释性：BottleneckTransformer与AffinityGraph均为黑箱模型。虽然ProLIF提供相互作用指纹的解释，但整体模型输出的解释性仍不如传统QSAR描述符 3D结构依赖：AffinityGraph需要高质量的3D复合物结构（PDB或MD快照）。在高通量筛选或早期发现阶段（仅有2D结构），这一优势无法充分利用计算成本：虽然“廉价”预算已相对便宜，但Expensive预算（Bayesian优化+复杂集成）的计算成本未充分讨论。对大规模、数百万化合物的虚拟筛选，仍可能昂贵 agentic决策的可靠性：MolAgent展示了LLM能自主添加特征（脂溶性案例），但何时这种自主决策会失败（e.g., 添加无关特征导致过拟合）尚未系统研究未来研究方向跨领域迁移学习：预训练的BottleneckTransformer基于ChEMBL，对专有化学空间（例如蛋白降解剂、ADC）的适应性有待探索多任务与多目标建模：现有框架主要针对单一性质。多约束优化（ADMET + 合成可行性 + 知识产权风险）的agentic协调仍是开放问题动态特征选择：目前特征集相对固定。数据驱动的特征选择（在模型训练过程中动态移除低信息特征）可能进一步提升效率不确定性量化：模型输出的置信度估计对drug discovery至关重要。集成方法提供某种形式的不确定性，但贝叶斯方法可能更鲁棒小编锐评：工具还是很容易被抢发，“要抓紧时间实施”。这篇做得比较简单，但还是占坑了。

Machine Learning & AI · 2025-11-09

Mendelevium

Contact

Workflow & Agent