分子性质预测中的图神经网络与几何学习

本文是《从描述符到几何图神经网络：分子性质预测的输入表示全景图》的续篇，专注于图神经网络方法的详细解析。

本文信息

标题：Molecular property prediction: Input types and information processing in machine learning models
作者：Muhammed Thameem, Obaid AlHmoudi, Ahmad Al Salloum, Naeema Al Darmaki, Ali Elkamel, Ali A. AlHammadi
发表期刊：Results in Engineering
发表时间：2026年1月23日在线发表（Received 2025年8月29日；Revised 2026年1月21日；Accepted 2026年1月21日）
DOI：https://doi.org/10.1016/j.rineng.2026.109241
单位：Khalifa University of Science and Technology（阿联酋阿布扎比）、United Arab Emirates University（阿联酋艾因）、University of Waterloo（加拿大安大略）
引用格式：Thameem, M., AlHmoudi, O., Al Salloum, A., Al Darmaki, N., Elkamel, A., & AlHammadi, A. A. (2026). Molecular property prediction: Input types and information processing in machine learning models. Results in Engineering, 29, 109241. https://doi.org/10.1016/j.rineng.2026.109241

基于图的机器学习

图表示基础

图结构

分子图$G = (V, E)$由节点集$V$（原子）和边集$E$（化学键）组成。每个节点和边可以关联特征向量以编码丰富的化学信息。常用的原子、键和分子级特征如下表所示：

级别	属性	描述	编码方式
原子级	原子类型	原子种类（C、H、O、N等）	One-hot编码
	芳香性	原子是否在芳香环中	二值（0/1）
	杂化类型	$\mathrm{sp}$、$\mathrm{sp}^2$、$\mathrm{sp}^3$等	One-hot编码
	形式电荷	原子的形式电荷（-1、0、+1）	整数
	连接氢数	显式连接的氢原子数	整数
	原子度数	原子连接的其他原子数量	整数（0-10+）
键级	键型	单键、双键、三键、芳香键	One-hot编码
	共轭性	键是否参与共轭体系	二值（0/1）
	环 membership	键是否在环中	二值（0/1）
	立体化学	E/Z构型或顺反异构	One-hot编码
分子级	分子量	所有原子的质量之和	连续值
	电荷	分子的总电荷	整数
	原子数	分子中原子的总数	整数
	键数	分子中化学键的总数	整数

这些特征向量是图神经网络的输入起点，每个原子的特征决定了初始信息表示的质量和丰富程度。边特征使模型能够区分不同类型的化学键，这对于预测与键长、键角和反应活性相关的性质至关重要。

信息表示：节点特征矩阵$X \in \mathbb{R}^{n \times d}$编码n个原子的d维特征，邻接矩阵$A \in \mathbb{R}^{n \times n}$或边列表$E$编码连接信息。

信息流动的基础

图神经网络（Graph Neural Networks, GNN）的核心思想是通过消息传递聚合邻域信息，迭代更新节点表示。这一过程可以分为三个关键阶段：

初始状态：在消息传递开始前，每个节点的表示为其手工设计的初始特征向量，这些特征包含原子类型、电荷、杂化状态等信息，构成了信息流动的起点
消息传递：通过多轮迭代，每个节点聚合来自直接邻居的信息，将邻域知识融入自身表示。随着迭代轮次增加，信息可以传播到更远的邻居，使节点表示逐步融入全局结构信息
读出：在完成预定轮次的消息传递后，将所有节点的表示聚合为单一图级向量，常用的方法包括对所有节点表示求和、平均或使用注意力机制加权，该图级表示最终用于分子级别的性质预测

图神经网络架构

fig10

图10：图卷积、图注意力机制和消息传递神经网络。（a）异丁酸中节点7的邻域，（b）使用求和聚合的图卷积更新节点7，（c）使用图注意力更新节点7，（d）使用MPNN进行性质预测的示意图。

信息流动：消息从邻居流向中心节点，通过多轮迭代传播，每个节点的表示逐渐融入多跳邻域信息。与Transformer一层即可让所有token相互注意不同，MPNN第一层只看局部邻域，长程相互作用需要靠多层消息传递逐步累积。

图卷积网络（GCN）

图卷积网络（Graph Convolutional Networks, GCN）是MPNN的一种具体实现，可视为频域图滤波器的空间域近似，通过聚合邻居特征更新节点表示：

信息处理：对每个节点，先聚合邻居节点特征，再经过线性变换和非线性激活更新节点表示。可以想象为信息沿着化学键从邻居流向中心原子
局限性：传统图卷积往往使用固定或均匀的聚合权重，无法区分不同邻居的重要性

图注意力网络（GAT）

图注意力网络（Graph Attention Networks, GAT）通过注意力机制学习邻居间的动态权重：

信息处理：对每对节点计算注意力分数，通过softmax归一化后作为聚合权重。这允许模型自适应地关注重要邻居，如关注反应中心的邻近原子而非远端基团
优势：注意力机制提供可解释性，可以通过分析注意力权重理解模型关注的原子和化学键

消息传递神经网络

消息传递神经网络（Message Passing Neural Networks, MPNN）统一了大多数图神经网络架构，提供了理解图神经网络的统一框架。MPNN的消息传递过程包含消息函数、聚合函数和更新函数：

消息函数：计算节点间传递的消息，通常包含源节点特征和边特征
聚合函数：聚合接收到的多条消息，常用求和、平均或最大
更新函数：结合节点当前状态和聚合消息更新节点表示

GraphSAGE

GraphSAGE在GCN之后提出了更灵活的邻域聚合方式。它的关键设计是使用mean、max和LSTM三类聚合函数，并且在更新时保留当前节点自身特征，再与聚合后的邻居消息拼接：

GraphSAGE先对邻居节点特征做线性变换和非线性激活，再用mean、max或LSTM聚合邻域信息
聚合后的邻居消息会与当前节点特征拼接，再经过另一层线性变换和激活完成节点更新
LSTM本来是序列模型，但GraphSAGE示例说明它也可以作为GNN中的聚合函数，这也是本文后面提到“跨范式融合”的一个例子

fig11

图11：GraphSAGE消息传递。（a）聚焦的邻域，（b）GraphSAGE中的聚合函数，（c）使用聚合消息和当前节点特征进行节点更新。

边感知图神经网络

边感知GNN将边特征（如键型、键长）融入消息传递函数，这对于准确的分子性质预测至关重要：

信息处理：在消息函数中显式包含边特征，使得节点更新时能够利用化学键信息
优势：能够区分单键、双键、三键等不同键型对性质的影响，提升预测准确性

几何图神经网络

普通的2D图神经网络只考虑原子的连接关系，忽略了原子的空间位置。但对于能量、力、偶极矩等与分子几何密切相关的性质，必须把原子的3D坐标信息纳入模型，这就是几何图神经网络（Geometric GNNs）的核心动机。Geometric GNNs在多个分子性质预测基准上达到了当前最优性能，尤其在量子力学性质预测任务中表现突出。

为什么需要3D信息？

同一连接关系可以对应不同构象，很多性质也不只由“谁和谁相连”决定。例如构象能、原子力、偶极矩、振动模式和声子相关性质，都依赖原子的3D位置以及局部几何。只看2D连接图时，模型很难知道键长是否被拉伸、键角是否弯曲、二面角是否改变；而3D坐标能够显式提供这些信息。键长、键角、二面角这些几何参数直接影响电子结构和能量，因此对3D敏感的模型能够做出更准确的预测。

不变性与等变性

模型如何处理分子的旋转是一个关键设计选择：

不变性（Invariance）：把分子旋转90度，模型预测的能量值不变。这适合标量性质（如能量、分子量、logP等只有一个数值的性质）
等变性（Equivariance）：把分子旋转90度，模型预测的力矢量也会跟着旋转90度。力是矢量，在不同方向上大小不同，所以预测力时需要等变性

打个比方：不变性就像“你手里苹果的重量”，无论你转动手腕，苹果的重量不变；等变性就像“你扔出苹果的方向”，如果你转动手腕，方向会跟着变。

传统的不变模型（如SchNet、DimeNet、GemNet）通常直接预测标量能量，再通过对能量取负梯度（$F_i = -\partial E / \partial r_i$）得到原子力。这样做可以保证力的等变性和能量守恒，但力的准确性受能量预测精度限制，而且稳定分子动力学还要求势能面足够光滑。部分现代几何GNN会直接把力作为模型输出，以绕开反向传播求力的训练开销；代价是若处理不好，可能得到与能量不一致的力场。

径向基函数：把距离变成向量

fig12

图12：捕捉几何信息的基函数。（a）Bessel径向基函数，（b）高斯径向基函数，（c）2D Fourier-Bessel基函数，（d）球谐函数。

几何GNN处理的是原子的3D坐标，但神经网络更适合处理向量。径向基函数（Radial Basis Functions, RBF）就是把一个标量距离$d$转换成一个高维向量$\phi(d) \in \mathbb{R}^K$的桥梁。

RBF类型	数学形式	特点	适用场景
高斯RBF	$\phi_k(d) = \exp(-\beta (d - \mu_k)^2)$	固定中心的高斯函数，$\mu_k$是第$k$个中心，$\beta$控制宽度	通用分子性质预测
Bessel函数	$\phi_k(d) = \dfrac{\sin(\pi k d / r_\text{cut})}{d}$	常用于距离展开，可与包络函数配合处理截断	DimeNet、GemNet等距离展开
球谐函数	$Y_l^m(\theta, \phi)$	编码球面上的角度信息，$l$是阶数，$m$是磁量子数	球面卷积与角度信息编码

类比理解：把1-2-3-4-5这几个数字直接给神经网络，它不一定知道距离之间的平滑关系。但如果先用RBF转换成一组类似“距离指纹”的连续向量，神经网络就能更容易学习“这个距离接近哪个区域”。

从SchNet到DimeNet再到GemNet：交互复杂度的演进

几何GNN的核心是消息传递——每个原子从邻居那里获取信息来更新自己的表示。但“邻居”的范围可以不同：

fig13

图13：交互块的复杂性对比。（a）节点更新函数，（b）原子间距离，（c）TransformerConv中的节点更新函数，（d）SchNet交互层中的简化节点更新函数，（e）SchNet、DimeNet和GemNet的消息传递复杂性。

SchNet（2017）：成对交互——最简单的情况，每个原子$i$和邻居$j$之间主要利用距离$d_{ij}$。这类distance-only模型速度快、可扩展性好，但无法区分只有键角或构象不同的结构。一个具体的反例是：如果两个原子系统具有相同的原子和原子间距离，却有不同的键角，仅靠成对距离的模型就会遇到表达力限制
DimeNet：三元组交互——在距离的基础上引入键角信息。对一个triplet $i$-$j$-$k$，消息计算会用到$i$-$j$、$j$-$k$两段距离和$\angle ijk$。这比distance-only模型能捕捉更丰富的三体几何信息，但仍然不能直接区分具有相同距离和三元组角、但二面角不同的结构
GemNet：四元组交互——进一步引入二面角（torsion angle）。对一个quadruplet $i$-$j$-$k$-$l$，消息计算会用到$i$-$j$、$j$-$k$、$k$-$l$三段距离，$\angle ijk$、$\angle jkl$两个triplet角，以及$\angle ijkl$二面角。图13e中展示了5个quadruplets共同参与一次消息计算，说明GemNet表达力更强，但计算成本也明显更高

模型	交互类型	涉及原子数	几何信息	计算复杂度	典型应用
SchNet	成对	2个原子	距离$d_{ij}$	最快、可扩展性最好	能量、电荷预测
DimeNet	三元组	3个原子	距离 + triplet角	比SchNet更高，但可捕捉三体几何	键角敏感性质
GemNet	四元组	4个原子	距离 + triplet角 + 二面角	最高，每条消息需要更复杂的边和二跳信息	构象能、立体化学

等变GNN：突破不变模型的限制

不变模型（SchNet、DimeNet、GemNet）的内部表示不随旋转改变，适合能量这类标量性质。等变GNN（EGNN、e3nn、SE(3)-Transformer等）则让内部表示随输入旋转而按规则变换，因此更自然地处理力、速度、偶极矩等带方向的物理量：

标量通道（l=0）：旋转不变的特征，预测标量（能量、电荷）
向量通道（l=1）：旋转等变的特征，预测矢量（力、偶极矩）
高阶张量（l≥2）：更复杂的等变特征，用于编码更丰富的几何信息

实现等变性的数学工具是球谐函数和Wigner D矩阵。简单来说，球谐函数是定义在球面上的一组正交基函数，类似于傅里叶级数在球面版本。当分子旋转时，l=0的球谐函数（标量）不变，l=1的球谐函数（向量）会按照Wigner D矩阵的规则旋转。通过球谐函数构建的特征天然具有正确的等变行为。

fig14

图14：球函数与Wigner D矩阵。（a）球函数可表示为系数与球谐基函数的线性组合，（b）坐标系旋转$R$后，球函数的变换由对应阶数的Wigner D矩阵$D^l(R)$控制。不同类型的等变操作有不同特点：

操作类型	代表模型	表达力	计算效率	适用场景
标量+向量	TorchMD-NET、E(n) GNN、NewtonNet	中等	高	常规分子动力学与力预测
高阶张量	TensorNet、TeaNet、HotPP	强	低	复杂几何性质、高精度需求

球谐函数+张量积的组合是实现严格等变性的重要路线。值得注意的是，并非所有现代几何GNN都走严格的等变约束路线——SCN这类模型通过spherical channels间接学习相关结构，并不强制执行等变性；eSCN、EquiformerV2和eSEN等则利用SO(2)卷积降低完整SO(3)卷积的计算成本，同时保留大部分等变能力。这是一条硬约束与软约束之间的工程权衡。

几何GNN的工程挑战

虽然几何GNN在理论上很优雅，但实际部署面临几个挑战：

3D构象依赖：模型性能高度依赖输入的3D坐标质量。如果初始坐标远离平衡结构，结构弛豫可能失败或陷入非物理构型
表达力与可扩展性的权衡：完整SO(3)卷积表达力强，但全张量积成本高；SO(2)卷积通过降低复杂度，在实际中提供了较好的表达力和可扩展性平衡，但需要仔细处理局部坐标框架
截断与光滑性：几何图通常按截断半径连边，若截断函数不光滑，会影响力预测和分子动力学稳定性，因此常需要包络函数或渐进截断

张量积：等变消息传递的核心操作

要让节点和边的信息在等变约束下相互作用，首先需要把它们都翻译成同一套“球张量”语言：标量特征经过线性变换成低阶球张量，方向向量则通过球谐函数编成更高阶的球张量。

fig15

图15：球张量和方向编码。（a）$l = 2$球张量在旋转$R$下的变换由Wigner D矩阵控制，（b）标量原子特征被线性变换为球张量，（c）相对位置向量通过球谐函数编码为球张量，（d）节点和边的球张量通过张量积计算消息。

接下来要做的，是把这些已经编好码的球张量按规则两两相乘。张量积是这里的核心算子，但两个任意阶球张量相乘后，得到的张量在旋转下不再是单一的不可约表示——必须用Clebsch-Gordan系数把它重新分解成不同阶的不可约分量。

fig16

图16：等变GNN中的张量操作。（a）Clebsch-Gordan张量积分解规则，（b-d）$0 \otimes l$、$1 \otimes l$、$2 \otimes l$的分解，（e）完整张量积分解示意，（f）按irrep类型做线性变换和门控激活，（g）在标量通道上接回归头预测最终势能。

这张图解释了为什么严格等变模型贵：为了让不同阶数的球张量在旋转下保持正确变换，模型要用Clebsch-Gordan系数把张量积结果重新分解成不可约表示。全SO(3)张量积表达力强，但成本高；后续的SO(2)卷积、FlashTP、Fused Tensor Product和Gaunt Tensor Product，都是围绕这个瓶颈做加速。

优势与局限

优势	局限
保留拓扑结构：明确编码原子连接关系，比字符串更接近真实分子	计算复杂度高：消息传递迭代计算量大，难以处理超大分子
捕捉空间几何：3D几何GNN能够建模构象和立体化学	依赖3D构象：需要生成或实验确定分子3D结构，增加计算成本
可解释性好：注意力权重和消息路径提供原子级别的解释	数据需求高：几何GNN通常需要大量高质量结构数据
SOTA性能：在多个基准数据集上达到最优性能	实现复杂：等变GNN的数学和工程实现难度较高

多模态方法与实际应用

多模态融合

单一表示往往无法捕捉分子的所有相关信息，多模态方法结合描述符、字符串和图的互补优势：

早期融合与晚期融合

早期融合：将不同表示的特征在输入层拼接，联合训练模型。这种方法允许不同表示的特征在模型的浅层就进行交互和融合，理论上能够学习到更丰富的跨模态特征。例如，可以将描述符的全局信息、图的拓扑信息和序列的模式信息在输入层就组合起来
晚期融合：分别训练多个模型，在预测层集成结果。这种方法更加灵活，每个模型可以针对特定表示优化，且便于并行训练和独立更新。常见的集成策略包括投票、加权平均和stacking

信息处理差异：早期融合允许模型在训练过程中学习不同表示间的交互，而晚期融合更灵活但可能错过表示间的协同效应。选择哪种融合策略取决于具体任务和数据特性，早期融合适合表示间互补性强的场景，晚期融合适合需要灵活更新和部署的场景

串行融合

串行融合将一个模型的输出作为另一个模型的输入，形成级联的处理流程。典型应用包括：先使用图神经网络提取局部拓扑特征，再用Transformer处理全局序列模式，或者先用编码器学习压缩表示，再用解码器生成分子结构。

优势：串行融合允许每个模型专注于自己擅长的特征类型，通过级联实现分层次的信息处理。例如，第一层模型可以捕捉局部几何结构，第二层模型可以学习全局构效关系，这种分层的处理策略在复杂任务中往往优于端到端的单一模型。

实际工作流中的角色

fig17

图17：AI模型在分子和材料设计工作流中的实际角色。（a）基于AI的筛选加速DFT+实验流程，（b）优化神经网络函数以导航设计空间，（c）自监督学习解码未知分子的信息。下面按图中三种角色分别说明。

虚拟筛选

AI模型用于高通量虚拟筛选，从百万级化合物库中识别潜在候选物，大幅减少需要DFT计算或实验验证的化合物数量。

典型工作流：描述符或图表示 + 快速ML模型 → 初步筛选 → DFT计算 → 精确验证 → 实验测试。这种AI辅助的筛选流程可以将进入DFT计算的候选数量从数千降低到数十，显著节省计算资源和时间。虚拟筛选特别适用于药物发现的早期阶段，能够快速评估大规模化合物库的ADMET性质，及时淘汰不符合要求的候选物。

逆向设计

神经网络学习性质-结构映射的逆函数，从目标性质生成候选分子结构。生成模型如变分自编码器（VAE）、生成对抗网络（GAN）和扩散模型在这一任务中表现出色。

应用价值：逆向设计改变了传统的试错范式，研究者可以指定期望的性质（如溶解度、结合亲和力、代谢稳定性），模型直接生成满足这些性质的候选分子结构。这种方法在药物设计中特别有价值，可以探索传统化学直觉难以发现的化学空间，同时保证合成可行性。

自监督预训练

对于标注数据稀缺的领域，自监督学习从无标注分子数据中学习有用表示。掩码节点预测、对比学习和图增强是常用策略。

技术优势：自监督预训练通过设计代理任务（如掩码语言建模、对比学习）从未标注数据中提取有用知识，然后将学习到的表示迁移到下游性质预测任务。这种方法显著降低了对标注数据的需求，使得在仅有数百个标注样本的场景下也能训练高性能模型。大规模预训练已成为分子机器学习的标准范式，ChemBERTa、MolBERT等预训练模型在多个基准数据集上取得了SOTA性能。

模型与表示选择指南

fig18

图18：根据数据可用性、计算资源和目标特性选择分子表示和机器学习架构的高层指南。

小数据（<1000样本）：描述符 + 传统ML（随机森林、GP）或迁移学习。小数据场景下，深度学习模型容易过拟合，传统机器学习方法如随机森林、支持向量机和高斯过程往往表现更好。迁移学习通过预训练模型提供的先验知识，可以在少量标注数据下取得良好性能
中等数据（1000-10000）：图神经网络或预训练Transformer微调。这一数据规模足以训练中等规模的神经网络，2D图神经网络或预训练Transformer的微调通常能够取得较好的性能。可以从头训练或利用在大规模数据上预训练的模型进行迁移
大数据（>10000）：从零训练大型图模型或Transformer。大规模数据允许训练具有数百万参数的深度神经网络，充分挖掘数据的潜在模式。此时可以考虑设计更复杂的架构、使用多模态融合或探索新的表示学习方法
计算资源约束：资源受限时优先选择描述符 + 线性模型或浅层神经网络；中等资源适合2D图神经网络或中型Transformer；只有充足算力时才适合3D几何GNN或大规模预训练模型
目标性质匹配：全局性质（如能量、溶解度）用图级预测；局部性质（如原子电荷、反应位点）用节点级预测；几何相关性质（如偶极矩、力）必须用3D几何GNN；序列相关性质（如聚合物性质）用Transformer或RNN

现代分子ML的跨范式融合

现代分子机器学习的一个重要趋势是不同表示、架构和训练方法的交叉融合。经典ML模型可以用在序列模型或GNN生成的神经嵌入上做后处理（如随机森林+图嵌入）；Transformer编码器可以直接处理分子图（如Graphormer）；掩码语言建模（MLM）被移植到分子图上实现自监督预训练（如GROVER）；LSTM这类序列模型甚至被用作GNN的聚合函数（如GraphSAGE）。这种跨范式组合让不同表示的优势互补，在多个基准上超越了单一范式的模型。

小结

本文系统综述了分子性质预测中的输入类型和信息处理机制，从传统描述符方法到最前沿的几何图神经网络。通过统一框架和直观的图形表示，阐明了不同模型架构如何处理和传播分子信息。

核心结论

基于描述符的模型仍然有效，尤其是对于小规模或特征明确的数据集，在有高质量描述符可用时甚至能超越深度模型。但它们的广泛适用性受限于泛化能力差，以及对于全新或未充分表征的分子缺乏可靠描述符
基于字符串的表示（如SMILES）支持RNN和Transformer等序列架构建模。借助Transformer的可扩展性，简单的分子表示已经能构建出高精度的模型。然而，Transformer的最终性能受限于紧凑字符串表示的表达力，因为它们无法捕捉原子在3D空间中的空间排列
基于图和几何的表示通过直接编码结构连接性克服了上述局限。消息传递神经网络（特别是3D几何GNN）通过强制执行旋转不变性和等变性等物理对称性，在量子力学性质预测上达到了当前最优精度
几何GNN虽然精度高，但计算开销大，尤其是依赖高阶张量或昂贵等变操作的模型。这凸显了对兼顾物理保真度与可扩展性模型的需求
从建模和实际部署角度：经典ML模型适合数据量和算力有限的应用；序列模型适合基于字符串/序列表示预测全局性质；当有大规模数据和GPU资源时，基于Transformer的预训练-微调流水线对无标注数据聚类和全局性质预测特别有效；当目标性质强烈依赖局部邻域结构和分子几何时，GNN通常是最佳选择
现代分子ML的趋势是不同表示、架构和训练方法的交叉融合。经典ML模型可以用在序列模型或GNN生成的神经嵌入上做后处理；Transformer编码器可直接处理分子图（Graphormer）；MLM被移植到分子图实现自监督预训练（GROVER）；LSTM被用作GNN的聚合函数（GraphSAGE）；CatBERTa、LLM-Prop等用材料文本描述而非紧凑字符串作为Transformer输入
从工程视角，分子机器学习主要用于加速分子/材料发现流程。预测式AI模型能够从百万级候选中快速筛选，显著缩短决策时间和成本，优先把有潜力的体系送入下游DFT计算和实验验证。神经网络学到的连续函数还能高效搜索大设计空间，帮助识别最优的分子或材料候选。对于无标注的真实世界数据，自监督学习能将分子/材料组织到高维嵌入空间，通过与已知高性能药物/材料的近邻关系发现新候选

对于刚进入这一领域的研究者，建议从描述符 + 随机森林或2D图 + 简单GNN开始，快速建立baseline。随着经验和资源积累，逐步尝试预训练Transformer和几何GNN。理解每种方法的信息处理机制，而非将模型视为黑箱，是成功应用和开发新方法的关键。

五大未来方向

从工程实践看，以下5个方向被认为是分子机器学习未来值得重点关注的方向：

3D原子建模不再依赖图先验：Transformer的强可扩展性正被用于3D分子系统和机器学习原子间势（MLIP）。Kreiman等（2025）将离散化的原子位置、能量和力作为token，配合连续坐标嵌入，让Transformer直接处理3D结构，性能与等变几何GNN相当。这让MLIP可以利用现成的Transformer架构、潜在/稀疏注意力算法，以及现代GPU对稠密矩阵运算的优化
等变张量运算的加速：等变几何GNN的主要瓶颈是Clebsch-Gordan张量积（CGTP）。FlashTP算法利用CG系数矩阵的稀疏性，推理加速4.2倍，训练加速3.5倍（已在SevenNet上验证）。Fused Tensor Product（FTP）将所有不可约表示融合为单一稠密张量；Gaunt Tensor Product（GTP）则在频域用FFT加速，但会牺牲部分表达力
混合模型：graph+strings、descriptors+strings、descriptors+graphs等组合正成为单表示模型的强替代方案。在等变GNN中，标量（l=0）通道可以与其他表示组合而不破坏等变性，这是一个相对未被探索的方向
物理增强的等变GNN：传统等变模型只依赖原子序数初始化节点特征，在标量通道中加入领域特定的物理信息（如局部电荷密度、电子占据数等）有望提升性能，且不破坏等变性
基础模型与现代原子数据集：OMol25、OMat24、LeMat-Traj等大规模、多样化、高保真的量子化学数据集的出现，为训练真正的预训练基础模型提供了前所未有的机会。基于这些数据集训练Transformer、GNN或混合架构的基础模型，潜力巨大但目前仍稀缺

Mendelevium

Contact