Hotdry.
ai-systems

基于Transformer的气味编码器:将分子结构映射到嗅觉描述符

探讨基于Transformer的嗅觉编码器如何将SMILES分子表示映射到气味描述符,提供工程化落地的模型参数与训练策略。

当我们谈论人工智能解析分子气味时,Graph Neural Network(gnn)往往是最先被提及的架构。然而,将分子视为图结构并非唯一路径 —— 近年来,基于 Transformer 的序列模型正在气味预测领域快速崛起,其核心思路是将分子表示为 SMILES 字符串,然后像处理自然语言一样从中提取嗅觉特征。这种方法被称为 “化学语言模型”,它继承了自然语言处理领域成熟的 Transformer 架构经验,为分子气味预测提供了一条可迁移、可扩展的技术路线。

为什么选择 Transformer 处理分子气味

传统的气味预测依赖于人工设计的分子描述符,如拓扑极性表面积、氢键供体数量、芳香环数目等。这些描述符需要领域专家手动提取,难以覆盖分子结构的全部信息。与之对比,Transformer 能够直接从 SMILES 字符串中自动学习到影响气味的关键特征,无需人工干预。SMILES 本身是一种线性字符串表示法,将三维分子结构压缩为一维字符序列,其中每个字符代表特定的原子或化学键 —— 这种表示天然契合 Transformer 处理序列数据的优势。

更关键的是,Transformer 在自然语言处理领域积累了大量可复用的预训练策略与参数调优经验。气味预测任务的数据规模通常远小于语言模型,但通过适当的迁移学习策略,仍能取得优异表现。FART(Flavor Analysis and Recognition Transformer)模型提供了可直接参考的架构模板:输入 SMILES 字符串,经过多层自注意力机制处理后,输出对应于气味描述符的分类结果。

模型架构与核心参数

构建一个用于气味预测的 Transformer 编码器,需要确定以下关键参数。模型规模方面,考虑到气味数据集的规模通常在数千到数万级别,建议采用中等规模的 Transformer 配置:隐藏层维度设为 256 至 512,头部数量设为 8 至 16,层数控制在 6 至 12 层之间。这一规模既能捕获分子结构中的长程依赖关系,又不会因参数量过大而导致过拟合。

输入表示层采用标准的 BPE 或字符级分词方式将 SMILES 字符串转换为 token 序列。由于 SMILES 的词汇表规模有限(通常在数十到数百个独特字符),建议将词表大小限制在 128 以内,以降低嵌入矩阵的稀疏性。每个 token 通过可学习的嵌入向量映射到隐藏空间,添加位置编码以保留序列中的位置信息 —— 这对于识别分子中特定功能基团的相对位置至关重要,因为气味往往由特定基团组合决定,而非单一原子。

自注意力机制是 Transformer 的核心组件。在分子气味预测场景中,建议采用全注意力(full attention)而非稀疏注意力,因为分子结构中的远程相互作用对气味预测具有重要意义。注意力头数的选择需权衡表达力与计算效率:8 头通常能够在捕获不同类型化学特征(如极性基团、芳香系统、碳链长度等)之间取得良好平衡。

训练策略与数据准备

训练数据的质量直接决定模型性能。Google Brain 团队在 2019 年的研究中使用了超过 5000 种气味分子作为训练集,每种分子由专业调香师标注了超过 100 种气味描述符,如花香、果香、泥土味、硫磺味等。数据增强策略包括对 SMILES 进行随机规范化(去除冗余括号、统一同分异构体表示等),这能有效扩充训练样本的多样性。对于数据量有限的场景,可考虑采用对比学习策略,让模型学习使气味相似的分子在嵌入空间中彼此接近。

训练过程中的超参数设置同样关键。初始学习率建议设为 1e-4 至 5e-4,采用 Adam 优化器配合学习率预热(warm-up)策略,预热步数设为总步数的 10% 至 20%。批量大小根据 GPU 显存调整,通常在 16 至 64 之间。训练轮数一般设为 100 至 200 epochs,早停策略以验证集性能不再提升为触发条件。 dropout 率推荐设为 0.1 至 0.3,以抑制注意力机制中的过拟合。

评估指标与实际应用阈值

气味预测模型的评估通常采用多标签分类指标。由于一种分子可能同时具有多种气味特征(如同时呈现 “果香” 和 “甜香”),因此需要采用基于阈值的预测策略。常用指标包括 AUROC(受试者工作特征曲线下面积)、AUPRC(精确率 - 召回率曲线下面积)以及 Exact Match Ratio(完全匹配率)。

根据 DREAM Olfaction Prediction Challenge 的结果与 Google 的后续研究,性能良好的模型通常能够达到 AUROC 在 0.85 至 0.89 之间,这一水平已接近人类评分者之间的平均一致率。在实际应用中,建议将预测阈值设为 0.5,但可根据具体场景调整:若要求高召回率(如筛选潜在气味分子),可降低阈值至 0.3;若强调精确率(如调香配方设计),可提高至 0.7。

与 GNN 方法的对比选择

Transformer 方法与 GNN 方法各有适用场景。GNN 更适合需要显式建模分子拓扑结构的场景,如预测立体异构体对气味的影响 —— 因为对映异构体虽然具有相同的原子连接方式,却可能呈现完全不同的气味(如 R - 香芹酮闻起来像留兰香,而 S - 香芹酮则像葛缕子)。Transformer 则在以下场景更具优势:需要快速筛选大规模分子库时(因为 SMILES 序列的处理速度通常快于图卷积),以及需要利用预训练语言模型迁移学习能力时。

从工程化落地的角度,建议团队根据具体需求选择:若已有成熟的分子图特征提取 pipeline,可继续采用 GNN;若希望在 NLP 预训练模型基础上快速迭代,Transformer 是更优选择。两种方法并非互斥,业界已开始探索将 GNN 提取的图级特征与 Transformer 的序列特征进行融合的混合架构,这可能成为下一代气味预测模型的主流方向。


参考资料

  • 研究来源:Asimov Press《Scent, In Silico》(2026 年 2 月)
  • 技术参考:Google Brain 团队 GNN 气味预测研究(arXiv:1910.10685)
查看归档