用贝叶斯优化与图神经网络构建蛋白质-配体亲和力预测代理模型

在现代药物发现流程中，蛋白质与配体之间的结合亲和力预测是 lead 优化阶段的核心任务。传统方法依赖分子对接或分子动力学模拟计算结合自由能，这些方法虽然精度较高，但单次评估耗时往往达到数小时甚至数天，面对 billions 量级的化合物库时计算成本完全不可接受。机器学习 surrogate model 的核心思路即在于此：用可训练的代理模型学习昂贵的物理模拟过程，在保持可接受精度的前提下将评估效率提升数个数量级。

代理模型的两种形态：分类与回归的分工

Surrogate model 在 lead 优化中通常承担两类任务。第一类是二分类任务，判断给定配体是否与目标蛋白存在有意义的结合 —— 这类问题本质上是早期虚拟筛选的过滤步骤，输出为概率值或二元判别。第二类是回归任务，预测具体的结合亲和力数值，常用指标为解离常数 Kd、抑制常数 Ki 或 IC50 的预测值。这两类任务在流程中的位置不同，精度要求也不同：分类模型侧重召回率，需要以较高敏感度捕获潜在活性化合物；回归模型侧重 ranking 能力，用于对过滤后候选集排序。

从实践角度，构建分类代理模型常用的特征包括 RDKit 提取的分子描述符（如分子量、LogP、极性表面积、HBA/HBD 计数、TPSA 等）、SMILES 衍生的 Morgan 指纹、以及更复杂的 RDKit 描述符集。研究表明，基于随机森林或 XGBoost 的树集成模型配合 RDKit 描述符，在分类任务上往往能在保持 85% 以上精度的同时将吞吐量提升 100 倍以上，相比纯对接方法大幅降低计算资源消耗。

回归模型的输入特征更为灵活，除分子描述符外，还可融入蛋白质口袋的三维结构特征或结合位点的局部环境描述。模型选择上，图神经网络（GNN）近年来展现出显著优势，其能够直接在图结构上操作，将原子视为节点、键视为边，自动学习与亲和力相关的分子子结构模式，避免了手工特征工程的瓶颈。

图神经网络的分子表示与消息传递机制

图神经网络在分子性质预测中的成功源于其对化学结构的天然亲和力。分子可自然表示为无向图 G = (V, E)，其中节点 V 携带原子属性（元素类型、杂化轨道、手性中心标记、形式电荷等），边 E 携带键属性（键类型、环状标记、共振标记等）。GNN 通过迭代的消息传递机制在图上聚合局部邻居信息，每一层节点更新公式可概括为：

节点隐状态从初始原子嵌入 h_v^(0) 开始，经过 L 层消息传递后得到 h_v^(L)，其中第 l 层包含两步：先基于邻居节点状态和边特征计算消息 m_{uv}^(l)，再将消息聚合并与自身状态融合得到更新后的节点状态 h_v^(l+1)。常用的消息函数包括基于关系的线性变换或更复杂的注意力机制。

在亲和力预测任务中，模型架构通常采用两路设计：配体子图与蛋白口袋子图分别经过独立的 GNN 编码器提取特征向量，再通过互作操作（点积、拼接或差向量）生成复合表示，传入下游预测头。蛋白侧的输入可以是基于晶体结构的原子图，也可以是仅基于氨基酸序列的图表示 —— 后者在缺乏共晶结构时提供了可扩展的替代路径。

图池化策略对最终性能影响显著。常见做法包括：对全图所有节点嵌入做加权求和获取图级表示，或引入虚拟超级节点汇聚全图信息。对于异质性更强的蛋白 - 配体复合图，层次化池化能够更好地捕捉不同尺度的结构模式。

贝叶斯优化的探索 - 利用平衡

构建了 surrogate model 之后，下一步是如何利用它指导新化合物的设计提案。穷举搜索所有可能的分子空间是不现实的，化合物空间维度高且离散化特征明显。贝叶斯优化（Bayesian Optimization, BO）正是解决这一问题的成熟框架：它用概率代理模型（通常是高斯过程 GP 或贝叶斯神经网络）建模目标函数的后验分布，在此基础上定义采集函数来量化每个候选点的探索价值。

采集函数需要在两种策略之间取得平衡：利用（exploitation）选择当前模型预测亲和力最高的区域；探索（exploration）选择不确定性最高的区域以提升模型对目标函数的认知。经典采集函数包括 Expected Improvement（EI）和 Upper Confidence Bound（UCB）。在 batch 设定下，即一次提议多个候选分子时，需要考虑候选点之间的相关性以避免重复探索同一区域，此时基于 Jensen-Exploration 或利用 greedy 策略配合相关系数惩罚是常见做法。

在实际药物发现 pipeline 中，batch BO 的关键挑战在于 prior 的初始化与更新策略。初始训练数据通常来自历史活性数据或公开数据库（如 ChEMBL、PubChem），规模在数百到数千条记录不等。用预训练的分子嵌入或 docking score 作为 prior 的初始化值，能够显著加速前几轮 BO 的收敛。当 batch 大小为 8-16 时，建议每轮使用 ensemble 代理模型（3-5 个独立模型）评估预测方差，以提升 batch 内的多样性。

与分子动力学信息的闭环整合

Surrogate model 虽快，但其预测精度终究受限于训练数据分布。对于 lead 优化中真正需要高置信度的候选分子，需要将其重新提交至分子动力学模拟或 MMGBSA 结合自由能计算进行精修。实践中常用的策略是：BO 提议 top-N 候选（如 top-20）后，剔除明显不合理结构（PAINS 警示、合成可达性评分过低），再对剩余分子执行 MMGBSA 重打分，将结果反馈至 surrogate model 进行增量训练。

这种 active learning 循环的关键参数包括：反馈轮次频率（建议每 3-5 轮 BO 触发一次 MMGBSA 重评估）、重打分候选数量（10-20 个为宜以控制计算成本）、以及增量训练的样本选择策略（优先选择预测不确定性高且预测值较高的候选）。研究表明，这种混合策略在 ZINC-22/MCL1 等数据集上能够将 top-1% 命中化合物的富集率提升 2-3 倍。

MMGBSA 的优势在于其计算效率（单次约 1-2 小时）远高于全原子 MD（单次 100ns 平衡约需 24-48 小时），同时对结合姿态的依赖性较低。但需注意 MMGBSA 存在系统误差，对不同蛋白家族的表现差异较大，建议通过实验数据进行校准后再用于 active learning 循环。

可落地的工程参数清单

面向实际项目落地，以下是关键参数的参考范围：

数据规模方面，用于训练 surrogate model 的初始活性数据集建议涵盖 500-5000 条记录，涵盖多样化的化合物骨架与活性跨度；少于 500 条时需引入迁移学习或预训练嵌入以缓解过拟合风险。多于 5000 条时需考虑数据去重与活性 cliffs 筛选。

特征维度方面，RDKit 描述符建议使用 200 维以上以覆盖分子多维度性质；Morgan 指纹 radius 建议设为 2，位数建议 2048；GNN 节点初始嵌入维度通常 64-128，层数 3-6，隐状态维度 128-256。

BO 超参数方面，采集函数推荐 UCB（β=2-3）或 EI（exploration_ratio=0.1-0.3）；每轮提议数量 batch_size 建议 8-16；代理模型推荐 ensemble（3-5 个高斯过程或同等大小的 BNN）；终止条件建议 20-30 轮或 top-1 预测值连续 5 轮提升小于阈值。

MMGBSA 重打分频率建议每 3-5 轮执行一次，每次重打分候选数 10-20，重打分后增量训练轮次 5-10（避免灾难性遗忘）。

评估指标与模型验证要点

代理模型的评估不能仅依赖回归指标（如 RMSE、MAE），需重点关注 ranking 能力与分类指标的平衡。常用组合包括：AUC-ROC 评估二分类区分能力；Pearson/Spearman 相关系数评估回归预测排序质量；以及富集因子（EF）在 top-K 百分比的命中率 —— 这是虚拟筛选场景中最接近实际应用价值的指标。

交叉验证策略建议采用时间拆分（temporal split）或 scaffold 拆分，避免随机拆分导致信息泄露 —— 因为相似骨架的化合物在随机拆分下会同时出现在训练集和测试集，高估实际泛化性能。

资料来源

本文核心方法论综合自以下研究：机器学习代理模型加速虚拟筛选的 throughput 研究；贝叶斯优化结合 MMGBSA 结合亲和力计算的 active learning 框架；图神经网络驱动的药物发现加速研究；以及 GNNSeq 等序列 - 图混合模型在结合亲和力预测中的应用。

ai-systems

内容声明：本文无广告投放、无付费植入。

如有事实性问题，欢迎发送勘误至 i@hotdrydog.com。