蛋白质先导化合物优化的工程化实践：QSAR建模、分子对接筛选与ADMET预测参数指南

引言

在基于结构的药物发现（SBDD）工作流中，先导化合物的优化是将虚拟筛选或高通量实验得出的活性苗头化合物（hit）转化为具有良好成药性的候选药物的关键阶段。这一过程需要平衡多个维度的约束：既要提升对靶标蛋白的结合亲和力与选择性，又需确保化合物具备良好的药代动力学特性与安全性。QSAR（定量构效关系）建模、分子对接筛选与 ADMET（吸收、分布、代谢、排泄、毒性）预测构成了先导优化的三大计算支柱，彼此之间存在深刻的互补关系。

本文面向工程实践，从数据准备、模型构建、参数配置到工作流集成等多个层面，给出针对蛋白质先导优化的可落地参数建议。需要强调的是，计算方法始终应与体外或体内实验验证相结合，任何阈值或过滤条件的设定都应基于项目具体情况进行调整。

一、QSAR 建模的工程化实践

1.1 数据质量与清洗

QSAR 模型的可靠性高度依赖于训练数据的质量。在先导优化场景中，数据集通常来自文献报道或企业内部实验数据，无论来源如何，均需进行系统性的清洗与标准化处理。

首先是去重与标准化。对于包含相同结构不同表达形式（如互变异构体、质子化状态差异）的化合物，需要进行统一处理。建议使用规范化的 SMILES 表示法，并通过凯库勒结构检查消除假阳性重复。活性值的表达也需要统一：对于 IC50、Ki、Kd 等不同活性指标，建议转换为 pIC50（-log10 (IC50)）或 pKi 等形式，在对数尺度下进行建模通常能获得更好的线性关系。

其次是活性数据可信度评估。不同来源的活性数据可能存在显著差异，文献报道的 IC50 值往往受到实验条件（缓冲体系、温度、酶浓度）的影响。建议为每条数据标注来源置信度，优先使用同实验室条件下测试的系列化合物数据进行建模。对于孤儿靶点或数据稀缺的场景，可以考虑引入骨架跃迁（scaffold hopping）策略，利用相似靶点的数据进行迁移学习。

数据平衡是另一个常见问题。当正负样本比例严重失衡时（如活性化合物：非活性化合物 > 1:10），模型容易产生偏向性。可以通过随机下采样、SMOTE 过采样或调整损失函数权重来缓解这一挑战。在先导优化场景中，由于主要关注活性化合物之间的相对 potency 排序，数据不平衡问题相对不如虚拟筛选场景突出，但仍然需要在模型评估阶段加以关注。

1.2 描述符选择与特征工程

描述符（descriptor）的选择直接决定了 QSAR 模型对化合物结构的表达能力。在先导优化实践中，建议采用多层次描述符组合策略，而非单一类型的描述符。

2D 理化描述符是最基础且计算成本最低的选择。典型参数包括：分子量（MW，建议范围 150-500 Da）、脂水分配系数（AlogP，建议范围 1-3）、拓扑极性表面积（TPSA，建议范围 60-140 Å²）、氢键供体数（HBD，建议≤5）、氢键受体数（HBA，建议≤10）、可旋转键数（nRotB，建议≤10）、芳香环数量（nAr）等。这些描述符计算速度快，且与药物设计中的 Lipinski 五规则和 Veber 生物利用度规则直接对应。

指纹描述符能够编码分子的子结构特征。常用的包括 Morgan 指纹（ECFP4/ECFP6）、MACCS keys、RDkit 指纹等。Morgan 指纹的半径和位数可以根据数据集规模进行调整：对于少于 1000 个化合物的中等规模数据集，建议使用半径为 2、位数为 2048 的 ECFP4 指纹；对于更大规模的数据集，可以考虑更长的指纹以减少碰撞。

3D 构象依赖描述符能够在一定程度上捕捉化合物的三维特征。例如，CoMFA/CoMSIA 方法中的立体场和静电场描述符，或者基于对接姿态的相互作用指纹。对于涉及特定蛋白口袋的先导优化项目，基于对接的相互作用特征尤为重要。研究表明，使用残基水平（residue-based）和原子水平（atom-based）的蛋白质 - 配体相互作用谱作为 QSAR 特征，能够显著提升模型的预测精度与可解释性。在一项针对乙酰胆碱酯酶（AChE）抑制剂的研究中，基于 GEMDOCK 对接生成的相互作用特征构建的 QSAR 模型，留一交叉验证 q² 达到 0.82，外部测试 r² 达到 0.72，显著优于仅使用传统理化描述符的方法。

1.3 模型选择与验证策略

模型选择应基于数据规模、解释性需求与预测目标进行权衡。

对于中小规模数据集（n < 500），建议优先选择具有较强正则化能力的模型，如岭回归（Ridge Regression）、偏最小二乘回归（PLS）或支持向量机（SVM）。这些模型对多重共线性具有较好的鲁棒性，不容易过拟合。对于需要解释哪些结构特征影响活性的场景，线性模型配合 LASSO 正则化可以自动进行特征选择，给出稀疏的系数解释。

对于较大规模的数据集（n > 1000），可以引入非线性方法，如随机森林（Random Forest）、梯度提升树（XGBoost/LightGBM）或深度神经网络。树模型通常对特征尺度不敏感，且能够捕捉特征之间的非线性交互作用。需要注意的是，非线性模型的可解释性较差，在药物化学导向的先导优化中可能不如线性模型受欢迎。

验证策略的严谨性直接关系到模型的可信度。嵌套交叉验证是避免过拟合的标准做法：外层循环用于评估模型在独立测试集上的泛化能力，内层循环用于超参数搜索或特征选择。建议使用 5 折或 10 折交叉验证，重复次数不少于 3 次以获得稳健的评估指标。除交叉验证外，Y - 随机化检验（Y-scrambling）是检测模型是否偶然学到了数据噪声的有效手段：如果在打乱活性标签后模型仍然保持高预测性能，说明模型可能存在信息泄露或数据匹配问题。

关键的评估指标包括：对于回归任务，使用 Q²（交叉验证决定系数）、RMSE（均方根误差）、MAE（平均绝对误差）；对于分类任务，使用 AUC-ROC、精确率 - 召回率曲线、bedROC 等。对于先导优化中的优先级排序任务，排序相关指标（如 Spearman 相关系数、Kendall tau）可能比绝对预测误差更有价值。

1.4 共识模型与不确定性量化

单一模型往往难以完整捕捉复杂的构效关系，共识模型（ensemble model）通过聚合多个模型的预测结果，通常能够获得更稳定、更准确的预测。在实践中，可以采用简单的平均法或加权平均法，权重可以根据各模型在验证集上的表现进行优化。

更进阶的做法是从多个初步模型中统计推断共识特征（consensus features）：对于每个描述符，统计其在多次模型构建中被选中的频率，选择被选中次数显著高于随机预期的特征作为共识特征。这种方法能够识别出跨多个模型一致重要的结构特征，提升 QSAR 模型的可解释性。研究表明，基于共识特征的 QSAR 模型在测试集上的 r² 可以比使用全特征集的模型高出 0.1 以上。

在先导优化决策中，知道「这个化合物预测活性高」和知道「这个化合物预测活性高，但模型对其置信度低」是两种截然不同的信息。建议在模型输出中同时提供点估计和不确定性估计。可以使用蒙特卡洛 dropout、贝叶斯回归或模型集成等方法来估算预测的不确定性。

二、分子对接筛选的工程化实践

2.1 受体准备与构象选择

分子对接的核心假设是蛋白质口袋在配体结合时会发生一定程度的构象变化（诱导契合），而分子对接算法需要在可接受的计算成本下近似这一过程。

受体准备的第一步是结构选择。对于同一靶点可能存在多个晶体结构或同源建模模型，建议优先选择分辨率高（≤ 2.5 Å）、配体共晶结构清晰、没有大段无序 Loop 的结构。如果存在 apo 结构与 holo 结构的可选性，holo 结构通常更适合用于先导优化，因为其活性位点的构象已经经过配体诱导。

对于具有显著构象灵活性的靶点，建议准备多个受体构象（1-3 个）进行并行对接。可以从分子动力学模拟轨迹中提取代表性构象，或者使用 MDRotamer 等方法在对接过程中考虑侧链柔性的方法。构象数量的增加会显著提升计算成本，但对于涉及 Gatekeeper 突变或显著构象变化的靶点，这一投入是值得的。

活性位点的定义直接影响对接结果。常用的方法包括：将共晶配体放置到位点中心，在其周围扩展一定半径（如 8-12 Å）；或者使用已有的文献报道的关键残基来定义位点边界。在定义位点时，需要考虑溶剂 Accessible Surface Area（SASA），避免位点过小导致排除关键相互作用或位点过大导致引入过多溶剂分子。

2.2 配体准备与构象枚举

配体的准备同样关键，常见的处理步骤包括：

质子化状态枚举：在生理 pH（7.4）条件下，化合物的质子化状态会影响其电荷分布和氢键能力。建议使用专门的工具（如 OpenBabel、Schrödinger 的 Epik 或 ChemAxon 的 Calculator plugins）枚举化合物在目标 pH 下的主要质子化形式，保留占比高于一定阈值（如 1%）的质子化异构体进行对接。

互变异构体枚举：尤其是对于含有酰胺、羟基、巯基等可发生互变异构的官能团的化合物，需要考虑其不同的互变形式。每个可质子化位点或互变位点可能产生 2-4 个变体，配体准备阶段需要系统枚举这些变体。

构象搜索：在对接前为配体生成低能量构象可以减少对接程序在采样空间上的负担。建议为每个配体生成多个（10-50 个）低能量构象，确保涵盖可能的 bioactive conformation。某些对接程序（如 GOLD、AutoDock Vina）内置了构象搜索功能，可以省略此步骤。

2.3 对接策略与评分函数选择

对于先导优化场景，通常涉及对一系列结构相似的化合物（先导系列的衍生物）进行评分排序，此时一致性评分（consensus scoring）策略能够显著提升预测可靠性。

建议采用两阶段对接策略：第一阶段使用快速打分函数（如 AutoDock Vina 的默认评分）对整个化合物库进行初筛，保留得分在前 20-30% 的化合物；第二阶段对初筛化合物使用更精细的评分函数（如 MM-GBSA 或基于力场的评分）进行重打分。这种分层策略可以在保证预测精度的同时将计算成本降低一个数量级。

评分函数的选择需要根据靶点特性进行调整。对于以疏水相互作用为主的靶点（如激酶的 hinge region），基于经验力场的评分函数通常表现良好；对于涉及较多氢键和盐桥的靶点，基于物理力场的评分函数可能更准确。建议在正式使用某对接程序前，使用已知活性化合物和诱饵分子（decoy）组成的测试集验证其 enrichment performance，使用 ROC-AUC 和 BEDROC 指标进行评估。

对于结构相似的先导系列衍生物，对接姿态的一致性也是重要的验证标准：如果同一个配体在不同构象的受体上对接产生差异很大的姿态，这可能提示受体准备存在问题或者该配体的结合模式存在较大不确定性。

2.4 后处理与决策阈值

对接后处理包括姿态聚类、相互作用指纹提取和打分结果整合。

姿态聚类可以识别配体可能的结合模式，建议选择与已知共晶配体姿态 RMSD 最接近的簇作为推荐姿态进行后续分析。

相互作用指纹能够将对接结果转化为结构化的特征向量，便于与 QSAR 模型进行整合。例如，可以记录配体与蛋白质关键残基之间是否形成氢键、π-π 堆叠、盐桥、疏水接触等相互作用。这些指纹可以直接作为 QSAR 模型的输入特征，实现对接与 QSAR 的深度耦合。

打分阈值的设定需要根据项目背景进行调整。一种常用的做法是设定相对阈值：以已知活性化合物中的最低活性（最弱活性）分子的打分作为参考，要求新化合物的打分不低于该参考值的某个百分比（如 80% 或 90%）。另一种做法是设定绝对阈值，但这需要对打分函数与实验活性之间的相关性有较准确的估计。

三、ADMET 预测的工程化实践

3.1 核心预测指标与阈值

ADMET 预测的核心目标是提前识别可能影响化合物成药性的风险因素，在先导优化阶段尽早淘汰高风险候选化合物。

吸收与渗透性是最优先评估的属性。常用的预测指标包括：Caco-2 细胞渗透性（推荐阈值：Peff ≥ 1×10⁻⁶ cm/s）、MDCK 细胞渗透性、PAMPA（平行人工膜渗透）测定值。溶解度也是关键因素：建议预测的 aqueous solubility ≥ 10 μM。在计算层面，可以使用溶解度预测模型（如 ChemAxon 的 Solubility 预测器或基于随机森林的模型）或使用经验规则（如 pKa 和 logD 估算）进行初步筛选。

分布与清除相关的属性直接影响化合物在体内的暴露量和半衰期。logD7.4（建议范围：1-3）反映了化合物在生理 pH 下的亲脂性平衡，是影响分布容积和代谢清除的重要参数。血浆蛋白结合率（PPB）是另一个关键指标：高蛋白结合率（>99%）可能导致非线性药代动力学，而极低的蛋白结合率可能增加脱靶毒性风险。对于 CNS 靶点，还需要评估血脑屏障（BBB）渗透性，logBB = log (Cbrain/Cblood)，建议化合物 logBB > -1。

代谢稳定性是决定化合物清除率的关键因素。代谢稳定性评估通常关注肝微粒体清除率（CLint）和细胞色素 P450（CYP）酶的代谢稳定性。建议使用体外代谢稳定性数据建立预测模型，常见的输入特征包括：亲脂性（logD）、可代谢位点数量（如 α- 碳数量、苄基位点数量）、CYP 反应性警示结构等。

安全性风险是化合物失败的最主要原因之一。关键的预测指标包括：hERG 通道阻断风险（建议使用计算模型或动物实验验证，pIC50 <5 时应重点关注）、CYP 酶抑制风险（CYP3A4、2C9、2C19、2D6 的 IC50> 10 μM 为安全阈值）、反应性代谢产物风险（Ames 试验阳性预测）、PAINS（泛筛选干扰化合物）警示等。

3.2 多参数优化与 Pareto 前沿

先导优化本质上是一个多目标优化问题：提升活性的同时改善 ADMET，同时还要考虑合成可及性和专利新颖性。** 多参数优化（MPO）** 框架能够在多个目标之间进行权衡取舍，输出 Pareto 最优解集供决策者选择。

一个典型的 MPO 实现包括：定义多个标准化后的目标函数（如预测活性、预测清除率、预测溶解度、合成难度评分），设定每个目标的最低要求或目标值，使用加权求和法、目标规划法或进化多目标优化算法（如 NSGA-II）求解 Pareto 前沿。

在实际操作中，可以使用药物化学专家知识为各指标设定硬阈值（如 MW > 500 立即淘汰）作为前置过滤，再在满足基本要求的化合物集合中进行多目标优化。这种分层策略能够有效降低优化空间的维度，提升算法效率。

3.3 ADMET 预测工具与模型选择

当前主流的 ADMET 预测工具可以分为两大类：基于规则的专家系统和基于机器学习的统计模型。

基于规则的专家系统（如 Lilly 的抗性过滤规则、FAF-Drugs、SwissADMET）根据已知毒性警示结构进行过滤。这类工具的优点是解释性强、计算速度快，适合作为初筛过滤器。但其局限在于只能识别已知模式，无法预测新型结构的风险。

基于机器学习的统计模型（如 ADMET Predictor、StarDrop、pkCSM、SwissADMET 的计算模块）能够对更广泛的 ADMET 属性进行预测。这类模型通常基于大数据集训练，能够捕捉更复杂的非线性关系。但其预测精度受限于训练数据的覆盖范围，对于与训练集化学空间差异较大的新结构，预测可靠性可能下降。

建议在实际项目中组合使用多种工具：对同一属性使用 2-3 个不同来源的预测模型，如果多个模型预测结果一致，则置信度较高；如果预测结果存在分歧，则需要结合专家判断或进行针对性实验验证。

四、集成工作流与迭代策略

4.1 信息流动与数据管理

QSAR、分子对接与 ADMET 预测并非孤立运行，而是在迭代循环中相互促进。在整个工作流中，数据管理是确保效率与可重复性的关键。

建议建立统一的数据管理架构，将每个化合物的以下信息进行关联存储：原始结构与规范化 SMILES、计算的理化描述符、对接姿态与打分、QSAR 预测活性值与置信区间、ADMET 预测值与警示标记、专家决策结论与优先级排序。这种关联数据模型使得后续的回顾性分析和模式识别成为可能。

在实际操作中，可以使用电子实验室笔记本（ELN）或专门的化学信息学数据库（如 ChEMBL、SureChEMBL 的企业版本）来管理这些数据。对于中小规模项目，结构化的 CSV 或 JSON 文件配合版本控制系统也能满足需求。

4.2 迭代优化循环

一个典型的先导优化迭代循环包括：化合物设计（基于 QSAR 模型指导的 R-group 优化或对接结果指导的骨架改造）→ 虚拟评估（QSAR 预测活性、对接预测结合模式、ADMET 风险过滤）→ 合成与测试 → 结果反馈（更新模型与阈值）。

在每一轮迭代中，需要根据新获得的数据更新 QSAR 模型和 ADMET 预测模型。这种主动学习或自适应建模策略能够使模型逐渐聚焦于项目的特定化学空间，预测可靠性随之提升。建议在项目初期使用通用预训练模型，随着数据积累逐步切换到项目定制模型。

4.3 决策框架与风险控制

在任何阶段，计算预测都存在不确定性，需要建立明确的决策框架来管理这些不确定性。

一种实用的做法是设定分级决策阈值：高置信度区域（预测明确满足要求或明确不满足要求）的化合物可以直接进入下一阶段或直接淘汰；中等置信度区域的化合物需要结合更多维度的信息进行综合判断；低置信度或预测分歧的化合物需要优先安排实验验证。

同时，需要建立回滚机制：当实验结果与预测出现系统性偏差时（如 QSAR 模型在新的化学系列上预测偏差超过 2 倍），需要暂停优化循环，评估原因并更新模型后再继续。

五、总结与建议

蛋白质先导化合物的优化是一项需要综合运用多种计算方法与实验验证的系统工程。本文梳理了 QSAR 建模、分子对接筛选与 ADMET 预测三个核心模块的工程化实践要点，以下是关键建议的提炼：

数据层面：无论采用何种计算方法，高质量的数据都是基础。建议在项目开始前投入充足时间进行数据清洗与标准化，建立数据来源追溯机制。

模型层面：避免过度依赖单一模型或单一方法。使用共识模型降低预测方差，使用多方法交叉验证确保模型鲁棒性。在先导优化场景中，模型的可解释性与预测精度同等重要。

集成层面：QSAR、对接与 ADMET 预测不是孤立的方法，而是协同工作的系统。建议建立自动化的信息流动管道，减少人工干预带来的不一致性。

验证层面：计算预测永远需要实验验证。建议在项目早期建立计算预测与实验结果的关联分析机制，及时发现并修正模型的系统性偏差。

资料来源：

Yang JM, et al. "An integrated approach with new strategies for QSAR models and lead optimization." BMC Genomics. 2017;18(Suppl 2):S33. https://doi.org/10.1186/s12864-017-3503-2
Ha TKQ, et al. "Molecular docking screening, dynamics simulations, ADMET, and semi-synthesis prediction of flavones and flavonols from the COCONUT database as potent bifunctional neuraminidase inhibitors." Pharmacia. 2024;71:1-10.

ai-systems

内容声明：本文无广告投放、无付费植入。

如有事实性问题，欢迎发送勘误至 i@hotdrydog.com。