蛋白质折叠问题长期被视为计算生物学的核心挑战之一。从序列到三维结构的映射本质上是一个高度复杂的优化问题,而自然界中存在的结构冗余性 —— 即不同序列折叠成相似结构的普遍现象 —— 为这一问题的解决提供了独特的压缩表示视角。AlphaFold 系列算法通过深度学习捕获了这种冗余性,实现了前所未有的预测精度,但近期研究揭示了其在处理折叠转换蛋白时的系统性局限。
结构冗余性的生物学基础
蛋白质结构空间中存在显著的冗余特征。大量不相关的蛋白质序列可以折叠成相似的三维构象,如 α 螺旋、β 折叠片、Rossmann 折叠等保守结构域反复出现在不同功能的蛋白质中。这种冗余性源于物理化学约束的收敛性:疏水相互作用、氢键网络和二硫键等力场约束使得某些折叠模式在能量上更为有利。
从信息论角度看,这种冗余性意味着序列到结构的映射可以被有效压缩。AlphaFold 正是利用了这一特性,通过 Evoformer 模块从多序列比对(MSA)中提取进化耦合信息,将高维的序列空间映射到低维的结构表示空间。然而,这种压缩表示的边界在哪里?当蛋白质存在多种稳定构象时,算法能否准确捕获这种多态性?
AlphaFold 的预测机制与结构记忆问题
AlphaFold2 和 AlphaFold3 的架构包含两个核心模块:Evoformer 负责从 MSA 中提取残基间的进化耦合信息,生成 pair representation;Structure module 则将这些表示映射到三维坐标空间。在理想情况下,模型应该学习蛋白质折叠的物理能量景观,从而能够预测任意序列的最稳定构象。
然而,2024 年发表在 Nature Communications 上的系统性研究揭示了一个关键问题:AlphaFold 的预测很大程度上依赖于对训练集结构的 "记忆" 而非真正的物理推理。研究团队测试了 92 个折叠转换蛋白(fold-switching proteins)—— 这类蛋白质能够在两种截然不同的三维构象之间可逆转换,且两种构象都具有生物学功能。
结果显示,对于训练集内的 fold switchers,AlphaFold2/3 仅成功预测了 35%(32/92)的两种构象;对于训练集外的 7 个 fold switchers,成功率骤降至 14%(1/7)。这一发现表明,模型在训练过程中记住了特定的序列 - 结构对应关系,而非学习蛋白质折叠的普适物理原理。
置信度指标的失效与优化空间
AlphaFold 提供的置信度指标 —— 包括每个残基的预测局部距离差异测试分数(pLDDT)和预测模板建模分数(pTM)—— 通常能够有效区分高质量预测与低质量预测。然而,在折叠转换蛋白的测试中,这些指标表现出系统性的失效。
研究发现,pLDDT 和 pTM 倾向于给实验未观察到的构象分配更高的置信度,而对正确的替代构象给出较低的分数。在最高置信度的预测中,约 70% 的结构与实验确定的两种构象都不匹配。这种 "置信度反转" 现象表明,当前的置信度校准机制无法处理多构象蛋白质的能量排序问题。
从优化角度看,这为算法改进指明了方向:需要开发能够区分不同能量状态构象的评分函数,而非仅仅依赖与训练集结构的相似性度量。研究团队提出的 AF2Rank 方法尝试利用 Structure module 对候选结构进行能量排序,但在 fold switchers 上的成功率仅相当于随机猜测(50%),进一步证实了模型缺乏真正的热力学理解。
工程实践中的应对策略
面对这些局限,生物信息学研究者可以采取以下工程化策略:
多构象采样策略:对于疑似具有折叠转换特性的蛋白质,不应依赖单次 AlphaFold 预测。可以采用 AF-cluster 等方法,通过对 MSA 进行聚类并分别预测,探索构象空间的不同区域。研究表明,浅层 MSA 子聚类有时能捕获与深层 MSA 不同的进化信号,对应于替代构象。
置信度阈值调整:对于 fold switchers,传统的 pLDDT≥70(可信)和 pLDDT≥90(高可信)阈值可能产生误导。建议结合多种指标,包括预测对齐误差(PAE)矩阵的模式分析,以及预测与已知折叠的 TM-score 比较。
实验验证优先级:鉴于 AlphaFold 在训练集外 fold switchers 上的高失败率(86%),对于新发现的、与已知 fold switchers 序列相似性较低的蛋白质,应将计算预测视为结构假设而非确定性结果,优先安排实验验证。
IDR 区域特殊处理:对于内在无序区域(IDRs)和条件性折叠区域,AlphaFold 的低 pLDDT 区域可能暗示着功能相关的构象可塑性,而非简单的预测失败。这些区域可能需要分子动力学模拟或整合实验数据(如 NMR 化学位移)进行进一步分析。
未来优化方向
从算法层面看,改进 AlphaFold 对折叠转换蛋白的预测能力需要在以下几个方向取得突破:
MSA 深度自适应机制:当前的 MSA 处理采用统一深度,但不同深度的 MSA 可能包含对应于不同构象的进化信号。开发能够根据 MSA 特征动态调整处理策略的机制,可能提高对替代构象的敏感性。
能量函数学习:将真正的物理能量函数整合到训练目标中,而非仅仅优化与实验结构的均方根偏差(RMSD)。这要求训练数据包含更多关于构象能量景观的信息,如 NMR 系综数据或分子动力学轨迹。
结构去记忆化:通过正则化技术或对抗训练,减少对训练集特定结构的过度依赖,增强模型对新颖折叠的泛化能力。
蛋白质折叠的结构冗余性既是 AlphaFold 成功的基石,也是其局限性的根源。理解这种冗余性的边界 —— 何时它提供有效的压缩表示,何时它掩盖了关键的构象多样性 —— 是推进结构预测算法的关键。对于生物信息学研究者而言,这意味着在享受深度学习带来的便利的同时,需要保持对模型内在局限的清醒认识,并在关键应用中坚持实验验证的原则。
参考来源
- Chakravarty D, Schafer JW, Chen EA, et al. AlphaFold predictions of fold-switched conformations are driven by structure memorization. Nature Communications. 2024;15:7296. https://doi.org/10.1038/s41467-024-51801-z
- Jumper J, Evans R, Pritzel A, et al. Highly accurate protein structure prediction with AlphaFold. Nature. 2021;596:583-589.
内容声明:本文无广告投放、无付费植入。
如有事实性问题,欢迎发送勘误至 i@hotdrydog.com。