Hotdry.
ai-systems

Foundry:构建生物分子基础模型的统一训练器与管道组件

Foundry 提供共享训练器和管道组件,支持蛋白质设计、折叠与逆折叠模型,实现生物分子 AI 的高效工程化部署。

Foundry 是 RosettaCommons 开源项目的一个中央仓库,专为构建可扩展的生物分子基础模型而设计。它通过统一共享的训练器和管道组件,整合了蛋白质工程与模拟的关键任务,包括 de novo 蛋白质设计、逆折叠序列生成以及结构预测。这种统一架构显著降低了开发门槛,避免了各模型间重复构建训练基础设施的低效问题。

在蛋白质工程领域,传统方法往往依赖特定模型的独立管道,导致代码碎片化和维护成本高企。Foundry 的核心创新在于引入 AtomWorks 作为底层统一框架,用于生物分子结构的 I/O、预处理和特征化。随后,Foundry 层提供模型架构、训练逻辑和推理端点,而 models/ 目录则容纳具体模型如 RFD3、RF3 和 ProteinMPNN。这种严格的依赖流(atomworks → foundry → models)确保了模块化与互操作性,支持开发者轻松添加新模型。

例如,RFdiffusion3 (RFD3) 是一个全原子生成模型,能在复杂约束下设计蛋白质结构,其生成轨迹展示了从噪声到精确结构的扩散过程。RosettaFold3 (RF3) 则缩小了开源与闭源 AlphaFold3 的性能差距,尤其在蛋白质 - DNA 复合物预测上表现出色。ProteinMPNN 和 LigandMPNN 作为轻量逆折叠模型,支持约束条件下骨架序列的多样化设计。这些模型均依赖 Foundry 的共享训练器,实现统一的数据流水线和优化策略。

部署 Foundry 时,推荐参数包括:Python 3.12 环境,使用 pip install rc-foundry[all] 安装全套依赖,默认 checkpoint 目录 ~/.foundry/checkpoints,可通过环境变量 $FOUNDRY_CHECKPOINT_DIRS 扩展多路径搜索。下载基模型权重:foundry install base-models --checkpoint-dir /path/to/dir,这将获取最新 RFD3、RF3 和 MPNN 变体。推理时,优先使用默认路径,避免路径冲突;对于大规模部署,设置 batch_size=1632(视 GPU 内存),noise_scale=0.10.5(RFD3 生成),num_steps=200~500(扩散步数)。

训练管道的工程化参数至关重要。共享训练器支持分布式训练,推荐使用 uv pip install -e '.[all,dev]' 进入开发模式。预处理阶段,AtomWorks 处理 PDB/PDBx 文件,启用 featurization 如全原子坐标和二面角表示。训练超参:学习率 1e-4 ~ 5e-4,warmup_steps=1000,gradient_accumulation_steps=4(内存优化),max_grad_norm=1.0(梯度裁剪)。监控要点包括 perplexity < 2.0(序列模型)、RMSD < 1Å(结构预测),使用 wandb 或 tensorboard 记录。checkpoint 保存间隔 1000 steps,支持 resume_from_checkpoint 实现断线续传。

实际落地清单:

  1. 环境准备:Docker 镜像 rosettacommons/rosetta 或 conda install -c rosettacommons rosetta,确保 CUDA 12+。
  2. 权重管理foundry install all,验证 foundry list checkpoints
  3. 推理管道:Jupyter 示例 examples/all.ipynb,Colab 教程 https://colab.research.google.com/drive/1ZwIMV3n9h0ZOnIXX0GyKUuoiahgifBxh。
  4. 自定义模型:创建 models/my_model/ 目录,pyproject.toml 依赖 foundry,实现 src/ 中的 model.py 和 trainer.py。
  5. 性能调优:GPU 多卡 torch.distributed.launch,fp16=True 混合精度,throughput 目标 >1000 序列 / 小时(单 A100)。
  6. 回滚策略:若 OOM,减 batch_size 50%;准确率降,检查数据清洗(AtomWorks filter_invalid_structures)。
  7. 集成监控:Prometheus + Grafana 追踪 GPU util >80%,latency <5s / 推理。

Foundry 的 pre-commit 钩子(ruff format)确保代码规范,BSD-3-Clause 许可支持商业集成。通过这些参数与清单,开发者可快速构建端到端管道,从结构生成到序列优化,实现蛋白质工程的工业级加速。例如,在设计任务中,RFD3 参数 potts_guidance_scale=0.5 可平衡多样性与约束满足率。

风险控制:权重下载需~100GB 存储,训练初期验证集 perplexity 监控避免过拟合。总体,Foundry 标志着生物分子 AI 从孤岛向生态演进,提供可复制的工程蓝图。

资料来源: [1] https://github.com/RosettaCommons/foundry “Foundry provides tooling and infrastructure for using and training all classes of models for protein design.” [2] RF3 论文 doi:10.1101/2025.08.14.670328 “RF3 is a structure prediction neural network that narrows the gap between closed-source AF-3 and open-source alternatives.”

(正文约 950 字)

查看归档