Foundry：构建生物分子基础模型的统一训练器与管道组件

Foundry 是 RosettaCommons 开源项目的一个中央仓库，专为构建可扩展的生物分子基础模型而设计。它通过统一共享的训练器和管道组件，整合了蛋白质工程与模拟的关键任务，包括 de novo 蛋白质设计、逆折叠序列生成以及结构预测。这种统一架构显著降低了开发门槛，避免了各模型间重复构建训练基础设施的低效问题。

在蛋白质工程领域，传统方法往往依赖特定模型的独立管道，导致代码碎片化和维护成本高企。Foundry 的核心创新在于引入 AtomWorks 作为底层统一框架，用于生物分子结构的 I/O、预处理和特征化。随后，Foundry 层提供模型架构、训练逻辑和推理端点，而 models/ 目录则容纳具体模型如 RFD3、RF3 和 ProteinMPNN。这种严格的依赖流（atomworks → foundry → models）确保了模块化与互操作性，支持开发者轻松添加新模型。

例如，RFdiffusion3 (RFD3) 是一个全原子生成模型，能在复杂约束下设计蛋白质结构，其生成轨迹展示了从噪声到精确结构的扩散过程。RosettaFold3 (RF3) 则缩小了开源与闭源 AlphaFold3 的性能差距，尤其在蛋白质 - DNA 复合物预测上表现出色。ProteinMPNN 和 LigandMPNN 作为轻量逆折叠模型，支持约束条件下骨架序列的多样化设计。这些模型均依赖 Foundry 的共享训练器，实现统一的数据流水线和优化策略。

部署 Foundry 时，推荐参数包括：Python 3.12 环境，使用 pip install rc-foundry[all] 安装全套依赖，默认 checkpoint 目录 ~/.foundry/checkpoints，可通过环境变量 $FOUNDRY_CHECKPOINT_DIRS 扩展多路径搜索。下载基模型权重：foundry install base-models --checkpoint-dir /path/to/dir，这将获取最新 RFD3、RF3 和 MPNN 变体。推理时，优先使用默认路径，避免路径冲突；对于大规模部署，设置 batch_size=16~~32（视 GPU 内存），noise_scale=0.1~~0.5（RFD3 生成），num_steps=200~500（扩散步数）。

训练管道的工程化参数至关重要。共享训练器支持分布式训练，推荐使用 uv pip install -e '.[all,dev]' 进入开发模式。预处理阶段，AtomWorks 处理 PDB/PDBx 文件，启用 featurization 如全原子坐标和二面角表示。训练超参：学习率 1e-4 ~ 5e-4，warmup_steps=1000，gradient_accumulation_steps=4（内存优化），max_grad_norm=1.0（梯度裁剪）。监控要点包括 perplexity < 2.0（序列模型）、RMSD < 1Å（结构预测），使用 wandb 或 tensorboard 记录。checkpoint 保存间隔 1000 steps，支持 resume_from_checkpoint 实现断线续传。

实际落地清单：

环境准备：Docker 镜像 rosettacommons/rosetta 或 conda install -c rosettacommons rosetta，确保 CUDA 12+。
权重管理：foundry install all，验证 foundry list checkpoints。
推理管道：Jupyter 示例 examples/all.ipynb，Colab 教程 https://colab.research.google.com/drive/1ZwIMV3n9h0ZOnIXX0GyKUuoiahgifBxh。
自定义模型：创建 models/my_model/ 目录，pyproject.toml 依赖 foundry，实现 src/ 中的 model.py 和 trainer.py。
性能调优：GPU 多卡 torch.distributed.launch，fp16=True 混合精度，throughput 目标 >1000 序列 / 小时（单 A100）。
回滚策略：若 OOM，减 batch_size 50%；准确率降，检查数据清洗（AtomWorks filter_invalid_structures）。
集成监控：Prometheus + Grafana 追踪 GPU util >80%，latency <5s / 推理。

Foundry 的 pre-commit 钩子（ruff format）确保代码规范，BSD-3-Clause 许可支持商业集成。通过这些参数与清单，开发者可快速构建端到端管道，从结构生成到序列优化，实现蛋白质工程的工业级加速。例如，在设计任务中，RFD3 参数 potts_guidance_scale=0.5 可平衡多样性与约束满足率。

风险控制：权重下载需～100GB 存储，训练初期验证集 perplexity 监控避免过拟合。总体，Foundry 标志着生物分子 AI 从孤岛向生态演进，提供可复制的工程蓝图。

资料来源： [1] https://github.com/RosettaCommons/foundry “Foundry provides tooling and infrastructure for using and training all classes of models for protein design.” [2] RF3 论文 doi:10.1101/2025.08.14.670328 “RF3 is a structure prediction neural network that narrows the gap between closed-source AF-3 and open-source alternatives.”

（正文约 950 字）