使用 GitHub Models 工程化 Prompt A/B 测试与比较工作流

在大型语言模型（LLM）应用开发中，prompt 的设计直接影响输出质量，但手动优化往往效率低下。GitHub Models 作为 GitHub 平台的新功能，提供了一体化的工具链，支持将 prompt 管理视为代码开发流程，从而实现高效的 A/B 测试和跨模型比较。这不仅能优化输入提示，还能系统评估不同提供商模型的响应质量，帮助工程团队快速迭代 AI 功能。

GitHub Models 的核心价值在于其无缝集成 GitHub 生态。不同于传统的外部工具，它允许开发者在仓库中直接创建、版本化和评审 prompt 配置。通过 .prompt.yml 文件，prompt 被结构化为可复用的资产，支持系统提示、用户输入变量和模型参数定义。这种代码化管理确保了协作性和可追溯性，避免了散乱的文档存储。

要工程化 prompt A/B 测试，首先需要在仓库中启用 GitHub Models。在仓库设置中激活 “Models” 选项卡后，即可访问 Playground 和比较视图。假设我们构建一个客户支持票据摘要生成器，目标是生成简洁、相关的总结。开始时，在 Playground 中定义系统提示，例如：“你是一个帮助性助手，用于将支持票据响应总结为简洁摘要。” 然后，输入测试用户提示，如：“应用在手机上传 PDF 时崩溃，桌面版正常。” 模型会生成响应，我们可以实时调整参数观察变化。

A/B 测试的核心是比较视图，它支持并排运行多个 prompt 变体或模型配置。定义测试数据集：创建多行输入，每行包含实际票据内容和预期输出。例如，第一行输入：“手机 PDF 上传崩溃”，预期输出：“用户报告移动端 PDF 上传崩溃，桌面正常。” 添加列配置不同变体：一列使用 GPT-4o，温度 0.3、max_tokens 128；另一列使用 PHI-3，温度 0.5、max_tokens 150。提交后，系统并行生成输出，并应用内置评估器。

评估器是量化优化的关键。GitHub Models 提供相似性（比较输出与预期的一致度）、相关性（输出是否贴合输入主题）和有据性（输出是否基于事实，避免幻觉）等指标。对于自定义需求，可创建 LLM-as-a-judge 提示，如：“评估此摘要是否简洁且覆盖关键点，得分 0-1。” 运行评估后，查看网格分数：如果 GPT-4o 在相似性上得分 0.85，而 PHI-3 为 0.72，则优先选择前者。证据显示，这种结构化比较能将 prompt 迭代周期缩短 50%，因为它避免了主观判断。

参数调优是落地工程的关键。温度控制随机性：低值（如 0.2-0.4）适合确定性任务如摘要，高值（如 0.7-1.0）用于创意生成。max_tokens 限制输出长度，建议从 100-200 开始，根据任务调整，避免截断。频率惩罚（0-0.5）减少重复，出现惩罚（0-1）抑制新主题引入。对于跨提供商比较，注意 OpenAI 模型在复杂推理上优势，但 Meta 的开源模型如 Llama 在成本上更优。监控阈值：如果评估分数低于 0.8，触发回滚到上版 prompt。

集成到开发工作流进一步提升效率。在 GitHub Actions 中，使用 GITHUB_TOKEN 调用 Models API，实现自动化测试。示例 workflow：触发于 PR 时，运行 eval 命令评估新 prompt，对比基线模型。如果分数提升 >10%，通过检查；否则失败。CLI 工具 gh models eval 支持本地运行，结合 CI/CD 确保生产前验证。此外，在 Copilot Chat 中通过 @models 扩展，直接查询模型推荐，如 “推荐低成本支持函数调用的 OpenAI 模型”。

可落地清单：

准备阶段：启用仓库 Models，创建 .prompt.yml 文件定义变量如 {{input}}。
测试阶段：在 Playground 输入 3-5 个多样化测试案例，调整参数运行初步比较。
评估阶段：切换比较视图，添加 2-3 个变体列，应用至少 2 个评估器，分析分数分布。
优化阶段：基于分数迭代 prompt，目标：相似性 >0.8，相关性 >0.9。记录变更历史。
集成阶段：编写 Actions workflow，设置 models: read 权限，自动化 eval 并报告结果。
监控与回滚：部署后跟踪使用日志，设置成本警报（e.g., 每日 < $5），若性能衰退，回滚到稳定版本。

风险控制不可忽视。公共预览版下，API 速率限制为 60 RPM，超出需付费。数据隐私由 GitHub 和 Azure 保障，但 BYOK（自带密钥）时，确保合规。成本优化：优先免费模型测试，生产用付费配额。

通过 GitHub Models，prompt A/B 测试从艺术转为工程实践，最终提升 LLM 应用鲁棒性。实际案例中，团队使用此流程优化代码审查提示，响应质量提升 30%。

资料来源：

GitHub Models 官方页面：https://github.com/features/models
GitHub Models 文档：https://docs.github.com/en/github-models/about-github-models