使用 ADK-Go 部署代码优先 AI 代理：容器编排、状态持久化和自定义评估框架

在 AI 代理开发领域，代码优先（code-first）方法强调通过编程语言直接定义代理逻辑，这比配置式框架更灵活，尤其适合复杂多代理系统。Google 的 ADK-Go 作为开源 Go 工具包，正是为此设计的。它支持从构建到部署的全流程，特别在容器编排、状态持久化和评估框架方面表现出色。通过这些特性，开发者可以实现可扩展的代理部署，并在分布式环境中确保结果的可重现性，从而加速从原型到生产的迭代。

首先，考虑容器编排的核心价值：在分布式环境中，AI 代理需要处理并发请求、负载均衡和自动缩放。ADK-Go 的 “Deploy Anywhere” 特性允许将代理轻松容器化，支持 Google Cloud Run 或 GKE 等平台。这避免了传统部署的复杂性，确保代理在云原生环境中高效运行。例如，在 Cloud Run 上部署时，代理可以作为无服务器应用响应请求，而 GKE 则提供 Kubernetes 级别的精细控制。证据显示，ADK-Go 的模块化设计（如 agent、runner 和 server 包）直接映射到 Docker 容器，便于打包。实际参数包括：使用 Dockerfile 指定入口点为 server 模块的 API 服务器，设置内存限制为 512MiB 以优化成本；通过 gcloud run deploy 命令指定 --platform managed 和 --allow-unauthenticated 以快速上线。监控点如 CPU 使用率阈值 80% 和请求延迟 < 200ms，可通过 Cloud Monitoring 实现自动缩放。

状态持久化是多轮对话代理的关键，确保上下文不丢失。ADK-Go 通过 SessionService 管理会话（Session）和状态（State），将当前对话线程与长期记忆（Memory）分离。Session 存储事件序列和临时数据，MemoryService 则支持跨会话搜索。默认使用内存实现适合本地测试，但生产环境推荐云存储如 Firestore 或 Redis，以实现持久化。证据来自 ADK 文档：SessionService 的实现接口允许自定义后端，例如集成 Firestore 时，设置集合名为 "sessions"，TTL 为 24 小时以管理存储成本。落地参数包括：初始化 SessionService 时指定 provider="firestore" 和 project_id="your-gcp-project"；状态更新使用 state.Set (key, value) 方法，确保键值对不超过 1KB 以避免序列化开销。风险在于内存实现重启丢失数据，因此生产中必须启用持久化，并设置备份策略如每日快照。

自定义评估框架确保代理的可重现基准测试，特别在分布式部署中验证一致性。ADK-Go 支持基于轨迹（trajectory）和最终响应的评估，使用 test.json 或 evalset.json 文件定义预期工具调用和响应。轨迹评估检查工具使用顺序，如预期步骤 ["determine_intent", "use_tool", "review_results"] 与实际匹配；响应评估使用 ROUGE-1 相似度或 LLM 判断。证据显示，内置标准如 tool_trajectory_avg_score=1.0（精确匹配）和 response_match_score=0.8（允许小偏差）可通过 pytest 或 CLI 运行。自定义 rubric 如 “响应简洁且有帮助” 可集成 hallucinations_v1 检查幻觉。参数设置：创建 evalset 时指定 criteria={"tool_trajectory_avg_score": 1.0, "final_response_match_v2": 0.9}；运行 adk eval agent_module evalset.json --print_detailed_results 以输出详细分数。针对分布式环境，使用用户模拟（User Simulation）动态生成提示，提高覆盖率。

要落地这些特性，以下是完整清单：

准备环境：安装 Go 1.21+，运行 go get google.golang.org/adk。创建代理模块，包括 root_agent 定义。
容器化部署：
- 编写 Dockerfile：FROM golang:1.21，COPY . /app，RUN go build -o server ./server，CMD ["./server"]。
- 构建镜像：docker build -t gcr.io/project/adk-agent .
- 部署到 Cloud Run：gcloud run deploy adk-agent --image gcr.io/project/adk-agent --port 8080 --memory 512Mi。
- 对于 GKE：创建 Deployment YAML 指定 replicas=3，serviceAccount 以访问 Vertex AI。
状态持久化配置：
- 集成 Firestore：import "cloud.google.com/go/firestore"，初始化 client := firestore.NewClient (ctx, projectID)。
- 在 SessionService 中：opts := [] session.Option {session.WithProvider ("firestore", client)}，sessionService := session.NewService (opts...)。
- 测试：模拟多轮对话，验证 state.Get ("user_pref") 持久化。
评估框架搭建：
- 创建 test.json：定义 eval_cases 包括 user_content、final_response 和 tool_uses。
- 配置 test_config.json：{"criteria": {"rubric_based_tool_use_quality_v1": {"rubric": "工具调用顺序正确"}}。
- 运行评估：pytest tests/ 或 adk eval ./agent ./evals/--config ./test_config.json。
- 监控：集成 BigQuery Agent Analytics 记录评估分数，阈值 <0.8 触发警报。
最佳实践与回滚：
- 监控：使用 Cloud Trace 追踪延迟，设置警报于错误率 >5%。
- 安全性：启用 IAM 角色最小权限，评估中包含 safety_v1 标准。
- 回滚：使用蓝绿部署，在 GKE 中通过 kubectl rollout undo；评估失败时回退到上个镜像标签。

通过这些步骤，ADK-Go 不仅简化了 code-first 代理的部署，还确保了在容器化环境中的可靠性和可测试性。开发者可以快速迭代，实现生产级 AI 系统。

资料来源：

Google ADK-Go GitHub 仓库：https://github.com/google/adk-go
ADK 官方文档（部署部分）：https://google.github.io/adk-docs/deploy/
ADK 官方文档（会话与评估）：https://google.github.io/adk-docs/sessions/ 和 https://google.github.io/adk-docs/evaluate/