在多模型时代,企业或团队使用 Claude、Gemini 等高级 LLM 时,常面临订阅成本高企、访问不稳及隐私泄露等问题。自建 Claude Relay Service (CRS) 是一种高效解决方案,它通过统一 OpenAI-compatible API 镜像 Claude Code,支持多订阅池化,实现成本共享,同时确保原生工具如 Claude Code CLI、Gemini CLI 的无缝集成。本文聚焦工程实践,给出核心参数配置、部署清单及运维监控要点,帮助你快速落地。
为什么选择自建中继服务?
第三方镜像虽便捷,但隐私风险高(对话内容全被记录)、性能不稳(高峰期卡顿)、定价不透明。自建 CRS 的优势在于:数据仅经自家服务器直连 Anthropic API,性能可控(几人共享 Max 订阅即可流畅用 Opus),成本精确到 token(按官方价计算)。“本项目直连 Anthropic API,所有接口请求只经过你自己的服务器。” 此外,支持多账户轮换、智能切换,极大提升可用性。
相比通用代理,CRS 专为 LLM 工具优化:兼容 Claude Code 的 SSE 流式输出、Gemini 的 Assist API,同时支持 Droid/Codex 的自定义模型配置。成本分摊逻辑简单:一个 200 美元 Max 订阅,3-5 人平摊,每月仅需 40-70 美元,即可享官方级体验。
核心架构与统一 API 设计
CRS 基于 Node.js + Redis 构建,轻量高效。架构要点:
- 账户池管理:OAuth 添加多个 Claude/Gemini/Codex 账户,自动轮换。每个账户绑定静态代理(可选,避免 IP 封禁)。
- API Key 系统:独立 Key 分配给用户,支持细粒度限流(RPM/TPM/ 并发)。
- 路由分发:
/claude/→ Claude 池,/gemini/→ Gemini,/openai/→ Codex,/droid/→ 通用兼容。统一/v1/chat/completions等端点。 - 性能优化:连接池、请求缓存、UA 客户端限制(e.g., 只允许 claude-cli User-Agent)。
关键参数配置(config.js & .env):
server: {
port: 3000, // 生产建议 8080,避免冲突
host: '0.0.0.0' // Docker 内网用容器 IP
},
redis: {
host: '127.0.0.1',
port: 6379,
password: '' // 生产必设强密码
},
jwt_secret: '32+位随机密钥', // 防篡改
encryption_key: '精确32字符密钥' // 账户凭证加密
限流阈值建议(API Key 创建时设置):
- 速率限制:20 RPM / 100k TPM(单人 Claude Code 日常够用)。
- 并发:5(避免 Opus 峰值超载)。
- 客户端白名单:
claude-cli/*、GeminiCLI/*、codex/*。 - 超时:read_timeout 300s(长对话流式)。
部署清单:从零到生产
硬件最低:1 核 1GB,30GB 盘,US 地域 VPS(阿里 / 腾讯海外易被 CF 拦截,推荐 Vultr/Linode)。
1. 一键脚本(推荐,5min)
curl -fsSL https://pincc.ai/manage.sh -o manage.sh && chmod +x manage.sh && ./manage.sh install
交互配置:端口 8080,Redis 本地。自动装 Node 18+、Redis,启动后访问 /web 面板。管理员凭据存 data/init.json。
2. Docker Compose(隔离好)
下载 crs-compose.sh 生成 docker-compose.yml,设 JWT_SECRET/ENCRYPTION_KEY,docker-compose up -d。挂载 ./data:/app/data 持久化。
3. 反向代理(HTTPS 生产必备)
用 Caddy:
your-domain.com {
reverse_proxy 127.0.0.1:3000 {
flush_interval -1 // SSE 支持
transport http { read_timeout 300s }
}
header {
Strict-Transport-Security "max-age=31536000"
}
}
Nginx 类似,加 proxy_buffering off; proxy_read_timeout 300s;。
验证:curl http://localhost:3000/health 应返 OK。
4. 初始化使用
- 添加账户:面板 → Claude 账户 → 生成 OAuth 链接 → 授权 → 粘贴 code。
- 创建 Key:设限流 → 复制
cr_xxx。 - 工具集成示例:
Claude Code:
export ANTHROPY_BASE_URL="https://your-domain.com/api/"
export ANTHROPIC_AUTH_TOKEN="cr_xxx"
claude
Gemini CLI(Assist 模式):
CODE_ASSIST_ENDPOINT="https://your-domain.com/gemini"
GOOGLE_CLOUD_ACCESS_TOKEN="cr_xxx"
gemini
Codex(~/.codex/config.toml):
[model_providers.crs]
base_url = "https://your-domain.com/openai"
Droid CLI:~/.factory/config.json 加 custom_models,base_url 如 /droid/claude。
运维监控与风险控制
监控点:
- 面板:
/web查看 token 用量、账户健康、Key 统计。 - 日志:
logs/追踪 UA、错误(e.g., 403 客户端禁)。 - 告警:Prometheus 刮取
/metrics,阈值:账户失败率 >20%、TPM 超 80%。
回滚策略:
- 升级:
git pull && npm install && npm run build:web && restart。 - 故障:
crs restart,查 Redisping。 - 限流调优:日常 20/100k → 峰值降至 10/50k。
风险限:
- ToS 违规:仅学习用,自担封禁风险。
- 安全:更新 v1.1.249+,用 HTTPS,防火墙限 443。
- 成本:监控 TPM,超支自动暂停 Key。
实际案例:3 人团队共享 Opus,月 token 5M,成本~50 美元 / 人,零隐私泄露,工具响应 <2s。
资料来源:
- GitHub: Wei-Shaw/claude-relay-service(核心 README 与部署指南)。
通过以上参数与清单,自建 CRS 可快速实现多 LLM 池化,平衡成本与效率。立即试部署,解锁团队级 AI 生产力!(字数:1256)