使用 Azure 服务构建 API 驱动的 AI 电话代理外呼系统：实时 STT-LLM-TTS 管道与呼叫状态管理

在现代客服场景中，AI 电话代理已成为提升效率的关键工具。通过 Azure 服务构建 API 驱动的外呼系统，能够实现智能化的语音交互，而无需依赖第三方电话服务商如 Twilio。这种方法强调 Microsoft 生态的直接集成，支持实时语音处理和状态管理，确保系统在高负载下的稳定性与可扩展性。

核心观点在于，API 驱动的外呼设计允许开发者通过简单 HTTP 请求发起呼叫，结合 STT（Speech-to-Text）、LLM（Large Language Model）和 TTS（Text-to-Speech）管道，形成闭环的实时对话流程。这种架构避免了传统呼叫中心的复杂性，转而利用云原生服务实现弹性扩展。例如，在保险或 IT 支持领域，AI 代理可以根据预定义任务自动收集信息、生成待办事项，并处理断线续传场景，从而减少人工干预。

证据显示，这种集成在 Microsoft 的 Call Center AI 项目中得到验证。该项目使用 Azure Communication Services 作为呼叫网关，支持入站和出站通话，同时集成 Azure Cognitive Services 的 STT 和 TTS 模块，实现低延迟的语音转换。LLM 部分则依赖 Azure OpenAI 的 GPT-4o-mini 模型，支持 RAG（Retrieval-Augmented Generation）机制检索内部知识库，确保对话的准确性和合规性。项目文档指出：“Integrates inbound and outbound calls with a dedicated phone number, supports multiple languages and voice tones, and allows users to provide or receive information via SMS。” 此外，系统通过 Cosmos DB 存储对话历史和 claim 数据，支持后续分析和细调。

要落地这样的系统，首先需规划资源配置。创建 Azure 资源组后，部署 Communication Services 资源，并获取电话号码（支持语音和 SMS）。使用 Bicep 或 ARM 模板自动化部署容器应用，确保启用系统托管身份验证。配置 OpenAI 端点，选择 GPT-4o-mini 以平衡性能和成本（输入令牌 $0.15 / 百万，输出 $0.60 / 百万）。对于 STT 和 TTS，选择西欧区域的 Cognitive Services 以匹配 Communication Services 的低延迟需求。关键参数包括：STT 实时模式下的 vad_threshold=0.5（语音活动检测阈值，范围 0.1-1），vad_silence_timeout_ms=500（静音超时），recognition_retry_max=3（识别重试次数）。TTS 使用 Neural 语音，如 fr-FR-DeniseNeural，支持自定义神经语音以匹配品牌。

呼叫状态管理是可扩展性的核心。通过 Event Grid 和 Azure Storage 队列监控呼叫事件，如连接、转录和结束。实现断线续传需设置 callback_timeout_hour=3（回调超时 3 小时），并使用 Redis 缓存存储会话状态，避免重复处理。API 接口设计为 POST /call，请求体包含 bot_company、bot_name、phone_number、task 和 claim schema。例如，claim 可定义为数组：[{"name": "incident_datetime", "type": "datetime"}, {"name": "location", "text": "text"}]，确保数据验证（datetime、email、phone_number、text）。响应返回呼叫 ID，用于后续查询状态 via GET /call/{id}。

为实现可扩展语音自动化，引入特征标志控制实验，如 recording_enabled（默认 false，用于质量保障）和 slow_llm_for_chat（切换到 GPT-4o 以处理复杂查询）。监控方面，集成 Application Insights 追踪延迟指标，如 call.answer.latency（用户语音结束到 bot 响应开始的时间）。自定义指标包括 call.aec.dropped（回声消除丢弃次数）和 call.aec.missed（回声消除失败次数）。建议设置警报阈值：answer_hard_timeout_sec=15（LLM 硬超时），answer_soft_timeout_sec=4（软超时发送等待消息），phone_silence_timeout_sec=20（静音警告）。成本优化参数：使用 serverless 容器应用，平均 2 个副本（1 vCPU, 2GB 内存），针对 1000 呼叫 / 月（每呼叫 10 分钟）估算约 $720，包括 Communication Services 的 $0.004 / 分钟音频流和 Speech Services 的 $1 / 小时 STT。

落地清单如下：

环境准备：安装 Azure CLI，创建资源组（e.g., ccai-demo），部署 Communication Services 和电话号码。
配置 LLM 和语音服务：设置 OpenAI 部署（gpt-4o-mini），Cognitive Services 密钥；配置 config.yaml 中的 lang.default_short_code（如 fr-FR）和 prompts.tts.hello_tpl（多变模板增强互动）。
API 部署：使用 make deploy name=resource-group 部署容器镜像（ghcr.io/clemlesne/call-center-ai:main）；暴露端点 https://xxx/call。
测试外呼：curl POST /call with JSON payload 测试任务执行，验证 claim 数据存储在 Cosmos DB。
状态管理和扩展：启用 App Configuration 的特征标志；使用 local.py 脚本本地迭代，无需电话测试管道。
监控与优化：在 Application Insights 中查询 LLM 令牌使用和响应延迟；细调模型使用历史对话数据（遵守隐私法规）。
回滚策略：若延迟超 2 秒，fallback 到人类代理 via Communication Services 转接；定期 A/B 测试提示模板。

风险包括高流量下的 RU/s 峰值（Cosmos DB 建议 1k RU/s 双区域）和 LLM 幻觉（通过内容过滤和 moderation_levels=4-7 缓解）。总体而言，这种 Azure 驱动的方法提供端到端控制，适用于中型客服场景，支持 24/7 操作。

资料来源：Microsoft Call Center AI GitHub 项目（https://github.com/microsoft/call-center-ai），Azure 官方文档。