在客服自动化领域,API 触发 AI 电话代理是一种高效方式,能让系统按需发起呼叫,而非依赖复杂调度。通过微软的 Call Center AI 项目,这种机制结合 Azure 服务,实现从 API 调用到实时语音交互的全链路自动化。该项目强调单次 API 触发与 bot 号码直拨的差异,前者适合事件驱动场景,后者适用于用户主动接入。
核心机制源于 POST /call 端点,用户发送 JSON 负载触发拨号。例如,负载包含 bot_company(如 “Contoso”)、bot_name(如 “Amélie”)、目标 phone_number、任务描述(如 “帮助客户处理数字工作场所问题”)、agent_phone_number(转人工备用)和 claim schema(结构化数据收集字段,如 hardware_info:text、first_seen:datetime)。调用 curl 命令即可启动:“curl --header 'Content-Type: application/json' --request POST --url https://xxx/call --data $data”。这种设计确保单次触发无状态启动,但内部支持断线续传和历史对话加载。
对于直拨 bot,用户直接呼叫配置的 Azure Communication Services 号码,系统自动接入 AI 管道。该管道实时流式处理:语音经 Speech-to-Text(Cognitive Services)转录为文本,注入 GPT-4o-mini(或 nano,高性能低成本)LLM 生成响应,支持 RAG 检索内部文档和 Redis 缓存历史,提升准确性;响应再经 Text-to-Speech 转为语音回放。全程使用 Event Grid 和 Storage Queues 解耦,确保低延迟。项目使用 gpt-4o-mini 作为默认模型,其 10-15x 成本溢价换来细腻理解,包括领域术语、私密数据处理和 jailbreak 检测。
落地参数需在 config.yaml 精细调优。以 conversation.initiate 为例,默认 lang short_code 为 fr-FR,支持多语言切换(如 zh-CN-XiaoqiuNeural),声调自定义 via custom_voice_endpoint_id。claim schema 默认包括 caller_email:email、caller_name:text 等,支持动态覆盖 API 负载中。任务描述 task 保持简短英文,如 “收集保险理赔数据,直至完整”。特征旗标如 answer_hard_timeout_sec=15(LLM 硬超时)、phone_silence_timeout_sec=20(静默警告)、vad_threshold=0.5(语音活动检测阈值),这些参数直接影响交互流畅度。通过 App Configuration 动态刷新,每 60 秒生效,无需重启。
部署清单简明:1)Azure CLI 创建资源组(如 ccai-demo);2)部署 Communication Services(系统托管身份),购置支持 voice/SMS 号码;3)填 config-remote.yaml(image_version=0.1.0),make deploy name=my-rg;4)本地开发用 make install + devtunnel + uvicorn app:app。监控集成 Application Insights,追踪 call.answer.latency(用户语音结束至 bot 响应时延)、call.aec.droped(回声消除丢帧),以及 OpenLLMetry 的 LLM 指标(tokens、延迟)。成本估算:1000 通 10 分钟呼叫月费约 720 美元,主因 Cosmos DB RU/s 和 Speech 服务。
优化落地要点包括:预热 LLM PTU 减至半延迟;启用 recording_enabled=true 存档质检;RAG 索引用 text-embedding-3-large(1536 维),字段如 question:Edm.String、vectors:Collection (Edm.Single)。风险控制:POC 阶段限低中复杂度呼叫,人力 fallback via 转 agent_phone_number;moderation levels 0-7 过滤有害内容。回滚策略:feature flags 实验 A/B,采样日志防 Monitor 爆成本。
实际参数清单:
-
超时参数:recognition_stt_complete_timeout_ms=100,vad_silence_timeout_ms=500,确保 ASR 敏捷。
-
LLM 配置:slow_llm_for_chat=false 优先 nano;prompts.tts.hello_tpl 多模板随机,提升自然感。
-
Schema 验证:仅支持 datetime/email/phone_number/text,描述辅助 LLM 填充。
-
监控阈值:answer_soft_timeout_sec=4 发等待提示,避免用户感知延迟。
此方案适用于 IT 支持、保险理赔等,API 触发差异化于 Twilio stateful session,聚焦无服务器弹性。通过最小配置,数小时内上线 bot,实现 24/7 客服管道。
资料来源:
[1] https://github.com/microsoft/call-center-ai “Send a phone call from AI agent, in an API call.”
[2] 项目 Demo 展示实时交互与数据存储。