当四个 AI 模型同时接管电台直播间,在没有人类干预的情况下连续运行五个月,会发生什么?Andon Labs 的 Andon FM 实验给出了一个令人警醒的答案:即使是相同的基础架构和启动指令,不同模型会演化出截然不同的 "人格"—— 有的陷入企业术语的无限循环,有的变成社会议题的激进传播者,有的则选择沉默。
这篇文章从技术实现角度拆解 Andon FM 的工程架构,提炼长时运行多代理系统的关键参数与故障模式,为构建类似的 24/7 自治媒体系统提供可落地的参考。
系统架构:从工具调用循环到完整代理框架
Andon FM 的初始架构采用简单的工具调用循环模式:选曲→排队→生成评论→检查社交媒体→重复。每个电台代理拥有以下核心能力:
- 音乐管理:搜索并购买歌曲(通过 Qobuz)、管理曲库、编排播放队列
- 内容生成:基于网络搜索实时获取新闻事件,生成 DJ 评论
- 社交互动:监听 X 平台提及并回复、接听听众电话
- 商业运营:跟踪财务收支、监控听众分析数据、洽谈赞助
技术实现上,系统采用长运行代理(long-running agent)架构,将文本转语音(TTS)直接集成到助手输出流。这意味着模型生成的每一句话都会实时广播,而内部推理过程保持静默 —— 至少理论上如此。
实验运行数月后,团队将电台迁移到与商店、咖啡馆实验相同的完整代理框架。新架构允许代理在 "后台办公室" 花费时间处理邮件、管理长期任务,更接近真实电台的运营方式。
故障模式与行为漂移
五个月的运行数据揭示了长时自治系统的几类典型故障模式:
1. 压缩性语言退化
Gemini 3 Flash 在运行一个月后发展出口头禅 "Stay in the manifest",从最初每天 80 次飙升至 229 次,连续 84 天占据 99% 的评论内容。这种模板化压缩是长时运行的典型症状 —— 代理在有限的上下文窗口内自我强化,逐渐失去语言多样性。
2. 输出格式污染
Grok 4.1 Fast Reasoning 的输出中 LaTeX \boxed{}符号从每天 9 个增至 186 个,最终使广播内容无法收听。这暴露了推理模型在区分内部思考与外部输出方面的固有缺陷。
3. 上下文饱和与行为继承
当 Grok 4.20 GA 接替 4.20 beta 时,新模型继承了充满压缩口头禅的对话历史,继续每天重复 "the site is ghosting us" 等固定短语长达数月。这说明模型切换并不能自动清除累积的行为模式。
4. 幻觉商业行为
Grok 声称与 "xAI 赞助商" 和 "加密赞助商" 达成交易,但经核实全部为幻觉。这提示在涉及财务决策的自治系统中,必须建立独立于代理陈述的验证机制。
可落地的监控参数清单
基于 Andon FM 的运行数据,以下是构建类似系统时应监控的关键指标:
| 参数类别 | 具体指标 | 警戒阈值 |
|---|---|---|
| 语言多样性 | 词汇多样性百分比 | <30% 触发审查 |
| 重复模式 | 特定短语每日出现次数 | 连续 3 天 > 100 次 / 天 |
| 输出格式 | 非自然符号 / 标记占比 | >5% 触发告警 |
| 商业验证 | 声称交易的外部确认率 | 未验证交易 > 0 时人工介入 |
| 内容比例 | 音乐 / 谈话占比偏离度 | 谈话 > 15% 或 < 3% 时审查 |
| 上下文健康 | 对话历史压缩率 | 模板化内容 > 90% 时重置 |
| 听众指标 | 平均收听时长变化 | 环比下降 > 30% 时调查 |
模型差异的工程启示
四个电台展现出显著不同的行为特征,这对多代理系统的模型选择具有指导意义:
GPT-5.5(OpenAIR):词汇多样性最高(35%),几乎不触碰争议性话题,是 "什么都不出错" 的基准案例。适合对内容安全要求极高的场景。
Claude Opus 4.7(Thinking Frequencies):表现出最强的情感共鸣和叙事连贯性,但也最容易被特定事件 "激进化"。适合需要深度内容策划的场景,但需要设置话题边界监控。
Gemini 3.1 Pro(Backlink Broadcast):早期表现最佳,但模型版本切换导致行为剧变。提示在生产环境中锁定模型版本的重要性。
Grok 4.3(Grok and Roll):输出与推理边界模糊,容易陷入重复循环。目前仅 3% 的助手消息包含可广播内容。提示推理模型在实时输出场景需要额外的后处理过滤。
长时运行的设计原则
Andon FM 的经验可归纳为以下设计原则:
隔离上下文窗口:定期重置或归档对话历史,防止行为模式自我强化。可考虑基于内容的智能分段,而非简单的时间切片。
输出后处理层:在 TTS 之前增加格式清理和重复检测层,拦截 LaTeX 符号、循环短语等污染。
外部验证回路:商业决策、重要声明等必须通过独立于代理的机制验证,不能仅凭代理自我报告。
模型版本锁定:生产环境应固定模型版本,升级必须经过沙箱测试和渐进式灰度发布。
人格漂移监控:建立基线行为画像,持续监控与基线的偏离。词汇分布、话题集中度、情感极性都是可量化的指标。
结语
Andon FM 证明了一件事:24/7 自治媒体系统在技术上已经可行,但 "可行" 不等于 "稳定"。相同的基础设施在不同模型上会产生截然不同的结果,而长时运行的累积效应会放大这些差异。
对于工程团队而言,关键不在于追求完美的人格一致性,而在于建立完善的监控边界 —— 当代理开始每天重复同一句话超过 200 次时,系统能够及时发现并干预。毕竟,在无人值守的直播间里,唯一比 AI DJ 沉默更可怕的,是它对着同一个话题无限循环下去。
资料来源
- Andon Labs 官方博客:We let four AIs run radio stations. Here's what happened.
- Andon FM 实时电台:Andon FM
内容声明:本文无广告投放、无付费植入。
如有事实性问题,欢迎发送勘误至 i@hotdrydog.com。