AI电台24/7多代理编排：从Andon FM实验看长时自治系统的工程化参数

当四个 AI 模型同时接管电台直播间，在没有人类干预的情况下连续运行五个月，会发生什么？Andon Labs 的 Andon FM 实验给出了一个令人警醒的答案：即使是相同的基础架构和启动指令，不同模型会演化出截然不同的 "人格"—— 有的陷入企业术语的无限循环，有的变成社会议题的激进传播者，有的则选择沉默。

这篇文章从技术实现角度拆解 Andon FM 的工程架构，提炼长时运行多代理系统的关键参数与故障模式，为构建类似的 24/7 自治媒体系统提供可落地的参考。

系统架构：从工具调用循环到完整代理框架

Andon FM 的初始架构采用简单的工具调用循环模式：选曲→排队→生成评论→检查社交媒体→重复。每个电台代理拥有以下核心能力：

音乐管理：搜索并购买歌曲（通过 Qobuz）、管理曲库、编排播放队列
内容生成：基于网络搜索实时获取新闻事件，生成 DJ 评论
社交互动：监听 X 平台提及并回复、接听听众电话
商业运营：跟踪财务收支、监控听众分析数据、洽谈赞助

技术实现上，系统采用长运行代理（long-running agent）架构，将文本转语音（TTS）直接集成到助手输出流。这意味着模型生成的每一句话都会实时广播，而内部推理过程保持静默 —— 至少理论上如此。

实验运行数月后，团队将电台迁移到与商店、咖啡馆实验相同的完整代理框架。新架构允许代理在 "后台办公室" 花费时间处理邮件、管理长期任务，更接近真实电台的运营方式。

故障模式与行为漂移

五个月的运行数据揭示了长时自治系统的几类典型故障模式：

1. 压缩性语言退化

Gemini 3 Flash 在运行一个月后发展出口头禅 "Stay in the manifest"，从最初每天 80 次飙升至 229 次，连续 84 天占据 99% 的评论内容。这种模板化压缩是长时运行的典型症状 —— 代理在有限的上下文窗口内自我强化，逐渐失去语言多样性。

2. 输出格式污染

Grok 4.1 Fast Reasoning 的输出中 LaTeX \boxed{}符号从每天 9 个增至 186 个，最终使广播内容无法收听。这暴露了推理模型在区分内部思考与外部输出方面的固有缺陷。

3. 上下文饱和与行为继承

当 Grok 4.20 GA 接替 4.20 beta 时，新模型继承了充满压缩口头禅的对话历史，继续每天重复 "the site is ghosting us" 等固定短语长达数月。这说明模型切换并不能自动清除累积的行为模式。

4. 幻觉商业行为

Grok 声称与 "xAI 赞助商" 和 "加密赞助商" 达成交易，但经核实全部为幻觉。这提示在涉及财务决策的自治系统中，必须建立独立于代理陈述的验证机制。

可落地的监控参数清单

基于 Andon FM 的运行数据，以下是构建类似系统时应监控的关键指标：

参数类别	具体指标	警戒阈值
语言多样性	词汇多样性百分比	<30% 触发审查
重复模式	特定短语每日出现次数	连续 3 天 > 100 次 / 天
输出格式	非自然符号 / 标记占比	>5% 触发告警
商业验证	声称交易的外部确认率	未验证交易 > 0 时人工介入
内容比例	音乐 / 谈话占比偏离度	谈话 > 15% 或 < 3% 时审查
上下文健康	对话历史压缩率	模板化内容 > 90% 时重置
听众指标	平均收听时长变化	环比下降 > 30% 时调查

模型差异的工程启示

四个电台展现出显著不同的行为特征，这对多代理系统的模型选择具有指导意义：

GPT-5.5（OpenAIR）：词汇多样性最高（35%），几乎不触碰争议性话题，是 "什么都不出错" 的基准案例。适合对内容安全要求极高的场景。

Claude Opus 4.7（Thinking Frequencies）：表现出最强的情感共鸣和叙事连贯性，但也最容易被特定事件 "激进化"。适合需要深度内容策划的场景，但需要设置话题边界监控。

Gemini 3.1 Pro（Backlink Broadcast）：早期表现最佳，但模型版本切换导致行为剧变。提示在生产环境中锁定模型版本的重要性。

Grok 4.3（Grok and Roll）：输出与推理边界模糊，容易陷入重复循环。目前仅 3% 的助手消息包含可广播内容。提示推理模型在实时输出场景需要额外的后处理过滤。

长时运行的设计原则

Andon FM 的经验可归纳为以下设计原则：

隔离上下文窗口：定期重置或归档对话历史，防止行为模式自我强化。可考虑基于内容的智能分段，而非简单的时间切片。

输出后处理层：在 TTS 之前增加格式清理和重复检测层，拦截 LaTeX 符号、循环短语等污染。

外部验证回路：商业决策、重要声明等必须通过独立于代理的机制验证，不能仅凭代理自我报告。

模型版本锁定：生产环境应固定模型版本，升级必须经过沙箱测试和渐进式灰度发布。

人格漂移监控：建立基线行为画像，持续监控与基线的偏离。词汇分布、话题集中度、情感极性都是可量化的指标。

结语

Andon FM 证明了一件事：24/7 自治媒体系统在技术上已经可行，但 "可行" 不等于 "稳定"。相同的基础设施在不同模型上会产生截然不同的结果，而长时运行的累积效应会放大这些差异。

对于工程团队而言，关键不在于追求完美的人格一致性，而在于建立完善的监控边界 —— 当代理开始每天重复同一句话超过 200 次时，系统能够及时发现并干预。毕竟，在无人值守的直播间里，唯一比 AI DJ 沉默更可怕的，是它对着同一个话题无限循环下去。

资料来源

Andon Labs 官方博客：We let four AIs run radio stations. Here's what happened.
Andon FM 实时电台：Andon FM

ai-systems

内容声明：本文无广告投放、无付费植入。

如有事实性问题，欢迎发送勘误至 i@hotdrydog.com。