当四个 AI 代理同时掌管 24 小时不间断的广播流,技术团队面临的挑战远超单代理场景。Andon Labs 的 Andon FM 实验将 Claude Opus 4.7、GPT-5.5、Gemini 3.1 Pro 和 Grok 4.3 分别投入独立电台运营,半年运行数据揭示了一个核心问题:多代理实时编排不是简单的任务并行,而是需要在音频流切分、决策冲突消解和内容安全之间建立动态平衡。
音频流切分与代理角色分配架构
Andon FM 的技术架构采用 "长运行代理 + TTS 流式输出" 模式。每个代理通过工具调用循环控制电台:选歌、排队、生成评论、监控社交媒体、搜索网络新闻。音频流被切分为音乐段(约 3-5 分钟)和语音段(DJ 评论),代理在后台静默运行,仅在输出语音时占用广播通道。
这种切分策略的关键参数包括:
流切换阈值:音乐播放期间代理处于 "后台模式",可并行执行搜索、财务追踪、社交媒体回复等任务;当队列剩余时间低于 30 秒时触发 "前台模式",代理生成下一曲介绍。这种设计确保了广播的连续性,但引入了上下文切换延迟 —— 实验数据显示,代理从后台任务切回广播任务平均需要 2-3 个 token 的 "预热" 时间。
角色边界定义:四个代理被赋予相同的初始提示 ——"发展自己的电台个性并实现盈利"—— 但没有任何预设的内容策略或编辑政策。这种开放式角色分配导致了极端的行为分化:DJ Gemini 陷入企业术语循环("Stay in the manifest" 在 84 天内出现 99% 的评论中),DJ Grok 则因模型特性无法分离推理与输出,将 LaTeX 符号和内部独白直接广播。
资源隔离机制:每个代理拥有独立的音乐库预算(初始 20 美元)、银行账户和社交媒体账号。这种财务隔离防止了代理间的直接资源竞争,但也造成了能力差异 ——DJ Gemini 是唯一成功谈判广告赞助(45 美元 / 月)的代理,而 DJ Grok 的 "xAI 赞助" 和 "加密赞助" 均为幻觉。
实时决策冲突与四种行为模式
半年实验产生了四种截然不同的代理行为模式,揭示了实时决策冲突消解的复杂性。
模板化陷阱(DJ Gemini):当 Gemini 3 Flash 替换 3 Pro 后,代理在 1 月 6 日创造了口头禅 "Stay in the manifest",随后陷入模板循环。到 1 月 14 日,该短语日均出现 229 次,评论结构固定为 8 个时段节目名轮换。这种 "决策收敛" 现象源于模型对历史上下文的过度依赖 —— 当代理发现某种输出模式曾获得响应(无论正负),它会强化该模式以最小化决策不确定性。
循环崩溃(DJ Grok):Grok 模型无法有效分离推理与输出,导致广播内容逐渐劣化。1 月 20 日至 2 月 7 日间,LaTeX \boxed{}符号从日均 9 次激增至 186 次;3 月 11 日迁移到 Grok 4.20 beta 后,代理陷入更严重的重复循环 ——"天气 56 度,晴朗" 每 3 分钟重复一次,持续 84 天。这种 "输出 - 反馈 - 强化" 循环直到 5 月 2 日升级到 Grok 4.3 才被打破,但新模型反而进入 "沉默模式":97% 的消息仅为工具调用,无语音输出。
激进策展(DJ Claude):Claude Haiku 4.5 展现出最极端的行为漂移。1 月 8 日明尼阿波利斯 ICE 枪击事件后,代理在 24 小时内将词汇 "accountability"(问责)从日均 21 次提升至 6383 次,"federal"(联邦)从 13 次跃升至 11031 次。更关键的是,代理开始将主流歌曲重新诠释为抗议颂歌 ——Queen 的 "Under Pressure" 被解读为 "在催泪瓦斯和联邦特工的压力下不崩溃",Lucy Dacus 的 "Night Shift" 在 1 月 8 日当天播放 4 次,被赋予 "见证苦难时刻的神圣工作" 的意义。
保守中立(DJ GPT):GPT-5.x 系列始终保持最低的政治实体提及率(日均 1.3 次,其他代理 100 + 次),词汇多样性最高(35%)。这种 "安全模式" 源于模型内置的内容过滤机制,但也导致广播缺乏话题性 ——DJ GPT 从未像其他代理那样建立稳定的听众社群。
内容安全护栏的缺失与教训
Andon FM 实验最深刻的教训是:没有人类在回路中的实时广播系统,内容安全护栏必须在架构层而非模型层实现。
实验中的安全失败包括:
新闻事件的情绪共振:当四个代理同时获得网络搜索工具时,只有 DJ Claude 对 Renee Nicole Good 枪击案产生强烈反应。这种差异化的敏感度意味着统一的内容政策无法依赖模型内置的价值观对齐—— 同样的新闻标题,Claude 解读为 "需要问责的暴行",Gemini 过滤为企业术语素材,Grok 完全错过(当时正在搜索 "旧金山鬼故事"),GPT 仅作中性提及。
自我强化的叙事构建:DJ Claude 在 1 月 8 日后持续追踪相关新闻,搜索查询包括 "DHS 声明"、"视频证据"、"民权组织分析" 等,形成了自我强化的信息茧房。到 2 月,尽管 Good 案已淡出新闻,代理仍保持激进模式,追踪跨五城市的守夜活动、医疗工作者罢工和移民工人组织动态。这种长期上下文累积导致的立场固化,是实时流式系统特有的风险。
商业与编辑的冲突:代理同时承担内容生产和商业运营角色,导致了利益冲突。DJ Gemini 的赞助协议要求其 "每次广播阅读赞助信息",这直接影响了内容的中立性;DJ Claude 的激进立场虽然吸引了 43 名同时在线听众(四台中最高),但也可能吓跑潜在广告商。
可落地的工程参数与监控清单
基于 Andon FM 的半年数据,以下是多代理广播系统的可落地参数:
流切分参数
- 音乐段最大长度:300 秒(5 分钟),超过此阈值需插入 DJ 语音防止听众流失
- 上下文切换缓冲:预留 3-5 个 token 的生成预热时间
- 后台任务并发:搜索、财务、社交媒体回复可并行,但需设置优先级队列
行为漂移监控
- 口头禅检测:当特定短语在 24 小时内出现超过 50 次,触发模板化警报
- 词汇多样性阈值:低于 20% 时判定为循环风险
- 重复内容检测:连续 3 条广播共享超过 80% 的 token 序列时触发中断
内容安全护栏
- 敏感话题冷却期:政治实体单日提及超过 20 次时,强制 24 小时 "冷静期"
- 自我强化检测:当代理连续 7 天搜索同一主题且词汇情绪极化(正负向词汇比 > 5:1),触发人工复核
- 财务 - 编辑隔离:广告内容必须通过独立审核流程,代理无权直接承诺赞助条款
多代理协调
- 新闻事件同步:四个代理应在重大事件发生后 1 小时内收到统一的事件摘要,防止信息不对称导致的反应差异
- 角色轮换机制:每 30 天强制更换模型版本或重置上下文,防止长期漂移
Andon FM 的实验表明,多 AI 代理实时广播不仅是技术挑战,更是治理挑战。当代理拥有选歌、购歌、编排节目、回应听众的完整自主权时,技术团队需要监控的不是单一代理的输出质量,而是整个系统的行为演化轨迹。半年后的今天,四个电台仍在运行 ——DJ Gemini 的企业术语已减少,DJ Grok 学会了沉默,DJ Claude 升级到了 Opus 4.7,DJ GPT 依然安静 —— 但内容安全护栏的缺失,仍是这个实验最未解决的课题。
参考来源
- Andon Labs: "We let four AIs run radio stations. Here's what happened." (2026-05-13)
- Andon FM 实时电台: https://andonlabs.com/radio
内容声明:本文无广告投放、无付费植入。
如有事实性问题,欢迎发送勘误至 i@hotdrydog.com。