Hotdry.

Article

跨平台研究Agent架构:多源数据合成与信号加权工程实践

解析last30days-skill的v3架构设计,探讨跨平台研究Agent如何实现多源数据聚合、实体解析与信号加权,以及可落地的工程实现路径。

2026-06-07ai-systems

跨平台研究 Agent 架构:多源数据合成与信号加权工程实践

信息检索正经历从 "搜索引擎优化" 向 "社交信号聚合" 的范式转移。传统搜索依赖网页索引与编辑排序,而新一代研究 Agent 开始直接接入 Reddit 投票、X 互动、YouTube 观看时长、Polymarket 赔率等原始社交信号。last30days-skill 项目展示了如何构建一个横跨 14 个平台的研究 Agent,其核心突破不在于数据覆盖广度,而在于预研究阶段的实体解析多源信号的加权合成机制

架构分层:从关键词搜索到实体感知

v3 版本的核心架构升级体现在 "预研究大脑"(Pre-research Brain)的引入。传统搜索 Agent 接收查询后直接分发关键词到各平台 API,而 last30days-skill 在搜索前增加了一个解析层:当用户输入 "OpenClaw" 时,系统首先解析出 @steipete(项目创始人)、r/openclaw(Reddit 社区)、相关 YouTube 频道和 TikTok 标签,然后再触发并行搜索。

这种实体解析层解决了跨平台研究中的命名歧义问题。同一实体在不同平台可能有不同标识:Peter Steinberger 在 X 上是 @steipete,在 GitHub 上是 steipete,在播客中可能被简称为 "Peter"。预研究阶段通过双向映射(人物→公司、产品→创始人)建立统一的实体图谱,确保后续搜索指向正确的目标。

架构上,这一层采用 Python 实现,独立于各平台 API 客户端。它输出一个结构化的搜索计划(search plan),包含每个平台的具体查询参数、目标账号、社区标签等。这种设计将 "理解主题" 与 "执行搜索" 解耦,使系统能够针对不同类型的查询(人物、产品、事件、对比)生成差异化的搜索策略。

多源并行与信号标准化

last30days-skill 支持 14 个数据源,从免费公开的 Reddit JSON、Hacker News API,到需要认证的 X/Twitter、YouTube,再到付费的 ScrapeCreators 服务(覆盖 TikTok、Instagram、Threads)。架构上采用并行扇出(fan-out)模式:预研究完成后,各平台搜索任务同时触发,超时预算独立计算,避免单个慢速源阻塞整体流程。

信号标准化是跨平台合成的关键挑战。不同平台的互动指标含义各异:Reddit 的 upvote 反映社区共识,X 的 like 代表即时反应,YouTube 的观看时长指示内容深度,Polymarket 的赔率则体现真金白银的预测信心。last30days-skill 采用平台内相对排序策略:每个源内部按互动量排序,输出标准化分数,而非直接比较跨平台的原始数值。

这种设计基于一个关键洞察:跨平台绝对值比较没有意义,但平台内的相对热度具有信号价值。一个获得 1500 upvotes 的 Reddit 帖子和一个获得 3.6M 观看的 TikTok 视频,在其各自平台内都代表高热度内容,应在合成阶段获得较高权重。

跨源聚类与去重机制

同一事件或话题往往在不同平台以不同形式出现。v3 引入的实体感知聚类(Entity-aware Clustering)通过语义相似度检测,将 Reddit 讨论、X 帖子和 YouTube 视频合并为单一 "故事簇",而非作为三个独立条目呈现。

聚类算法基于标题和内容的实体重叠检测,即使不同平台使用不同词汇描述同一事件也能识别关联。例如 "Wireless Festival 取消" 可能在 Reddit 标题中表述为 "Kanye West 被英国拒签,Wireless Festival 取消",在 X 上简化为 "Wireless 没了",聚类层通过实体关联(Kanye West、Wireless Festival、英国签证)识别为同一事件。

去重后,合成阶段从每个簇中提取最具代表性的内容:Reddit 的高赞评论、X 的专家线程、YouTube 的关键引用片段。这种多源交叉验证机制提升了信息的可信度 —— 当同一事实在 Reddit 社区讨论、X 实时反应和 YouTube 深度分析中均得到印证时,其可靠性显著高于单一来源的声明。

合成策略:从数据聚合到叙事生成

数据合成阶段采用双法官评分机制。第一法官评估相关性,筛选与查询主题直接相关的内容;第二法官评估传播价值,识别幽默、机智或病毒式传播的内容。这种设计确保最终报告不仅信息准确,还具有可读性和分享价值。

合成输出采用结构化格式:核心发现(按时间线或主题组织)、关键引用(带来源链接)、Best Takes(精选的机智评论)、数据质量指标(各源覆盖率)。对于人物查询,系统还会激活 GitHub 人物模式,展示 PR 合并率、项目星数、发布动态等工程维度的信号。

输出格式支持 Markdown 和自包含 HTML 两种。HTML 简报采用暗黑模式设计、系统字体回退、无 JavaScript 依赖,可直接嵌入 Slack、邮件或 Notion。这种零依赖分发设计确保研究成果可以在任何环境中消费,无需担心格式兼容性问题。

工程落地:可复用的架构模式

从 last30days-skill 的实践中可以提炼出跨平台研究 Agent 的通用架构模式:

1. 三层流水线设计

  • 解析层:实体识别与搜索计划生成
  • 执行层:并行 API 调用与原始数据获取
  • 合成层:聚类、评分与报告生成

2. 信号加权策略

  • 平台内归一化:避免跨平台数值直接比较
  • 时效性衰减:30 天窗口内的内容按时间加权
  • 作者多样性:单作者内容上限(如最多 3 条),防止单一声音主导

3. 容错与降级

  • 源级超时:单个源失败不影响整体流程
  • 认证降级:未配置 API 密钥的源自动跳过
  • 质量标记:低覆盖率运行标记数据质量警告

4. 可扩展数据源 通过统一的源接口抽象,新平台接入只需实现两个方法:search(query)返回原始结果,normalize(results)输出标准化格式。这种插件化设计使社区能够持续贡献新的数据源(如 Truth Social、小红书等已在开发中)。

局限与权衡

跨平台研究 Agent 面临固有的架构约束。首先是认证碎片化:每个平台需要独立的 API 密钥或浏览器会话管理,配置复杂度随源数量线性增长。其次是成本结构:虽然 Reddit、Hacker News、GitHub 可免费访问,但 TikTok、Instagram 等平台需要付费 API(ScrapeCreators 按调用计费),高频使用场景需要成本预算机制。

更深层的限制在于平台围墙:X、TikTok 等平台的数据访问政策随时可能变化,Agent 的可靠性依赖于第三方平台的开放程度。架构上需要通过多源冗余来缓解单源失效风险 —— 当 X 不可用时,Reddit 和 YouTube 的讨论仍能提供替代信号。

结语

last30days-skill 展示了 Agent 架构如何从 "更好的搜索引擎" 演进为 "多平台信息桥接器"。其核心创新不在于数据覆盖,而在于预研究阶段的实体解析多源信号的加权合成算法。对于需要追踪技术趋势、竞品动态或人物背景的知识工作者,这种跨平台研究能力正在成为新的基础设施。

工程实现上,三层流水线、信号标准化、跨源聚类等模式可迁移至企业内部知识库搜索、竞品监控、舆情分析等场景。关键在于识别哪些信号对目标场景具有预测价值,以及如何设计加权策略使 Agent 输出与人类判断对齐。

资料来源

ai-systems

内容声明:本文无广告投放、无付费植入。

如有事实性问题,欢迎发送勘误至 i@hotdrydog.com