跨平台研究 Agent 架构：多源数据合成与信号加权工程实践

信息检索正经历从 "搜索引擎优化" 向 "社交信号聚合" 的范式转移。传统搜索依赖网页索引与编辑排序，而新一代研究 Agent 开始直接接入 Reddit 投票、X 互动、YouTube 观看时长、Polymarket 赔率等原始社交信号。last30days-skill 项目展示了如何构建一个横跨 14 个平台的研究 Agent，其核心突破不在于数据覆盖广度，而在于预研究阶段的实体解析与多源信号的加权合成机制。

架构分层：从关键词搜索到实体感知

v3 版本的核心架构升级体现在 "预研究大脑"（Pre-research Brain）的引入。传统搜索 Agent 接收查询后直接分发关键词到各平台 API，而 last30days-skill 在搜索前增加了一个解析层：当用户输入 "OpenClaw" 时，系统首先解析出 @steipete（项目创始人）、r/openclaw（Reddit 社区）、相关 YouTube 频道和 TikTok 标签，然后再触发并行搜索。

这种实体解析层解决了跨平台研究中的命名歧义问题。同一实体在不同平台可能有不同标识：Peter Steinberger 在 X 上是 @steipete，在 GitHub 上是 steipete，在播客中可能被简称为 "Peter"。预研究阶段通过双向映射（人物→公司、产品→创始人）建立统一的实体图谱，确保后续搜索指向正确的目标。

架构上，这一层采用 Python 实现，独立于各平台 API 客户端。它输出一个结构化的搜索计划（search plan），包含每个平台的具体查询参数、目标账号、社区标签等。这种设计将 "理解主题" 与 "执行搜索" 解耦，使系统能够针对不同类型的查询（人物、产品、事件、对比）生成差异化的搜索策略。

多源并行与信号标准化

last30days-skill 支持 14 个数据源，从免费公开的 Reddit JSON、Hacker News API，到需要认证的 X/Twitter、YouTube，再到付费的 ScrapeCreators 服务（覆盖 TikTok、Instagram、Threads）。架构上采用并行扇出（fan-out）模式：预研究完成后，各平台搜索任务同时触发，超时预算独立计算，避免单个慢速源阻塞整体流程。

信号标准化是跨平台合成的关键挑战。不同平台的互动指标含义各异：Reddit 的 upvote 反映社区共识，X 的 like 代表即时反应，YouTube 的观看时长指示内容深度，Polymarket 的赔率则体现真金白银的预测信心。last30days-skill 采用平台内相对排序策略：每个源内部按互动量排序，输出标准化分数，而非直接比较跨平台的原始数值。

这种设计基于一个关键洞察：跨平台绝对值比较没有意义，但平台内的相对热度具有信号价值。一个获得 1500 upvotes 的 Reddit 帖子和一个获得 3.6M 观看的 TikTok 视频，在其各自平台内都代表高热度内容，应在合成阶段获得较高权重。

跨源聚类与去重机制

同一事件或话题往往在不同平台以不同形式出现。v3 引入的实体感知聚类（Entity-aware Clustering）通过语义相似度检测，将 Reddit 讨论、X 帖子和 YouTube 视频合并为单一 "故事簇"，而非作为三个独立条目呈现。

聚类算法基于标题和内容的实体重叠检测，即使不同平台使用不同词汇描述同一事件也能识别关联。例如 "Wireless Festival 取消" 可能在 Reddit 标题中表述为 "Kanye West 被英国拒签，Wireless Festival 取消"，在 X 上简化为 "Wireless 没了"，聚类层通过实体关联（Kanye West、Wireless Festival、英国签证）识别为同一事件。

去重后，合成阶段从每个簇中提取最具代表性的内容：Reddit 的高赞评论、X 的专家线程、YouTube 的关键引用片段。这种多源交叉验证机制提升了信息的可信度 —— 当同一事实在 Reddit 社区讨论、X 实时反应和 YouTube 深度分析中均得到印证时，其可靠性显著高于单一来源的声明。

合成策略：从数据聚合到叙事生成

数据合成阶段采用双法官评分机制。第一法官评估相关性，筛选与查询主题直接相关的内容；第二法官评估传播价值，识别幽默、机智或病毒式传播的内容。这种设计确保最终报告不仅信息准确，还具有可读性和分享价值。

合成输出采用结构化格式：核心发现（按时间线或主题组织）、关键引用（带来源链接）、Best Takes（精选的机智评论）、数据质量指标（各源覆盖率）。对于人物查询，系统还会激活 GitHub 人物模式，展示 PR 合并率、项目星数、发布动态等工程维度的信号。

输出格式支持 Markdown 和自包含 HTML 两种。HTML 简报采用暗黑模式设计、系统字体回退、无 JavaScript 依赖，可直接嵌入 Slack、邮件或 Notion。这种零依赖分发设计确保研究成果可以在任何环境中消费，无需担心格式兼容性问题。

工程落地：可复用的架构模式

从 last30days-skill 的实践中可以提炼出跨平台研究 Agent 的通用架构模式：

1. 三层流水线设计

解析层：实体识别与搜索计划生成
执行层：并行 API 调用与原始数据获取
合成层：聚类、评分与报告生成

2. 信号加权策略

平台内归一化：避免跨平台数值直接比较
时效性衰减：30 天窗口内的内容按时间加权
作者多样性：单作者内容上限（如最多 3 条），防止单一声音主导

3. 容错与降级

源级超时：单个源失败不影响整体流程
认证降级：未配置 API 密钥的源自动跳过
质量标记：低覆盖率运行标记数据质量警告

4. 可扩展数据源 通过统一的源接口抽象，新平台接入只需实现两个方法：search(query)返回原始结果，normalize(results)输出标准化格式。这种插件化设计使社区能够持续贡献新的数据源（如 Truth Social、小红书等已在开发中）。

局限与权衡

跨平台研究 Agent 面临固有的架构约束。首先是认证碎片化：每个平台需要独立的 API 密钥或浏览器会话管理，配置复杂度随源数量线性增长。其次是成本结构：虽然 Reddit、Hacker News、GitHub 可免费访问，但 TikTok、Instagram 等平台需要付费 API（ScrapeCreators 按调用计费），高频使用场景需要成本预算机制。

更深层的限制在于平台围墙：X、TikTok 等平台的数据访问政策随时可能变化，Agent 的可靠性依赖于第三方平台的开放程度。架构上需要通过多源冗余来缓解单源失效风险 —— 当 X 不可用时，Reddit 和 YouTube 的讨论仍能提供替代信号。

结语

last30days-skill 展示了 Agent 架构如何从 "更好的搜索引擎" 演进为 "多平台信息桥接器"。其核心创新不在于数据覆盖，而在于预研究阶段的实体解析和多源信号的加权合成算法。对于需要追踪技术趋势、竞品动态或人物背景的知识工作者，这种跨平台研究能力正在成为新的基础设施。

工程实现上，三层流水线、信号标准化、跨源聚类等模式可迁移至企业内部知识库搜索、竞品监控、舆情分析等场景。关键在于识别哪些信号对目标场景具有预测价值，以及如何设计加权策略使 Agent 输出与人类判断对齐。

资料来源

last30days-skill GitHub 仓库: https://github.com/mvanhorn/last30days-skill

ai-systems

内容声明：本文无广告投放、无付费植入。

如有事实性问题，欢迎发送勘误至 i@hotdrydog.com。

跨平台研究Agent架构：多源数据合成与信号加权工程实践