跨平台研究 Agent 的引用合成机制:多源 Grounding 与溯源验证
研究型 Agent 面临的核心矛盾在于:信息分散在 Reddit、X、YouTube、Hacker News、Polymarket 等互不联通的平台,每个平台都有自己的 API、认证方式和数据格式。传统做法是为每个平台写独立爬虫,然后简单拼接结果 —— 但这会产生大量重复内容,且难以验证信息的真实性。
last30days-skill 提供了一种不同的思路:在聚合之前先理解 Topic,通过实体解析确定正确的搜索目标;在合成之前先做跨源去重,将同一事件在不同平台的呈现合并为单一证据节点;最终输出带有完整溯源路径的 Grounded Summary。
预研究阶段:从关键词到实体解析
跨平台搜索的第一个陷阱是关键词歧义。搜索 "Apple" 可能返回苹果公司、苹果水果、或 Apple TV+ 的剧集。last30days-skill 的 v3 引擎引入了一个关键步骤:在执行任何 API 调用之前,先用预研究模块解析 Topic 对应的实体。
对于人物类查询,系统会解析出对应的 X handle、GitHub 用户名、相关 Subreddit;对于产品或技术,会定位到官方账号、核心社区、热门 YouTube 频道。这种实体级别的解析使得搜索从 "匹配关键词" 升级为 "追踪正确的人与社区"。
工程实现上,这一层需要维护一个可扩展的实体映射表,支持从别名到标准实体的双向解析。当用户查询 "Peter Steinberger" 时,系统知道应该搜索 @steipete 的 X 帖子和 steipete 的 GitHub 活动,而不是泛泛地匹配名字字符串。
并行采集与去重:跨源集群合并
多源采集的最大挑战是同一事件在不同平台的重复表达。一个产品发布可能在 X 上有官方公告、在 Reddit 上有讨论串、在 YouTube 上有评测视频 —— 传统做法会将这三条作为独立结果呈现,造成信息冗余。
last30days-skill 的解决方案是实体感知的集群合并(Cross-source Cluster Merging)。系统通过实体重叠检测识别跨平台匹配项:即使标题用词不同,只要涉及相同的核心实体(产品名、人物、事件),就将其归入同一集群。
这一机制的关键参数包括:
- 实体匹配阈值:定义两个内容片段需要共享多少核心实体才能被视为同一事件
- 时间窗口:限制集群内内容的时间跨度,避免将相隔数月的同名事件混淆
- 来源多样性权重:优先保留来自不同平台的证据,确保视角多元
集群合并后,合成阶段只需为每个集群生成一份摘要,而非为每条原始内容重复输出。这不仅减少了输出长度,更重要的是建立了证据的多源互证关系。
Grounding 机制:从合成到溯源
研究 Agent 的可信度取决于其结论能否追溯到原始证据。last30days-skill 的 Grounding 机制包含三个层次:
来源标注:每条合成结论都附带原始平台、作者、发布时间、互动数据(upvotes、likes、views)。这不是简单的链接列表,而是结构化的溯源元数据。
证据分级:系统根据互动数据对证据进行加权。一个获得 1,500 upvotes 的 Reddit 帖子被视为比无人阅读的博客文章更强的信号。Polymarket 的预测概率(由真实资金支撑)则提供了另一种形式的证据强度度量。
多源互证:当同一结论在多个独立平台出现,系统会在合成中显式标注这种互证关系。例如:"该观点在 Reddit(1,200 upvotes)和 X(5.2K likes)均有广泛讨论"。
作者配额与信号去噪
多源聚合容易陷入的陷阱是单一高产出作者主导结果。last30days-skill 设置了 Per-author Cap(每作者上限),默认每个作者最多贡献 3 条内容。这防止了某个活跃账号通过频繁发帖淹没其他声音。
另一个关键机制是噪声过滤。Polymarket 的预测市场数据会经过常见词消歧处理,避免 "Apple" 匹配到 "Will Apple release a car?" 这种无关预测。Reddit 采集则设置了超时预算和运行时回退,确保单个慢响应线程不会阻塞整个流水线。
可落地的工程参数
基于 last30days-skill 的实现经验,构建跨平台研究 Agent 的引用合成系统时,建议关注以下可配置参数:
| 参数 | 建议值 | 说明 |
|---|---|---|
per_author_cap |
3 | 防止单一声音主导 |
cluster_time_window |
72h | 同一事件的跨平台内容时间跨度 |
min_engagement_threshold |
平台相关 | Reddit: 100 upvotes, X: 50 likes |
timeout_budget |
30s per source | 单源采集超时 |
entity_match_ratio |
0.6 | 共享实体占比阈值 |
此外,INCLUDE_SOURCES 和 EXCLUDE_SOURCES 环境变量允许按需启用特定平台。例如,金融类查询可启用 Polymarket 获取预测市场信号,而技术对比类查询可侧重 GitHub 和 Hacker News。
局限与边界
跨平台引用合成并非万能。首先,它依赖各平台的公开数据可用性 ——X 和 TikTok 需要用户自行提供认证,YouTube 需要本地安装 yt-dlp。其次,实体解析的准确性直接影响搜索质量,对于新兴话题或小众人物,预研究模块可能无法正确解析实体。
另一个限制是实时性。虽然系统聚合了 "过去 30 天" 的数据,但各平台的索引延迟不同:Reddit 和 Hacker News 相对实时,YouTube 转录可能需要额外处理时间,Polymarket 数据则取决于市场结算周期。
资料来源
- mvanhorn/last30days-skill GitHub 仓库文档与 SKILL.md 规范
内容声明:本文无广告投放、无付费植入。
如有事实性问题,欢迎发送勘误至 i@hotdrydog.com。