Hotdry.

Article

跨平台研究 Agent 的引用合成机制:多源 Grounding 与溯源验证

解析 last30days-skill 的跨平台引用合成架构,从实体解析、集群合并到溯源验证的完整工程实现。

2026-06-09ai-systems

跨平台研究 Agent 的引用合成机制:多源 Grounding 与溯源验证

研究型 Agent 面临的核心矛盾在于:信息分散在 Reddit、X、YouTube、Hacker News、Polymarket 等互不联通的平台,每个平台都有自己的 API、认证方式和数据格式。传统做法是为每个平台写独立爬虫,然后简单拼接结果 —— 但这会产生大量重复内容,且难以验证信息的真实性。

last30days-skill 提供了一种不同的思路:在聚合之前先理解 Topic,通过实体解析确定正确的搜索目标;在合成之前先做跨源去重,将同一事件在不同平台的呈现合并为单一证据节点;最终输出带有完整溯源路径的 Grounded Summary。

预研究阶段:从关键词到实体解析

跨平台搜索的第一个陷阱是关键词歧义。搜索 "Apple" 可能返回苹果公司、苹果水果、或 Apple TV+ 的剧集。last30days-skill 的 v3 引擎引入了一个关键步骤:在执行任何 API 调用之前,先用预研究模块解析 Topic 对应的实体。

对于人物类查询,系统会解析出对应的 X handle、GitHub 用户名、相关 Subreddit;对于产品或技术,会定位到官方账号、核心社区、热门 YouTube 频道。这种实体级别的解析使得搜索从 "匹配关键词" 升级为 "追踪正确的人与社区"。

工程实现上,这一层需要维护一个可扩展的实体映射表,支持从别名到标准实体的双向解析。当用户查询 "Peter Steinberger" 时,系统知道应该搜索 @steipete 的 X 帖子和 steipete 的 GitHub 活动,而不是泛泛地匹配名字字符串。

并行采集与去重:跨源集群合并

多源采集的最大挑战是同一事件在不同平台的重复表达。一个产品发布可能在 X 上有官方公告、在 Reddit 上有讨论串、在 YouTube 上有评测视频 —— 传统做法会将这三条作为独立结果呈现,造成信息冗余。

last30days-skill 的解决方案是实体感知的集群合并(Cross-source Cluster Merging)。系统通过实体重叠检测识别跨平台匹配项:即使标题用词不同,只要涉及相同的核心实体(产品名、人物、事件),就将其归入同一集群。

这一机制的关键参数包括:

  • 实体匹配阈值:定义两个内容片段需要共享多少核心实体才能被视为同一事件
  • 时间窗口:限制集群内内容的时间跨度,避免将相隔数月的同名事件混淆
  • 来源多样性权重:优先保留来自不同平台的证据,确保视角多元

集群合并后,合成阶段只需为每个集群生成一份摘要,而非为每条原始内容重复输出。这不仅减少了输出长度,更重要的是建立了证据的多源互证关系。

Grounding 机制:从合成到溯源

研究 Agent 的可信度取决于其结论能否追溯到原始证据。last30days-skill 的 Grounding 机制包含三个层次:

来源标注:每条合成结论都附带原始平台、作者、发布时间、互动数据(upvotes、likes、views)。这不是简单的链接列表,而是结构化的溯源元数据。

证据分级:系统根据互动数据对证据进行加权。一个获得 1,500 upvotes 的 Reddit 帖子被视为比无人阅读的博客文章更强的信号。Polymarket 的预测概率(由真实资金支撑)则提供了另一种形式的证据强度度量。

多源互证:当同一结论在多个独立平台出现,系统会在合成中显式标注这种互证关系。例如:"该观点在 Reddit(1,200 upvotes)和 X(5.2K likes)均有广泛讨论"。

作者配额与信号去噪

多源聚合容易陷入的陷阱是单一高产出作者主导结果。last30days-skill 设置了 Per-author Cap(每作者上限),默认每个作者最多贡献 3 条内容。这防止了某个活跃账号通过频繁发帖淹没其他声音。

另一个关键机制是噪声过滤。Polymarket 的预测市场数据会经过常见词消歧处理,避免 "Apple" 匹配到 "Will Apple release a car?" 这种无关预测。Reddit 采集则设置了超时预算和运行时回退,确保单个慢响应线程不会阻塞整个流水线。

可落地的工程参数

基于 last30days-skill 的实现经验,构建跨平台研究 Agent 的引用合成系统时,建议关注以下可配置参数:

参数 建议值 说明
per_author_cap 3 防止单一声音主导
cluster_time_window 72h 同一事件的跨平台内容时间跨度
min_engagement_threshold 平台相关 Reddit: 100 upvotes, X: 50 likes
timeout_budget 30s per source 单源采集超时
entity_match_ratio 0.6 共享实体占比阈值

此外,INCLUDE_SOURCESEXCLUDE_SOURCES 环境变量允许按需启用特定平台。例如,金融类查询可启用 Polymarket 获取预测市场信号,而技术对比类查询可侧重 GitHub 和 Hacker News。

局限与边界

跨平台引用合成并非万能。首先,它依赖各平台的公开数据可用性 ——X 和 TikTok 需要用户自行提供认证,YouTube 需要本地安装 yt-dlp。其次,实体解析的准确性直接影响搜索质量,对于新兴话题或小众人物,预研究模块可能无法正确解析实体。

另一个限制是实时性。虽然系统聚合了 "过去 30 天" 的数据,但各平台的索引延迟不同:Reddit 和 Hacker News 相对实时,YouTube 转录可能需要额外处理时间,Polymarket 数据则取决于市场结算周期。

资料来源

  • mvanhorn/last30days-skill GitHub 仓库文档与 SKILL.md 规范

ai-systems

内容声明:本文无广告投放、无付费植入。

如有事实性问题,欢迎发送勘误至 i@hotdrydog.com