跨平台研究 Agent 的引用合成机制：多源 Grounding 与溯源验证

研究型 Agent 面临的核心矛盾在于：信息分散在 Reddit、X、YouTube、Hacker News、Polymarket 等互不联通的平台，每个平台都有自己的 API、认证方式和数据格式。传统做法是为每个平台写独立爬虫，然后简单拼接结果 —— 但这会产生大量重复内容，且难以验证信息的真实性。

last30days-skill 提供了一种不同的思路：在聚合之前先理解 Topic，通过实体解析确定正确的搜索目标；在合成之前先做跨源去重，将同一事件在不同平台的呈现合并为单一证据节点；最终输出带有完整溯源路径的 Grounded Summary。

预研究阶段：从关键词到实体解析

跨平台搜索的第一个陷阱是关键词歧义。搜索 "Apple" 可能返回苹果公司、苹果水果、或 Apple TV+ 的剧集。last30days-skill 的 v3 引擎引入了一个关键步骤：在执行任何 API 调用之前，先用预研究模块解析 Topic 对应的实体。

对于人物类查询，系统会解析出对应的 X handle、GitHub 用户名、相关 Subreddit；对于产品或技术，会定位到官方账号、核心社区、热门 YouTube 频道。这种实体级别的解析使得搜索从 "匹配关键词" 升级为 "追踪正确的人与社区"。

工程实现上，这一层需要维护一个可扩展的实体映射表，支持从别名到标准实体的双向解析。当用户查询 "Peter Steinberger" 时，系统知道应该搜索 @steipete 的 X 帖子和 steipete 的 GitHub 活动，而不是泛泛地匹配名字字符串。

并行采集与去重：跨源集群合并

多源采集的最大挑战是同一事件在不同平台的重复表达。一个产品发布可能在 X 上有官方公告、在 Reddit 上有讨论串、在 YouTube 上有评测视频 —— 传统做法会将这三条作为独立结果呈现，造成信息冗余。

last30days-skill 的解决方案是实体感知的集群合并（Cross-source Cluster Merging）。系统通过实体重叠检测识别跨平台匹配项：即使标题用词不同，只要涉及相同的核心实体（产品名、人物、事件），就将其归入同一集群。

这一机制的关键参数包括：

实体匹配阈值：定义两个内容片段需要共享多少核心实体才能被视为同一事件
时间窗口：限制集群内内容的时间跨度，避免将相隔数月的同名事件混淆
来源多样性权重：优先保留来自不同平台的证据，确保视角多元

集群合并后，合成阶段只需为每个集群生成一份摘要，而非为每条原始内容重复输出。这不仅减少了输出长度，更重要的是建立了证据的多源互证关系。

Grounding 机制：从合成到溯源

研究 Agent 的可信度取决于其结论能否追溯到原始证据。last30days-skill 的 Grounding 机制包含三个层次：

来源标注：每条合成结论都附带原始平台、作者、发布时间、互动数据（upvotes、likes、views）。这不是简单的链接列表，而是结构化的溯源元数据。

证据分级：系统根据互动数据对证据进行加权。一个获得 1,500 upvotes 的 Reddit 帖子被视为比无人阅读的博客文章更强的信号。Polymarket 的预测概率（由真实资金支撑）则提供了另一种形式的证据强度度量。

多源互证：当同一结论在多个独立平台出现，系统会在合成中显式标注这种互证关系。例如："该观点在 Reddit（1,200 upvotes）和 X（5.2K likes）均有广泛讨论"。

作者配额与信号去噪

多源聚合容易陷入的陷阱是单一高产出作者主导结果。last30days-skill 设置了 Per-author Cap（每作者上限），默认每个作者最多贡献 3 条内容。这防止了某个活跃账号通过频繁发帖淹没其他声音。

另一个关键机制是噪声过滤。Polymarket 的预测市场数据会经过常见词消歧处理，避免 "Apple" 匹配到 "Will Apple release a car?" 这种无关预测。Reddit 采集则设置了超时预算和运行时回退，确保单个慢响应线程不会阻塞整个流水线。

可落地的工程参数

基于 last30days-skill 的实现经验，构建跨平台研究 Agent 的引用合成系统时，建议关注以下可配置参数：

参数	建议值	说明
`per_author_cap`	3	防止单一声音主导
`cluster_time_window`	72h	同一事件的跨平台内容时间跨度
`min_engagement_threshold`	平台相关	Reddit: 100 upvotes, X: 50 likes
`timeout_budget`	30s per source	单源采集超时
`entity_match_ratio`	0.6	共享实体占比阈值

此外，INCLUDE_SOURCES 和 EXCLUDE_SOURCES 环境变量允许按需启用特定平台。例如，金融类查询可启用 Polymarket 获取预测市场信号，而技术对比类查询可侧重 GitHub 和 Hacker News。

局限与边界

跨平台引用合成并非万能。首先，它依赖各平台的公开数据可用性 ——X 和 TikTok 需要用户自行提供认证，YouTube 需要本地安装 yt-dlp。其次，实体解析的准确性直接影响搜索质量，对于新兴话题或小众人物，预研究模块可能无法正确解析实体。

另一个限制是实时性。虽然系统聚合了 "过去 30 天" 的数据，但各平台的索引延迟不同：Reddit 和 Hacker News 相对实时，YouTube 转录可能需要额外处理时间，Polymarket 数据则取决于市场结算周期。

资料来源

mvanhorn/last30days-skill GitHub 仓库文档与 SKILL.md 规范

ai-systems

内容声明：本文无广告投放、无付费植入。

如有事实性问题，欢迎发送勘误至 i@hotdrydog.com。