问题背景:多源异构数据聚合的核心挑战
当研究一个主题时,信息往往散落在 Reddit 讨论、X 帖子、YouTube 视频、Hacker News 技术帖、Polymarket 预测市场乃至传统网页中。每个平台都是独立的数据孤岛,拥有各自的 API、认证机制和数据格式。单纯的数据抓取只能解决 "获取" 问题,而真正的挑战在于:如何将来自十余个异构源头的原始数据,转化为一份去重、可信、可追溯的 grounded summary。
last30days-skill 的核心技术切口正在于此 —— 它不是简单的爬虫聚合,而是一套完整的研究综合(research synthesis)流水线,涵盖实体解析、跨源对齐、可信度评估与知识合成四个关键环节。
架构全景:五阶段流水线设计
该系统的流水线可抽象为五个连续阶段:
阶段一:预研究与实体解析(Intelligent Search)
在发起任何 API 调用之前,系统首先通过 Python 预研究模块解析用户输入的 topic。例如,输入 "OpenClaw" 时,引擎会自动解析出 @steipete(创始人)、r/openclaw(Reddit 社区)、openclaw/openclaw(GitHub 仓库)以及相关的 YouTube 频道和 TikTok 话题标签。这种双向实体解析(person→company→product→founder)确保搜索指向正确的目标,而非关键词的噪音匹配。
阶段二:并行多源搜索
基于解析出的实体清单,系统向所有可用源头发起并行查询。每个源头的查询策略各异:Reddit 抓取公开 JSON 获取带 upvote 数的评论,YouTube 通过 yt-dlp 提取完整视频字幕,X/Twitter 使用浏览器会话令牌获取帖子,Polymarket 则拉取以真实资金为背书的预测赔率。所有查询共享统一的超时预算,避免单一慢速源拖垮整体流水线。
阶段三:跨源聚类与去重(Cross-source Cluster Merging)
同一事件往往会在多个平台被讨论。v3 引擎引入实体级别的重叠检测,将 Reddit 帖子、X 讨论串和 YouTube 视频中的相同故事聚类为单一簇。即使标题使用不同措辞,系统仍能通过实体共现和语义相似度识别重复内容,避免简报中出现冗余信息。
阶段四:信号加权与可信度评分
每个原始片段都会被打上 engagement-based 分数:Reddit 的 upvote 数、X 的 like 数、YouTube 的观看量、Polymarket 的赔率置信度。系统同时引入第二个评判维度 ——"趣味度" 评分,识别那些相关性不高但 viral 的 clever one-liners。最终,每个片段获得复合分数,用于下游排序。
阶段五:知识合成与溯源输出
大模型基于排序后的证据链生成 grounded summary,每个论断都附带来源引用。输出不是 "我发现了什么",而是 "什么才是真正重要的"。系统还会生成可分享的 HTML 简报,包含内联 CSS、暗色模式支持,且完全离线可用。
关键技术实现要点
1. 实体解析的搜索路由策略
预研究模块的核心是建立 topic 到 searchable entities 的映射表。对于人物类 topic,系统会尝试解析其 GitHub 用户名、X handle、关联的子版块;对于产品 / 技术类 topic,则解析仓库、官方账号、相关 hashtag。这种路由表需要持续维护,但能显著提升召回率。
2. 跨源对齐的相似度计算
实体级别的去重依赖多维相似度:标题的编辑距离、发布时间窗口(通常 48 小时内视为同一事件)、共享实体(人物、地点、产品名)的共现频率。系统采用自适应阈值 —— 高置信匹配自动合并,模糊匹配则保留为独立条目供人工审核。
3. 信号加权的工程权衡
不同平台的 engagement 信号不可直接比较。系统采用平台内归一化策略:将 Reddit upvotes 转换为百分位排名,YouTube 观看量按频道订阅数归一化,Polymarket 赔率直接作为置信度使用。这种处理避免了 "大平台淹没小平台" 的偏见。
4. 可信度的多维度校验
除了 engagement 信号,系统还引入时效性衰减(30 天窗口外的内容权重降低)、作者权威性(单作者内容上限为 3 条,防止单一声音主导)、以及预测市场的 "真金白银" 背书作为硬信号。
可落地的参数与配置清单
对于希望自建类似系统的团队,以下参数可作为起点:
搜索阶段
- 并行源上限:12-15 个(根据 API 配额调整)
- 单源超时:15-30 秒,整体流水线超时:3 分钟
- 每源返回条目上限:20-50 条原始内容
聚类阶段
- 时间窗口:48 小时(新闻类)/ 7 天(深度分析类)
- 相似度阈值:标题 Levenshtein 距离 <0.3,或实体共现> 2 个
- 单簇最大源数:5 个(避免过度聚合不同视角)
评分阶段
- Engagement 权重:60%,时效性 25%,作者多样性 15%
- 单作者条目上限:3 条
- 预测市场置信度阈值:>70% 视为强信号
合成阶段
- 证据链长度:每条论断至少 2 个独立来源
- 输出格式:Markdown(内部)+ HTML(分享)
- 溯源要求:每个论断必须附带 URL 和原始片段
局限性与风险
数据孤岛与授权壁垒
各平台的 API 策略差异巨大。Reddit 和 Hacker News 提供公开 JSON,但 X/Twitter 需要浏览器会话,TikTok/Instagram 依赖第三方服务(如 ScrapeCreators)。这种碎片化意味着系统需要维护多套认证机制,且随时可能因平台政策变化而失效。
信号偏误与回声室效应
Engagement-based 评分天然偏向热门内容,可能遗漏小众但高质量的技术讨论。此外,同一事件在多个平台的重复曝光会被聚类合并,但如果平台间存在信息茧房(如 Reddit 和 X 的用户群差异巨大),聚类算法可能将同一事件的不同视角误判为独立事件。
时效性与实时性权衡
30 天窗口适合深度研究,但对突发新闻反应滞后。系统支持通过 --store 模式将结果持久化到 SQLite,配合定时任务实现趋势监控,但这增加了架构复杂度。
总结
last30days-skill 的研究综合流水线展示了如何将 "多源异构数据聚合" 这一复杂问题拆解为可工程化的子模块:预研究路由降低搜索空间,并行查询提升吞吐,实体聚类解决去重,复合评分平衡信号质量,最终通过大模型实现可信知识合成。对于构建类似系统的团队,核心启示在于:数据抓取只是起点,实体解析、跨源对齐与可信度评估才是决定输出质量的关键环节。
资料来源
- last30days-skill: AI agent skill that researches any topic across Reddit, X, YouTube, HN, Polymarket, and the web - then synthesizes a grounded summary
- Hacker News: 技术社区讨论与趋势观察
内容声明:本文无广告投放、无付费植入。
如有事实性问题,欢迎发送勘误至 i@hotdrydog.com。