Hotdry.

Article

跨平台异构数据聚合与合成摘要:Agent技能的统一Schema与溯源架构

解析last30days-skill的多源数据聚合架构:从Reddit/X/YouTube/HN/Polymarket等异构平台统一Schema设计、Grounding验证机制到人群评分算法的工程实现。

2026-06-07ai-systems

信息孤岛与 SEO 困境:为什么需要跨平台 Agent 研究

传统搜索引擎的核心缺陷在于编辑驱动与 SEO 污染。Google 聚合的是编辑精选内容与经过优化的网页,而非真实人群的实时讨论。更关键的是,各社交平台形成了数据孤岛:Reddit 的评论热度、X 的即时观点、YouTube 的深度分析、Polymarket 的真钱预测 —— 这些信息分散在各自独立的 API 与认证体系中,没有任何单一 AI 能原生访问全部数据源。

last30days-skill 的核心洞察是:与其构建一个 "更好的搜索引擎",不如构建一个能同时查询十几个 disconnected platforms 的 Agent 技能,通过统一的 Schema 将异构数据转化为可比较的信号,最终由 AI 法官进行综合裁决。

统一 Schema 设计:异构数据的结构化映射

跨平台聚合的首要挑战是数据模型的异构性。不同平台的元数据字段差异巨大:Reddit 提供 upvotes 和嵌套评论树,X 提供 likes 和 retweets,YouTube 提供 views 和 transcripts,Polymarket 提供 odds 和 volume。last30days-skill 的解决方案是设计一个抽象层,将各平台原始数据映射到统一的内部表示。

核心 Schema 字段设计

  • engagement_score: 跨平台归一化的参与度指标(Reddit upvotes、X likes、YouTube views 按平台特性加权)
  • content_type: 内容形态分类(thread/post/video/transcript/prediction)
  • timestamp: 统一 ISO 8601 格式的时间戳,支持 30 天窗口过滤
  • author_entity: 解析后的实体关联(人物→X handle/GitHub username,产品→subreddit/YouTube channel)
  • source_citation: 原始 URL 与平台标识,确保溯源可验证

这种统一 Schema 使得来自 Reddit 的一条高赞评论可以与 YouTube 的一段视频转录文本进行直接比较,为后续的聚类与合成提供结构化基础。

Grounding 验证与人群评分机制

合成摘要的可信度依赖于 Grounding 机制 —— 即每个结论必须能追溯到具体的原始数据点。last30days-skill 采用双重验证策略:

1. 信号强度评分(Crowd Scoring) 不同于传统搜索的 SEO 相关性排序,该系统采用 "人群投票" 逻辑:

  • Reddit 1,500 upvotes 的信号强度 > 无人阅读的博客文章
  • Polymarket 上 $66K volume 支撑的 96% odds > 评论员的猜测
  • TikTok 3.6M views 的文化相关性 > 新闻稿

2. 跨源聚类合并(Cross-Source Clustering) v3 版本引入实体感知的重叠检测:当同一事件出现在 Reddit、X 和 YouTube 时,系统基于实体匹配(而非标题相似度)将其合并为单一聚类。例如 "Wireless Festival 取消" 这一事件,无论在哪个平台被提及,都会被识别为同一主题,避免重复计数。

3. 每作者上限(Per-Author Cap) 为防止单一声音主导简报,系统设置每个作者最多 3 条内容的硬限制,确保多元视角。

智能预研究管线:从关键词到实体解析

v3 版本的核心架构升级是引入 "预研究大脑"(Pre-Research Brain)。旧版引擎直接搜索关键词,而新版引擎在发起任何 API 调用前,先理解主题并解析出应搜索的具体实体:

实体解析示例

  • 输入 "OpenClaw" → 解析为 @steipete(创始人)、r/openclaw、r/ClaudeCode、相关 YouTube 频道和 TikTok 标签
  • 输入 "Peter Steinberger" → 解析为 @steipete(X)、steipete(GitHub)、关联的 OpenAI Codex 团队信息

这种双向实体映射(人物↔公司、产品↔创始人)显著提升了召回率。技术实现上采用 Python 3.12 + 编写的预研究模块,结合启发式规则与轻量级 LLM 调用,在正式搜索前生成结构化的搜索计划(Search Plan)。

多源认证与并行查询的工程实现

跨平台聚合的技术难点在于认证碎片化。last30days-skill 采用 "自带密钥"(Bring Your Own Keys)模式,通过统一的环境变量与 Keychain 管理解决多平台认证:

零配置数据源:Reddit(公开 JSON API)、Hacker News(官方 API)、Polymarket(公开数据)、GitHub(公开 API)无需认证即可工作。

需配置数据源

  • X/Twitter:通过浏览器 session 或 XAI_API_KEY
  • YouTube:依赖 yt-dlp 本地安装
  • TikTok/Instagram/Threads/Pinterest:通过 ScrapeCreators API 统一接入
  • Perplexity Sonar:通过 OpenRouter API 接入

并行查询架构:引擎对每类数据源启动独立查询线程,设置超时预算(Timeout Budgets)防止单一慢速源阻塞整体管线。Reddit 查询失败不会中断 X 或 YouTube 的搜索流程。

合成输出与可落地参数

HTML 简报生成:v3 支持--emit=html输出自包含的深色模式简报,内嵌 CSS 与系统字体回退,无 JavaScript 依赖,可离线查看与分享。文件默认保存至~/Documents/Last30Days/{topic}-brief.html

最佳实践参数清单

参数 / 配置 推荐值 说明
LAST30DAYS_MEMORY_DIR ~/Documents/Last30Days/ 研究文件存储路径
--store 启用 持久化到 SQLite,支持趋势监控
EXCLUDE_SOURCES tiktok,instagram 按需排除低信源
INCLUDE_SOURCES youtube_comments 额外拉取评论(增加 API 调用)
--competitors 对比模式 自动发现 Top 2 竞品并生成对比简报
--github-user 人物搜索时启用 切换至作者视角查询 PR/Release

监控与运维要点

  • 设置--save-suffix区分同一主题的多版本研究(如不同客户场景)
  • 使用scripts/watchlist.py实现定时监控与 Slack 通知
  • 使用scripts/briefing.py生成日 / 周 digest

架构局限与风险考量

API 依赖风险:TikTok/Instagram 等平台依赖 ScrapeCreators 等第三方商业 API,存在成本与稳定性风险。建议生产环境配置多源冗余,关键查询同时启用 Web 搜索作为 fallback。

认证管理复杂度:多平台 token 轮换、X 的 session 过期、YouTube 的 rate limit 需要运维关注。macOS Keychain 集成可缓解部分凭证管理负担。

数据新鲜度与完整性:Reddit 公开 API 返回的评论树可能不完整,Polymarket odds 反映的是预测市场共识而非事实真理。合成摘要应标注数据质量警告(degraded run/thin evidence)。

结语

last30days-skill 展示了一种 Agent 架构的新范式:不是试图在一个封闭系统内解决所有问题,而是通过标准化的 Skill 接口,将多个异构数据源桥接起来,由 AI Agent 进行统一的语义理解与综合裁决。其核心创新在于统一 Schema 设计、人群评分算法与 Grounding 溯源机制 —— 这三者共同确保了合成摘要既有多元视角的广度,又有具体引证的深度。对于需要实时跟踪社区动态、竞品情报或技术趋势的团队,这种跨平台研究技能提供了一种可工程化落地的解决方案。


资料来源

  • GitHub - mvanhorn/last30days-skill: AI agent skill that researches any topic across Reddit, X, YouTube, HN, Polymarket, and the web

ai-systems

内容声明:本文无广告投放、无付费植入。

如有事实性问题,欢迎发送勘误至 i@hotdrydog.com