跨平台异构数据聚合与合成摘要：Agent技能的统一Schema与溯源架构

信息孤岛与 SEO 困境：为什么需要跨平台 Agent 研究

传统搜索引擎的核心缺陷在于编辑驱动与 SEO 污染。Google 聚合的是编辑精选内容与经过优化的网页，而非真实人群的实时讨论。更关键的是，各社交平台形成了数据孤岛：Reddit 的评论热度、X 的即时观点、YouTube 的深度分析、Polymarket 的真钱预测 —— 这些信息分散在各自独立的 API 与认证体系中，没有任何单一 AI 能原生访问全部数据源。

last30days-skill 的核心洞察是：与其构建一个 "更好的搜索引擎"，不如构建一个能同时查询十几个 disconnected platforms 的 Agent 技能，通过统一的 Schema 将异构数据转化为可比较的信号，最终由 AI 法官进行综合裁决。

统一 Schema 设计：异构数据的结构化映射

跨平台聚合的首要挑战是数据模型的异构性。不同平台的元数据字段差异巨大：Reddit 提供 upvotes 和嵌套评论树，X 提供 likes 和 retweets，YouTube 提供 views 和 transcripts，Polymarket 提供 odds 和 volume。last30days-skill 的解决方案是设计一个抽象层，将各平台原始数据映射到统一的内部表示。

核心 Schema 字段设计：

engagement_score: 跨平台归一化的参与度指标（Reddit upvotes、X likes、YouTube views 按平台特性加权）
content_type: 内容形态分类（thread/post/video/transcript/prediction）
timestamp: 统一 ISO 8601 格式的时间戳，支持 30 天窗口过滤
author_entity: 解析后的实体关联（人物→X handle/GitHub username，产品→subreddit/YouTube channel）
source_citation: 原始 URL 与平台标识，确保溯源可验证

这种统一 Schema 使得来自 Reddit 的一条高赞评论可以与 YouTube 的一段视频转录文本进行直接比较，为后续的聚类与合成提供结构化基础。

Grounding 验证与人群评分机制

合成摘要的可信度依赖于 Grounding 机制 —— 即每个结论必须能追溯到具体的原始数据点。last30days-skill 采用双重验证策略：

1. 信号强度评分（Crowd Scoring） 不同于传统搜索的 SEO 相关性排序，该系统采用 "人群投票" 逻辑：

Reddit 1,500 upvotes 的信号强度 > 无人阅读的博客文章
Polymarket 上 $66K volume 支撑的 96% odds > 评论员的猜测
TikTok 3.6M views 的文化相关性 > 新闻稿

2. 跨源聚类合并（Cross-Source Clustering） v3 版本引入实体感知的重叠检测：当同一事件出现在 Reddit、X 和 YouTube 时，系统基于实体匹配（而非标题相似度）将其合并为单一聚类。例如 "Wireless Festival 取消" 这一事件，无论在哪个平台被提及，都会被识别为同一主题，避免重复计数。

3. 每作者上限（Per-Author Cap） 为防止单一声音主导简报，系统设置每个作者最多 3 条内容的硬限制，确保多元视角。

智能预研究管线：从关键词到实体解析

v3 版本的核心架构升级是引入 "预研究大脑"（Pre-Research Brain）。旧版引擎直接搜索关键词，而新版引擎在发起任何 API 调用前，先理解主题并解析出应搜索的具体实体：

实体解析示例：

输入 "OpenClaw" → 解析为 @steipete（创始人）、r/openclaw、r/ClaudeCode、相关 YouTube 频道和 TikTok 标签
输入 "Peter Steinberger" → 解析为 @steipete（X）、steipete（GitHub）、关联的 OpenAI Codex 团队信息

这种双向实体映射（人物↔公司、产品↔创始人）显著提升了召回率。技术实现上采用 Python 3.12 + 编写的预研究模块，结合启发式规则与轻量级 LLM 调用，在正式搜索前生成结构化的搜索计划（Search Plan）。

多源认证与并行查询的工程实现

跨平台聚合的技术难点在于认证碎片化。last30days-skill 采用 "自带密钥"（Bring Your Own Keys）模式，通过统一的环境变量与 Keychain 管理解决多平台认证：

零配置数据源：Reddit（公开 JSON API）、Hacker News（官方 API）、Polymarket（公开数据）、GitHub（公开 API）无需认证即可工作。

需配置数据源：

X/Twitter：通过浏览器 session 或 XAI_API_KEY
YouTube：依赖 yt-dlp 本地安装
TikTok/Instagram/Threads/Pinterest：通过 ScrapeCreators API 统一接入
Perplexity Sonar：通过 OpenRouter API 接入

并行查询架构：引擎对每类数据源启动独立查询线程，设置超时预算（Timeout Budgets）防止单一慢速源阻塞整体管线。Reddit 查询失败不会中断 X 或 YouTube 的搜索流程。

合成输出与可落地参数

HTML 简报生成：v3 支持--emit=html输出自包含的深色模式简报，内嵌 CSS 与系统字体回退，无 JavaScript 依赖，可离线查看与分享。文件默认保存至~/Documents/Last30Days/{topic}-brief.html。

最佳实践参数清单：

参数 / 配置	推荐值	说明
`LAST30DAYS_MEMORY_DIR`	`~/Documents/Last30Days/`	研究文件存储路径
`--store`	启用	持久化到 SQLite，支持趋势监控
`EXCLUDE_SOURCES`	`tiktok,instagram`	按需排除低信源
`INCLUDE_SOURCES`	`youtube_comments`	额外拉取评论（增加 API 调用）
`--competitors`	对比模式	自动发现 Top 2 竞品并生成对比简报
`--github-user`	人物搜索时启用	切换至作者视角查询 PR/Release

监控与运维要点：

设置--save-suffix区分同一主题的多版本研究（如不同客户场景）
使用scripts/watchlist.py实现定时监控与 Slack 通知
使用scripts/briefing.py生成日 / 周 digest

架构局限与风险考量

API 依赖风险：TikTok/Instagram 等平台依赖 ScrapeCreators 等第三方商业 API，存在成本与稳定性风险。建议生产环境配置多源冗余，关键查询同时启用 Web 搜索作为 fallback。

认证管理复杂度：多平台 token 轮换、X 的 session 过期、YouTube 的 rate limit 需要运维关注。macOS Keychain 集成可缓解部分凭证管理负担。

数据新鲜度与完整性：Reddit 公开 API 返回的评论树可能不完整，Polymarket odds 反映的是预测市场共识而非事实真理。合成摘要应标注数据质量警告（degraded run/thin evidence）。

结语

last30days-skill 展示了一种 Agent 架构的新范式：不是试图在一个封闭系统内解决所有问题，而是通过标准化的 Skill 接口，将多个异构数据源桥接起来，由 AI Agent 进行统一的语义理解与综合裁决。其核心创新在于统一 Schema 设计、人群评分算法与 Grounding 溯源机制 —— 这三者共同确保了合成摘要既有多元视角的广度，又有具体引证的深度。对于需要实时跟踪社区动态、竞品情报或技术趋势的团队，这种跨平台研究技能提供了一种可工程化落地的解决方案。

资料来源：

GitHub - mvanhorn/last30days-skill: AI agent skill that researches any topic across Reddit, X, YouTube, HN, Polymarket, and the web

ai-systems

内容声明：本文无广告投放、无付费植入。

如有事实性问题，欢迎发送勘误至 i@hotdrydog.com。