多源研究流水线：从信息孤岛到 AI 合成简报

在信息过载的时代，研究一个话题往往意味着在十几个平台之间反复切换 ——Reddit 的社区讨论、X 的即时反应、YouTube 的深度解析、Hacker News 的技术视角、Polymarket 的预测概率，再加上散落在各处的博客和新闻。每个平台都是一个信息孤岛，拥有独立的 API、认证方式和数据格式。传统搜索引擎只能抓取表层链接，无法穿透这些围墙花园获取真实的用户参与度信号。

last30days-skill 提供了一种不同的思路：不是构建一个更强大的单一搜索引擎，而是通过 AI Agent 桥接多个 disconnected 平台，将分散的信号聚合成一份有来源、有评分的 grounded 简报。

四阶段流水线架构

该系统的核心是一条四阶段处理流水线，将原始搜索转化为可消费的洞察。

阶段一：智能预研究（Pre-research）。在发起任何 API 调用之前，系统首先通过 Python 预研究模块理解用户输入的主题。输入 "OpenClaw" 时，引擎会解析出 @steipete（Peter Steinberger）、r/openclaw、r/ClaudeCode 等相关社区，以及对应的 YouTube 频道和 TikTok 标签。这种实体解析是双向的：人名映射到社交账号，产品名映射到创始人，GitHub 用户名关联到代码仓库。相比直接搜索关键词，这种理解驱动的搜索能发现 v2 版本无法触及的内容。

阶段二：并行多源搜索。基于预研究的结果，系统向所有配置的数据源并行发起查询。支持的来源包括：Reddit（公开 JSON，含评论和 upvote 数）、X/Twitter（通过浏览器 session）、YouTube（yt-dlp 提取转录文本）、TikTok/Instagram/Threads（ScrapeCreators API）、Hacker News、Polymarket（预测市场赔率）、GitHub（PR、issue、release）、Bluesky、Pinterest、Perplexity Sonar 以及 Brave Web Search。

阶段三：跨源聚类合并。同一事件往往在不同平台以不同形式出现 ——Reddit 上的讨论帖、X 上的反应推文、YouTube 上的分析视频。v3 引擎通过实体重叠检测将这些内容合并为单一聚类，即使标题使用不同的措辞也能识别关联。这避免了结果列表中重复呈现同一故事的多个变体。

阶段四：AI 合成与评分。最后，系统对聚类后的内容进行多维度评分。核心评分维度包括：社交参与度（upvotes、likes、views）、时间新鲜度、来源权威性，以及 v3 新增的 "趣味度"（humor/virality）。一个 Reddit 帖子获得 1500 upvotes 的信号强度高于一篇无人阅读的博客文章；一个 TikTok 视频获得 360 万播放量比新闻稿更能反映文化相关性；Polymarket 上 6.6 万美元交易量支撑的 96% 置信度比专家的猜测更难质疑。

关键技术实现参数

实体解析配置。预研究模块依赖一组实体映射表，将常见主题关联到正确的搜索目标。对于人名搜索，系统会同时查询其社交账号、GitHub 用户名和相关社区。配置文件中可以扩展这些映射关系，添加特定领域的术语解析规则。

评分权重参数。默认评分公式将社交参与度作为首要指标，但可以通过环境变量调整权重。例如，对于技术话题可以提高 Hacker News 的权重系数，对于投资相关话题可以提升 Polymarket 的权重。每个来源的原始信号需要归一化处理 ——Reddit upvotes、X likes、YouTube views 和 Polymarket 赔率使用不同的量纲，系统内部将其转换为可比较的标准化分数。

聚类相似度阈值。跨源聚类使用实体重叠检测，当两个内容项共享至少一个关键实体（人名、组织、产品名）且时间窗口在 7 天内时触发合并。这个阈值可以通过 --cluster-threshold 参数调整，降低阈值会增加聚类数量（更细粒度），提高阈值会减少聚类数量（更粗粒度）。

速率限制与容错。每个数据源都有独立的超时预算和重试策略。Reddit 搜索设置 30 秒超时，失败时降级到简化查询；ScrapeCreators API 调用实施指数退避重试；单个来源的失败不会阻塞整个流水线，系统会标记数据质量警告但不中断执行。

输出格式控制。默认输出为 Markdown 格式的合成简报，包含引用来源的 inline citations。添加 --emit=html 参数可生成自包含的 HTML 文件，内联 CSS 使用 Inter 和 JetBrains Mono 字体，支持暗色模式和打印友好布局，无 JavaScript 依赖，可离线查看。

应用场景与使用模式

会前调研。输入 /last30days Peter Steinberger，系统返回其最近 30 天的动态：加入 OpenAI Codex 团队、在 GitHub 上合并 23 个 PR（合并率 85%）、在 X 上讨论第三方 Agent 限制问题、Reddit 社区对其评价的两极分化。这些信息不会出现在 LinkedIn 上，但对于即将进行的会议却至关重要。

工具对比。查询 /last30days OpenClaw vs Hermes vs Paperclip 时，v3 引擎执行单次并行搜索，同时为三个目标提取实体信息和 GitHub star 数（实时 API 获取，非过时的博客数据），生成架构对比表格，包含内存管理、安全模型和最佳使用场景。

趋势监控。通过 --store 参数将研究结果持久化到 SQLite 数据库，配合 watchlist.py 脚本实现定时运行（支持 Slack/Webhook 新发现通知）和 briefing.py 生成每日 / 每周摘要。这对于跟踪快速变化的领域（如 AI 工具、加密市场、政策动态）特别有用。

局限性与工程权衡

认证复杂度。虽然 Reddit、Hacker News、Polymarket 和 GitHub 可以零配置使用，但 X、YouTube、TikTok 等平台需要用户自行提供浏览器 session 或 API key。这意味着首次设置需要 10-15 分钟的配置时间，且某些服务（如 ScrapeCreators）采用按量付费模式。

平台政策风险。依赖第三方平台的非官方 API 或浏览器自动化存在政策变动风险。X 的 API 条款、YouTube 的反爬机制、TikTok 的数据访问限制都可能影响系统的稳定性。建议实施熔断机制，当某个来源持续失败时自动降级。

信号偏见。基于参与度的评分机制天然偏向争议性内容 —— 愤怒和惊讶往往比平静的分析获得更多互动。对于需要中立视角的研究主题，建议结合人工审核或调整评分公式降低情绪性指标的权重。

计算成本。完整的跨平台搜索涉及数十个并行 API 调用，单次查询的成本可能在 $0.10-$0.50 之间（取决于使用的第三方服务）。对于高频使用场景，需要实施缓存策略和智能预过滤，避免对已知低价值查询浪费资源。

可落地的配置清单

对于希望自建类似系统的团队，以下是核心配置参数：

预研究模块：实现实体解析器，维护人名→社交账号、产品名→GitHub 仓库的映射表，支持社区贡献扩展。
数据源接入：优先接入公开 API（Reddit JSON、HN Algolia、Polymarket API、GitHub REST），再考虑需要认证的来源（X 浏览器 session、YouTube yt-dlp、ScrapeCreators）。
评分标准化：为每个来源定义信号提取规则（upvotes/likes/views/odds）和归一化函数，输出 0-100 的标准化分数。
聚类算法：使用实体共现 + 时间窗口的启发式聚类，或引入向量相似度进行语义聚类。
合成提示工程：设计结构化提示，要求模型输出 grounded summary（每个主张必须有来源引用），并支持 ELI5 模式切换。
质量监控：记录每个来源的成功率、延迟和数据新鲜度，实施熔断和降级策略。

这种多源研究流水线代表了 AI Agent 在信息处理领域的一个实用范式：不是取代人类的判断，而是将分散的信号聚合成可验证、可溯源的初步情报，让研究者从繁琐的平台切换中解放出来，专注于高价值的分析和决策。

资料来源

GitHub: mvanhorn/last30days-skill —— 项目文档与 v3 架构说明
First Look: last30days-skill 产品概述与功能介绍

ai-systems

内容声明：本文无广告投放、无付费植入。

如有事实性问题，欢迎发送勘误至 i@hotdrydog.com。