Hotdry.

Article

多源内容摄取管道:qiaomu 的 Claude Skill 数据流与格式转换设计

深入解析 qiaomu 如何通过 15+ 内容源摄取、6 层付费墙绕过与 NotebookLM 集成,实现任意格式到 Podcast/PPT/MindMap/Quiz 的自动化转换工程设计。

2026-05-16ai-systems

在 Claude Code 生态中,Skill 是赋予 Claude 专业化领域能力的基本单元。一个设计精良的 Skill 不仅需要定义任务边界,还需要编排具体的数据流与工具链。qiaomu-anything-to-notebooklm 正是这样一个专注于内容格式转换的 Skill—— 它接收来自微信文章、付费网页、YouTube、PDF 等多种来源的输入,通过 NotebookLM 的生成能力输出播客、PPT、思维导图、Quiz 等目标格式。本文聚焦其背后的数据管道设计、格式映射逻辑与工程实现要点。

输入源的智能分类与路由

qiaomu 的核心挑战在于将五花八门的内容源统一为可处理的标准化中间格式。项目采用 URL 模式匹配与文件扩展名双重检测来实现自动路由,用户无需显式指定内容类型即可获得正确处理。

对于 URL 类输入,系统维护了一套识别规则:微信公众号文章以 mp.weixin.qq.com 为特征,小宇宙播客对应 xiaoyuzhoufm.com,X/Twitter 推文通过 x.comtwitter.com 域名判定,YouTube 则匹配 youtube.comyoutu.be。本地文件则根据扩展名分发 ——.epub 走电子书解析管线,.pdf 进入文档处理流程,.md.txt 直接进入 Markdown 管线。这套路由机制完全由 main.py 的入口逻辑承载,不依赖用户手动标注。

值得注意的是,系统对混合输入也提供了支持。用户可以一次性传入多个不同类型的内容源,Skill 将其汇总后统一上传至 NotebookLM,生成综合报告。这意味着路由层不仅需要识别单条输入的类型,还需要在多源场景下维护一个统一的处理队列。

付费墙绕过的六层级联策略

在众多内容源中,付费墙处理是最体现工程复杂度的环节。qiaomu 实现了一套六层级联降级机制,每一层失败后自动尝试下一层,直到成功获取内容或耗尽所有策略。

第一层采用公开代理服务 r.jna.aidefuddle.md,这两个服务专门提供网页内容提取能力,对部分计量付费墙(soft paywall)有较好效果。第二层切换为站点专属的爬虫身份伪装:通过发送 Googlebot/2.1Bingbot/2.0 的 User-Agent,利用搜索引擎白名单绕过约 50 家站点的付费检测。第三层则整合 UA 伪装、X-Forwarded-For 头部、Referer 伪装、AMP 页面提取与欧盟 IP 尝试,针对仍被拦截的场景进行综合突破。

若前三层均告失败,系统会进入第四层 —— 尝试从 archive.today 获取已存档的页面版本,同时自动检测 CAPTCHA 验证的存在并提示用户人工介入。第五层尝试 Google Cache 作为兜底。第六层则调用 agent-fetch 本地工具,利用本地环境的高可信度绕过部分远程检测。

这套级联设计的工程价值在于:它将脆弱的远程抓取转化为具有韧性的渐进式尝试,每一层的失败信息都会传递给下一层作为决策依据,用户最终获得的是「尽力后的最佳结果」而非直接报错。

微信与飞书的 MCP 专项处理

对于微信公众号这类具有较强反爬机制的平台,qiaomu 提供了独立的 MCP 服务器 wexin-read-mcp。该模块使用 Playwright 进行浏览器模拟,真实渲染页面后再提取内容,绕过依赖 JavaScript 动态加载的反爬逻辑。抓取后的 HTML 经过 parser.py 的清洗,提取正文文本并转换为标准化 Markdown 格式。

飞书文档的处理逻辑类似,通过 feishu-read-mcp 模块获取文档内容。不同的是,飞书输出场景下系统支持将分析结果直接写入飞书文档,通过飞书开放 API 创建或更新目标文档。这条管线的关键在于 Markdown 到飞书富文本格式的转换,包括代码块高亮、表格渲染、图片嵌入等细节的处理。

NotebookLM 作为生成引擎

所有内容源最终汇聚于 NotebookLM 的上传接口。NotebookLM 是 Google 推出的 AI 笔记工具,其核心能力之一是将上传的文档转化为多种输出格式 —— 播客、PPT、思维导图、Quiz 等。qiaomu 正是借助 notebooklm-py 客户端实现与该平台的自动化交互。

上传阶段,系统首先调用 notebooklm login 完成认证,通过 notebooklm list 验证凭证有效性。随后将处理后的 Markdown 内容上传至 NotebookLM,触发目标格式的生成流程。生成的播客为 MP3 文件,PPT 为 PDF 格式,思维导图为 JSON 结构,Quiz 为问答 JSON。

对于播客场景,若内容源为小宇宙、喜马拉雅或 B 站视频,系统通过 Get 笔记 API 先进行音频转写,再将转写文本上传至 NotebookLM。这条旁路确保了纯音频内容也能纳入同一处理管线。

深度分析模式的三轮递进策略

除了基础的格式转换,qiaomu 还提供深度分析模式,适用于电子书、长期文章等需要深度理解的内容。该模式通过三轮递进提问实现:

第一轮(概览与框架)生成 4 个问题,聚焦建立整体认知 —— 主题概括、结构梳理、核心论点提取、颠覆性信息识别。第二轮(深度挖掘)生成 5 个问题,深入论证逻辑拆解、矛盾分析、核心洞察提炼与批评性评估。第三轮(综合与反刍)生成 3 个问题,关注最大认知改变、行动指南与推荐理由。

这条管线利用 NotebookLM 的会话上下文保持能力,后轮问题自动受益于前轮回答,形成真正的递进式深度分析。最终输出为结构化 JSON,包含每个问答对的核心观点、论证拆解、矛盾分析与认知改变字段。

工程实践的关键参数

在实际部署中,有几个参数值得注意。内容长度建议控制在 1000 至 10000 字区间,过短(<500 字)可能导致生成质量不足,过长(>50 万字)可能触发 NotebookLM 的处理限制。批处理场景下,系统支持同时传入多个不同类型的内容源,统一汇总后生成综合报告,适合研究场景的多源情报整合。

对于付费墙绕过失败的场景,系统会检测 archive.today 的人工验证步骤并向用户发出提示,这是当前技术边界内的最小化体验保障。安装环节通过 install.sh 一键配置所有依赖,check_env.py 提供 13 项环境检查覆盖 Python 版本、MCP 配置、API 密钥等前置条件。

小结

qiaomu 展示了将自然语言指令转化为多源内容处理管线的工程范式:从输入源的智能路由、付费墙的渐进式绕过、MCP 专有平台的适配,到 NotebookLM 生成引擎的集成,再到三轮递进的深度分析策略,每一环节都体现了模块化与韧性的设计原则。对于需要构建类似内容摄取 Skill 的团队,qiaomu 的数据流编排思路与格式映射逻辑提供了可直接参考的实践样本。

资料来源:项目 GitHub 仓库 joeseesun/qiaomu-anything-to-notebooklm,采用 MIT 许可证。

ai-systems

内容声明:本文无广告投放、无付费植入。

如有事实性问题,欢迎发送勘误至 i@hotdrydog.com