yt-dlp：支持1000+网站的扩展提取器架构实现

yt-dlp 作为一个功能丰富的命令行音频 / 视频下载工具，其核心优势在于可扩展的提取器架构。这种架构允许开发者轻松添加对新网站的提取器支持，目前已覆盖超过 1000 个站点，包括 YouTube、Twitter、Vimeo 等主流平台。这种设计不仅确保了工具的灵活性，还集成了格式协商、字幕嵌入和元数据后处理功能，所有这些都打包在一个单一的可执行二进制文件中，便于部署和使用。

提取器架构是 yt-dlp 的基础框架。每个网站对应一个特定的提取器类，这些类继承自通用基类，并实现站点特定的解析逻辑。例如，对于 YouTube，提取器会处理视频 ID 的提取、API 请求的构建以及签名解密的逻辑。这种模块化设计使得添加新提取器变得简单：只需编写一个新类，定义 _match_url 方法来匹配 URL 模式，然后实现 _real_extract 方法来解析页面或 API 数据。证据显示，yt-dlp 的 GitHub 仓库中包含了数百个这样的提取器文件，每个文件专注于一个或多个相关站点。这种架构避免了单一提取器的复杂性，确保代码维护性和更新效率。

在实际应用中，这种架构支持了动态扩展。通过插件系统，用户可以加载自定义提取器，而无需修改核心代码。这对于处理新兴网站或私有站点特别有用。例如，开发者可以创建一个插件包，放置在配置目录下，如～/.yt-dlp/plugins/myextractor/yt_dlp_plugins/extractor/，然后 yt-dlp 会自动导入它。风险在于插件代码的安全性，用户应仅加载可信来源的插件，以避免潜在的安全漏洞。

格式协商是 yt-dlp 另一个关键特性。它允许用户根据需求选择最佳的视频和音频格式，而非默认下载最高质量。提取器首先从网站获取所有可用格式列表，包括分辨率、比特率、编解码器等信息。然后，用户可以通过 -f 选项指定选择器，如 bestvideo+bestaudio 来下载最佳视频流和音频流，并使用 FFmpeg 合并。证据表明，这种协商支持过滤器，如 [height<=720] 来限制分辨率，或 [ext=mp4] 来指定容器格式。这不仅优化了下载大小，还确保了兼容性，例如优先选择 H.264 视频以兼容更多设备。

可落地的格式协商参数包括：

-f "best [height<=1080]+bestaudio/best"：下载 1080p 或更低的最佳视频和音频。
-S "res,fps,ext"：按分辨率、帧率和扩展名排序格式，优先高分辨率和高帧率。
--format-sort-force：强制用户排序优先级，忽略提取器的默认偏好。对于合并，需安装 FFmpeg，并使用 --merge-output-format mp4 来指定输出容器。清单步骤：1) 运行 yt-dlp -F URL 查看可用格式；2) 选择合适的选择器；3) 测试下载以验证兼容性；4) 如果失败，回退到 -f best 并调整过滤器。

字幕嵌入功能进一步提升了 yt-dlp 的实用性。提取器从网站或 manifest 文件中提取字幕轨道，支持 SRT、VTT 等格式，并可自动翻译。使用 --write-subs 下载字幕文件，然后 --embed-subs 将其嵌入视频中。对于 HLS 或 DASH 流，字幕直接从播放列表中解析。证据显示，yt-dlp 支持 --sub-langs "en,zh" 来指定语言，并使用 FFmpeg 的 -c:s mov_text 选项嵌入到 MP4 文件中。这在教育或多语种内容下载中特别有用。

实施字幕嵌入的清单：

确保 FFmpeg 已安装（yt-dlp 会自动检测）。
添加 --write-auto-subs 以包含自动生成字幕。
使用 --sub-format srt/best 指定首选格式。
对于嵌入，结合 --embed-subs 和 --embed-metadata，确保字幕与视频同步。潜在限制：某些站点（如 YouTube）直播字幕可能延迟，需要 --wait-for-video 选项等待可用。

元数据后处理是 yt-dlp 确保输出文件完整的最后一步。提取器收集标题、描述、上传者、缩略图等信息，并通过 --write-info-json 保存为 JSON 文件。使用 --embed-metadata，这些元数据嵌入到视频文件中，支持 MKV、MP4 等格式。对于缩略图，--write-thumbnail 下载图像，然后 --embed-thumbnail 使用 AtomicParsley 或 mutagen 嵌入作为封面。证据表明，这种后处理支持 --parse-metadata 来自定义字段，如从标题解析艺术家和曲名。

可落地参数和清单：

--add-metadata：嵌入基本元数据，如标题和描述。
--embed-thumbnail：将缩略图作为封面嵌入。
--parse-metadata "title:%(artist) s - %(title) s"：从标题提取艺术家。步骤：1) 下载时添加 --write-description 和 --write-info-json；2) 使用 FFmpegPostProcessor 处理嵌入；3) 验证文件元数据使用 ffprobe 或媒体播放器；4) 对于批量处理，结合 --output "%(uploader) s/%(title) s.%(ext) s" 组织文件。

总体而言，yt-dlp 的单一二进制设计简化了分发：用户只需下载可执行文件，无需 Python 环境。更新通过 yt-dlp -U 实现，支持 nightly 和 master 频道以获取最新修复。这种架构不仅高效，还鼓励社区贡献新提取器，确保工具的长期活力。

资料来源：yt-dlp GitHub 仓库 README（https://github.com/yt-dlp/yt-dlp），支持站点列表（https://github.com/yt-dlp/yt-dlp/blob/master/supportedsites.md）。