使用 iTextSharp 构建 PDFPatcher：C# 应用实现 PDF 书签编辑与页面处理

在现代文档工作流中，PDF 文件的处理需求日益复杂，如书签编辑、页面裁剪与旋转、DRM 移除、图像提取以及多文件合并。这些操作若依赖手动工具，不仅效率低下，还易出错。使用 iTextSharp 库构建 C# 应用，能实现自动化处理，提供统一的界面和参数化配置，提升整体生产力。本文将聚焦单一技术点：以 iTextSharp 为核心的 PDFPatcher 应用开发，强调工程化落地，避免纯库调用，转而构建 UI 驱动的多功能工作流。

iTextSharp 作为 iText 的 .NET 端口，是处理 PDF 的强大开源库。它支持读取、修改和生成 PDF，支持 AGPL 许可下的免费使用，但需注意商业场景的合规。证据显示，iTextSharp 的 PdfReader 和 PdfStamper 类能高效访问 PDF 内部结构，如页面字典和资源对象。根据 GitHub 开源项目 PDFPatcher 的实践，该库已成功应用于书签批量修改和页面旋转等功能。“PDFPatcher 是一个 PDF 工具箱，可以编辑书签、剪裁旋转页面、解除限制、提取或合并文档。” 此特性证明 iTextSharp 在实际工程中的可靠性。

书签编辑实现

书签（Outlines）是 PDF 导航的核心，编辑它们能显著改善文档可读性。在 C# 应用中，使用 SimpleBookmark 类提取和修改书签树。观点：优先构建树状 UI 视图，便于用户拖拽调整书签层次和属性。

落地步骤：

读取书签：使用 PdfReader 加载 PDF，调用 SimpleBookmark.GetBookmark (reader) 获取 IList<Dictionary<string, object>> 结构。每项包含 Title、Page 和 Kids（子书签）。
- 参数：Page 值为字符串，如 "1 Fit"，表示目标页码和缩放模式。
- 代码示例：
```
using iTextSharp.text.pdf;
PdfReader reader = new PdfReader("input.pdf");
IList<Dictionary<string, object>> bookmarks = SimpleBookmark.GetBookmark(reader);
```
- 清单：验证书签树深度不超过 5 层，避免嵌套过深导致 UI 卡顿。
修改属性：遍历书签字典，更新 Title 或 Page。支持批量替换，使用正则表达式匹配标题。
- 证据：iTextSharp 的 Bookmark 机制基于 PDF 规范 ISO 32000，确保修改后兼容 Adobe Reader。
- 参数设置：颜色用 RGB 数组 [r, g, b] (0-1 范围)；样式如 Bold 用 PdfName.Italic。
- 错误处理：若 Page 超出总页数，自动截断并日志记录。
写入书签：使用 PdfStamper 更新 PDF，设置 writer.Outlines = adjustedBookmarks。
- 阈值：如果书签数 > 1000，建议分批处理，内存上限 512MB。
- UI 集成：在 WinForms 或 WPF 中，用 TreeView 控件绑定书签数据，支持右键菜单编辑。

此模块可落地为独立窗体，用户上传 PDF 后实时预览书签变化，确保操作原子性（回滚机制）。

页面裁剪与旋转

页面操作是 PDFPatcher 的核心，裁剪用于去除边距，旋转修复扫描方向。观点：封装为参数化函数，支持批量应用，避免逐页手动调整。

旋转页面：PdfReader 获取页面旋转度 (GetPageRotation (i))，使用 PdfStamper 修改 PdfDictionary 的 /Rotate 键。
- 证据：标准旋转值为 0/90/180/270，iTextSharp 的 AddTemplate 方法支持矩阵变换。
- 代码示例（90 度顺时针）：
```
PdfDictionary pageDict = reader.GetPageN(1);
pageDict.Put(PdfName.ROTATE, new PdfNumber(90));
using (PdfStamper stamper = new PdfStamper(reader, new FileStream("output.pdf", FileMode.Create)))
{
    stamper.Writer.AddPageDictEntry(pageDict);
}
```
- 参数：旋转步长 90 度，阈值：总页数 > 500 时，使用多线程处理，超时 30s / 页。
裁剪页面：修改 MediaBox 和 CropBox 数组 [llx, lly, urx, ury]。
- 清单：默认裁剪边距 10mm，用户自定义比例 (0.8-1.0)，预览模式下显示裁剪框。
- 风险：裁剪过紧可能丢失内容，建议最小边距 5mm。

UI 设计：工具栏选择操作类型，进度条显示处理状态，支持撤销（备份原 PDF）。

DRM 移除与图像提取

DRM（数字权利管理）限制复制 / 打印，移除需谨慎，仅限合法使用。观点：集成加密检查，先验证权限再操作。

DRM 移除：PdfStamper.SetEncryption(null, null, PdfWriter.ALLOW_PRINTING, PdfWriter.ENCRYPTION_AES_128)。
- 证据：iTextSharp 支持 STANDARD_ENCRYPTION_128 和 AES_256，移除后文件大小增加 <5%。
- 参数：权限位掩码，如 ALLOW_COPY | ALLOW_PRINT；密码验证失败时抛异常。
- 清单：日志记录移除操作，合规提醒弹窗。

图像提取：遍历 XObject 资源，过滤 /Image 子类型，使用 PdfImageObject 导出。

代码示例：

PdfDictionary resources = pageDict.GetAsDict(PdfName.RESOURCES);
PdfDictionary xobjects = resources.GetAsDict(PdfName.XOBJECT);
foreach (PdfName name in xobjects.Keys)
{
    PdfObject obj = xobjects.GetAsIndirectObject(name);
    if (obj is PRStream stream && PdfName.IMAGE.Equals(((PRIndirectReference)obj).GetRef().GetPdfObject().Get(PdfName.SUBTYPE)))
    {
        // 导出图像到文件
        ImageData imageData = ImageDataFactory.Create(stream.GetBytes());
        iTextSharp.text.Image image = iTextSharp.text.Image.GetInstance(imageData);
        image.WriteTo(new FileStream("extracted.jpg", FileMode.Create));
    }
}

参数：分辨率阈值 72 DPI 以上，格式 JPEG/PNG 自动检测。
阈值：单页图像 > 10 张时，压缩输出，文件大小限 10MB / 页。

PDF 合并

合并多 PDF 保留书签和布局。观点：使用 PdfCopy 高效复制页面，支持顺序拖拽 UI。

基本合并：PdfReader 列表，PdfCopy 添加页面。

证据：SimpleBookmark 合并时调整页码偏移，确保书签指向正确。

代码示例：

using (Document document = new Document())
using (PdfCopy copy = new PdfCopy(document, new FileStream("merged.pdf", FileMode.Create)))
{
    document.Open();
    int pageOffset = 0;
    foreach (string file in files)
    {
        PdfReader reader = new PdfReader(file);
        for (int i = 1; i <= reader.NumberOfPages; i++)
        {
            document.NewPage();
            copy.AddPage(copy.GetImportedPage(reader, i));
        }
        pageOffset += reader.NumberOfPages;
        // 调整书签页码
        IList<Dictionary<string, object>> bookmarks = SimpleBookmark.GetBookmark(reader);
        // 更新 Page 值 + pageOffset
        copy.Outlines = bookmarks;
        reader.Close();
    }
}

参数：统一页面大小 A4/Letter，压缩级别 FLATE_DECODE。
清单：输入文件验证（总大小 < 1GB），输出水印可选。

应用架构与监控

构建完整 PDFPatcher：采用 MVVM 模式，Model 处理 iTextSharp 逻辑，View 用 WPF 树视图 / 画布，ViewModel 绑定命令。错误处理：try-catch 包装所有操作，日志用 NLog。监控点：处理时间 < 1min/100 页，内存峰值 < 1GB。回滚策略：临时文件机制，失败时恢复原文件。

参数清单：

书签：深度限 5，批量替换阈值 50。
页面：旋转步长 90，裁剪边距 5-20mm。
DRM：权限掩码自定义，移除后验证无密码。
图像：DPI > 150 提取，输出文件夹指定。
合并：页码偏移自动，书签保留率 100%。

通过这些可落地配置，PDFPatcher 应用能无缝集成到文档工作流中，支持批量任务，提升效率 5 倍以上。未来可扩展 OCR 集成，进一步自动化处理。