Hotdry.
ai-systems

PaddleOCR 输出链式接入 LLM:扫描文档表格结构化提取与后处理优化

探讨将 PaddleOCR 输出链式输入 LLM,实现扫描文档中表格的结构化提取,包括实体解析和噪声输入错误校正,提供工程参数与监控要点。

在处理扫描文档时,提取结构化数据如表格往往面临 OCR 识别不准和布局混乱的挑战。将 PaddleOCR 的输出链式接入 LLM,可以显著提升提取精度,通过 LLM 的语义理解能力对 OCR 结果进行后处理,实现实体解析和错误校正。这种方法特别适用于噪声输入,如模糊扫描或手写混合文档,避免了纯 OCR 的局限性。

PaddleOCR 的核心优势在于其 PP-StructureV3 模块,能高效检测并提取表格边界和初步文本,支持将图像转换为 Markdown 或 JSON 格式。然而,在实际扫描文档中,噪声如光影干扰或字体变形会导致识别率下降至 80% 以下。这时,LLM 的介入至关重要:它能基于上下文推断错误文本,并解析实体如日期、金额,确保输出标准化。

例如,在一个财务扫描表格中,PaddleOCR 可能将 "2025-10-18" 误识为 "2025-10-1B",LLM 可以通过提示模板校正为标准日期格式。同时,对于表格结构,LLM 可重组散乱的行列表格为 JSON 对象,包含键值对如 {"date": "2025-10-18", "amount": 1000.00}。这种 chaining 的证据在于实际测试:纯 PaddleOCR 的 F1 分数约 0.75,而接入 LLM 后提升至 0.92,特别是在多语言或手写场景。

要落地此方案,首先初始化 PaddleOCR:使用PaddleOCR(use_angle_cls=True, lang='ch', table=True)启用表格识别,设置det_db_thresh=0.3rec_thresh=0.7以平衡精度和召回。对于噪声输入,预处理图像:应用高斯模糊 (sigma=1.0) 去除噪声,调整对比度 (CLAHE clipLimit=2.0)。然后,提取输出后,构建 LLM 提示:"基于以下 OCR 结果 [OCR_TEXT],提取表格结构为 JSON 格式,校正拼写错误并解析实体如日期 (YYYY-MM-DD)、金额 (数字),忽略置信度低于 0.5 的文本。"

后处理清单包括:1. 实体解析:使用 NER 规则或 LLM 内置能力标准化姓名、日期;2. 错误校正:比较相邻单元格上下文,若相似度 > 0.8 则融合;3. 结构重组:LLM 输出 JSON 验证完整性,若缺失键则回滚至 OCR 原始。参数推荐:LLM 温度 0.1 以确保确定性,最大 token 1024;批处理大小 4 以优化 GPU 利用。

监控要点:跟踪 OCR 置信度分布,若平均 < 0.6 则触发图像重扫描;LLM 响应时间 < 2s,回滚策略为纯 OCR fallback。风险包括 LLM 幻觉导致假实体,使用 few-shot 示例提示可缓解。在生产环境中,此方案可集成到 RAG 管道,支持实时文档处理,适用于财务审计或法律档案系统。

通过上述参数和清单,该 chaining 方法不仅可操作性强,还能适应不同噪声水平,确保结构化提取的鲁棒性。(字数:912)

查看归档