Ghidra 参数化脚本链设计：模块化反汇编工作流实战

在二进制分析的日常实践中，单一脚本往往难以覆盖复杂的逆向工程流程。从批量导入、架构识别、函数分析到结果导出，每个环节都可能需要定制化处理。Ghidra 提供的 analyzeHeadless 无头模式虽然支持脚本编排，但如何让多个脚本形成松耦合、可复用的工作流，却鲜少被系统性地讨论。本文从工程化视角出发，提出一套参数化脚本链的设计方案，重点解决脚本排序、参数传递与结果缓存三个核心问题。

核心架构：三层分离

脚本链的首要设计原则是将关注点分离。建议将工作流拆分为三层：前端脚本负责命令行参数解析与用户交互，分析模块封装可复用的 Ghidra API 调用，缓存层管理跨阶段的计算结果。这种分层不仅提升代码的可测试性，也让同一套分析模块可以在 GUI 调试模式与无头批处理模式间无缝切换。

前端脚本通过 getScriptArgs() 获取 String[] 参数，这是 Ghidra 脚本与命令行交互的唯一入口。建议采用 ++key value 的命名约定而非位置参数，例如 ++mode malware ++outPrefix /tmp/results。这种显式键值对风格在后续扩展时不会破坏既有调用，且便于集中编写解析逻辑。一个实用的模式是在每个脚本头部封装一个 ArgParser 类，将原始字符串数组转换为配置对象，并在解析失败时输出 ++help 提示后安全退出。

参数传递：两条路径

脚本链中的数据传递可采用两种策略。对于轻量级配置，优先使用 Ghidra 的 Program Options API：program.getOptions("MyTool").setString("profile", "malware") 将配置持久化到项目属性中。同一 analyzeHeadless 调用中的所有 -preScript 和 -postScript 共享同一个 GhidraState，因此后续脚本可直接读取这些属性。这种方式适合传递分析模式、阈值参数、版本标记等小型标量数据。

对于需要传递复杂结构或大规模计算结果的场景，建议采用文件系统中转。前一阶段脚本将结果序列化为 JSON 文件，后一阶段通过 ++stateFile /tmp/state.json 参数获取路径并反序列化。这种 "显式文件路径传递" 模式避免了隐式状态带来的调试困难，也让脚本链的依赖关系更加清晰。更进一步，可引入 ++runId abc123 作为命名空间，让同一批次的输出文件按 ID 分组，便于后续审计与回溯。

结果缓存：复合 Key 设计

在脚本链中，某些分析步骤（如控制流分析、反编译）计算开销较大，需要在多次调用间缓存结果。简单的 Map<Function, Result> 在多项目、多配置场景下会失效。建议设计复合缓存键，至少包含三个维度：项目唯一标识（可取程序内容的哈希值或数据库 ID）、函数入口地址、配置选项哈希。在 Java 风格中可封装为 AnalysisKey 类：

final class AnalysisKey {
    final long programChecksum;
    final long funcEntry;
    final int optionsHash;
    @Override public int hashCode() { /* combine fields */ }
}

缓存访问遵循 getOrCompute 模式：先查缓存，命中且未过期则直接返回；否则执行分析，写入缓存后返回结果。过期策略建议采用版本驱动：当脚本检测到程序被修改（通过校验和比对）或配置选项变更时，自动提升 optionsVersion 字段，使旧缓存自然失效。这种 "失效即重建" 的策略比手动清理缓存更健壮，避免 stale data 导致的隐蔽错误。

脚本编排：链式执行模板

一个典型的四阶段脚本链可设计如下：

00-setup.py（PreScript）：解析全局参数，初始化缓存目录，将配置写入 Program Options。
01-detect-features.py（PreScript）：读取配置，执行架构检测或符号提取，结果写入 JSON。
02-custom-analysis.py（PostScript）：读取前一阶段的 JSON，执行深度分析，必要时查缓存复用。
99-export.py（PostScript）：聚合所有阶段结果，按 ++format json|csv|md 参数输出。

命令行调用示例：

analyzeHeadless /path/proj BatchProj \
  -import ./samples/ \
  -scriptPath ./ghidra_scripts \
  -preScript 00-setup.py ++mode deep ++runId batch_20260217 \
  -preScript 01-detect-features.py \
  -postScript 02-custom-analysis.py ++stateFile /tmp/batch_20260217/features.json \
  -postScript 99-export.py ++outDir /tmp/batch_20260217/results

限制与应对

需要警惕的是，每次 analyzeHeadless 调用都启动新的 JVM，因此内存中的静态单例无法在跨调用间持久化。如需在多次独立调用间共享状态，必须将数据外化为文件或数据库记录。此外，参数解析目前由脚本自行处理，缺乏统一的 schema 校验，跨脚本间的参数契约需要文档化维护，否则版本迭代时容易引入破坏性变更。

参数化脚本链的价值在于将一次性脚本提升为可组合、可配置的生产工具。通过明确的参数约定、轻量的状态传递机制与健壮的缓存策略，Ghidra 的无头模式可以成为自动化逆向流水线的可靠基石。

资料来源

Headless Analyzer README, GrumpyCoder
Max Kersten, "Ghidra Tip 0x05: Headless execution", 2024