在公共卫生数据科学领域,历史传染病数据的数字化是一项既具挑战性又极具价值的工程任务。McMaster 大学研究团队近期完成了对 1903 年以来加拿大传染病数据的全面数字化,创建了包含超过 100 万条病例计数的 CANDID(Canadian Notifiable Disease Incidence Dataset)数据集。这一工程实践为我们提供了一个绝佳的案例,来探讨如何构建能够处理百年时间跨度、多格式源数据的 ETL(Extract, Transform, Load)管道。
项目背景与核心挑战
McMaster 大学的 David Earn 教授团队在 25 年前偶然发现了安大略省卫生部档案中的手写传染病周报记录(1939-1989 年),这成为了整个数字化项目的起点。随着研究的深入,团队陆续从加拿大各地的图书馆、公共卫生办公室和机构中挖掘出更多历史记录,时间跨度最终扩展至 1903 年至今。
这一项目面临的核心工程挑战包括:
- 数据源异构性:数据以手写文档、打字文件、微缩胶片、早期数字格式等多种形式存在
- 时间序列对齐:不同时期的数据报告频率不同(周报、月报、季报),需要统一时间尺度
- 数据质量验证:手写文档可能存在转录错误,历史记录可能存在缺失或不一致
- Schema 设计:需要设计能够容纳百年数据演变的统一数据结构
异构数据源 ETL 管道设计要点
1. 数据提取层:多格式适配器设计
针对不同类型的源数据,需要设计专门的提取适配器:
# 伪代码示例:多格式数据提取适配器
class DataExtractor:
def extract_handwritten_docs(self, scanned_images):
"""处理手写文档扫描件,结合OCR与人工验证"""
# OCR识别
# 人工验证界面
# 质量控制标记
def extract_typewritten_docs(self, scanned_pdfs):
"""处理打字文档,相对较高的OCR准确率"""
# 结构化OCR
# 表格识别
def extract_microfilm(self, microfilm_scans):
"""处理微缩胶片,需要特殊图像预处理"""
# 图像增强
# 对比度调整
# 去噪处理
def extract_early_digital(self, legacy_formats):
"""处理早期数字格式(如dBase、Lotus 1-2-3)"""
# 格式转换器
# 编码处理
2. 数据转换层:时间序列对齐算法
历史传染病数据的一个关键挑战是时间序列对齐。不同时期、不同省份的报告频率和格式各不相同。McMaster 团队的数据科学家 Steven Walker 提到:"我们开始是手动将扫描的手写或打字文档转录到 Microsoft Excel 中,确保拥有每个原始文档的功能性副本。但由于格式不一致,这些副本并不适合数据分析。"
针对时间序列对齐,可以采用以下算法策略:
动态时间规整(Dynamic Time Warping, DTW)的改进应用
传统的 DTW 算法在处理百年时间序列时面临计算复杂度问题。我们可以采用 Trainable Time Warping(TTW)算法,其复杂度为 O (IKNT),在处理大规模历史数据时更具优势:
# 时间序列对齐的核心逻辑
def align_historical_time_series(weekly_data, monthly_data, quarterly_data):
"""
对齐不同频率的时间序列数据
参数:
- weekly_data: 周度数据(可能在某些时期缺失)
- monthly_data: 月度数据
- quarterly_data: 季度数据
返回:
- aligned_series: 统一频率的时间序列
"""
# 1. 频率统一:将低频数据插值到高频
monthly_interpolated = interpolate_to_weekly(monthly_data)
quarterly_interpolated = interpolate_to_weekly(quarterly_data)
# 2. 时间对齐:处理日历差异和报告延迟
aligned_data = temporal_alignment(
weekly_data,
monthly_interpolated,
quarterly_interpolated,
method='ttw' # 使用Trainable Time Warping
)
# 3. 置信度评分:基于数据源质量
confidence_scores = calculate_confidence(
data_sources,
transcription_quality,
temporal_coverage
)
return aligned_data, confidence_scores
3. 数据质量验证规则体系
对于历史数据数字化,数据质量验证至关重要。McMaster 团队采用人工转录与自动验证相结合的方式。我们可以建立多层次的质量验证规则:
第一层:基础完整性检查
- 时间连续性验证:检查时间序列中的缺失时段
- 数值范围验证:病例数应在合理范围内(如 0 - 人口总数)
- 一致性验证:同一疾病在不同来源中的报告应基本一致
第二层:统计异常检测
- 季节性模式验证:传染病通常具有季节性特征
- 异常值检测:使用 Z-score、IQR 等方法识别异常报告
- 趋势一致性:长期趋势应符合已知的流行病学模式
第三层:跨源一致性验证
- 多源数据比对:同一时期不同来源的数据应相互印证
- 地理一致性:相邻地区的疾病传播模式应具有相关性
- 时间滞后分析:考虑报告延迟对数据一致性的影响
# 数据质量验证规则实现示例
class DataQualityValidator:
def __init__(self):
self.rules = self._initialize_validation_rules()
def _initialize_validation_rules(self):
return {
'temporal_continuity': {
'max_gap_days': 30,
'allowed_missing_ratio': 0.05
},
'value_range': {
'min_cases': 0,
'max_cases_per_capita': 0.01 # 假设最大发病率1%
},
'seasonal_pattern': {
'expected_seasonality': ['influenza', 'measles'],
'seasonality_threshold': 0.7
}
}
def validate_dataset(self, dataset, metadata):
"""执行多层次数据质量验证"""
validation_results = {}
# 基础完整性检查
validation_results['completeness'] = self._check_completeness(
dataset,
self.rules['temporal_continuity']
)
# 数值范围验证
validation_results['value_ranges'] = self._check_value_ranges(
dataset,
self.rules['value_range'],
metadata['population_data']
)
# 季节性模式验证
validation_results['seasonality'] = self._check_seasonal_patterns(
dataset,
self.rules['seasonal_pattern']
)
return validation_results
统一 Schema 设计与工程化参数
1. 灵活的数据结构设计
McMaster 团队开发了 "灵活的数据结构" 来应对原始文档格式不一致的问题。我们可以设计一个分层的 Schema 结构:
核心数据表设计
-- 疾病事件核心表
CREATE TABLE disease_incidence (
id UUID PRIMARY KEY,
disease_code VARCHAR(20) NOT NULL, -- 疾病编码(标准化)
province_code VARCHAR(10) NOT NULL, -- 省份编码
report_date DATE NOT NULL, -- 报告日期
incidence_count INTEGER, -- 病例数
report_frequency VARCHAR(10), -- 报告频率(weekly/monthly/quarterly)
data_source VARCHAR(50), -- 数据来源
transcription_confidence FLOAT, -- 转录置信度(0-1)
quality_score FLOAT, -- 数据质量评分
original_format VARCHAR(30), -- 原始格式
created_at TIMESTAMP DEFAULT NOW(),
-- 索引优化查询性能
INDEX idx_disease_date (disease_code, report_date),
INDEX idx_province_disease (province_code, disease_code)
);
-- 元数据表:记录数据处理流水线
CREATE TABLE processing_metadata (
id UUID PRIMARY KEY,
batch_id VARCHAR(50) NOT NULL,
source_type VARCHAR(30) NOT NULL,
extraction_method VARCHAR(50),
transformation_steps JSONB, -- 转换步骤记录
validation_results JSONB, -- 验证结果
processing_time INTERVAL,
success BOOLEAN DEFAULT TRUE,
error_log TEXT,
processed_at TIMESTAMP DEFAULT NOW()
);
2. 时间序列对齐的工程化参数
基于 McMaster 项目的实践经验,我们总结出以下关键工程参数:
时间序列处理参数
- 插值方法选择:线性插值 vs 季节性插值
- 对齐容差:±3 天用于周数据,±7 天用于月数据
- 缺失数据处理:最大允许缺失比例 5%,超过需标记
质量阈值参数
- 转录置信度阈值:≥0.85 为高质量,0.70-0.85 需人工复核
- 跨源一致性阈值:相关系数≥0.8 为高度一致
- 异常值处理:Z-score > 3 标记为异常,需上下文验证
3. 监控与运维要点
对于百年数据数字化项目,建立完善的监控体系至关重要:
关键监控指标
- 数据覆盖率监控:随时间推移的数据完整度
- 质量趋势监控:数据质量评分的变化趋势
- 处理效率监控:ETL 管道的吞吐量和延迟
- 异常检测监控:自动识别数据异常和处理异常
运维最佳实践
- 版本控制:所有数据处理脚本和配置版本化
- 可重现性:确保数据处理过程完全可重现
- 增量处理:支持增量数据更新,避免全量重处理
- 审计追踪:完整记录数据血缘和处理历史
工程实践建议与未来展望
基于 McMaster 项目的经验,对于类似的历史数据数字化工程,我们提出以下建议:
1. 分阶段实施策略
- 第一阶段:建立基础 ETL 管道,处理主要数据源
- 第二阶段:完善数据质量验证体系
- 第三阶段:优化时间序列对齐算法
- 第四阶段:建立监控和运维体系
2. 技术栈选择建议
- 数据处理:Python + Pandas + Dask(大规模数据处理)
- 数据库:PostgreSQL + TimescaleDB(时间序列优化)
- 工作流:Apache Airflow 或 Prefect
- 监控:Prometheus + Grafana
3. 团队协作模式
McMaster 项目成功的关键之一是数据科学家 Steven Walker 的深度参与。建议采用 "领域专家 + 数据工程师" 的协作模式:
- 领域专家:理解数据语义和业务逻辑
- 数据工程师:构建稳健的工程系统
- 质量保证专家:建立验证规则和监控体系
4. 未来技术方向
随着技术的发展,历史数据数字化可以探索以下方向:
- AI 辅助转录:使用深度学习提高手写文档识别准确率
- 自动化对齐:基于机器学习的自适应时间序列对齐
- 实时质量监控:流式处理框架下的实时数据质量检测
- 联邦学习:在保护隐私的前提下进行跨机构数据协同
结语
McMaster 大学百年传染病数据数字化项目不仅为公共卫生研究提供了宝贵的数据资源,也为历史数据数字化工程提供了重要的实践经验。通过构建稳健的 ETL 管道、设计灵活的数据结构、实施严格的质量验证,我们能够将分散的、异构的历史数据转化为可用于现代数据分析的统一资源。
正如 David Earn 教授所说:"这些数据揭示了过去疫情爆发的速度和形态,使我们能够测试预测传播模式的模型。" 而实现这一目标的关键,正是精心设计的工程系统和严谨的数据处理流程。
在数据驱动的时代,历史数据的价值日益凸显。通过借鉴 McMaster 项目的工程实践,我们可以更好地应对历史数据数字化的挑战,为科学研究和社会决策提供更坚实的数据基础。
资料来源:
- McMaster University. (2025). McMaster research team digitizes more than 100 years of Canadian infectious disease data. Retrieved from https://news.mcmaster.ca/mcmaster-research-team-digitizes-more-than-100-years-of-canadian-infectious-disease-data/
- Earn, D., et al. (2025). Canadian Notifiable Disease Incidence Dataset (CANDID): Digitizing over a century of infectious disease surveillance data. PLOS Global Public Health.
- Khorram, S., et al. (2019). Trainable Time Warping: Aligning multiple time series. ICASSP 2019.