近期,Lighthouse Reports 的一篇名为《监视秘密》(Surveillance Secrets)的调查报告,揭示了一个庞大且复杂的全球手机定位追踪网络。该调查始于一个包含超过 150 万条追踪操作记录的庞大数据集,展示了监视技术如何被用于追踪记者、政治人物乃至普通公民。这一事件不仅暴露了全球电信基础架构的脆弱性,也为数据科学家和 AI 系统工程师提出了一个严峻而具体的挑战:我们能否构建一个足够稳健的统计模型,从这类大规模、高噪声且充满混淆策略的真实世界数据中,自动识别出异常甚至非法的追踪行为?
本文将以此为背景,探讨构建此类模型的关键技术要点,重点关注如何通过特征工程来应对混淆技术,并利用异常检测算法发现可疑的监视活动。
理解数据源的复杂性与不可靠性
报告指出,大部分追踪操作利用了全球移动通信网络核心的 SS7(七号信令系统)协议的固有漏洞。攻击者通过发送特定信令查询,即可“欺骗”电信网络,使其返回目标手机的大致蜂窝基站位置。这决定了数据源的几个关键特性:
- 精度有限且不一致:SS7 定位依赖于基站位置,其精度在人口密集的城市可能达到几百米,但在农村地区则可能相差数公里。这种精度波动为精确的轨迹分析带来了巨大困难。
- 数据充满噪声:信号切换、网络延迟和暂时的连接丢失都会在数据中产生“跳点”或空白。一个持续的追踪请求可能因为网络问题而返回一系列在地理上不连续的位置点。
- 潜在的蓄意混淆:更高级的对手,如报告中提到的中间商和空壳公司,可能会采取技术手段进行混淆。例如,通过分布在全球各地的服务器发起追踪请求,使得追踪源头的归属变得极其困难;或者在追踪行为模式上进行伪装,使其看起来像是合法的、零散的查询。
一个有效的分析模型必须首先承认并处理这些内在的复杂性,而不是假设数据是干净或完全可信的。
异常检测:定义“正常”与“异常”
面对这样的数据集,监督学习模型几乎不可能实现,因为我们缺乏一个明确标注了“合法”与“非法”追踪行为的训练集。因此,非监督的异常检测成为核心方法。其关键在于首先定义一个“正常行为”的基线,然后将显著偏离该基线的活动标记为需要进一步审查的“异常”。
我们可以从以下几个维度构建基线模型:
- 目标画像(Target Profiling):尽管原始数据仅包含电话号码,但通过公开信息或历史数据关联,可以为部分号码建立初步画像(例如,是否为记者、律师、特定公司的员工等)。一个针对普通教师的、持续数周的跨国追踪,其异常分数显然应高于针对已知国际逃犯的追踪。
- 行为模式(Behavioral Patterning):合法的追踪通常遵循特定模式,例如在特定时间段内(如工作时间)对特定区域的目标进行监控。我们可以使用时间序列分析或聚类算法(如 DBSCAN)来识别常见的时空行为簇,并将那些零散、无规律或行为模式罕见的操作视为异常。
- 请求源分析(Source Analysis):追踪请求的发起来源是关键特征。来自单一、已知执法机构网络节点的请求,其可信度高于来自多个不相关国家、通过匿名代理发起的请求。
核心挑战:应对混淆技术的特征工程
要让模型能够穿透混淆的迷雾,精细化的特征工程至关重要。以下是一些针对性的特征设计,旨在量化和捕捉可疑的混淆行为:
-
地理与网络路径特征 (Geospatial & Network Path Features):
source_diversity_score: 计算在特定时间窗口内,针对同一目标的追踪请求来自多少个不同的国家、自治系统(ASN)或 IP 地址段。高分可能意味着通过代理网络进行混淆。
location_jump_velocity: 计算连续定位点之间的时空速度。一个远超正常交通工具(如飞机)速度的“跳跃”,强烈表明数据点是伪造的、存在噪声或是由两个不同目标交替追踪所致。
geographical_inconsistency: 分析追踪请求发起地与目标所在地之间的关系。例如,一个声称在本地执法的机构,却频繁通过位于地球另一侧的服务器追踪本地目标,这本身就是一个可疑信号。
-
时间模式特征 (Temporal Features):
off_hour_tracking_ratio: 计算在非标准工作时间(如午夜至凌晨 5 点)发生的追踪操作占比。虽然某些合法操作需要全天候进行,但对于特定类型的案件,持续的夜间追踪可能是不合常理的。
tracking_persistence_index: 衡量追踪的持续性。是持续数周的每日监控,还是仅在特定事件(如新闻发布会)前后出现的短暂高峰?前者可能指向骚扰或压制,后者则更符合事件驱动的调查。
-
成本与资源特征 (Cost & Resource Features):
estimated_query_cost: SS7 查询并非免费。根据公开的市场价格估算每次追踪操作的成本。如果针对一个低价值目标的追踪成本预估过高,可能意味着背后有非商业动机的、资源充足的行动方。
构建可落地的分析系统
基于上述思路,一个完整的系统应包括数据预处理、特征提取、模型评分和人工审核四个环节。
- 模型选择:可以使用诸如孤立森林(Isolation Forest)或 Local Outlier Factor (LOF) 等成熟的异常检测算法。这些模型不需要复杂的参数调优,并且能有效处理高维数据。
- 阈值设定与动态调整:设定一个固定的异常分数阈值是次优选择。更理想的策略是采用动态阈值,或者将分数最高的 Top-N 个案例推送给分析师进行人工审核。通过分析师的反馈,可以进一步优化模型(一种“人在环路”的半监督方法)。
- 可解释性:模型必须提供其判断依据。例如,当一个追踪操作被标记为异常时,系统应能明确指出是哪些特征(如
source_diversity_score过高)导致了这一判断。这对于后续的调查和取证至关重要。
正如 Lighthouse Reports 的调查所揭示的,技术本身是中立的,但其应用却可以带来深远的社会影响。通过构建更智能、更稳健的数据分析系统,我们不仅能够更好地理解监视技术的滥用现状,也为技术向善、建立有效监管和问责机制提供了强有力的工程路径和决策支持。