水下机器人实时声学跟踪：抹香鲸对话识别的工程挑战与实现路径

在广袤的深海之中，抹香鲸以穿透力极强的咔嗒声（clicks）进行交流，这些声音可以在数公里范围内传播，是海洋哺乳动物中极具研究价值的声学信号之一。传统研究依赖于被动式记录仪或附着式声学标签，前者仅能覆盖固定区域，后者则通常在数天后便会脱落，难以实现对单个鲸鱼或鲸群的长期连续跟踪。2026 年 5 月，项目 CETI（Cetacean Translation Initiative）宣布其自主水下滑翔机首次在深海实现对抹香鲸对话的实时跟踪，这一突破标志着海洋生物声学从 “短暂相遇” 向 “持续关系” 的范式转变。本文将从工程视角出发，系统剖析该技术背后的声学信号采集、实时处理与噪声过滤方案，并给出可供参考的系统参数与设计要点。

低频声波采集：四水听器阵列与深度适配

抹香鲸的咔嗒声具有独特的声学特征。主能量集中在 10 至 30 千赫兹频段，脉冲持续时间通常为 2 至 5 毫秒，峰值声压可达 180 至 190 分贝（参考值：1 微帕・米）。这种宽频带、高强度的脉冲信号为远距离探测提供了物理基础，但同时也带来了采集端的硬件挑战。项目 CETI 采用的自主水下滑翔机配备了四元水听器阵列，布局遵循空间采样定理，阵列孔径设计为约 0.5 米，以实现对声源方向的到达角（Angle of Arrival）估算。

在实际部署中，水听器的灵敏度是关键指标。建议选用压电陶瓷或光纤光栅型水听器，工作频带覆盖 5 赫兹至 100 千赫兹，灵敏度不低于负 190 分贝（参考值：1 伏 / 微帕）。由于滑翔机需在水下长时间作业，功耗控制尤为严格 —— 四通道同步采样的总体功耗应控制在 200 毫瓦以内，以保障数月级别的续航能力。此外，深海环境对设备的耐压性能提出了硬性要求：工作深度需达到 1500 米以上，对应耐压壳体设计压力不低于 20 兆帕。

采样率的选择需权衡信号保真度与数据吞吐量。对于抹香鲸咔嗒声而言，100 千赫兹以上的采样率足以完整捕获脉冲波形细节，但考虑到后续实时处理算法的算力限制，建议采用 128 千赫兹采样率，配合 12 位或 16 位 ADC，可兼顾信号质量与嵌入式处理器的运算负荷。

实时信号处理：边缘计算与声纹特征提取

实时跟踪的核心在于滑翔机必须在水下完成声学决策，而非等到上浮后进行离线分析。这一需求决定了信号处理链路必须高度嵌入化。项目 CETI 的方案中，水听器采集的模拟信号经放大、滤波后进入嵌入式处理器，执行以下核心处理步骤。

第一步为脉冲检测。采用能量检测算法，在时域上对滑动窗口内的声压能量进行积分，当能量超过预设阈值（建议设为环境背景噪声均方根值的 6 至 8 倍）时触发脉冲事件。阈值设定需考虑海洋环境噪声的统计特性 —— 深海背景噪声在 10 千赫兹附近约为 70 至 80 分贝，随航速和水深略有波动，自适应阈值可有效应对这一变化。

第二步为到达角估算。基于四元阵列的时差（TDOA）算法，通过计算同一脉冲到达不同水听器的时间差，解算声源的水平方位角。算法复杂度为 O (n)，其中 n 为脉冲检测次数，在嵌入式 ARM Cortex-M7 或类似处理器上可实现毫秒级延迟。值得注意的是，水听器之间的相位一致性需在出厂前进行标定，温度和压力变化引起的灵敏度漂移需在实时处理中进行补偿。

第三步为声纹分类。抹香鲸的咔嗒声存在个体差异，表现为脉冲间隔、频谱包络和主频率的细微差别。边缘端可部署轻量级分类模型（如基于一维卷积神经网络的二分类器），对检测到的脉冲进行初步筛选，排除其他海洋生物（如海豚）或人为噪声（如船舶螺旋桨）的干扰。模型推理耗时应控制在 50 毫秒以内，以确保跟踪决策的时效性。

海洋噪声过滤：自适应滤波与空间滤波相结合

海洋环境噪声是实时声学跟踪面临的主要干扰源。噪声来源包括海洋动力学噪声（风浪、湍流）、生物噪声（其他鲸类、海豚）以及人为噪声（航运、工程作业）。在 10 至 30 千赫兹频段，航运噪声是主要的宽带干扰源，其频谱特性与抹香鲸咔嗒声存在部分重叠。

系统采用两级过滤策略。第一级为频域滤波，基于快速傅里叶变换（FFT）实现带通滤波，保留 10 至 35 千赫兹的有效信号频段，抑制低频海洋动力学噪声和高频热噪声。FFT 窗口长度建议设为 512 或 1024 点，重叠率不低于 50%，以兼顾频率分辨率与时间分辨率。

第二级为自适应空域滤波。利用四元阵列的方向性，构造波束形成器（Beamformer），增强来自目标方向的信号，抑制其他方向的干扰。常规的延迟累加波束形成器可实现约 3 至 6 分贝的阵列增益，而更先进的 MVDR（最小方差无失真响应）波束形成器在理想条件下可将旁瓣抑制提升至 15 分贝以上。考虑到嵌入式处理的实时性要求，建议采用离散傅里叶域实现的部分自适应波束形成算法，计算量约为传统 MVDR 的三分之一。

此外，系统引入了噪声统计学习模块。在滑翔机启动初期，算法会采集约 5 至 10 分钟的环境噪声样本，建立背景噪声的功率谱密度模型，后续检测中若信号功率与模型显著偏离（建议设定为超过背景噪声 3 倍标准差），则判定为有效脉冲事件。

自主导航：“后座驾驶员” 决策与路径规划

检测到抹香鲸声学信号并完成方向估算后，滑翔机需基于这些信息实时调整航向。项目 CETI 将此功能称为 “后座驾驶员”（Backseat Driver）—— 一套运行在主控单元上的决策软件，在不干扰滑翔机基本运动控制的前提下，将声学跟踪指令嵌入导航系统。

具体而言，当连续检测到来自同一方向的抹香鲸咔嗒声（建议设定为连续 3 次以上脉冲事件，方位角标准差小于 15 度）时，系统判定目标存在于该方向，随后计算期望航向与当前航向的偏转角，通过改变滑翔机的姿态控制面（俯仰角和偏航角）实现转向。整个决策链条的端到端延迟 —— 从声学信号采集到电机响应 —— 应控制在 10 秒以内，以确保在鲸鱼下潜或转向时能够及时跟进。

路径规划层面，滑翔机采用基于行为树的分层控制策略。底层执行基本的运动控制和安全监控（如避障、深度限制），中层负责声学跟踪逻辑，高层则结合任务目标（如跟踪特定个体、覆盖指定区域）进行全局规划。在目标丢失（连续 30 秒以上未检测到有效脉冲）的情况下，滑翔机会自动切换至搜索模式，沿螺旋形或 Zigzag 路径展开搜索，直至重新捕获信号。

工程约束与系统参数清单

实际部署中，以下工程参数需重点关注。通信约束方面，滑翔机需每隔 2 至 4 小时上浮至海面，通过卫星链路传输跟踪数据并接收新任务指令，这一限制意味着实时跟踪存在不可避免的通信间隙。能源管理方面，水听器阵列的持续工作、滑翔机的姿态调整以及边缘推理均消耗电力，系统需在跟踪精度与续航之间取得平衡，建议将跟踪占空比设为 70%，即每小时内约 42 分钟处于主动跟踪状态，其余时间用于数据下传和姿态调整。定位精度方面，现有系统可实现方位角估算误差约为 10 至 15 度，但深度信息难以直接获取，限制了区分重叠鲸群个体的能力，这也是后续技术迭代的重点方向。

结语

自主水下滑翔机对抹香鲸的实时声学跟踪，是海洋生物声学与无人系统技术的深度交叉成果。它证明了在边缘设备上实现复杂声学决策的可行性，也为长期、生态尺度的海洋哺乳动物研究开辟了新路径。从工程角度看，低频声波采集、实时信号处理、自适应噪声过滤与自主导航的协同设计是系统成功的关键；下一步的技术演进将聚焦于提升定位精度、延长水下通信时间以及实现多目标同时跟踪。海洋声学工程的边界，正在被这些 “沉默的追踪者” 不断拓展。

资料来源：Independent 报道（2026 年 5 月 1 日）、Project CETI 研究团队公开技术说明。

systems