WiFi CSI 转 DensePose：無摄像头人体姿态估计的工程实践

当我们谈论人体姿态估计时，脑海中首先浮现的往往是摄像头捕捉的画面 —— 无论是 OpenPose、MediaPipe 还是微软的 DensePose，这些技术的共同特点是需要可见光或深度传感器作为输入。然而，RuView 项目展示了一种截然不同的技术路径：仅凭普通 WiFi 信号，就能重建出人体的 17 个 COCO 关键点，实现真正的 “无像素” 姿态估计。这一技术突破不仅重新定义了隐私保护下的感知边界，更为医疗监护、智能家居、工业安全等领域提供了全新的解决方案。

WiFi CSI 感知的基本原理

理解 RuView 的技术根基，需要从 WiFi 信号的物理特性说起。当无线信号在空间中传播时，人体的存在和运动会对信号产生微妙但可测量的影响。WiFi 设备在通信过程中会持续交换被称为 Channel State Information（CSI）的数据 —— 这些数据描述了信号从发射端到接收端所经历的所有物理效应，包括多径衰落、相位偏移和幅度衰减。

在理想的无障碍空间中，WiFi 信号沿直线传播；但当人体进入信号覆盖区域时，身体会吸收、反射和散射电磁波，形成复杂的多径效应。具体而言，人体的呼吸（胸腔起伏约 5-10 毫米）和心跳（体表微动约 0.1-0.3 毫米）都会引起 CSI 相位的周期性调制。这种调制在 5 GHz 频段下虽然极其微弱（相位变化量级仅为几度），但通过高精度的信号处理算法完全可以提取出来。

RuView 使用的 ESP32-S3 开发板能够以每秒 28.5 帧的速率采集 CSI 数据，每个数据帧包含 56 至 192 个子载波的幅度和相位信息。这意味着系统在 20 Hz 的采样率下，每秒产生超过一千个高维特征向量，为后续的姿态重建提供了丰富的信号源。值得注意的是，ESP32-S3 的成本仅约 9 美元，这使得大规模部署成为可能 —— 相比之下，传统基于毫米波雷达的呼吸监测设备单价往往在 50 美元以上。

信号处理 pipeline 的关键技术参数

从原始 CSI 数据到可用的人体特征，需要经历一系列精细的信号处理阶段。RuView 的处理流程建立在六项核心算法之上，每一项都对应着特定工程参数的选择与调优。

第一阶段是相位清理（Phase Sanitization）。原始 CSI 相位中包含大量由载波频率偏移（CFO）、采样频率偏移（SFO）和包检测延迟引入的系统误差。RuView 采用 SpotFi 算法中的共轭乘法技术，将双天线接收的 CSI 进行复共轭运算：CSI_ratio[k] = H₁[k] × conj(H₂[k])。这一操作能够有效抵消上述系统误差，保留的相位信息纯粹来自信道环境本身。实测数据显示，该步骤可将相位噪声从约 30 度降低至 5 度以内。

第二阶段是异常值剔除。传统 Z-score 方法在存在大量异常值时会失效 —— 这是因为均值和标准差本身就会被异常值 “污染”，形成所谓的 “掩盖效应”。RuView 实现的 Hampel 滤波器采用中值和绝对中位差（MAD）作为鲁棒统计量：σ̂ = 1.4826 × MAD。该方法在高达 50% 污染率的数据下仍能正常工作，这对于实际环境中可能存在的信号突变至关重要。

第三阶段是子载波选择。并非所有 WiFi 子载波对人体运动同等敏感 —— 某些子载波可能恰好处于多径 null 点位置，对任何运动都几乎无响应。RuView 通过计算每个子载波的灵敏度指标（sensitivity[k] = var_motion / var_static）并选取排名靠前的 K 个来实现自适应选择。实验表明，选取 10-20 个最敏感的子载波可使信噪比提升 6-10 dB，这直接转化为呼吸检测准确率的显著改善。

第四阶段是时频分析。CSI 时序数据通过短时傅里叶变换（STFT）转换为时频谱图，其中呼吸信号集中在 0.1-0.5 Hz 频段（对应 6-30 BPM），心跳信号集中在 0.8-2.0 Hz 频段（对应 40-120 BPM），而行走等大幅度运动则分布在 1-5 Hz 频段。这种频域分离使得系统能够同时追踪多项生命体征而互不干扰。

第五阶段是 Fresnel 区建模。该算法利用菲涅尔区理论预测呼吸信号在特定发射 - 人体 - 接收几何配置下应当呈现的幅度变化曲线，从而区分真实呼吸信号与环境多径干扰。其核心公式为：ΔΦ = 2π × 2Δd / λ，其中 Δd 是胸腔位移，λ 是信号波长。当人体穿越菲涅尔区边界时，信号幅度会经历从增强到衰减的周期性变化 —— 这一物理特性成为区分呼吸信号与噪声的关键依据。

最后阶段是身体速度 Profile（BVP）提取。BVP 是多普勒频移在所有子载波上的加权聚合，反映了目标的瞬时速度分布。与依赖绝对位置信息的传统方法不同，BVP 具有环境无关性 —— 无论房间布局、家具陈设或接入点位置如何，同一身体动作产生的速度 Profile 模式保持一致。这使得基于 BVP 的模型具备良好的跨环境泛化能力。

WiFlow 模型的训练策略与性能指标

将处理后的 CSI 特征映射到人体 17 个 COCO 关键点（鼻子、双眼、双耳、双肩、双肘、双腕、髋部、双膝、双踝），需要借助深度学习模型。RuView 实现的 WiFlow 架构采用图神经网络与时序卷积的混合设计，其核心是一个可扩展的 Transformer 结构 —— 从轻量版（189K 参数）到完整版（7.7M 参数）提供四个档位的模型选择。

模型的训练支持两条技术路径。第一条是无摄像头自监督学习路径，系统利用 10 种传感器信号（CSI 幅度 / 相位、PIR 红外、RSSI 三角测量、子载波不对称度、振动传感器、BME280 温湿度等）通过对比学习提取人体存在与姿态的表示。这种方式的优点是完全不依赖标签数据，适合隐私敏感场景；其局限在于准确率天花板相对较低。第二条路径是摄像头监督学习，利用 MediaPipe 同步采集的真实姿态标签与 CSI 数据进行配准训练。在 5 分钟数据采集加上 19 分钟训练的条件下，模型可达 92.9% 的 PCK@20 指标 —— 这意味着在 20 像素误差阈值下，超过九成的预测关键点落在真实关键点的容错范围内。

训练过程中的关键超参数值得工程师重点关注。子载波选择采用基于方差的 top-K 策略，将输入维度从 70 降至 35，实现 50% 的计算量削减同时保持 95% 以上的关键指标。多任务损失函数包含六个分量：MSE 回归损失用于关键点坐标、交叉熵用于可见性分类、UV 回归损失用于 DensePose 纹理映射、时序一致性损失、骨骼约束损失（防止关节角度违反人体运动学规律）以及对称性损失（利用人体左右对称性作为正则化）。批量大小根据硬件配置可从 8（边缘设备）调至 64（服务器训练），学习率采用余弦退火策略配合 5 轮 warmup，权重衰减系数为 0.01。

模型量化是实现边缘部署的关键环节。RuView 提供多种量化方案：INT8 量化后模型约 8 KB，可完整加载至 ESP32-S3 的 SRAM 中运行；INT4 进一步压缩至 4 KB，适合内存受限场景；完整 FP32 模型约 50 MB，用于服务器端高精度推理。量化后的推理延迟在 Apple M4 Pro 上仅为 0.008 毫秒 —— 这意味着单台设备足以支撑超过十六万个并发传感器节点的数据处理。

边缘部署的硬件配置与系统架构

RuView 的系统架构采用分层设计，从传感器层到应用层形成了完整的技术栈。最底层的 ESP32-S3 节点负责 CSI 采集与预处理，通过 UDP 协议以 5005 端口将二进制帧发送至汇聚节点。每个节点在 20 Hz 采样率下产生约 2 KB/s 的数据流，单个 ESP32-S3 的处理能力足以应对 4-6 个节点的并发接入。

对于需要更精确空间分辨率的场景，建议部署 3-6 个节点构成多静态传感网络。节点间采用时分多址（TDM）协议协调 —— 每个时隙中仅一个节点发射信号，其他节点同步接收，从而产生 N×(N-1) 条独立的信号链路。例如，4 节点配置可产生 12 条链路，显著提升角度分辨率与空间覆盖率。节点还支持在 WiFi 1/6/11 三个信道间自动跳频，将有效感知带宽提升三倍。

RuView 与 Cognitum Seed 的整合为系统增添了持久化存储与 AI 能力。Seed 是一款搭载专用 AI 加速器的边缘计算设备（单价约 131 美元），支持向量数据库、k 最近邻（kNN）搜索和 Ed25519 加密签名验证。ESP32 节点将 8 维特征向量（包含存在状态、运动强度、呼吸率、心率、相位方差、人数计数、跌倒标志和 RSSI）以 1 Hz 频率同步至 Seed，后者负责存储历史轨迹、执行相似性查询和生成防篡改审计日志。

在软件层面，Rust 实现的传感服务器提供了 HTTP（默认 3000 端口）与 WebSocket（默认 3001 端口）双通道数据访问。REST API 涵盖健康检查、最新感知帧、生命体征查询、姿态查询和模型信息等端点；WebSocket 则推送实时 JSON 数据流，便于前端 Three.js 可视化或移动应用集成。服务器还提供 65 个预编译的 WASM 边缘模块，涵盖医疗健康（睡眠呼吸暂停、心律失常、步态分析）、安全防范（入侵检测、徘徊警告、恐慌动作）、智能建筑（会议室管理、HVAC 控制）和零售分析（队列长度、热区驻留）等场景，模块大小普遍在 5-30 KB 区间，可通过 OTA 无线更新至 ESP32。

工程实践中的关键阈值与监控要点

将 RuView 投入生产环境时，工程师需要关注若干直接影响系统可靠性的参数阈值。呼吸检测的置信度阈值建议设置为 0.6—— 低于此值时系统应标记为 “信号质量不足” 而非输出结果，这是因为低置信度的呼吸数据可能导致医疗应用中的误判。心率检测面临更严峻的信噪比挑战，推荐阈值提升至 0.75，同时对 40-120 BPM 范围外的异常值进行硬过滤。

跌倒检测是一类关键安全应用。RuView 通过分析 CSI 方差突变与姿态变化速率的组合特征进行判断，推荐的触发阈值为加速度等效值 15,000 毫单位（约等于 15 rad/s² 的角加速度变化）。考虑到老年人跌倒可能呈现渐进式特征，系统在检测到疑似跌倒后会启动 10 秒观察窗口 —— 若期间检测到恢复性动作则撤销报警，否则向监护人发送通知。

多人物场景下的身份追踪采用 Stoer-Wagner 最小割算法对子载波关联图进行划分。在典型办公环境中（2-4 人），该算法可实现连续 10 分钟零身份交换的追踪稳定性。但需要注意的是，当人数超过 5 人时，由于 56 子载波的区分能力达到物理上限，身份混淆概率显著上升 —— 此时应考虑增加接入点或部署额外的 ESP32 节点以扩展信号维度。

信号质量的持续监控同样不可或缺。推荐将相干度（Coherence）作为核心监控指标 —— 它衡量的是多径信号叠加后的一致性程度。当相干度低于 0.5 时，表明信号受环境噪声影响严重，系统应自动切换至 “预测模式”（基于历史轨迹外推）而非继续处理原始 CSI 数据。此外，子载波 null 点占比也是重要指标 —— 若超过 20% 的子载波处于深度衰减状态，说明天线朝向或房间布置需要调整。

技术局限与未来演进方向

尽管 RuView 展现了令人印象深刻的技术能力，其工程化部署仍面临若干现实约束。首先是空间分辨率的理论上限 —— 单一 WiFi 链路的角分辨率受限于信号波长与天线间距，在 5 GHz 频段下约为 30 度，这意味着精细的手指动作（如手语识别）目前仍难以准确重建。其次是多静态网络的建设成本 —— 虽然 ESP32 单价低廉，但要实现可靠的 360 度覆盖，4-6 节点的设计意味着 36-54 美元的硬件投入，这对于大规模推广构成了一定门槛。

信号穿透能力方面，WiFi 信号虽能穿越石膏墙、木板和普通家具，但对金属承重墙和混凝土的衰减显著。官方测试数据表明，在 5 米范围内穿透单层砖墙可正常工作，但多层钢筋混凝土结构会将有效探测距离压缩至 2 米以内。衣物覆盖对检测也有轻微影响 —— 厚重的冬季外套会使呼吸信号幅度降低约 3-5 dB。

展望未来，RuView 的演进路线图涵盖了多个方向。与毫米波雷达的深度融合是近期重点 ——60 GHz mmWave 雷达可提供更精细的空间分辨率，与 WiFi CSI 形成能力互补。多机器人协同感知旨在解决大型空间覆盖问题，通过动态组网实现亚米级的人员定位精度。情绪与认知状态的非接触评估则属于更长期的探索方向 —— 研究显示，呼吸模式与心率变异性（HRV）的细微变化与压力、焦虑等心理状态存在统计关联，这一方向的成熟将开辟心理健康的全新监测范式。

技术博客的核心价值在于连接原理与实践。RuView 所代表的 WiFi 感知技术，本质上是对射频物理信号的深度解读 —— 它证明了我们不必依赖光学影像便能感知人类的存在与活动。在隐私日益受到重视的当下，这种 “以波识人” 的能力或许将开启人机交互与环境感知的新篇章。

资料来源：

RuView GitHub 仓库：https://github.com/ruvnet/RuView
微软 DensePose 研究：基于 WiFi CSI 的人体姿态估计（arXiv:2301.00250）

ai-systems