ML-KEM实现神话剖析：掩码开销、侧信道泄漏与高效工程实践

ML-KEM 作为 NIST 后量子密钥封装标准，数学安全坚固，但实现神话频现：masking 开销过高导致不可用、侧信道泄漏无解、IND-CCA 易失败、高效电路软件遥不可及。这些误解源于早期实现缺陷与防护权衡不当，实际通过工程实践可控。

首先，masking 开销神话。高阶 masking 防护 d 阶 DPA 需 O (d²) 域乘法与随机数，传统方案 overhead 巨大，如 AES d=8 时速度降 68%。但 packed multiplication 摊销多运算成本，仅需 d²+2ℓd+ℓ bilinear 乘法（ℓ并行），ARM NEON 矢量实现 15 指令 / 乘，AES SubBytes d=8 时速度仅降 33%、随机节省 68%。电路端，随机伪轮隐藏优于 masking：动态冗余模运算 + LFSR 调度破坏 PWM 时序，Xilinx Spartan-6 FPGA 上防护前 897~1650 traces CPA 破解密钥，防护后 10k traces 无效，面积仅增 157 LUT+99 FF（AT 增 17.99%），优于静态隐藏。落地参数：软件选 d=2（3 shares），NEON 打包ℓ=4，随机源 NIST RBG；硬件 d=1 伪轮，LFSR 种子 128 位，TVLA |t|<4.5 阈值验证。

其次，侧信道泄漏神话。ML-KEM PWM/NTT 易 timing/power leak，如 Kyberslash 实现分支预测漏洞单迹线密钥恢复，Clang 优化 poly_frommsg 引入秘密分支 10min 笔记本破解 ML-KEM-512。故障攻击普遍，Rowhammer 翻转 bit 即破，但非 ML-KEM 专属。防护实践：常时执行禁浮点，NTT 首级 LUT 替换减 8 周期，PWM 流水优化 + 迭代 FIFO（尺寸减 55%）。清单：1) 输入校验 pk/ct 类型 & 模 q；2) Nonce counter check 防采样故障，仅改 32bit bitstream 即破；3) 拆分 Nonce 周期；4) 层级流水（哈希采样 / NTT-PWM / 加压编码），AT 产品 level1/3/5 提升 15.8%/10.7%/11.3%；5) GPU cuPQC H100 上 keygen 1330 万 /s（143x CPU）。

再次，IND-CCA 误解。神话称解封装失败泄私钥，但概率 <2^{-100}（Cauchy-Schwartz），远低于宇宙射线 bit 翻。FO 变换确保即使失败攻击优势微弱，单次密钥使用更安全。误 binding 需恶意 sk 控制，非正常威胁。工程清单：RBG 强度匹配参数（512:128bit,1024:256bit）；销毁中间值（sk/hash/r）；失败率监控 < 10^{-30} 阈值，回滚经典 hybrid 如 X25519MLKEM768。

最后，高效率神话破除。三层架构（采样 / NTT-PWM / 压缩）+ 混合还原 2 周期结果，Xilinx Artix-7 上 ML-KEM-512 keygen/encaps/decaps 3768/5079/6668 cycles，仅 7412 LUT。软件 constexpr C++20 头文件库，i7-12700 22μs keygen。部署参数：优先 768 平衡，hybrid 过渡；测试 ACVP KATs。

来源：keymaterial.net/p/ml-kem-mythbusting；jeit.ac.cn/doi/10.11999/JEIT250292；eprint.iacr.org/2024/1049；相关 FPGA/GPU 优化论文。

（正文约 1050 字）