Hotdry.

Article

KAN 在 FPGA 上的极速推理:从理论到 2700 倍加速的工程实践

深入解析 KANELÉ 框架如何将 Kolmogorov-Arnold Networks 映射到 FPGA LUT 架构,实现亚微秒级推理与在线学习,以及相比 MLP 在资源效率与量化鲁棒性上的核心优势。

2026-06-10ai-systems

为什么 KAN 适合 FPGA

Kolmogorov-Arnold Networks(KAN)自提出以来,因其在函数逼近和可解释性上的优势受到关注,但硬件实现效率一直是质疑的焦点。传统观点认为,KAN 的样条激活函数计算复杂,在 FPGA 上部署会消耗大量 DSP 和 BRAM 资源。然而,最新研究表明,KAN 的激活中心设计实际上与 FPGA 的 LUT(查找表)架构天然契合

与 MLP 的矩阵乘法不同,KAN 将可学习的激活函数置于网络边而非节点,每个激活都是定义在固定域上的一维样条函数。这种结构使得激活函数可以被直接离散化为 LUT,而非通过算术单元实时计算。在 KANELÉ 框架中,每个 B - 样条激活被预计算并存储为逻辑查找表,推理时仅需查表和加法操作,完全消除了对 DSP 和 BRAM 的依赖。

KANELÉ:软硬件协同设计框架

KANELÉ(Kolmogorov-Arnold Networks for Efficient LUT-based Evaluation)是首个系统性的 KAN FPGA 部署框架,其核心创新在于训练 - 量化 - 剪枝 - 映射的全流程协同优化

量化感知训练与剪枝

框架采用 Brevitas 库进行量化感知训练(QAT),在训练阶段即引入固定位宽约束。每个 KAN 层的输出经过均匀量化:

x_{l+1,q} = s_l · Quantize[n_l](clip(x_{l+1}, a, b) / s_l)

剪枝策略利用 KAN 的加法独立性 —— 每个 LUT 对输出的贡献是独立的,因此可以基于 L2 范数评估边的重要性并安全剪除,而不会破坏模型结构。这与传统 LUT-based 网络(如 PolyLUT)形成鲜明对比,后者的顺序索引结构使剪枝几乎不可能。

LUT 映射与流水线架构

训练完成后,每个保留下来的边被转换为逻辑 LUT(L-LUT),输入空间被枚举并预计算激活响应。RTL 生成器输出完整的 VHDL 实现,包含:

  • 平衡加法树:采用流水线化设计,每级处理最多 n_add 个输入,深度为 ⌈log_{n_add}(N_ℓ)⌉
  • 层间流水线:在层间插入寄存器隔离关键路径
  • 零 DSP/BRAM 设计:所有计算通过 LUT 和 FF 完成

在 Dry Bean 数据集上的实现仅使用 402 个 LUT 和 471 个 FF,延迟 7.1 ns,而此前 Tran 等人的 KAN-FPGA 实现需要超过 160 万 LUT 和 73 万 FF,延迟高达 18.96 μs——资源效率提升超过 4000 倍

亚微秒级在线学习

更激进的突破来自在线学习场景。传统 MLP 的反向传播需要密集矩阵运算,在固定点量化下容易数值不稳定。KAN 的 B - 样条局部支持特性改变了这一局面:对于每个输入,仅有 s = p+1 个基函数非零(p 为样条阶数),这意味着每次更新只需修改 O (s) 个系数,而非全部参数

理论分析表明,在相同参数预算 N 下,KAN 的更新复杂度为 MLP 的 s/(G+s),其中 G 为网格大小。当 G ≫ s 时,更新成本显著降低。这一特性在 FPGA 上实现了亚 100 ns 的前向 + 后向传播延迟,首次达成亚微秒级的模型无关在线学习。

实验对比显示,在固定点量化(⟨6,2⟩ 格式)的回归任务中,KAN 保持稳定收敛,而参数匹配的 MLP 出现发散;在量子比特读取的在线分类任务中,KAN 在 10-bit 精度下的准确率随网格大小 G 单调提升,而 MLP 增加参数量 N 反而导致量化不稳定。

性能对比与工程参数

推理性能(JSC CERNBox 数据集)

架构 准确率 LUT FF F_max (MHz) 延迟 (ns) Area×Delay
KANELÉ 75.1% 5,034 1,917 870 8.1 4.1×10⁴
NeuralLUT-Assemble 75.0% 8,539 1,332 352 5.7 4.87×10⁴
PolyLUT 75.0% 246,071 12,384 203 25 6.15×10⁶

MLPerf Tiny 异常检测(ToyADMOS)

指标 KANELÉ hls4ml
AUC 0.83 0.83
LUT 29,981 51,429
FF 17,643 61,639
吞吐量 228 M inf/s 694 k inf/s
延迟 0.07 μs 45 μs
能耗 / 推理 0.01 μJ 98.4 μJ

强化学习控制(HalfCheetah)

8-bit 量化的 KAN 策略网络(维度 [17,6],1020 参数)在 FPGA 上实现:

  • 延迟:4.5 ns
  • 资源:1,136 LUTs / 2,828 FFs
  • 奖励:2,762(超过 5 倍参数量的 MLP 的 1,559)

对比之下,同等位宽的 MLP 网络(维度 [17,64,64,6],5,383 参数)在相同 FPGA 上无法综合,HLS 估计需要 230,400 LUTs 和 460,800 FFs。

关键设计参数与调优建议

基于 KANELÉ 的实验,以下是部署 KAN 到 FPGA 的核心参数:

样条参数(仅影响精度)

  • 网格大小 G:控制分辨率,典型值 10-40
  • 样条阶数 S:通常设为 3(三次样条)
  • 定义域 [a,b]:根据输入分布设置,如 [-8,8]

硬件参数(精度 - 资源权衡)

  • 层位宽 n_l:每层的量化位数,6-8 bit 为甜点区
  • 层维度 d_l:直接决定 LUT 数量,与边数成正比
  • 剪枝阈值 T:控制稀疏度,典型值 0.1-0.9

流水线参数

  • 加法树分支因子 n_add:通常设为 2,影响流水线深度
  • 目标时钟周期:根据 FPGA 全局时钟设定,如 5 ns(200 MHz)

局限与未来方向

当前 KAN-FPGA 方案在图像等高维输入任务上仍面临挑战 —— 输入维度增加会导致 LUT 数量指数增长(尽管可通过剪枝缓解)。此外,卷积 KAN、时序 KAN 等变体尚未有成熟的 FPGA 实现。

未来工作方向包括:

  • 探索傅里叶基、小波基等替代正交基函数
  • 开发卷积 KAN 的 FPGA 架构
  • 实现部分重配置支持运行时 LUT 热更新
  • 扩展到 Transformer 风格的 KAN-GPT 架构

结论

KANELÉ 及其后续工作证明,KAN 并非硬件不友好 —— 恰恰相反,其激活中心、局部支持和加法结构使其成为 FPGA LUT 架构的理想匹配。通过软硬件协同设计,KAN 在 FPGA 上实现了纳秒级推理延迟亚微秒级在线学习,在资源效率、量化鲁棒性和实时适应性上全面超越传统 MLP。对于量子控制、等离子体稳定、自适应光学等需要微秒级响应的应用场景,KAN-on-FPGA 代表了一个值得深入探索的新范式。


参考来源

  • Hoang et al., "KANELÉ: Kolmogorov-Arnold Networks for Efficient LUT-based Evaluation," FPGA 2026. arXiv:2512.12850
  • Hoang et al., "Ultrafast On-Chip Online Learning via Spline Locality in Kolmogorov-Arnold Networks," arXiv:2602.02056
  • Liu et al., "KAN: Kolmogorov-Arnold Networks," arXiv:2404.19756

ai-systems

内容声明:本文无广告投放、无付费植入。

如有事实性问题,欢迎发送勘误至 i@hotdrydog.com