HRM(Hierarchical Reasoning Model)是一种创新的递归神经网络架构,专为 LLM 在复杂任务上的多层级推理链设计而生。它摒弃了传统 CoT 的显式文本分解,转而采用隐式 latent reasoning,通过高层抽象规划与低层细节执行的交互,实现高效的任务分解、推理链编排与执行协调。这种分层机制模拟人脑的多时间尺度处理,避免了 Transformer 固定深度的局限,并在小样本下展现出超越大模型的潜力。
多层级推理链的核心痛点与 HRM 解决方案
当前 LLM 依赖 CoT 时,常遇任务分解脆弱:单一步骤错误导致链条崩塌,且生成海量 token 造成高延迟与数据饥渴。HRM 引入双模块递归结构:高层模块(H)负责慢速全局策略制定,低层模块(L)处理快速局部计算。每 T 步 L 迭代后,H 更新指导信号,重置 L 状态,形成 “分层收敛”:L 趋向局部不动点,H 驱动全局优化。这种嵌套循环在单前向传播中实现任意深度推理,支持复杂任务如 Sudoku-Extreme(平均 22 次回溯猜测)和 Maze-Hard(30x30 最优路径)。
证据显示,仅 27M 参数与 1000 样本训练,HRM 在 Sudoku 上达近 100% 准确率,而 CoT-LLM 为 0%;ARC-AGI 得分 40.3%,超 o3-mini-high 的 34.5%。GitHub repo 中 Sudoku 实验证实,随着训练,模型步数自适应减少,模拟专家化过程。
工程化参数与动态深度控制
为落地 HRM 多层级链,关键超参需精确调优。推荐起始配置基于 repo 脚本:
- 架构参数:L_cycles=8(低层每周期步数 T=4~8,根据任务复杂度),halt_max_steps=8(最大段数 M_max,避免无限循环),pos_encodings=learned(位置编码提升序列稳定性)。
- 优化器:lr=7e-5(puzzle_emb_lr 同),weight_decay=1.0,global_batch_size=384(8GPU 下有效批次)。Sudoku-Extreme 用 lr=1e-4,epochs=20000,eval_interval=2000。
- 自适应终止(ACT):Q-learning 头预测 q_halt/q_continue,ε-greedy 策略(ε=0.1~0.3)鼓励探索。训练中结合序列损失与 Q 交叉熵,总 loss=CE (y_pred, y_true) + BCE (q_values, targets)。
- 梯度近似:单步 Jacobian(O (1) 内存),detach 中间状态防梯度爆炸。深度监督每段输出独立 CE,提升收敛。
动态深度:在推理时,N(高层周期)自适应 [M_min=2, M_max=16],q_halt > 阈值(0.7)或准确率饱和即 halt。复杂任务如 ARC 设 M_max=16,提升 4% 精度无需重训。
落地实施清单
-
环境准备:
- CUDA 12.6 + PyTorch(cu126),FlashAttention-3(Hopper GPU)或 - 2。
- pip install -r requirements.txt;ninja/wheel 等建扩展。
- git submodule update --init --recursive。
-
数据集构建(≤1000 样本,避免过拟合):
- Sudoku:
python dataset/build_sudoku_dataset.py --output-dir data/sudoku-extreme-1k-aug-1000 --subsample-size 1000 --num-aug 1000。 - Maze:
python dataset/build_maze_dataset.py。 - ARC:
python dataset/build_arc_dataset.py(含 ConceptARC 增强)。 - 可视化:puzzle_visualizer.html 上传 data / 文件夹。
- Sudoku:
-
训练命令(单 GPU 小批示例,RTX4070 ~10h Sudoku):
OMP_NUM_THREADS=8 python pretrain.py data_path=data/sudoku-extreme-1k-aug-1000 epochs=20000 eval_interval=2000 global_batch_size=384 lr=7e-5 puzzle_emb_lr=7e-5 weight_decay=1.0 puzzle_emb_weight_decay=1.0多 GPU:
torchrun --nproc-per-node 8 pretrain.py ...。W&B 跟踪 eval/exact_accuracy,早停于 train acc~100% 防过拟合。 -
评估与监控:
torchrun --nproc-per-node 8 evaluate.py checkpoint=<path>;ARC 用 arc_eval.ipynb。- 监控:PR 值(H
90,低 L30,高维分层涌现);forward residual(周期脉冲确认收敛);数值稳定性(Q-learning 防 NaN)。 - 回滚:若过拟合,减 epochs 或 aug=500;泛化差,增 L_cycles。
-
部署优化:
- 推理:halt_max_steps 动态,边缘设备 O (1) 内存友好。
- 集成 LLM:MoE 专家模式,HRM 接管搜索类子任务。
- 风险阈值:M>12 警报重规划;准确 < 95% fallback 传统搜索。
此清单经 repo 验证,Sudoku 1k 样本 10min 全规模训练达 96%。HRM 的多层级链不止于性能,更提供参数化、可控推理路径,适用于 Agent 分解与具身任务。
资料来源:
- GitHub: sapientinc/HRM (README & scripts)。
- arXiv: 2506.21734 (HRM 论文摘要与架构细节)。
(正文约 1250 字)