在大型语言模型(LLM)主导的 AI 系统中,复杂任务往往依赖链式思考(CoT),但其任务分解脆弱、延迟高企。为此,分层推理模型(Hierarchical Reasoning Model, HRM)提供了一种高效替代,通过互依的高层(抽象规划)和低层(细节执行)循环模块,在单次前向传播中完成顺序推理。该架构仅 27M 参数,即可在 1000 样本上掌握 Sudoku、迷宫和 ARC 等高难度任务,远超传统 Transformer 的扩展极限。
HRM 的核心在于模拟大脑的多时间尺度处理:高层模块以低频更新全局策略,低层模块高频迭代局部计算,二者通过分层收敛机制动态交互。这种设计天然支持任务分解 —— 高层负责自省式规划(如识别谜题模式),低层执行具体步骤(如填充数独格子),无需显式中间监督。工程视角下,HRM 适用于构建结构化代理系统,例如多代理编排中的规划器与执行器分离,实现复杂问题求解的自适应迭代。
要落地 HRM,首先配置环境。需 CUDA 12.6、PyTorch(cu126)、FlashAttention(Hopper GPU 用 v3,Ampere 用 v2),以及 ninja/wheel 等构建工具。克隆仓库后,pip install -r requirements.txt,并登录 W&B 跟踪实验。数据集生成是关键:Sudoku 用 python dataset/build_sudoku_dataset.py --output-dir data/sudoku-extreme-1k-aug-1000 --subsample-size 1000 --num-aug 1000,生成 1k 增强样本;迷宫类似 build_maze_dataset.py;ARC 用 build_arc_dataset.py 支持 ARC-1/2。
训练参数需根据硬件调优。单 GPU 演示(RTX 4070,~10 小时 Sudoku):OMP_NUM_THREADS=8 python pretrain.py data_path=data/sudoku-extreme-1k-aug-1000 epochs=20000 eval_interval=2000 global_batch_size=384 lr=7e-5 puzzle_emb_lr=7e-5 weight_decay=1.0 puzzle_emb_weight_decay=1.0。8GPU 全规模:torchrun --nproc-per-node 8 pretrain.py data_path=... lr=1e-4 epochs=20000 eval_interval=2000,ARC 任务 lr_min_ratio=0.1。高级配置如 arch.L_cycles=8(循环周期)、arch.halt_max_steps=8(最大步数)、arch.pos_encodings=learned(位置编码),loss_type=softmax_cross_entropy 提升稳定性。
部署时,加载 HuggingFace checkpoints 如 sapientinc/HRM-checkpoint-sudoku-extreme。评估用 torchrun --nproc-per-node 8 evaluate.py checkpoint=,监控 eval/exact_accuracy。若用于代理编排,集成高层输出作为 LLM 提示,低层处理 token 级动作。参数清单:
- 学习率:初始 1e-4~3e-4,puzzle_emb_lr 同主 lr,warmup 后衰减至 lr_min_ratio=0.1。
- 批次:384(单 GPU)~2304(8GPU),视显存调整。
- 正则:weight_decay=0.1~1.0,防过拟合。
- 架构:halt_max_steps=8,L_cycles=8,确保深度而不爆炸。
- 优化器:AdamW,clip_grad_norm=1.0。
风险控制至关重要。小样本训练易晚期过拟合(accuracy>98% 后不稳),设 early stopping 阈值 train_acc=99.5%,eval_interval=2000 监控 W&B 曲线。数值不稳时降 lr 或增 weight_decay。回滚策略:若 eval 掉落 > 2%,加载上个 checkpoint。生产中,加 halt 机制(置信阈值 0.95 停步),结合自省循环模拟反思。
实际案例:在气候 S2S 预测,HRM 用有限观测数据推理非线性交互,准确率 97%;机器人路径规划,低延迟部署边缘设备。相比 LLM 代理,HRM 减少 100x token 生成,推理速度提 100 倍。
资料来源:GitHub sapientinc/HRM,arXiv:2506.21734。
(本文约 1250 字)