ARM Cortex-M 裸机抢占式多任务实现：NVIC 中断与 PendSV 上下文切换

在嵌入式实时系统中，低开销的多任务调度至关重要，尤其是在资源受限的 ARM Cortex-M 微控制器上。传统 RTOS 如 FreeRTOS 虽便捷，但引入额外抽象层可能增加内存和时钟开销。对于追求极致效率的裸机应用，我们可以通过 NVIC 中断控制器和 PendSV 异常手动实现抢占式多任务。这种方法利用硬件自动保存部分寄存器，确保上下文切换仅需 12 个 CPU 周期左右，远低于软件 RTOS 的 1-2 μs 延迟。

NVIC 是 Cortex-M 内核的核心组件，支持高达 240 个 IRQ 和 256 级优先级。通过分组配置（如 SCB->AIRCR 的 PRIGROUP 字段），我们可以将优先级分为抢占级（高位）和子优先级（低位）。例如，设置 PRIGROUP 为 3 时，抢占优先级占 4 位（0-15 级），子优先级占 4 位，用于同级中断排序。高优先级中断可嵌套打断低优先级任务，确保实时响应。配置时，先禁用全局中断（__disable_irq ()），然后使用 NVIC_SetPriority (IRQn, priority) 设置每个任务关联的中断优先级，最后启用中断。实际工程中，建议将系统滴答中断（SysTick）优先级设为 0x0F（中等），PendSV 设为 0xFF（最低），避免调度干扰关键 ISR。

任务结构设计是实现的基础。每个任务需独立栈空间（典型 512-2048 字节，根据调用深度调整）和任务控制块（TCB），TCB 包含栈顶指针（pxTopOfStack）、优先级（uxPriority）和状态位。初始化栈时，从栈顶向下压入初始上下文：xPSR（0x01000000，表示 Thumb 模式）、PC（任务入口函数地址 | 1）、LR（0xFFFFFFFF，返回线程模式）、R12-R0（0 或参数）。这样，PendSV 进入时硬件自动保存 R0-R3、R12、LR、PC、xPSR 到 PSP（进程栈指针），软件只需手动保存 R4-R11。优先级基于调度使用位图（prio_mask，32 位 uint32_t 数组）管理就绪队列：高优先位对应高优先任务，查找最高位（__CLZ）快速选出下一任务。

上下文切换的核心在 PendSV_Handler 中实现，利用汇编确保原子性。触发切换时，在 SysTick_ISR 或任务 yield 点设置 SCB->ICSR |= SCB_ICSR_PENDSVSET_Msk（挂起 PendSV）。由于 PendSV 优先级最低，它会在所有 ISR 结束后执行。Handler 流程：MRS R0, PSP；STMDB R0!, {R4-R11} 保存剩余寄存器；更新当前 TCB 的栈指针；调用调度器选下一 TCB；LDR R0, [next_TCB] 加载新栈指针；LDMIA R0!, {R4-R11} 恢复；MSR PSP, R0；BX LR 返回。无浮点任务时，此切换开销低至 20-30 周期；若有 FPU，需额外 VSTMDB/VLDMIA 保存 S0-S15 和 FPSCR。测试中，在 168 MHz STM32F4 上，切换延迟约 0.2 μs，远优于 RTOS。

调度逻辑采用静态优先级抢占，结合 SysTick 实现时间片。配置 SysTick 为 1 ms 周期（SysTick->LOAD = SystemCoreClock / 1000 - 1），中断中递增 tick 计数器，若当前任务时间片耗尽或高优先任务就绪，则触发 PendSV。优先级表（readyqueue_t）用链表头数组（task_list_head [PRIO_MAX]）挂载同优先任务，位掩码（prio_mask）追踪活跃优先级。插入任务时，knl_list_insert_after (&readyq.task_list_head [prio], &tcb->list)；调度时，highest_prio = 31 - __CLZ (prio_mask [0])，然后从链表头取出。参数建议：最大优先级 8-16 级（避免碎片）；时间片 1-10 ms，根据任务周期；就绪队列限 32 任务，超限回滚到主循环。

为确保可靠性，需监控关键参数。栈使用率通过预填魔数（0xDEADBEEF）检测溢出，每切换检查栈底；响应时间用 GPIO 翻转测量 ISR 延迟，目标 <5 μs。风险包括优先级反转：低优先任务持锁阻塞高优先，使用优先级继承（临时提升低任务优先级至高者）。回滚策略：若调度异常，禁用 PendSV 并单任务运行。实际部署中，结合 WCET 分析工具（如 aiT）验证最坏执行时间，确保利用率 <69%（RMS 上限）。

这种裸机实现适用于传感器融合或电机控制等低功耗场景，与 Rust RTIC 框架不同，它避免抽象，直接操控 NVIC 调优栈隔离。根据 ARM Cortex-M 参考手册，硬件尾链（tail-chaining）优化连续中断仅 3 周期延迟。工程参数：栈深度 256 字（1KB），优先级分组 7:1（8 抢占级），监控点包括 IRQ 嵌套深度（限 4 层）和切换频率（<1kHz）。通过这些，可构建确定性实时系统。

（字数约 950）