Artemis II容错飞控系统：辐射加固设计与自主故障恢复工程实践

在载人航天领域，飞控计算机的可靠性直接关系到宇航员的生命安全。与近地轨道任务不同，Artemis II 任务需要穿越范艾伦辐射带并抵达月球轨道，这对飞控系统的容错能力提出了更为严苛的要求。NASA 与洛克希德・马丁公司在 Orion 飞船的飞控设计中采用了一套多层叠代的容错工程方案，其核心思路并非追求单一组件的极致可靠，而是通过系统性冗余、辐射加固与自主恢复机制的协同作用，构建一个即便在恶劣太空环境下仍能持续运行的计算平台。

三模冗余与异构处理器架构

Artemis II 的飞控系统采用了经典的三模冗余（Triple Modular Redundancy，TMR）架构，配置了至少三台独立的飞行计算机同时执行关键计算任务。这三台计算机并非简单的硬件复制，而是基于不同处理器架构实现的异构冗余 —— 这种设计能够有效规避同源共因失效（Common Cause Failure），即同一类型处理器的隐藏设计缺陷不会同时影响所有冗余节点。在执行任务时，三台计算机各自独立运算并产生结果，随后通过投票机制（Vote/Select Mechanism）选取多数一致的结果作为最终输出。即便其中一台计算机因辐射粒子撞击产生单事件翻转（Single-Event Upset，SEU）而输出错误结果，系统仍能基于另外两台计算机的正确输出做出正确决策。

这种架构的理论故障容限为 "N-1" 级别 —— 在 N 个冗余节点中，系统可以容忍最多 N-1 个节点同时失效而仍维持基本功能。对于 Artemis II 的三模冗余配置，这意味着系统能够承受单点故障而不影响任务执行。此外，飞控系统还配备了一台备用的第五计算机作为热备份，在极端情况下可以快速接管主控功能，实现无缝故障切换。值得注意的是，这些冗余计算机之间通过物理隔离的故障容限区域（Fault Containment Region）进行划分，确保某一区域的故障不会通过共享电源或通信总线扩散至其他区域。

辐射硬化与单事件效应防护

太空辐射环境对电子系统的威胁是多维度的。高能粒子（质子、重离子）可能导致存储单元发生位翻转（bit-flip），即存储的二进制数据被意外改变；更严重的情况下，粒子径迹可能引发闩锁效应（Latch-up），导致器件内部形成短路甚至永久性损毁。Artemis II 的 Orion 飞船在关键飞控电子元件选型上大量采用了辐射硬化（Radiation-Hardened，Rad-Hard）集成电路，这些器件经过特殊的工艺处理和版图设计，能够在总剂量（Total Ionizing Dose，TID）高达 100 千拉德（krad）以上的环境中保持正常工作功能。

在实际工程中，辐射加固并非单一技术手段，而是多层防护策略的综合应用。首先是器件层面的硬化 ——NASA 与 Intersil 等供应商合作，采用绝缘体上硅（SOI）工艺和加固单元库设计，使晶体管对电离辐射的敏感性大幅降低。其次是系统层面的容错设计 —— 即便采用辐射硬化器件，飞控系统仍然假设单事件翻转会发生，因此在软件层面实现了循环冗余校验（CRC）、错误检测与纠正（EDAC）机制，能够在内存位翻转发生时自动检测并纠正错误数据。对于可能导致器件损毁的闩锁效应，系统配备了实时电流监控电路，一旦检测到异常电流即可在毫秒级时间窗口内切断问题电路的供电，防止故障扩散。

自主故障检测与无干预恢复机制

传统的航天器故障处理往往依赖地面控制中心的指令 —— 当地面工程师分析遥测数据后发送恢复指令，整个过程可能耗时数小时甚至数天。然而，Artemis II 任务中宇航员身处 38 万公里外的月球轨道，通信延迟高达数秒且存在信号中断的风险，完全依赖地面干预的故障处理模式无法满足实时安全需求。为此，Orion 的飞控系统设计了完善的自主故障检测与恢复机制，能够在无需人员介入的情况下完成故障识别、隔离和系统重构。

这套机制的核心是一个分布式故障管理系统（Fault Management System，FMS）。系统持续监控各子系统的运行状态和健康指标，一旦检测到异常信号（如计算机响应超时、输出结果不一致、传感器读数越限），FMS 会立即触发预设的故障响应流程。对于瞬态故障（如太空粒子引发的短暂位翻转），系统可以在检测到错误后自动刷新受影响的内存区域并重试计算，整个过程可能在数十毫秒内完成，宇航员甚至不会感知到故障的发生。对于硬失效（如某一计算节点完全宕机），FMS 会自动将该节点从冗余池中移除，并将任务重新分配至剩余的健康节点，同时生成故障记录供地面工程师后续分析。

这种自主恢复能力的设计哲学是 “发现即修复”—— 系统不仅能够检测故障，还能主动采取措施消除故障后果并恢复至正常状态。这与传统的 “检测并报告” 模式有本质区别，它将故障处理从被动响应转变为主动防御，大幅提升了系统在深空环境中的持续运行能力。

时间触发网络与确定性通信

飞控系统的可靠性不仅取决于计算节点的正确性，还高度依赖于节点间通信的实时性和确定性。在 Artemis II 的 Orion 飞船中，飞控计算机之间通过时间触发（Time-Triggered）网络进行互联，这与传统的以太网或 CAN 总线等事件触发通信方式有本质区别。时间触发网络的核心理念是预先为每个通信节点分配固定的时隙，所有数据传输严格按照预定的时间表执行 —— 发送方无需等待接收方的确认，接收方也无需竞争总线资源。

这种设计带来了两个关键优势。其一是通信延迟的可预测性 —— 由于时隙分配是预先确定的，系统设计人员可以精确计算出最坏情况下的通信延迟，这对于实时性要求极高的飞行控制（姿态控制、推进控制）至关重要。其二是故障条件下的行为确定性 —— 当某个节点发生故障时，其发送的异常数据包不会占用其他节点的时隙，受影响的节点可以立即检测到时隙空缺并触发超时处理流程，而不是像事件触发网络中那样需要等待超时检测。根据公开资料，Orion 的时间触发网络能够在检测到链路故障后的微秒级时间内完成路径切换，确保控制指令的持续传递。

工程实践参数与监控建议

将 NASA 的容错设计理念落地到具体工程实践，以下参数和监控要点可供参考。在冗余架构设计上，建议关键控制节点数量不少于 3 个，且异构冗余节点的处理器架构差异应覆盖至少两种不同指令集（如 ARM 与 RISC-V），以降低同源失效风险。在辐射加固选型上，关键 IC 应满足 TID 大于 100krad 的抗辐射等级，并具备闩锁检测与自动断电保护功能。在故障检测粒度上，建议将监控周期压缩至 10 毫秒以内，确保故障发现与处理的端到端延迟不超过 100 毫秒。

在监控体系构建方面，建议部署多层级健康监控 —— 包括硬件层面的功率与温度监测、软件层面的运行时校验、以及系统层面的功能回绕测试（Loopback Test）。故障记录应采用非易失性存储介质保存，且存储容量应至少容纳最近 1000 条故障事件，以便地面工程师进行根因分析。此外，对于预计寿命超过一年的深空任务，建议在发射前完成总计不少于 1000 小时的加速老化测试，模拟轨道的辐射累积效应并验证加固设计的有效性。

资料来源：本文主要参考 NASA OIG 关于 Artemis II 任务就绪性的评估报告、洛克希德・马丁公司 Orion 冗余设计技术文档，以及 NASA 关于辐射容忍计算（Radiation-Tolerant Computing）的公开测试计划。