Linux 内核级沙盒实战：Namespaces 与 Cgroups v2 约束 AI 代理

当 AI 代理被赋予执行 Python 脚本、调用 Shell 命令甚至操作 Docker 守护进程的能力时，信任边界便从代码库转移到了运行时环境。传统容器通过共享主机内核来运行工作负载，这种模式在面对 AI 代理时存在显著风险：一旦内核存在漏洞或配置失当，「容器逃逸」将使攻击者直接获得宿主机的 root 权限。因此，构建基于 Linux 内核级安全原语的沙盒，对于承载不可信 AI 代码至关重要。

1. 防御纵深：底层安全原语解析

实现 AI 代理沙盒的核心在于利用 Linux 内核提供的三个独立安全机制：命名空间（Namespaces）负责隔离资源视图，控制组（Cgroups v2）负责限制资源配额，而 Seccomp-BPF 与安全上下文（如 SELinux）则负责收紧内核操作权限。这三者共同构成了「深度防御」的基础。

1.1 命名空间：视图隔离的基石

命名空间将全局系统资源包装抽象，使得命名空间内的进程看到的只是资源的子集或独立实例。构建沙盒时，以下几个命名空间是必须隔离的：

mnt (Mount)：通过挂载仅读的根文件系统（如 busybox 或精简版 Alpine），并挂载 tmpfs 到 /tmp 和 /workspace，禁止代理修改宿主机的挂载表。配合 unshare --mount，可将主机文件系统彻底隐藏。
PID (Process ID)：在沙盒内创建独立的进程树，防止代理枚举或杀掉宿主机上的关键进程（如 SSH 守护进程或监控 agent）。
Network：创建独立的网络命名空间，仅暴露必要的端口或完全禁用网络（--net=none），这能有效阻止代理扫描内网或建立 C2 通道。
User：将沙盒内的 root 用户映射为外部的非特权 UID（如 mapping 1000:1000 0:65536），即使代理在容器内取得了 root 权限，在宿主机上也仅是普通用户。

1.2 Cgroups v2：资源配额的无情铁闸

Cgroups v2（Unified Hierarchy）通过统一层级结构简化了资源管理。在工程实践中，限制 CPU、内存和进程数能有效防御「Fork 炸弹」和「内存耗尽」攻击。一个典型的 AI 代理 cgroup 配置如下：

内存限制：设置 memory.max 为 2GiB，memory.high 为 1800MiB。当代理尝试加载数 GB 的模型或产生内存泄漏时，进程会被 OOM Killer 强制终止，而非拖垮整台机器。
CPU 限制：设置 cpu.max 为 "100000 100000"（即 1 核）或 "50000 100000"（0.5 核），防止恶意计算任务占满物理核心。
进程数限制：设置 pids.max 为 64。在沙盒内，单个代理通常不需要创建超过几十个子进程，此限制能阻断递归脚本的扩散。

在 Go 语言中，可使用 github.com/puzl-cloud/go-cgroup2 库以编程方式创建 cgroup 并写入限制参数。

2. 系统调用过滤：堵住内核的「后门」

即便完成了资源隔离，AI 代理仍可能通过危险的系统调用（Syscall）影响内核稳定性。mount、ptrace、unshare 和 kexec_load 等高危调用必须被禁止。Seccomp-BPF 允许开发者编写 BPF 过滤程序，仅放行白名单内的 Syscall。

Google 开源的 nsjail 是一个极佳的实践案例，它封装了 namespaces、cgroups、rlimits 和 seccomp-bpf，通过简单的命令行参数即可部署沙盒。例如，以下命令启动了一个仅允许基本读写的代理沙盒：

nsjail -Mo -R /bin -R /lib -R /lib64 --readonly / -q -- \
    /bin/sh -c "python3 agent.py"

更激进的配置可以完全移除网络能力（--disable Proc --disable Net）并限制所有文件系统为只读（--readonly），仅通过 Unix Domain Socket 与主进程通信。

对于云原生环境，gVisor 提供了更高级别的隔离。它实现了一个运行在用户态的「Sentry」内核，拦截所有 Syscall 并在用户空间模拟执行。这意味着即使用户态 Sentry 崩溃，也不会波及宿主机内核，是运行高风险 AI 推理负载的理想选择。

3. 监控、审计与残余风险

沙盒并非万能。当防御边界收窄时，攻击者的目标会转向「侧信道攻击」（Side-channel）或利用未公开的内核漏洞（0-day）。在同一物理机上共置的 MicroVM 可能通过 CPU 缓存状态推测其他虚拟机的内存访问模式，这在多租户 SaaS 场景中尤为致命。

因此，除了隔离层，还需要建立严格的审计机制：

Auditd：监控 ptrace 和 ptrace 的调用尝试，任何非零返回值都应触发告警。
动态追踪：利用 eBPF 探针追踪沙盒内的文件打开（openat）和网络连接（connect），将日志传输至 SIEM 系统进行分析。
断点回滚：设计沙盒的生命周期管理，支持每次任务执行完毕后自动销毁并重建环境，防止「脏环境」累积风险。

对于 SELinux 或 AppArmor 策略，建议采用「最小权限原则」：只授予代理执行其特定任务所需的最小文件路径访问权（如特定的数据目录），禁止其访问 /etc, /root, /home 等敏感区域。

结论

构建面向 AI 代理的 Linux 沙盒是一项系统工程。它要求开发者不仅理解 Namespace 的隔离机制，更要精确配置 Cgroups v2 的资源限额，并利用 Seccomp-BPF 对内核入口进行「裁剪」。单纯依赖容器镜像的隔离是脆弱的；只有将内核级安全原语与完善的监控审计相结合，才能在赋予 AI 代理执行力的同时，守住系统的安全底线。

参考资料

Northflank Blog. (2026). How to sandbox AI agents in 2026: MicroVMs, gVisor & isolation strategies.
Google. (2026). nsjail: A lightweight process isolation tool.
Coder. (2026). Agent Boundaries Documentation.