用纯汇编构建 aarch64 HTTP 服务器：syscall 表映射与协议解析工程路径

当我们谈论现代 Web 开发时，脑海中浮现的是 Node.js、Go 或 Rust 这样的运行时框架。几乎没有人会想象有人蹲在编辑器前，用汇编写出 HTTP 响应。但正是这种看似极端的实践，揭示了计算机系统最深层的运行原理。本文基于一个在 macOS Apple Silicon 上用纯 aarch64 汇编实现的静态 HTTP 服务器项目，梳理从零构建这类系统的核心工程路径。

aarch64 Syscall 架构：Darwin 与 Linux 的分叉

在开始任何系统编程之前，必须理解目标平台的 syscall 调用约定。这是在用户态与内核态之间划定的明确边界。

在 Darwin（macOS）环境下，aarch64 syscall 遵循特定约定： syscall 编号放入 x16 寄存器，参数依次填充 x0 至 x5，执行 svc #0x80 触发软中断。以打开文件为例，核心代码结构如下：

mov x16, #5           // SYS_open syscall 编号
adrp x0, filename@PAGE
add x0, x0, filename@PAGEOFF
mov x1, #0x0          // O_RDONLY 标志
svc #0x80
b.cs open_failed      // 若失败则跳转

Linux aarch64 的约定则有所不同： syscall 编号置于 x8 寄存器，参数同样使用 x0 至 x5，通过 svc #0 触发。这两种约定在寄存器编号和指令编码上存在差异，移植代码时必须逐行调整。

主流的 aarch64 syscall 编号表中，网络编程相关的核心调用包括：socket（Darwin #16，Linux #198）、bind（#31/#200）、listen（#34/#201）、accept（#30/#202）、read（#3/#63）、write（#4/#64）、close（#6/#57）、fork（#2/#221）以及 exit（#1/#93）。完整映射可参考 arm64.syscall.sh 等权威索引站点。

Socket 生命周期：从创建到监听

HTTP 服务器的核心是 TCP socket 的生命周期管理。在汇编层面，这需要按顺序执行一系列 syscall，每一步都可能失败，必须逐个处理。

创建 socket 阶段调用 socket (domain, type, protocol)，其中 domain 为 AF_INET（值 2），type 为 SOCK_STREAM（值 1），protocol 固定为 0。返回值为文件描述符，负值表示错误。在大端序和小端序之间需要特别小心，因为网络字节序是 big-endian，而主机字节序通常是 little-endian。

setsockopt 阶段用于设置 SO_REUSEADDR 选项。这在服务器重启时尤为重要，否则 TIME_WAIT 状态的连接会阻止端口重用。实现时需要构建一个包含选项名和整数值的内存结构，并将结构体地址和长度作为参数传入。

绑定地址 阶段调用 bind，将 socket 文件描述符与特定的 IP 地址和端口关联。sockaddr_in 结构体在内存中按顺序排列：sin_family（2 字节，AF_INET）、sin_port（2 字节，网络序端口号）、sin_addr（4 字节，INADDR_ANY 为 0.0.0.0）。汇编中必须精确计算每个字段的字节偏移，结构体总长度为 16 字节。

监听阶段调用 listen，将 socket 转为被动接收模式。backlog 参数建议设为 5 至 128 之间的值，过小会限制并发吞吐量，过大则可能导致 accept 队列溢出。

接受连接 阶段在服务器主循环中反复调用 accept。每当客户端发起连接，内核在已完成连接队列中取出第一个条目，创建新的 socket 文件描述符并返回。服务器进程随后与该客户端进行交互。

HTTP/1.1 协议解析：逐字节的状态机

相比 socket 管理，HTTP 请求解析才是真正的工程挑战。HTTP 协议本质上是文本协议，但其语法细节在汇编中实现时需要逐字符处理。

请求行 的标准格式为：METHOD /path HTTP/version\r\n。解析的第一步是识别 HTTP 方法，通常只需检查前几个字节是否匹配 GET、HEAD、PUT、OPTIONS 或 DELETE。汇编中实现字符串比较需要编写类似 streqn 的函数：加载两个字符串对应位置的字节，逐个比较，若全部匹配则返回 1，否则返回 0。

路径提取 是解析的难点。路径始于请求行中第一个空格后的 / 字符，终于下一个空格。由于请求行可能包含 URL 编码字符和 HTTP 版本号，简单的字符串截取会失败。正确做法是：检测到 / 后验证前一个字符为空格，然后在缓冲区中逐字节复制路径，直到遇到空格或行尾。缓冲区大小通常设为 PATH_MAX（Linux 上为 4096 字节），超出应返回 414 URI Too Long。

百分号解码（Percent Decoding）必须对路径中的 %XX 序列进行转换。例如 %20 代表空格。解析器检测到 % 后，读取后续两个字节，验证它们是有效的十六进制字符（0-9、a-f、A-F），然后将 ASCII 码转换为对应的十六进制值并替换 %XX。这一过程必须逐字节处理，且解码结果不能超过缓冲区边界。

首部字段 解析需要逐行扫描，每次检测到 \r\n 即标记当前行结束。HTTP 规范要求 \r\n 配对出现，单独的 \r 或 \n 均视为格式错误。新行若以空格开头表示多行续传，应返回 400 Bad Request。

Range 和 Content-Length 是请求解析中的关键字段。Range: bytes=start-end 表示客户端请求文件的特定字节范围，两个端点均可选但至少需要其一。Content-Length 则表示请求体的字节数。这两个字段可能出现在首部的任意位置，无法假设固定顺序。

解析这些数值需要实现 atoi 函数：逐字符读取，将其 ASCII 值减去 '0' 得到对应数字，通过 result = result * 10 + digit 累加计算最终值。汇编中需要额外检测整数溢出 —— 如果数字超过 19 位，则可能溢出 64 位寄存器。

Fork 模型与并发处理

最简单的并发模型是 fork-on-request：每次 accept 返回新连接后，立即调用 fork 创建子进程。子进程负责处理该连接，父进程继续监听。这种模型的优点是进程间内存隔离、实现简单、不需要复杂的同步机制。

然而其代价同样明显：每个连接都复制完整的进程地址空间，在高并发场景下内核调度开销显著增长。现代高性能服务器通常采用事件驱动的非阻塞模型（如 epoll + 单进程），但这在纯汇编中实现难度极高。

进程数限制是必要的防护措施。Darwin 提供了 proc_info syscall（#336），可以枚举当前进程的子进程信息。通过计算写入缓冲区的字节数除以每个子进程信息的固定大小，可以得到活跃子进程数。当达到配置上限时，新连接应返回 503 Service Unavailable。

安全加固：每一层都不能省略

路径遍历防护 是静态文件服务器的生命线。所有请求路径都必须预置 docroot（默认为 www/），防止请求 /etc/shadow 访问系统敏感文件。仅检查路径是否包含 .. 是不够的，因为 %2E%2E 经过解码后同样会变成 ..，必须先解码再检查。

符号链接需要特殊处理。open 的 O_NOFOLLOW 标志会在目标文件为符号链接时失败。如果需要更严格的检查，Darwin 提供了 O_NOFOLLOW_ANY 标志，会拒绝路径中任意环节的符号链接。

Slowloris 攻击防护 是另一道防线。攻击者打开大量连接但不发送完整的请求头，使服务器资源被耗尽。防护策略是设置 header 接收超时：如果在配置时间内未收到完整的 \r\n\r\n，则返回 408 Request Timeout 并关闭连接。

对于包含请求体的请求（如 PUT），仅设置逐次读取超时仍不够。攻击者可以声明 Content-Length: 1073741823（1GB），但每秒只发送一个字节，服务器会耐心等待数年。正确的做法是计算基于 Content-Length 的总超时：timeout = grace_period + content_length / min_bps。默认值允许最低 16KB/s 的传输速率，拒绝低于此标准的连接。

请求体大小限制 是必须配置的参数。MAX_BODY_SIZE 控制单次请求体的最大字节数，超过则返回 413 Content Too Large。对于 PUT 请求，建议先写入临时文件（文件名可包含 getpid 返回的进程 ID），接收完成后再 rename 替换原文件，避免服务器崩溃导致文件被截断。

实践参数与性能考量

基于上述工程路径，以下是关键配置参数的参考范围：

Socket backlog 设置为 16 至 128 之间。过小会限制突发连接的接受能力，过大可能导致 accept 队列压力。建议配合系统级 net.core.somaxconn（Linux）或 kern.ipc.somaxconn（macOS）调优。

子进程 / 线程池上限取决于服务器硬件配置和预期负载。在资源受限的嵌入式场景下可设为 4-8，在高性能服务器上可扩展至 64-128。超过此限制应返回 503。

Header 接收超时建议设为 5-10 秒，这是正常用户在低带宽或高延迟网络下的合理上限。Body 传输的最小速率建议设为 8KB/s 至 32KB/s，低于此值应视为异常并断开连接。

文件句柄缓存对于高频小文件场景有意义，但纯汇编中实现 LRU 缓存需要额外的数据结构支持（链表或哈希表），会显著增加代码复杂度。

结语

用纯汇编实现 Web 服务器的核心工程挑战不在于 socket 创建或 listen 绑定 —— 这些只是几十行 syscall 调用。真正的工程量集中在 HTTP 协议的文本解析、边界条件处理和安全防护逻辑上。每一行看似简单的代码背后都需要精确计算字节偏移、验证输入合法性、处理异常流程。

这种实践的价值不在于产出可部署的生产级服务器，而在于彻底理解协议栈每一层的实际工作方式。当你亲手动写出一个 atoi 函数处理 Range 请求头中的字节范围计算时，你会对 HTTP 协议的每一个细节产生全新的认知。这种认知是任何高级语言框架都无法替代的底层经验。

资料来源：https://imtomt.github.io/ymawky/

systems

内容声明：本文无广告投放、无付费植入。

如有事实性问题，欢迎发送勘误至 i@hotdrydog.com。