IO 多路复用：select、poll 与 epoll/kqueue 的比较与性能优化

在高并发网络服务器开发中，IO 多路复用是实现单线程高效处理多个连接的核心技术。它允许程序同时监控多个文件描述符（FD），仅在事件就绪时响应，从而避免了多线程模型的开销和复杂性。传统阻塞 IO 模型下，每个连接需独立线程，导致资源消耗巨大，而多路复用通过内核事件通知机制，将 FD 状态变化主动推送给用户空间，实现事件驱动架构。这种方法广泛应用于 Nginx、Redis 等高性能服务器，显著提升吞吐量和响应速度。

select 作为最早的 IO 多路复用实现，适用于基本轮询场景。其核心是通过 fd_set 位图管理 FD 集合，支持监听读（EPOLLIN）、写（EPOLLOUT）和异常事件。调用 select 时，用户空间的 FD 集复制到内核，内核遍历所有 FD 检查就绪状态，返回后用户需再次遍历位图定位就绪 FD。这种 O (n) 时间复杂度的遍历在 FD 数量少时高效，但当连接数超过数百时，CPU 开销急剧增加。此外，select 默认限制 FD_SETSIZE 为 1024，超出需重新编译内核，兼容性虽好，却不适合大规模部署。证据显示，在基准测试中，select 在 1000 FD 下每秒轮询次数已达数万次，远高于事件驱动模型。

poll 是对 select 的改进，主要解决 FD 数量限制问题。它使用 pollfd 结构体数组存储 FD 及其事件掩码，无位图上限，支持动态扩展到数千 FD。poll 接口简单：用户填充数组传入内核，内核线性扫描返回 revents 标记就绪事件。相比 select，poll 避免了位图拷贝开销，但仍保留 O (n) 遍历内核路径，导致高负载下性能瓶颈相似。例如，在模拟 10000 连接的压力测试中，poll 的系统调用延迟比 select 略低，但 CPU 利用率仍高达 80% 以上，无法满足万级并发需求。poll 的跨平台性强，常用于中型应用，但缺乏事件持久化机制，需每次重建数组。

epoll 是 Linux 内核专有的高效实现，专为高并发设计，采用事件驱动模型。epoll 使用红黑树管理 FD 集合，epoll_create 创建实例，epoll_ctl 注册 / 修改事件，epoll_wait 阻塞等待就绪队列。关键创新在于 O (1) 复杂度：内核维护就绪链表，仅返回活跃事件，避免全遍历。epoll 支持两种触发模式：水平触发（LT，默认），持续通知就绪 FD；边缘触发（ET），仅在状态变化时通知一次，适合大数据块传输。ET 模式需结合非阻塞 IO，循环处理直到 EAGAIN，以防数据丢失。如 Linux 手册所述，epoll 在 epoll_ctl 时仅拷贝事件数据，epoll_wait 返回时直接从共享内存读取，极大降低用户 - 内核切换开销。在 Nginx 等生产环境中，epoll 处理 10 万连接时，延迟仅毫秒级，QPS 提升 5-10 倍。

kqueue 是 BSD 系统（如 macOS、FreeBSD）的对应实现，功能上类似 epoll 但更通用。它通过 kqueue () 创建队列，kevent () 统一注册 / 等待事件，支持 FD、信号、文件变更等多种类型。kqueue 使用事件过滤器和唤醒机制，内核仅通知变化事件，时间复杂度 O (1)。与 epoll 不同，kqueue 支持 EV_CLEAR 标志自动清除事件，并可监控进程定时器等扩展场景。在跨 BSD 平台的 Node.js 异步 IO 中，kqueue 的性能与 epoll 相当，平均延迟低至微秒级。但 kqueue 接口更复杂，需处理 kevent 变化列表，适用于需要多事件融合的场景。

性能比较显示，select 和 poll 适合 FD<1000 的低并发应用，如小型 Web 服务器；epoll 和 kqueue 则主导高并发领域，前者在 Linux 上 QPS 可达 10 万 +，后者在 BSD 上类似。基准测试表明，epoll ET 模式下，单核处理 5 万连接的 CPU 占用仅 20%，而 select 达 90%。权衡因素包括平台兼容（select/poll 胜出）和并发规模（epoll/kqueue 优）。在混合环境中，可用 libevent 封装抽象层自动选择最佳实现。

落地部署时，优先评估 FD 上限：select 设 ulimit -n 1024；poll/epoll 无硬限，但内核参数 net.core.somaxconn 调至 65535。epoll 实例大小建议 epoll_create1 (0)，避免 size 参数过大浪费内存。ET 模式阈值：缓冲区设 64KB，循环 read/write 直到 EAGAIN，返回码监控 - 1 错误。监控要点包括 epoll_wait 超时设 100ms，防止饥饿；用 /proc/net/sockstat 追踪 FD 使用率，阈值超 80% 触发告警。回滚策略：若 ET 遗漏事件，fallback 至 LT 模式；生产中集成 prometheus 指标，如 events_per_sec>1 万时优化事件处理队列。参数清单：非阻塞 fcntl (fd, F_SETFL, O_NONBLOCK)；事件掩码 EPOLLIN|EPOLLET；maxevents=1024，避免内核队列溢出。这些工程化实践确保系统在高负载下稳定运行，平均响应时间控制在 50ms 内。

（字数：1025）