混合锁决策框架：自旋 vs 阻塞阈值调优

在多线程并发系统中，选择合适的同步原语至关重要。Spinlock 通过原子操作忙等待，避免系统调用和上下文切换，适用于临界区极短（<100ns）、低争用（2-4 线程）的场景；Mutex 则在争用时调用 futex 睡眠，让出 CPU，适合长临界区或高争用。核心决策逻辑：如果预期等待时间小于上下文切换成本（约 2-5μs），优先自旋；否则阻塞。该框架源于实际性能瓶颈，如 perf top 显示 pthread_mutex_lock 占 60% CPU 时，盲目换 spinlock 可能导致 100% CPU 浪费。

Spinlock 实现简单，使用 C11 atomic_compare_exchange_weak 循环 CAS（compare-and-swap），如 x86 LOCK CMPXCHG，仅用户态原子指令，无 syscall。优点：无开销延迟，uncontended 仅几 ns。但缺点显着：100% CPU 占用，缓存线弹跳（40-80ns / 次），用户态易被 preempt（Linux timeslice 100ms），造成 “convoying”—— 其他线程狂自旋等不可运行持有者。证据显示，4 线程争用下，spinlock CPU 飙升，而 mutex CPU 低因睡眠。

标准 pthread_mutex_t 即 hybrid：glibc 先自旋 N 次（默认~~30，PTHREAD_MUTEX_ADAPTIVE_NP 控制），失败后 futex (FUTEX_WAIT) 睡眠（syscall~~500ns + ctx~3-5μs）。如 PostgreSQL LWLock 即此类，自旋短路径，阻塞长路径。“Glibc pthread mutex uncontended 仅 25-50ns，仅争用时 syscall。”[1] 高争用下，自旋浪费 CPU 用于其他线程；长持锁下，preempt 放大自旋时间。

阈值调优需实证：临界区 <100ns、低争用用纯 spinlock；100ns-10μs 中争用用 adaptive mutex；>10μs 或高争用用标准 mutex。工程参数清单：

自旋迭代阈值：20-50 次（每迭代～10-20 cycles，PAUSE instr 降低功耗）；指数退避：1,2,4... 次 PAUSE，避免 thundering herd。
缓存对齐：attribute((aligned (64))) 或 alignas (64)，防 false sharing。
自旋超时：若 > 1μs（rdtsc 测量），fallback futex。
NUMA 优化：per-node locks，减少跨 socket 弹跳。

监控与诊断清单：

perf stat -e context-switches,cache-misses：高 ctx + 低 CPU→mutex overhead，试 spin；高 cache-miss+100% CPU→spin bounce，shard 锁或 mutex。
strace -c：futex 调用 > 百万 /s→热锁，优化 CS 或无锁。
/proc/PID/status：voluntary_ctxt > involuntary→正常阻塞；反之 preempt 问题。
压力测试：NUM_THREADS=2/8/16，HOLD_NS=50/500/5000，测 ops/sec。

风险与回滚：

优先倒置：低优先线程持 spin，高优先狂自旋；用 PI mutex。
单核：spin 退化为空转，纯用 mutex。
长 CS：加 sched_yield () 或 backoff yield。回滚：默认 PTHREAD_MUTEX_DEFAULT，perf 差再调 ADAPTIVE。

示例代码（spinlock）：

atomic_int lock = 0;
void spin_acquire() {
    int exp;
    do { exp = 0; } while (!atomic_compare_exchange_weak(&lock, &exp, 1));
    // PAUSE loop: for(int i=0;i<32;i++) __builtin_ia32_pause();
}

Hybrid pthread：

pthread_mutexattr_t attr;
pthread_mutexattr_settype(&attr, PTHREAD_MUTEX_ADAPTIVE_NP);
pthread_mutex_init(&m, &attr);

生产实践：Redis 用 spin 微队列（<50ns）；Nginx 多进程避锁；内核早 2.6 用 spin 到处，后换 mutex。调优后，ops/sec 提升 2-5x，CPU 降 30%。

资料来源： [1] https://howtech.substack.com/p/spinlocks-vs-mutexes-when-to-spin Linux futex (2)，glibc pthread_mutex 源。

（字数：1024）