分类:performance-engineering

2 篇文章

用 SIMD 与缓存分片优化前缀和,冲击 20GB/s 吞吐量

本文探讨如何将前缀和(Prefix Sum)操作的性能提升至 20 GB/s。通过结合 SIMD 指令集、多线程并行化以及针对内存带宽瓶颈的缓存分片技术,我们提供了一套可落地的工程实践与参数调优指南。

通过合成程序降速验证性能分析器的准确性

性能分析器是优化的关键,但其准确性如何衡量?本文探讨一种通过在机器码级别引入可预测降速来创建近似“真值”的新颖验证方法,从而实现对分析器可靠性的严格评估。