欢迎来到
Hotdry Blog
技术热点,干货分享。 专注云原生、CDN、AI等前沿技术的实战经验和深度思考
📝最新文章
查看全部FlashAttention-4 中的 IO 感知块分块策略
探讨 FlashAttention-4 中 IO-aware 块分块策略的工程实现,通过重叠计算与 HBM 访问,在 A100 GPU 上实现长序列 MQA 推理的 2 倍吞吐量提升。提供参数调优与监控要点。
利用 Gin 的 Radix-Tree 路由和上下文池化实现微服务 40 倍 HTTP 处理加速
基于 Gin 框架的 Radix-Tree 路由和上下文池化机制,结合模块化中间件优化微服务 HTTP 处理,提供工程化参数与监控策略。
利用 Supervision 可组合工具构建可扩展标注管道:对象跟踪、过滤与指标计算
利用 Supervision 的 Detections、Annotators 和 trackers 构建 scalable 标注管道,支持跟踪、过滤和 metrics 计算,简化 CV 数据集 curation 与模型评估。
利用 Groq LPU 架构实现超低延迟 LLM 推理加速:张量流式与内存带宽优化
面向 LLM 推理流水线,利用 Groq LPU 的 TSP 和高带宽 SRAM,给出优化参数、集群配置与性能监控策略。
SSH3 中利用 HTTP/3 QUIC 流实现并发会话多路复用
探讨 SSH3 如何利用 QUIC 流支持并发 shell 会话和文件传输,实现低延迟多任务处理,避免 TCP HOL 阻塞。提供工程化参数、监控要点和部署清单。
利用 Windows ML API 运行 ONNX 模型:桌面应用跨设备推理集成
通过 Windows ML API 在桌面应用中集成 ONNX 模型推理,支持 CPU/GPU 加速,实现高效的本地 ML 部署。
Rust Foyer 缓存中的无锁并发访问工程化
在 Rust 的 Foyer 混合缓存中,使用原子操作和风险指针实现无锁并发访问,提供高吞吐量的 S3 对象检索,避免线程争用下的性能瓶颈。
Rust 中 Fork Union 的无锁分叉-合并池:高效递归任务分解与工作窃取
探讨 Rust Fork Union 库的无锁分叉-合并实现,针对分治算法的递归分解和工作窃取机制,优于 OpenMP 的静态调度,提供工程参数与监控要点。
Rust Fork Union 库中的无锁任务调度工程实践
在 Rust 的 Fork Union 库中,实现无锁任务生成和动态加入,支持计算密集型工作负载的细粒度并行。提供工程参数、监控要点和最佳实践。
树莓派500+机械键盘的低延迟输入处理与GPIO集成工程化
针对树莓派500+上的机械键盘集成,工程化低延迟输入处理与GPIO扩展,提供参数配置、监控要点及嵌入式系统落地策略。
工程化模块化 TypeScript 组件:AI 驱动英语练习的实时发音反馈与自适应难度
探讨使用 TypeScript 构建模块化组件,实现 AI 英语学习工具的实时发音反馈和自适应难度调整。提供工程参数、监控要点和落地清单,帮助开发者高效集成交互式语言模块。
使用 Memvid 在 MP4 中嵌入语义搜索:边缘设备优化
Memvid 通过将文本块编码为 MP4 中的 QR 帧,并将向量索引置于元数据,实现无数据库的亚 100ms 语义搜索。针对边缘设备,提供压缩参数、检索阈值和监控要点,确保高效离线运行。
HumanLayer 中多代理协调:复杂代码库的 Pub-Sub 协议与代理专精设计
在 HumanLayer 框架中设计 Pub-Sub 通信协议和代理角色专精,实现多代理协作导航与重构复杂遗留代码库,避免完整代码摄入。
构建多代理协作系统处理复杂代码库重构:基于 HumanLayer 的 LLM 推理与迭代优化
面向复杂代码库重构,介绍 HumanLayer 多代理编排框架的核心机制,包括协作推理、上下文分区与迭代精炼,提供实用参数与实施清单。
Rust 中离线量化 Whisper 集成:移动端电池高效低延迟语音转文字工程实践
在 Handy 框架下探讨 Rust 集成量化 Whisper 模型,实现移动端离线 STT 的电池优化与实时推理参数配置。
优化 Gin 的流式响应处理以实现实时 API 的亚毫秒延迟
探讨使用分块传输编码和零拷贝缓冲区优化 Gin 框架的流式响应处理,在数据密集型 Web 服务中实现低延迟。
在 RAG-Anything 中使用 IVF-PQ 索引和重排序优化混合检索
针对 RAG-Anything 的混合稠密-稀疏检索,应用 IVF-PQ 量化索引减少内存消耗,同时集成 Cross-Encoder 重排序提升跨域 QA 精度,提供生产级参数配置和监控要点。
OpenAI o1 模型中链式思考优化的工程实践:多步推理的延迟降低与准确提升
针对 OpenAI o1 模型的链式思考(CoT)优化,提供 AI agents 中多步推理的结构化分解策略、延迟阈值参数及准确率监控要点。