利用 ThunderKittens 实现 AMD GPU 上的自动内核融合与调优
通过 ThunderKittens 的 tile-based 编程模型,在 AMD GPU 上实现内核融合,优化内存访问并减少启动开销,提升高性能计算管道效率。
Latest Essays
继续沿着时间线阅读近期的工程实践与技术观察。
近期的思考与工程笔记。
通过 ThunderKittens 的 tile-based 编程模型,在 AMD GPU 上实现内核融合,优化内存访问并减少启动开销,提升高性能计算管道效率。
通过适应度函数和增量模块化策略,实现软件架构的持续演进,避免大爆炸重写,确保系统在十年内保持可进化性。
探讨C语言中使用宏和_Generic关键字实现类型安全的泛型函数与数据结构,提供实用示例、工程参数与监控要点。
面向混合数据工作流,给出 SQLAlchemy 在 Python 中的集成参数与数据操纵要点。
探讨如何使用 TensorFlow Lite 将 Google 的高精度手写识别模型部署到移动设备,实现亚 50ms 延迟的实时、多语言、离线 OCR 扫描。包括优化参数、监控要点和潜在风险。
面向呼叫中心 AI,给出 WebSocket 电话集成与低延迟优化的工程参数与监控要点。
在 Helix 框架中集成 WebRTC 等游戏协议,支持 AI 代理桌面的实时流式传输,实现多代理交互与容错控制。提供工程参数与监控要点。
探索 Claude Developer Platform 的结构化输出功能,在 UI 驱动的代理工作流中确保 schema 合规的 JSON/XML 响应,支持多步工具调用和部署管道。
针对AI代理桌面流媒体场景,探讨网络中断下的重新连接逻辑和缓冲管理机制,提供可落地工程参数与监控要点。
整合时区 API 与生成模型,实现实时多时区钟动画,焦点在浏览器环境下的检索效率与融合优化。
面向分布式 AI 代理环境,利用游戏协议实现低延迟桌面流式传输,支持实时输入同步与多代理协作。
针对隐私优先的移动RAG管道,通过自适应图剪枝和量化嵌入优化LightRAG,实现边缘设备上亚100ms检索延迟的工程参数与策略。
利用 OpenAPI 规范实现前后端代码生成同步,支持并行开发与自动化验证,避免集成不匹配。
针对 Claude API 工具调用的流式结构化输出,提供 JSON 解析、增量验证和错误恢复的工程参数与监控要点。
LightRAG 通过实体提取实现粗粒度检索,关系链接提供细粒度上下文,支持 sub-100ms 延迟的图 RAG,无需重型索引。适用于边缘设备,结合 hybrid 模式提升检索精度。
探讨 LightRAG 在移动设备上通过量化嵌入和自适应剪枝优化分层图索引,实现低延迟隐私保护检索,无需云端依赖。
通过对比学习在对齐文本-音频数据集上训练韵律嵌入,实现可控语调情感TTS,而无需完整波形再生。
利用指纹检测实现动态延迟和内容洗牌,针对无头浏览器爬虫进行客户端 evasion,同时保障人类用户体验。
利用 OhmJS 的在线编辑器进行实时语法解析、AST 树可视化和语义动作集成,支持 DSL 原型设计与调试,提供工程参数和最佳实践。
针对离线手写识别,介绍 Transformer 模型的微调策略,包括合成数据增强和多阶段解码管道,实现 99%+ 准确率的关键参数与监控。