Page 730
最新见解 · 第 730 页
共 16860 篇文章,分类 267 个。
最新见解
近期的思考与工程笔记。
在 Triton 中利用 Cutlass 内核命名解锁 FP8 张量核心加速
借助 Triton 借鉴 Cutlass 内核命名,实现 FP8 GEMM 优化,在 LLM 多头注意力推理中获得约 100 TFLOPS 加速,提供工程参数与监控要点。
Orchestrating AI Agents with Microsoft Agent Framework: Python and .NET Support
面向多代理工作流,给出 Microsoft Agent Framework 的 Python/.NET 集成、编排参数与工具配置要点。
浏览器端 Iceberg 表解析:Icebird 库的实现与配置
探讨 Icebird JavaScript 库如何在浏览器中解析 Apache Iceberg 元数据并解码 Parquet 文件,实现客户端查询大表数据。
Optimizing Multi-Arch Caching in GitHub Actions Runners
在异构 CI/CD 环境中,针对 arm64/x86 的 GitHub Actions runner 图像优化 Docker 层缓存策略,减少构建时间并提升共享效率。
将 Kyber-512 KEM 集成到 Signal 双棘轮协议中:混合 PQ-经典前向保密优化
在 Signal 双棘轮协议中集成 Kyber-512 密钥封装机制,实现混合后量子-经典前向保密,通过优化链长度和 HKDF 参数,确保移动消息传递延迟开销小于 5ms。
Triton 中 Cutlass 命名内核的 FP8 张量操作剖析:通过运行时优化解锁 100 TFLOPS 加速
探讨 Triton 中 FP8 精度下 Cutlass 风格内核的性能剖析与基准测试,提供运行时优化参数和硬件利用分析,实现高 TFLOPS 加速。
使用 JAX 在 Tunix 中实现量化感知后训练:针对边缘 LLM 的 4/8 位压缩
在 Tunix 框架下,利用 JAX 自动微分构建量化感知的后训练管道,实现 4/8 位 LLM 压缩,聚焦校准数据集、混合精度内核和低延迟推理优化,适用于移动/边缘设备部署。
Signal 协议中将 X3DH 迁移至 PQXDH 以实现量子安全的群组密钥协商
探讨在 Signal 协议中采用 PQXDH 实现量子安全的群组密钥协商,优化多方棘轮机制与低延迟混合经典-后量子握手,提供工程化参数与监控要点。
构建 JavaScript 客户端读取 Apache Iceberg 表:支持模式演化、分区剪枝与浏览器内 Parquet 解码
面向 Apache Iceberg 表,介绍 Icebird JS 客户端的构建,支持 schema evolution、Parquet 解码及交互探索参数配置。
Pathway 中构建容错实时 ETL 用于 LLM RAG:数据漂移、模式演进与连接器故障的自动恢复
面向实时 LLM RAG 应用,介绍 Pathway ETL 的容错设计,包括自动恢复机制与工程参数配置。
Granite 4.0 中 Mamba-Transformer 混合架构:实现 O(1) 序列扩展的工程实践
探讨 IBM Granite 4.0 LLM 的混合 Mamba-Transformer 架构,如何通过状态空间块与注意力机制融合,实现推理时 O(1) 序列长度扩展,同时保持自回归训练稳定性。提供可落地参数、监控要点与集成指南。
在 Triton 内核中使用 Cutlass 命名实现自定义 FP8 操作的加速
利用 Cutlass 命名在 Triton 内核中解锁自定义 FP8 操作的 100 TFLOPS 加速,聚焦融合注意力等超出 GEMM 的应用。
TigerBeetle 中使用 Zig 异步运行时实现分布式事务严格可串行化隔离的工程实践
探讨 TigerBeetle 如何利用 Zig 的异步运行时和确定性模拟测试,在分布式集群中实现严格可串行化隔离,防止竞争条件,支持高吞吐金融转移。包括工程参数和监控要点。
在 DBOS 中实现 Saga 补偿模式:使用 PostgreSQL 进行分布式工作流的两阶段提交与回滚编排
基于 DBOS 和 PostgreSQL,介绍 Saga 补偿在分布式工作流中的应用,包括两阶段提交机制、补偿函数设计及回滚策略。
通过 CUTLASS 命名约定在 Triton 中实现 FP8 GEMM 内核
面向 AI 推理管道,通过 CUTLASS 命名触发 Triton FP8 GEMM 优化,实现高吞吐量通用线性代数操作的参数与监控要点。