# Hotdry Blog

> 代码、系统与工程实践的长期写作记录，适合按文章、分类和归档路径持续检索。

## 页面摘要
- 路径: /page/782/
- 当前页: 782 / 843
- 每页文章数: 20
- 文章总数: 16860
- 分类数: 267
- 归档年份数: 4
- 归档月份数: 17

## 快速导航
- [分类索引](/categories/)
- [归档索引](/archive/)
- [关于](/about/)
- [RSS](/rss.xml)

## 本页文章
### [MLX 框架实战：Apple Silicon GPU 原生推理的统一内存与延迟执行调优](/posts/2025/09/22/mlx-apple-silicon-gpu-native-inference-optimization/)
- 日期: 2025-09-22T20:46:50+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 通过 MLX Swift 示例，解析统一内存模型与延迟计算如何消除数据迁移瓶颈，并给出量化、流绑定等可落地性能参数。

### [MLX Swift 与 Mojo 在 Apple Silicon 上的 GPU 推理内核调度与内存管理对比](/posts/2025/09/22/mlx-swift-vs-mojo-apple-silicon-gpu-inference/)
- 日期: 2025-09-22T20:46:50+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 对比分析 MLX Swift 与 Mojo 如何利用 Metal 框架与统一内存架构，在 Apple Silicon 上实现高效的原生 GPU 推理，提供可落地的参数配置与监控清单。

### [Mojo 如何借力 Metal 后端，在 Apple Silicon 上实现原生 GPU 加速](/posts/2025/09/22/mojo-metal-backend-on-apple-silicon/)
- 日期: 2025-09-22T20:46:50+08:00
- 分类: [systems-engineering](/categories/systems-engineering/)
- 摘要: 剖析 Mojo 语言如何绕过 Python 生态限制，通过底层编译器和 Metal API 直接调用 Apple Silicon GPU，实现媲美 C++/CUDA 的性能飞跃。

### [NotebookLM上下文架构设计：动态源锚定与高效信息检索的工程实践](/posts/2025/09/22/notebooklm-context-architecture-design/)
- 日期: 2025-09-22T20:46:50+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 解析NotebookLM如何通过‘源锚定’架构设计，实现基于用户文档的动态上下文管理与精准信息检索，支撑长文档问答与知识发现。

### [剖析 nvmath-python：如何无缝桥接 NumPy 与 cuBLASLt 实现原生 GPU 加速](/posts/2025/09/22/nvmath-python-bridges-numpy-and-cublaslt-for-native-gpu-acceleration/)
- 日期: 2025-09-22T20:46:50+08:00
- 分类: [systems-engineering](/categories/systems-engineering/)
- 摘要: 深入解析 nvmath-python 如何通过 Pythonic API 与生态兼容性，将 cuBLASLt 的强大功能无缝集成到 NumPy 工作流中，为 Python 开发者提供细粒度的 GPU 数学加速。

### [通过 nvmath-python 的 cuBLASLt 绑定，在 PyTorch 中实现偏差融合以提升推理性能](/posts/2025/09/22/nvmath-python-cublaslt-bias-fusion-for-pytorch-inference/)
- 日期: 2025-09-22T20:46:50+08:00
- 分类: [ai-engineering](/categories/ai-engineering/)
- 摘要: 利用 nvmath-python 的高级 Matmul API，将偏差加法融合进 cuBLASLt 矩阵乘法内核，减少内存往返与内核启动开销，实测推理性能提升显著。

### [利用 nvmath-python 实现 cuBLASLt 偏置融合：参数配置与性能指南](/posts/2025/09/22/nvmath-python-cublaslt-bias-fusion-guide/)
- 日期: 2025-09-22T20:46:50+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 详解如何在 Python 中通过 nvmath-python 的 epilog 机制，将偏置加法融合进 cuBLASLt 矩阵乘法内核，减少内存往返，提升推理效率。

### [nvmath-python 封装 cuBLASLt：为 PyTorch 提供低开销矩阵乘法与偏置融合原语](/posts/2025/09/22/nvmath-python-cublaslt-bindings-for-pytorch-fusion/)
- 日期: 2025-09-22T20:46:50+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 剖析 nvmath-python 如何通过 cuBLASLt 绑定实现矩阵乘、偏置、激活函数的单内核融合，给出 compute_type、epilog_inputs、plan/execute 分离等可落地参数配置。

### [详解 nvmath-python 中 epilog 机制如何配置参数，将偏置加法融合进 cuBLASLt 矩阵乘内核](/posts/2025/09/22/nvmath-python-epilog-bias-fusion-parameters/)
- 日期: 2025-09-22T20:46:50+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 通过 Matmul.plan 的 epilog 与 epilog_inputs 参数，配置 BIAS/RELU_BIAS 等枚举值与张量输入，实现偏置加法与矩阵乘的内核级融合，减少内存往返。

### [剖析 nvmath-python：桥接 NumPy 与 cuBLASLt 的无缝集成设计](/posts/2025/09/22/nvmath-python-numpy-cublaslt-bridge-design/)
- 日期: 2025-09-22T20:46:50+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 深入解析 nvmath-python 如何通过零拷贝互操作与高级 API 封装，实现 Python 生态与 NVIDIA cuBLASLt 库的无缝桥接。

### [nvmath-python：在 Python 生态中无缝集成 Nvidia GPU 数学库](/posts/2025/09/22/nvmath-python-seamless-gpu-acceleration-python-ecosystem/)
- 日期: 2025-09-22T20:46:50+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 详解 nvmath-python 如何通过主机与设备端 API，实现无胶水的原生 GPU 加速，覆盖矩阵运算融合与自定义内核集成。

### [PostgreSQL 18 实战：利用 UUIDv7 有序性高效提取时间戳并优化时序查询](/posts/2025/09/22/postgres-18-uuidv7-time-extraction-and-query-optimization/)
- 日期: 2025-09-22T20:46:50+08:00
- 分类: [systems-engineering](/categories/systems-engineering/)
- 摘要: 详解如何在 PostgreSQL 18 中利用 UUIDv7 的时间戳有序性，通过位运算提取时间，并结合索引与分区策略，显著提升时序数据查询性能。

### [构建生产级自主科研AI系统：从假设生成到实验验证的闭环自动化](/posts/2025/09/22/production-grade-autonomous-ai-research-system/)
- 日期: 2025-09-22T20:46:50+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 面向科研自动化，给出AI-Researcher系统的生产级部署参数、容器配置与多智能体协作框架。

### [构建生产级自主科研系统：工程化架构与可靠性保障清单](/posts/2025/09/22/production-grade-autonomous-research-system/)
- 日期: 2025-09-22T20:46:50+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 面向AI科研智能体，提供从多智能体架构、容器化部署到实验闭环的工程化参数与监控要点，确保系统在复杂科研任务中的稳定运行。

### [在 PyTorch 推理中使用 cuBLASLt 实现偏差融合：减少内核启动与内存访问](/posts/2025/09/22/pytorch-inference-cublaslt-bias-fusion-optimization/)
- 日期: 2025-09-22T20:46:50+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 通过 cuBLASLt 的 epilogue 机制，在单次矩阵乘法后直接融合偏差加法，避免额外内核启动与中间内存读写，提升 GPU 利用率与推理吞吐。

### [在PyTorch中调用nvmath-python实现带偏置的混合精度矩阵乘](/posts/2025/09/22/pytorch-nvmath-blaslt-bias-fusion/)
- 日期: 2025-09-22T20:46:50+08:00
- 分类: [systems-engineering](/categories/systems-engineering/)
- 摘要: 通过nvmath-python的Matmul对象，直接调用cuBLASLt库，在PyTorch张量上实现融合偏置的混合精度矩阵乘法，提供可复用的参数配置与性能监控清单。

### [快速上手：在 Swift 中使用 MLX 进行 Apple Silicon GPU 原生推理](/posts/2025/09/22/quickstart-mlx-swift-apple-silicon-gpu-inference/)
- 日期: 2025-09-22T20:46:50+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 通过官方示例项目，提供从环境配置到模型加载与推理的完整 Swift 实战指南，充分发挥 Apple Silicon GPU 算力。

### [基于React Context与自定义Hook实现多智能体状态同步与动作分发](/posts/2025/09/22/react-context-custom-hook-multi-agent-sync/)
- 日期: 2025-09-22T20:46:50+08:00
- 分类: [application-security](/categories/application-security/)
- 摘要: 解析CopilotKit如何利用React Context与自定义Hook实现多智能体间的状态同步与动作分发，提供可落地的代码参数与性能优化清单。

### [剖析CopilotKit：React多智能体UI状态同步机制与工程实践](/posts/2025/09/22/react-copilotkit-multi-agent-state-sync/)
- 日期: 2025-09-22T20:46:50+08:00
- 分类: [application-security](/categories/application-security/)
- 摘要: 深入解析CopilotKit如何通过共享状态机制，实现React UI与多AI智能体间的实时双向同步，提供可落地的参数配置与调试策略。

### [资深工程师的AI边缘缺陷检测提示词检查清单：构建生产力护城河](/posts/2025/09/22/senior-engineer-ai-edge-defect-detection-prompt-checklist/)
- 日期: 2025-09-22T20:46:50+08:00
- 分类: [ai-systems](/categories/ai-systems/)
- 摘要: 剖析资深工程师如何利用AI构建边缘缺陷检测的提示词检查清单，形成生产力护城河。

## 热门分类
- [ai-systems](/categories/ai-systems/): 5960 篇
- [systems-engineering](/categories/systems-engineering/): 4056 篇
- [systems](/categories/systems/): 1860 篇
- [ai-security](/categories/ai-security/): 868 篇
- [application-security](/categories/application-security/): 842 篇
- [compiler-design](/categories/compiler-design/): 699 篇
- [security](/categories/security/): 526 篇
- [ai-engineering](/categories/ai-engineering/): 329 篇
- [compilers](/categories/compilers/): 322 篇
- [web](/categories/web/): 205 篇
- [general](/categories/general/): 198 篇
- [mlops](/categories/mlops/): 81 篇

## 最近归档
### [2026 年](/archive/2026/)
- 年度文章数: 6466
- 月份概览: [2026-04](/archive/2026/04/) (494)、[2026-03](/archive/2026/03/) (905)、[2026-02](/archive/2026/02/) (2318)、[2026-01](/archive/2026/01/) (2749)

### [2025 年](/archive/2025/)
- 年度文章数: 10386
- 月份概览: [2025-12](/archive/2025/12/) (2684)、[2025-11](/archive/2025/11/) (2842)、[2025-10](/archive/2025/10/) (2885)、[2025-09](/archive/2025/09/) (1967)、[2025-08](/archive/2025/08/) (1)、[2025-07](/archive/2025/07/) (1)

### [2024 年](/archive/2024/)
- 年度文章数: 5
- 月份概览: [2024-10](/archive/2024/10/) (2)、[2024-09](/archive/2024/09/) (2)、[2024-07](/archive/2024/07/) (1)

### [2023 年](/archive/2023/)
- 年度文章数: 3
- 月份概览: [2023-10](/archive/2023/10/) (2)、[2023-03](/archive/2023/03/) (1)
