Hotdry.
所有分类

ai-systems

机器智能

从 Happy-LLM 剥离:一份极简 Transformer 实现指南

本文从 Datawhale 的 Happy-LLM 项目出发,提供一个最小化的 Transformer 模型实现教程。通过 PyTorch 代码,我们将一步步构建从输入嵌入到输出概率的完整数据流,帮助读者在代码层面深入理解 Transformer 的核心工作原理。

阅读全文 →

解锁指令级并行:价值推测的微架构支持深度解析

价值推测通过预测内存加载结果来打破数据依赖,释放乱序执行核心的潜力。本文深入解析其所需的微架构支持,如分支预测器和回滚机制,并探讨其在现代CPU中的应用与权衡。

阅读全文 →

MineContext:从被动检索到主动式上下文工程

火山引擎的 MineContext 项目展示了一种主动式上下文工程方法,通过持续理解用户屏幕信息,构建动态上下文,赋能 AI 助手进行更深度的推理与协作。

阅读全文 →

解构AI口音可视化:从MFCC到UMAP的技术实现

深入分析AI口音可视化的技术核心,揭示模型如何通过MFCC、PLS回归和UMAP等技术将语音特征映射为空间集群,并探讨其对语音识别模型感知的启示。

阅读全文 →

阿里巴巴 Spring AI:深度解析Java智能体框架

深入探讨阿里巴巴为 Java 生态系统打造的智能体(Agentic)框架 Spring AI,解析其基于图的多智能体架构、企业级集成能力以及如何简化大模型应用的开发与投产。

阅读全文 →

3分钟训练GPT模型:modded-nanogpt优化技巧解析

通过剖析 modded-nanogpt 项目,我们探讨了将1.24亿参数模型训练时间从45分钟缩短至3分钟以内的核心优化技术,重点涵盖系统、算法和混合精度计算的协同设计。

阅读全文 →

可扩展性作为反模式:警惕为“未来”的过度设计

在架构设计中,我们常常陷入追求无限可扩展性的陷阱。本文深入探讨为何将“可扩展性”奉为圭臬可能是一种反模式,并论证从 SQLite 等简单工具开始,比直接拥抱 Kubernetes 等复杂系统更有利于项目的长期健康。

阅读全文 →

智能体悖论:为何在“脆弱”的指令遵循能力之上构建 Agentic AI?

当前大模型在精确指令上表现不稳,但业界却大力投入 Agentic 框架。本文剖析此现象背后的技术根源:Agentic AI 并非旨在解决模型本身的缺陷,而是通过外部编排、任务分解与工具调用,为不完美的模型搭建一个实现复杂目标的“脚手架”。

阅读全文 →

超越 MatMul 霸权:AI 计算的“众篮之策”与张量结构优化

深入探讨 AI 领域对矩阵乘法(MatMul)的过度依赖问题。文章从“不要把所有鸡蛋放在一个篮子里”的视角,揭示将所有张量运算“扁平化”为 MatMul 的性能陷阱,并提出面向未来的结构化张量优化方案。

阅读全文 →

NVIDIA DGX Spark:将本地AI推理带入新纪元

NVIDIA DGX Spark凭借其创新的Grace Blackwell统一内存架构,为开发者在桌面端进行大规模AI模型推理和原型设计设立了新标准。本文深入解析其技术规格、性能表现与理想应用场景。

阅读全文 →

百元级本地LLM推理主机搭建指南:以NanoChat为灵感

本文将为您提供一份详细的指南,介绍如何以低于100美元的成本,构建一台能够运行大型语言模型(LLM)的本地推理主机。我们将重点探讨硬件选择、软件优化和成本效益权衡,为您打造个人AI助手提供一套切实可行的方案。

阅读全文 →

值推测:绕过L1缓存延迟的激进艺术及其代价

值推测技术通过CPU分支预测器猜测未来值,打破数据依赖,但其性能收益高度依赖预测精度。本文深入分析该技术如何绕过L1缓存延迟,并量化错误预测的恢复成本,揭示其在特定场景下的适用边界。

阅读全文 →

欺骗分词器:字符级对抗攻击如何绕过LLM的安全防线

大型语言模型(LLM)的安全性不仅取决于语义理解,更隐藏在字符处理的底层细节中。本文揭示了利用Unicode和编码技巧进行字符级对抗攻击的机制、风险及其在工程实践中的防御策略。

阅读全文 →

深入 llama.cpp:剖析 ggml 张量库与 GGUF 文件格式

深入分析 `llama.cpp` 背后的核心技术:`ggml` 张量库和 GGUF 文件格式。本文将探讨它们如何通过高效的量化方法和内存管理,在各种硬件上实现可移植的、高性能的大型语言模型推理。

阅读全文 →

将《我的世界》捆绑包问题建模为 Z3 约束求解

本文详细介绍了如何将《我的世界》中复杂的捆绑包(Bundle)物品填充规则,精确地翻译成 Z3 约束求解器可以理解的数学模型,聚焦于物品堆叠、容器限制的形式化表达。

阅读全文 →

从游戏到数学:将《我的世界》捆绑包问题精确建模为 Z3 约束

本文深入探讨如何将《我的世界》中独特的捆绑包(Bundle)物品存放机制,精确地翻译成Z3约束求解器可以理解的数学模型。我们将聚焦于物品堆叠、容量权重和整数约束的建模技术,提供一个从游戏规则到形式化约束的入门指南。

阅读全文 →

Claude Code 终端集成与嵌入式语义理解

基于 TypeScript 的终端代理编码工具,通过代码库嵌入实现语义理解、自然语言 Git 工作流及 LLM 自动化任务的参数配置与实现要点。

阅读全文 →
50 / 66 页 · 共 5280