Hotdry.
所有分类

ai-systems

机器智能

LM Studio 0.4 本地大模型推理架构解析

深入分析 LM Studio 0.4 的并行推理机制与连续批处理策略,探讨其在消费级硬件上实现高效本地部署的工程参数与监控要点。

阅读全文 →

基于边缘网络的视觉智能体推理架构设计

解析 Vision-Agients 项目中边缘网络的低延迟策略、处理器流水线架构与多模型协调机制,提供实时视觉智能体部署的工程化参数与监控要点。

阅读全文 →

OpenAI Token 级别多模型路由的工程化实践

面向多模型并行部署场景,解析 OpenAI 实时路由系统如何在 Token 粒度实现动态模型选择,给出任务复杂度评估方法、路由延迟预算与成本-性能帕累托边界调优策略。

阅读全文 →

MLX-Audio 流式批处理推理架构解析

深入解析 MLX-Audio 如何在 Apple Silicon 上实现流式批处理推理,涵盖音频流分割策略、动态批次调度器设计及延迟-吞吐权衡的工程参数。

阅读全文 →

pi-mono 全栈 AI Agent 工具包架构解析

深入解析 pi-mono 的统一 LLM API 抽象层设计与 vLLM Pods 管理机制,涵盖多Provider适配器实现、工具调用沙箱策略与 GPU 资源调度参数。

阅读全文 →

pi-mono CLI 命令架构设计模式解析

深入解析 pi-mono AI Agent Toolkit 的 CLI 命令架构设计,涵盖工具注册机制、参数解析策略与流式输出交互范式,为构建现代化命令行 Agent 工具提供可落地的工程参考。

阅读全文 →

Tailscale Aperture 零信任 AI 网关的工程实践

解析 Tailscale 新产品 Aperture 如何利用内置身份系统解决 AI 编程代理的可见性与安全管控难题,探讨零信任架构在 LLM 网关场景的落地参数。

阅读全文 →

Kimi K2.5 多模态令牌化与预训练数据工程解析

深入解析 Kimi K2.5 约 15 万亿视觉-文本混合令牌的预训练数据构建流程,涵盖 MoonViT 原生分辨率视觉编码器、视觉-文本交织数据管道与四阶段预训练策略。

阅读全文 →

Supermemory 边缘 PostgreSQL 架构解析

剖析 Supermemory 如何通过 Cloudflare Workers 与 Durable Objects 的边缘协同,实现亚 400 毫秒的记忆检索延迟,探讨边缘优先架构的工程权衡。

阅读全文 →
11 / 68 页 · 共 5436