分类:ai-systems

726 篇文章

使用 AutoGen 框架构建协作式 AI 代理

通过 AutoGen 框架定义代理角色、实现对话模式,并协调任务分解,在 Python 环境中解决复杂问题。适合初学者,包含实用代码示例和最佳实践参数。

使用 SST Opencode 工程化终端 AI 编码代理

在终端中构建原生 AI 编码代理,使用 TypeScript 和 SST,支持模块化 LLM 集成,实现自治代码生成、重构及本地测试。提供配置参数、监控要点和落地指南。

FlashAttention-4 中的 IO 感知块分块策略

探讨 FlashAttention-4 中 IO-aware 块分块策略的工程实现,通过重叠计算与 HBM 访问,在 A100 GPU 上实现长序列 MQA 推理的 2 倍吞吐量提升。提供参数调优与监控要点。

构建Gemini提示的模块化评估管道

利用Gemini Cookbook指标如忠实度和相关性,构建模块化评估管道,实现自动化基准测试与迭代优化,提升生产AI应用提示工程质量。

Building Modular Terminal AI Agents with Gemini CLI

探讨 Gemini CLI 的核心架构,支持流式响应、动态工具调用和 MCP 插件扩展,实现无缝 CLI 集成。提供工程化参数和配置指南,帮助开发者构建高效的终端 AI 工作流。

Moondream 3:实现前沿推理的高速紧凑视觉语言模型

Moondream 3 通过 9B MoE 架构,仅 2B 活跃参数,实现前沿视觉推理能力,支持长上下文和 grounding。优化推理引擎确保边缘部署的高速运行,提供对象检测、OCR 等功能的参数配置与集成指南。

使用 Exo 实现家庭设备间的 P2P AI 推理集群

Exo 项目允许用户在手机、笔记本等消费级设备上构建分布式 AI 集群,实现无云依赖的 LLM 服务。通过 P2P 网络和动态模型分区,支持大规模模型推理,提供 ChatGPT 兼容 API,便于集成。

工程化生产级 AI 代理上下文管道

基于真实部署经验,探讨 AI 代理上下文管道的构建,包括混合检索、自适应摘要和故障恢复策略,提供可落地参数、阈值和监控清单。

Opcode 中安全的后台代理沙盒化

在 Opcode 中工程化沙盒化的后台代理,用于安全的 Claude Code 执行,通过隔离进程、权限范围和实时监控防止多会话环境中的泄漏。

Self-Fixing Chatbots with Closed-Loop Analytics

Engineer closed-loop analytics in chatbots to monitor interactions, detect errors via user feedback signals, and trigger self-corrections using adaptive prompts for improved response accuracy.

构建AI对齐研究中心协作平台

探讨AI对齐研究中心协作平台的构建,支持跨机构知识共享、风险评估模型集成与标准化安全协议,实现高效研究协调。

击败LLM推理中的非确定性

通过固定随机种子、温度控制和中间结果缓存,实现LLM生产环境输出可复现,提供工程参数与监控要点。

MaxKB:企业级代理知识集成

通过 RAG 和工具链集成知识库,实现可扩展代理编排,支持企业 AI 工作流,强调数据隐私和实时查询。

BitNet 三元权重阈值优化工程实践

通过自定义三元权重阈值选择算法,优化 BitNet 框架,实现 CPU-only 1-bit LLM 的低延迟推理与内存节省,提供工程参数与监控要点。