ai-systems
机器智能
Integrate Multiple LLMs in Genkit Flows for Composable AI Apps
Explore integrating multiple LLMs using Genkit's flow-based orchestration, with JS/Go/Python support, tracing for debugging, and practical model switching strategies.
使用Transformers构建多模态管道:高效分词、注意力优化与ONNX部署
利用Hugging Face Transformers框架,构建文本-视觉-音频多模态模型管道,聚焦分词效率提升、注意力机制优化,以及ONNX低延迟推理部署,提供工程参数与监控要点。
用 Haystack 编排 LLM 应用:连接模型、向量 DB 和转换器构建 RAG 管道
Haystack 框架通过模块化管道实现 LLM 应用编排,适用于 RAG、QA 和语义搜索,提供生产级检索和集成参数。
Claude 子代理中的并行任务分解:并发代码模块生成与集成测试工程实践
利用 Claude 子代理实现代码开发的并行任务分解,聚焦并发模块生成、集成测试和依赖解析,提供工程参数与监控要点。
使用 ROMA 递归元代理构建高性能多代理系统
ROMA 框架通过递归元代理实现动态任务委托、状态同步和模块化编排,帮助工程师构建可扩展的 AI 工作流。探讨核心组件、配置参数和实际部署策略。
使用 Triton 融合线性注意力内核实现亚二次复杂度:长序列 Transformer 的高效 O(n) 缩放
基于 Flash Linear Attention 项目,探讨 Triton 融合内核如何实现线性注意力的 sub-quadratic 复杂度,支持长序列 Transformer 的 O(n) 高效缩放,提供工程化配置与优化参数。
使用 OpenPI 的视觉-语言-动作模型实现零样本策略转移:跨具身机器人操纵
基于 OpenPI 框架,利用预训练 VLA 模型实现跨具身零样本策略转移,提供安装、推理配置和工程参数,支持不同机器人平台的无微调操纵任务。
使用 ROMA 的递归开放元代理构建可扩展多代理 AI 系统:动态任务委托与状态管理
通过 ROMA 框架实现递归元代理的多代理系统,支持动态任务分解、状态管理和性能优化,提供 Python 落地参数与监控要点。
使用 TypeScript 和 Bun 构建终端 AI 代码生成器,集成 LLM 实现提示即时代码生成与本地执行
基于 Codebuff 灵感,探讨如何用 TypeScript 和 Bun 快速构建终端 AI 代码生成工具,集成 OpenRouter LLM,支持提示到代码的即时生成与本地执行,提供工程化参数和监控要点。
Curating Community MCP Servers for AI Agent Discovery and Integration
A curated guide to community MCP servers enabling standardized discovery, integration patterns, and modular orchestration for AI agents without custom builds.
在 garak 中开发自定义漏洞探测器:针对 LLM 风险的模块化插件与 CI/CD 集成
通过 garak 框架开发自定义探测器,聚焦提示注入和 PII 泄露风险,提供模块化插件设计、评估指标及 CI/CD 集成策略,确保 LLM 安全工程化落地。
Developing Custom Detectors in Garak for LLM Risk Probing
通过 garak 框架开发自定义探测器,针对提示注入和 PII 泄露等 LLM 风险,提供模块化插件设计、评估指标及 CI/CD 管道集成策略。
Engineering Community-Driven MCP Registry with Go: Dynamic Discovery and Health Monitoring
基于 Go 的社区驱动 MCP 注册服务,实现动态发现、健康监控及多代理 AI 工作流的无缝集成。
Engineering Modular Deep Research Agent with MCP Protocol: Multi-Hop Retrieval and Adaptive Query
基于 MCP 协议构建模块化深度研究代理,实现多跳知识检索、工具编排与自适应查询精炼,提供工程参数与监控要点。
Engineering Multi-User AI Research Platforms with Grove: Shared Access and Collaboration Workflows
基于 OpenAI Grove,利用 API 构建多用户 AI 研究平台,实现共享模型访问、版本化实验与实时协作的工程实践。
使用 VaultGemma 的 DP-SGD 优化器工程化隐私保护 LLM 微调
探讨 VaultGemma 在差分隐私 LLM 微调中的 DP-SGD 优化器、噪声校准与安全聚合机制,提供联邦设置下合规推理的工程参数与实践指南。
Qwen3 在 ARM 硬件上的 MLX 加速部署:低延迟设备端推理与多模型切换
针对 ARM 架构的 Qwen3 LLM 部署工程实践,聚焦 MLX 框架加速,实现低延迟设备端推理及多模型无缝切换的关键参数与优化策略。
Qwen3-Next 中通过稀疏 MoE 层实现亚秒级多模态生成:混合精度运算与内核融合工程实践
基于 Qwen3-Next 的稀疏 MoE 架构,探讨多模态推理中的高效工程实现,包括混合精度运算、内核融合策略,以及亚秒级生成的落地参数与监控要点。
工程化 TypeScript CLI:终端 AI 代码生成与 Bun 加速依赖管理
基于 Codebuff 项目,剖析 TypeScript CLI 在终端 AI 代码生成中的工程实现,强调 Bun 的并行依赖解析与锁文件缓存机制,实现快速安装与高效原型开发。
Windows GUI AI 代理工程:像素识别与事件模拟实现桌面任务自动化
通过像素级识别和低级输入模拟,构建无API依赖的Windows桌面AI代理,实现任务自动化,提供工程参数与监控要点。
使用 FlashAttention 内核实现最先进的线性注意力:长序列 Transformer 的 O(n) 缩放
面向长序列 Transformer,给出 Flash Linear Attention 的高效实现、训练参数和推理优化要点,支持超过 1M tokens 的序列处理。
使用 Milvus 云原生分片实现亿级向量数据库的可扩展 ANN 搜索
面向亿级向量数据库,给出 Milvus 云原生分片、混合 HNSW/IVF 索引、实时数据摄入以及容错复制的工程化参数与监控要点。
K2-Think 中基于适配器的 PEFT 模块实现:高效 LLM 推理
在 K2-Think 框架中集成适配器-based PEFT 模块,通过低秩适配和任务特定路由优化 LLM 推理,提供工程参数和监控要点。
使用 FlashAttention 内核实现高效线性注意力模型
基于 Flash Linear Attention 库,探讨优化内核在 Transformer 长序列处理中的应用,提供安装与配置指南。
使用 FlashAttention 内核实现高效线性注意力:O(n) 长序列 Transformer 训练与推理优化
基于 Flash Linear Attention 库,探讨如何在 GPU 上实现 O(n) 复杂度线性注意力机制,支持多种 SOTA 模型的快速训练和推理。
使用Flash Linear Attention的高效内核实现线性注意力模型
基于Triton优化的Flash Linear Attention内核,帮助Transformer处理长序列,降低内存开销,提供安装与调优指南。
Integrating Multiple AI Models in Genkit: Code Patterns with Observability
Using Genkit to integrate various AI models and platforms, leveraging code-centric patterns and built-in observability for scalable development.
Real-Time LLM Hallucination Detection with Timeplus in Chess Analysis
工程化 Timeplus 流式管道,用于实时检测 LLM 在象棋分析中的幻觉,集成异常警报以验证移动准确性。
Self-Fixing Chatbots with Closed-Loop Analytics
Engineer closed-loop analytics in chatbots to monitor interactions, detect errors via user feedback signals, and trigger self-corrections using adaptive prompts for improved response accuracy.
使用 Ghostship 构建 AI 代理进行 Web 应用漏洞狩猎
在 Ghostship 平台上构建 AI 代理,实现自动化 Web 应用 bug 检测,包括动态分析、漏洞扫描和浏览器环境中的利用模拟,提供工程化参数和监控要点。
基于 Go 构建可扩展的 Model Context Protocol 服务器注册服务:动态发现、健康检查、Prometheus 集成与零停机扩展
面向 AI 模型编排,给出 Go 实现的 MCP 注册服务的动态发现、健康检查、Prometheus 监控与零停机扩展的工程参数与策略。
Claude 逆向内存架构 vs ChatGPT:高效长上下文保留工程实践
探讨 Claude 与 ChatGPT 在内存架构上的差异,焦点工程化层次化回忆和会话持久性,避免完整重新提示的实现参数与策略。
用 Python 构建安全的 Agno 多代理 AI 运行时:内置可观察性、状态管理和云部署
基于 Agno 框架,指导工程化多代理系统运行时,实现安全部署、工作流编排和工具集成的关键参数与实践。
使用合成数据工程化 backprompting 管道训练 LLM 健康建议护栏
利用合成生产数据构建 backprompting 管道,训练 LLM 护栏以实现安全健康建议生成,包含偏见检测与响应过滤的工程参数。
Engineering Heavy Ranking with GBDT Models for Tweet Scoring, Diversity Mixing, and Real-Time Filtering
在延迟约束下,使用 GBDT 模型工程化重排名阶段,实现推文评分、多样性混合与实时过滤,个性化 Feed 构建。
使用 OpenPI 和 PyTorch 构建模仿学习管道,实现零样本灵巧手操作
基于 OpenPI 的 VLA 模型,结合 PyTorch 扩散策略和传感器融合,实现机器人零样本灵巧手操纵的工程管道。
Claude中工程化持久键值内存存储:跨会话回忆与动态检索,对比GPT的临时上下文窗口
探讨在Claude中构建持久键值内存系统,实现跨会话AI交互,与GPT的短暂上下文窗口形成对比,提供工程参数和最佳实践。
Milvus 中工程化可扩展向量 ANN 搜索:云原生分片、混合索引(IVF-PQ/HNSW)与实时摄取
针对 AI 检索系统,探讨 Milvus 的云原生分片策略、IVF-PQ 与 HNSW 混合索引参数优化,以及实时数据摄取配置,确保亿级向量的高性能 ANN 搜索。
在SWE-bench中使用语义差异和提交祖先分析检测Git历史泄漏
探讨工程化语义差异比较和提交祖先追踪技术,检测SWE-bench基准中的微妙Git历史泄漏,通过自动化数据集清洗管道确保LLM编码基准的公平性。
使用 TypeScript 构建终端 AI 代码生成 CLI:提示链、语法验证与本地 LLM 集成
探讨如何用 TypeScript 工程化一个终端 CLI,支持 AI 驱动代码生成,重点关注提示链机制、语法验证流程,以及与本地 LLM 的集成,实现离线原型开发。
在 Qwen3-Next 中实现稀疏 MoE 层与混合精度操作的工程实践
基于 Qwen3-Next 的 MoE 架构,探讨 kernel fusion 和混合精度 ops 的多 GPU 优化策略,实现高效训练与亚秒级推理。
在 Qwen3-Next LLM 中使用混合精度训练、稀疏 MoE 层和内核融合实现亚秒级推理延迟
针对 Qwen3-Next 大模型,介绍混合精度训练结合稀疏 MoE 架构和内核融合的优化策略,实现训练加速和亚秒级推理,提供关键参数配置与监控要点。
生产级 GraphRAG 实现:多模态索引、混合搜索与 Kubernetes 部署
基于 ApeRAG 构建生产级 GraphRAG 系统,支持文本/图像多模态索引、Qdrant 混合搜索,并通过 Kubernetes 实现可扩展检索管道。
Qwen3-Next 中稀疏 MoE 层的实现:混合精度运算与内核融合优化
探讨 Qwen3-Next 中稀疏 MoE 层的工程实现,包括混合精度运算、内核融合技巧,以及实现亚秒级推理延迟的部署参数。
使用 TypeScript 在终端集成 AI 代码生成:快速原型与 CLI 无缝融合
基于 Codebuff,在终端工作流中集成 AI 代码生成,使用 TypeScript 自定义代理,实现快速原型设计、依赖管理和 CLI 无缝集成。
工程化离散多模态扩散模型:Lumina-DiMOO 用于联合文本-图像生成
基于 Lumina-DiMOO 的离散扩散技术,提供 Transformer 条件和高效采样的工程实现要点,支持多模态内容生成。
Optimizing Qwen3-Next Inference with Kernel Fusion and Mixed-Precision for Sub-Second Multimodal Generation
通过内核融合和混合精度操作优化Qwen3-Next推理,实现亚秒级多模态生成,聚焦批处理和硬件加速的关键参数与策略。
逆向工程Devin、Cursor和Replit Agent系统提示:构建本地AI编码助手的工具调用与错误恢复
从专有AI工具中提取并适应系统提示词,构建集成工具调用、错误恢复和多步推理的本地AI编码助手,提供工程化参数和监控要点。
使用 OpenPI 和 RTK GPS 升级商用机器人割草机:无标记精准自主导航
基于 RTK GPS 导航结合传感器融合和路径规划,利用 OpenPI 实现商用机器人割草机的精准自主操作,无需 fiducial 标记。
Upgrading Robotic Mowers with OpenPI and RTK GPS: Marker-Free Precise Autonomous Navigation
Implement RTK GPS navigation with sensor fusion and path planning using OpenPI for off-the-shelf robotic mowers.
Windows GUI自动化:像素级识别与事件模拟的AI代理工程实践
探讨Windows-Use工具如何通过像素级识别、事件模拟和状态跟踪,实现无API依赖的GUI自动化,附工程参数与监控要点。
AutoAgent零代码框架中工具调用集成与自适应错误恢复
在AutoAgent零代码环境中集成工具调用与自适应错误恢复机制,实现复杂工作流的自动化代理路由与鲁棒执行,提供工程化参数与监控要点。