Daily Engineering Notes

代码.匠心.文化.

探索软件架构、工程美学与人类体验的交汇点。

共 21684 篇文章分类 317 个静态分发优先

查看最新文章浏览主题

无广告无付费软文支持公开勘误

精选主题

核心技术的深度探索。

systems-engineering

systems-engineering 主题下的工程实践与深度文章。

4058 篇文章

广告策略

本站不投放展示广告，不嵌入联盟分成链接。

利益披露

若未来存在合作内容，会在标题区和文首显式标注。

内容勘误

发现错误可邮件反馈，确认后会修订并在文章中体现。

Agent 多轮上下文装配：tool 消息配对完整性、分层裁剪与摘要压缩

单次 tool 结果预算与 run 级 max_turns 挡不住历史消息线性膨胀。本文给出上下文装配流水线：tool_call/tool_result 配对不变量、分桶 token 预算、从中段删块与可选摘要压缩的可落地表，并说明 prompt cache 与错误 400 边界。

2026-07-21systems2026-07

Agent 异步 run 队列：PostgreSQL SKIP LOCKED 租约、心跳续租与至少一次语义

交互式 SSE 断连后 Agent 仍需在 Worker 上跑完多轮 tool 环。本文给出 PostgreSQL 上 pending/leased/done/dead 状态机、SELECT FOR UPDATE SKIP LOCKED 领取、locked_until 心跳与可见性超时、取消位轮询的可落地表，并说明至少一次重放与写工具幂等边界。

2026-07-20systems2026-07

Agent 流式 tool_calls 增量拼装：index 对齐、arguments 缓冲与完成门闩

流式补全中 tool 参数以字符串增量到达，不可按半包 JSON 执行。本文给出 OpenAI delta.tool_calls 与 Anthropic input_json_delta 的统一缓冲表、完成门闩、取消时的半成品处理，以及参数字节上限与 schema 校验时序的可落地参数。

2026-07-19systems2026-07

Agent 多轮循环运行预算：max_turns、墙钟 deadline、token/费用上限与取消传播

生产 Agent 若只靠「模型自行 stop」会在工具环上无限转。本文给出 run 级 max_turns、墙钟 deadline、token/费用预算的可落地表，以及用户 Stop / 客户端断连时向 LLM 流与飞行中 tool 的取消传播顺序，并说明与单工具超时、结果预算的边界。

2026-07-18systems2026-07

Agent 并行 tool_calls：信号量、提供商 fan-out 上限与部分失败回灌

模型一轮响应可发出多条 tool_calls。本文给出编排层的全局/租户/工具三级信号量、与 OpenAI parallel_tool_calls / Anthropic disable_parallel_tool_use 的对齐方式、共享资源配额与部分失败结构化回灌的可落地表，并说明顺序依赖与取消传播边界。

2026-07-17systems2026-07

Agent 工具结果回灌：字节/token 预算、头尾截断与密钥脱敏流水线

Shell、文件、HTTP、SQL 等工具的原始输出会原样进入下一轮模型上下文。本文给出执行后回灌层的字节与 token 双预算、头尾保留截断、密钥/路径脱敏与 MCP isError 结构化错误的可落地表，并说明间接注入与误伤边界。

2026-07-16security2026-07

Agent 文件工具：工作区根边界、realpath 规范化与符号链接逃逸

Coding Agent 与 MCP 的 read_file/write_file 常因字符串前缀判断、未解析符号链接或校验与打开之间的 TOCTOU 读到工作区外。本文给出 realpath/O_NOFOLLOW 可落地表、Python 与 openat 示意实现，以及硬链接、竞态与 OS 沙箱边界。

2026-07-15security2026-07

Agent shell 工具：进程组隔离、超时升级杀与 stdout/stderr 管道背压

Coding Agent 与 MCP 终端类工具在生产中常因孙进程泄漏、管道写满死锁与无界输出拖垮 Worker。本文给出 setpgid/setsid 进程组、SIGTERM→SIGKILL 升级时序、并发读管道与字节/行截断的可落地表，并说明无法仅靠「kill 主 PID」解决的边界。

2026-07-14systems2026-07

Agent 的 run_sql 工具：PostgreSQL 会话沙箱、超时参数与 RLS 多租户隔离

针对 Coding Agent 与 MCP 数据库工具中「模型生成 SQL」的副作用与资源耗尽风险，说明如何用专用角色、会话级 GUC、连接池 checkout 钩子与行级安全策略组合成可落地的只读沙箱，并给出生产参数表与常见绕过边界。

2026-07-07database2026-07

Agent 工具网关：MCP inputSchema 与 OpenAI strict 对齐及执行前 JSON Schema 校验

依据 MCP 2025-11-25 的 JSON Schema 方言约定与 OpenAI Function Calling strict 模式要求，说明编排网关如何在 tools/list 归一化、向模型注册与 tools/call 执行前做双层校验，并给出 dialect 映射、拒绝策略与错误回灌参数表。

2026-07-06ai-systems2026-07

Agent 编排追踪：OpenTelemetry GenAI 与 MCP 语义约定的 span 层级、去重与内容采集

依据 open-telemetry/semantic-conventions-genai 中 inference、execute_tool 与 MCP client span 的 Development 约定，说明 Agent 网关如何把 LLM 调用、工具执行与 tools/call 挂成可查询的 trace，并给出 MCP/GemAI 去重、params._meta 传播与 Opt-In 内容采集的可落地参数。

2026-07-05ai-systems2026-07

Agent HTTP 工具出站 SSRF 网关：解析、解析后校验与 connect 前 IP 裁决

结合 OWASP SSRF 防护要点与 Agent「模型选 URL」场景，说明为何仅做 hostname 黑名单不够，并给出 scheme 白名单、重定向禁用、自定义 Dial 在解析 IP 后拦截 RFC1918/链路本地/元数据地址的可落地参数表。

2026-07-04security2026-07

MCP 反向 RPC 网关：sampling/createMessage 与 elicitation/create 的 HITL、配额与嵌套超时

依据 MCP 2025-06-18 的 sampling、elicitation 与 lifecycle 超时/取消章节，说明 Agent 客户端在 tools/call 嵌套场景下如何落地人机审批、模型路由、限流与分层超时，避免反向 RPC 拖死编排循环。

2026-07-02ai-systems2026-07

个人博客接入阿里云 ESA 的一套最小配置

基于 2026-07-02 可查的官方文档，整理个人博客接入阿里云 ESA 的最小方案，重点放在 NS/CNAME、缓存、HTTPS 和基础安全配置。

2026-07-02web platform2026-07

Agent 编排可观测性：OTel GenAI/MCP Span 分层与 W3C Trace Context 经 params._meta 透传

依据 W3C Trace Context、OpenTelemetry GenAI Agent/MCP 语义约定（Development），说明多轮 LLM 与 MCP 工具链路的 Span 建模、网关 traceparent 注入，以及 Streamable HTTP 下为何需在 JSON-RPC params._meta 中传播上下文。

2026-06-23systems2026-06

远程 MCP Server 接入 OAuth 2.1：RFC 9728 发现、PKCE 与 resource 参数落地

依据 MCP 2025-06-18 Authorization 规范，说明 Agent 客户端如何把受保护 MCP 端点映射为 OAuth 资源服务器，并给出 Protected Resource Metadata、动态注册、PKCE 与 RFC 8707 resource 参数的可运维实现要点。

2026-06-23security2026-06

MCP Streamable HTTP 经反向代理部署：SSE 缓冲、超时与 Mcp-Session-Id 传递

依据 MCP 2025-03-26 Streamable HTTP 规范与 HTML SSE 标准，说明在 nginx/Envoy 前挂载 MCP 端点时如何关闭响应缓冲、配置长连接超时，并正确透传 Mcp-Session-Id、Origin 与 Last-Event-ID。

2026-06-22web platform2026-06

在生产网关上部署 MCP Streamable HTTP：Mcp-Session-Id、SSE 续传与 Origin 校验

依据 MCP 2025-06-18 传输规范，说明 Agent 网关如何把 Streamable HTTP 的会话头、Last-Event-ID 续传、协议版本头与 DNS 重绑定防护落成可运维的反向代理与超时参数。

2026-06-22ai-systems2026-06

用 PostgreSQL FOR UPDATE SKIP LOCKED 实现多 Worker Agent 任务租约队列

结合 PostgreSQL 官方行锁语义与可见性超时（visibility timeout），说明如何把 LLM Agent 批处理任务映射为可水平扩展的租约队列，并给出 claim SQL、心跳参数与 exactly-once 边界。

2026-06-22database2026-06

AI Agent 写工具调用的幂等执行层：MCP ToolAnnotations 与去重表参数

结合 MCP 官方 schema 中的 readOnlyHint/idempotentHint 与 RFC 9110 的重试语义，说明如何在 Agent 运行时用工具调用指纹与去重表把 at-least-once 交付收敛为可审计的副作用控制。

2026-06-17ai-systems2026-06

代码.匠心.文化.

精选主题

ai-systems

systems-engineering

systems

security

广告策略

利益披露

内容勘误

最新见解