llm token level arithmetic heuristics
title: "LLM 算术的 Token 级实现:模式启发式而非算法计算" date: "2026-06-07T15:26:50+08:00" excerpt: "剖析大语言模型在无数字语义理解下,通过 token 模式匹配与上下文推理实现算术运算的底层机制,揭示其" 启发式袋子 "本质与工程局限。" category: "ai-systems" 当大语言
Latest Essays
继续沿着时间线阅读近期的工程实践与技术观察。
近期的思考与工程笔记。
title: "LLM 算术的 Token 级实现:模式启发式而非算法计算" date: "2026-06-07T15:26:50+08:00" excerpt: "剖析大语言模型在无数字语义理解下,通过 token 模式匹配与上下文推理实现算术运算的底层机制,揭示其" 启发式袋子 "本质与工程局限。" category: "ai-systems" 当大语言
title: "多源研究 Agent 的合成流水线:从 Reddit 到 Polymarket 的信号聚合与摘要生成" date: "2026-06-07T10:05:00+08:00" excerpt: "解析跨平台研究 Agent 的技术架构:智能预研究、跨源聚类、参与度评分与多信号合成,构建以" 人的真实参与 "为排序依据的研究流水线。" catego
深入解析 OpenAI Whisper 基于68万小时多语言弱监督数据的语音识别系统,探讨其字节级BPE分词器、多任务统一训练格式与解码策略的工程实现细节。
基于 Firecracker microVM 的快照恢复机制,通过 Copy-on-Write 分叉与 UFFD 按需分页,将浏览器自动化场景的冷启动时间从秒级压缩至 20ms 的工程实践。
从 MotoSync+ 服务器失效导致大规模设备变砖事件出发,探讨路由器固件 A/B 分区、安全启动与本地恢复模式的工程化设计要点。
解析PAI v5.0.0的三层架构设计,探讨本地化AI基础设施的工具链选型、技能系统与自我改进循环的工程实践。
解析Computex 2026展会动态,探讨Nvidia RTX Spark Superchip如何重新定义Agentic PC的硬件架构,以及端侧AI代理对PC交互范式的影响。
解析 Themida 虚拟化保护机制,阐述静态去虚拟化的核心原理与工程实现路径,包括 VM 结构识别、handler 模式匹配、IR 提升与翻译流程。
详解PyTorch自定义算子的C++/CUDA实现、TORCH_LIBRARY注册机制、Python绑定及AOTInductor部署流程,提供可落地的线程配置与类型分发参数。
Sem 在 Git 之上构建实体级语义层,用 tree-sitter 提取函数/类/方法作为原子单元,实现跨文件影响分析与 Agent 友好的结构化 diff。
解析 Agent-Reach 的统一互联网感知层架构,探讨多平台反爬策略的工程实现与可落地参数配置。
解析last30days-skill的多源数据聚合架构:从Reddit/X/YouTube/HN/Polymarket等异构平台统一Schema设计、Grounding验证机制到人群评分算法的工程实现。
解析Universal Memory Protocol的六操作模型、双时态记录格式与渐进式落地路径,为多Agent协作提供可互操作的内存共享方案。
解析 last30days-skill 的架构设计:从多源并行抓取、实体预解析到跨源聚类合并,提供可落地的社交信号评分与合成参数配置。
ntsc-rs通过Rust多线程与SIMD加速,实现NTSC色度副载波调制、VHS磁头切换噪声等模拟电视信号瑕疵的实时像素级仿真,支持After Effects与DaVinci Resolve插件工作流。
探讨 Splash 三色千色格式的设计哲学、精度与可移植性权衡,以及从线性映射到查找表的工程实现路径。
探索如何在庞加莱圆盘模型上实现无限画布笔记系统,涵盖双曲坐标投影算法、边界渲染策略与前端交互映射的工程化方案。
解析攻击者如何利用 Meta AI 聊天机器人的身份验证缺陷,通过提示注入劫持数千 Instagram 账户,并提供平台与用户侧的可落地防御参数。
从WoofWare.PawPrint项目出发,探讨如何在.NET运行时层面消除线程调度、GC时序、随机数等非确定性源,实现可重现执行与测试。
整合 Facebook、LinkedIn、Twitter 等平台的 OG 缓存刷新机制与 Cloudflare、AWS CloudFront 等 CDN 边缘清除策略,提供可落地的双层级缓存失效工程方案。