从贪心匹配到动态规划:子词最优分割的工程实践
探索子词分割算法的工程优化路径,从贪心BPE到动态规划最优分割,实现词汇表压缩与跨语言泛化的双重提升。
Latest Essays
继续沿着时间线阅读近期的工程实践与技术观察。
近期的思考与工程笔记。
探索子词分割算法的工程优化路径,从贪心BPE到动态规划最优分割,实现词汇表压缩与跨语言泛化的双重提升。
探讨FPGA内部任意频率时钟生成的工程方法,涵盖分数时钟分频、OSERDES上采样、PLL抖动抑制等关键技术要点与实现参数。
解析将1998年PC游戏移植到2007年Nokia N95的技术路径:从x86到ARM的架构转换、软件渲染管线设计,以及在128MB内存约束下的性能调优策略。
从DN42扫描事件切入,剖析DNS放大攻击与云按量计费模型耦合导致成本爆炸的技术根因,提供可落地的流量监控阈值与防护参数。
探讨DSL在LLM时代保持竞争力的三大设计原则:可学习性降低认知负荷、组合性支持模块化构建、错误恢复机制提供容错能力,并给出可落地的语法参数与实现策略。
解析 Anthropic Fable 5 隐形护栏事件背后的架构权衡,提供显式拒绝与隐式转向的决策框架、可审计性实现路径及可落地的工程参数清单。
针对AI Agent在实验网络扫描中导致的$6531 AWS账单失控事件,构建成本预算熔断与网络边界防护的工程化方案。
macOS 27 Golden Gate Beta 导致 Asahi Linux 分区在启动选择器中不可见。本文分析 Apple Silicon 安全启动链、SEP 固件验证与 m1n1 链式加载的兼容性工程问题。
从开源协议选择、模型能力边界到边缘部署的工程权衡,拆解 MiMo Code 的技术决策参数与落地 checklist。
解析FablePool的众包AI开发模式:credits资金池机制、里程碑定价策略、双入账公开账本与社区治理设计,提供可落地的参数配置清单。
通过无规则引擎的万智牌模拟框架,评估LLM在复杂游戏状态中的多轮策略决策、不可逆操作管理与自我纠错能力。
解析Waymo Premier会员体系背后的容量规划挑战:从供需预测、区域调度到会员分级策略的工程化落地路径。
解析MiMo-V2.5的Hybrid SWA架构如何将KV Cache压缩至1/7,以及生产级量化策略与边缘部署的工程参数清单。
探索从零构建复古风格LLM的工程实践,解析极简参数配置下的Transformer架构实现,对比百万参数级模型与千亿参数模型的能力边界与适用场景。
探索 Boo 如何利用 libghostty-vt 替代传统终端复用器的自建模拟层,解决重连时 TUI 渲染不一致问题,并分析其 screen 风格架构的工程取舍。
深入解析vLLM中GPU显存池化管理机制,剖析Block Allocator的碎片整理策略、并发安全实现与内存复用优化。
解析 ColPali 的 Late Interaction 机制,通过延迟视觉-文本交互至检索阶段,在保持嵌入存储效率的同时实现细粒度多模态对齐。
基于延迟分布动态调整采样策略,实现尾部异常请求的精准捕获,并提供跨服务延迟归因的工程化参数配置与实现方案。
深入解析 Flash Attention V3 如何利用 Hopper 架构的 Warp Group Cluster 特性,实现 GEMM 与 softmax 的指令级融合,突破 FP8 注意力计算的吞吐瓶颈。
深入解析JIT编译器的三层执行架构,剖析方法调用计数器与回边计数器的阈值触发逻辑,以及代码缓存的分层管理与智能淘汰策略的工程实现。