通过GPT-OSS反刍模式推断OpenAI训练数据组成与比例
分析开源GPT模型输出中的反刍模式,以逆向工程推断OpenAI训练数据的具体来源和比例,提供高效自定义LLM数据集 curation 的指导参数和清单。
Latest Essays
继续沿着时间线阅读近期的工程实践与技术观察。
近期的思考与工程笔记。
分析开源GPT模型输出中的反刍模式,以逆向工程推断OpenAI训练数据的具体来源和比例,提供高效自定义LLM数据集 curation 的指导参数和清单。
探讨 Magic Wormhole 如何利用 SPAKE2 PAKE 协议通过虫洞代码安全建立密钥,并结合 TCP 打洞实现无中介的加密文件传输,提供工程参数与最佳实践。
探讨 Deflock 项目如何通过众包和开放 API 工程化 ALPR 摄像头映射,支持隐私保护的导航和实时警报,提供工程参数与最佳实践。
针对对抗性 Unicode 变体选择符序列,如海马表情变体,探讨 LLM 分词器的处理机制、规范化管道设计,以及工程参数与监控要点,以提升鲁棒性。
探讨文本到3D代理中混合视觉语言模型与扩散架构的集成,通过模块化检索和生成实现高效管道优化与可扩展3D资产生成。
针对海马表情符号引发的 OOV 峰值和不稳定输出,讨论在 LLM 分词器中添加多字节解码回退和规范化阈值调优的工程实践。
分析SRB2中DOOM引擎的兼容、渲染与资产模块化,聚焦工程实践与性能优化。
面向对抗性海马表情序列,给出 LLM 分词器中多字节 UTF-8 解码回退与 Unicode 规范化的工程化实现与参数配置。
探讨 LLM 分词器如何处理对抗性表情符号输入,如海马 emoji 引发的异常输出和安全绕过,提供工程化缓解参数和监控要点。
针对 BitNet 的三进制逻辑单元和位串行乘法器,设计自定义 ASIC 以实现边缘 IoT 设备上超低功耗 1-bit LLM 推理,提供工程参数和优化策略。
探讨在安全关键 C/C++ 替换中使用 SPARK 形式验证流程,集成 GNATprove 证明无运行时错误。提供工程参数、监控要点和实施清单,帮助开发者从传统测试转向可证明安全。
本文探讨在FPGA上使用位串行乘法器加速BitNet 1-bit LLM推理,通过自定义HLS流水线实现边缘设备的超低功耗部署。提供设计参数、优化策略和落地清单,帮助工程师快速构建高效推理系统。
基于 Glide 浏览器的键盘导航工程实践,包括 hint 模式、keymap 配置和扩展集成要点。
基于evcc框架,利用Modbus/HTTP API实现太阳能剩余检测的EV充电调度,包含负载均衡与预测预报的参数配置。
将 BitNet 1-bit LLM 推理框架与 TVM 编译器集成,实现 CPU/GPU/边缘设备的优化编译与自动调优,提供最小框架变更的部署参数。
基于 Airweave 构建模块化 LLM 代理,支持动态 API 集成,实现跨多样应用的自动化搜索与交互,提供工程参数与落地清单。
利用鼠标光学传感器捕获键盘击键诱导的表面振动,实现无麦克风的远程窃听攻击。给出信号处理管道、关键参数阈值与防御策略。
面向多监视器环境,给出 Niri 中可滚动平铺的动态工作区与键盘焦点管理的工程化参数与最佳实践。
基准测试 11 种表格格式在 LLM 解析中的性能,优化提取阈值和格式选择以最小化 RAG 向量检索中的幻觉。
深入剖析 AMD EPYC 9355P 处理器中 Zen 5 核心微架构的关键改进,包括分支预测机制的优化、L3 缓存容量的扩展以及 AVX-512 指令集的原生支持,这些特性显著提升了服务器高吞吐计算性能。