字节优先于FLOPs:LLM预训练的数据质量优化管道工程化
面向LLM高效预训练与微调,优先字节级质量指标与数据整理而非FLOPs扩展,给出工程化管道参数、阈值与监控清单。
Latest Essays
继续沿着时间线阅读近期的工程实践与技术观察。
近期的思考与工程笔记。
面向LLM高效预训练与微调,优先字节级质量指标与数据整理而非FLOPs扩展,给出工程化管道参数、阈值与监控清单。
通过自动化重置 Cursor AI 的 MachineID 和相关配置,绕过试用限制,实现无限 Pro 功能如高 token 使用量。提供详细路径、超时参数与运行清单。
针对密集服务器多盘位HDD,设计振动隔离安装、自适应共振抑制算法及伺服跟踪参数,实现稳定性能。
剖析 parking_lot::Mutex 用户空间公平队列与自适应自旋,对比 std::sync::Mutex futex 在高竞争下的 thundering herd 问题,提供异步运行时 Mutex 选型参数与监控清单。
手把手构建类似 OCR Arena 的实时互动平台,支持图像/PDF 上传、匿名模型盲测、用户投票生成 ELO 排行,以及 CER/WER 等自动化评估管道。
针对SSD无电源数据保留挑战,提供固件电容尺寸计算、放电曲线模拟、定时刷新机制及数周验证流程的工程实践参数。
面向ChatGPT生产环境,给出实时幻觉检测管道、用户脱离现实监控与干预策略的工程参数。
基于Freeserf项目,剖析在现代引擎中复现Settlers 1经济链、多单位路径寻找A*算法、建筑决策AI的关键工程参数与优化策略。
基于 Hacker News 排名算法,构建实时投票、排序与评论动态的 Web 模拟器,提供 JS 事件循环与高效排序的工程参数与优化清单。
针对 Android TV 盒子僵尸网络,提供固件签名匹配、交通异常检测、供应链漏洞扫描和厂商黑名单的工程化检测管道参数与实现要点。
针对 DDR5 高密度模块短缺,提供工程分配清单、密度扩展参数及 AI 服务器内存迁移策略。
基于开源 PebbleOS,重现 FreeRTOS 固件栈的 BLE 通信协议、低功耗任务调度参数,以及完整开源复现工具链的工程实践。
用 Docker 快速部署 TrendRadar,轻量 MCP AI 聚合抖音/B站/知乎等 35 平台热点,支持 13 种分析工具(趋势/情感/检索)和多渠道通知。
基于 CLIP 视觉嵌入、FAISS 向量索引与地理空间过滤,构建高效 StreetView 全景语义检索系统,给出模型参数、索引配置、查询阈值与监控要点。
基于rust-readability库,重写Mozilla Readability,提升HTML解析速度10倍以上,给出节点评分阈值、链接密度参数与监控清单。
剖析TSMC亚利桑那Fab 21气体供应中断引发的停产流程,苹果晶圆报废机制、污染隔离及N3/N2节点重启序列参数。
基于脑活动序列模式,使用 Transformer 模型从 fMRI/EEG 数据构建神经解码器,实现前意识思想预测的工程参数、架构设计与落地监控要点。
基于苦涩教训审视RAG和工具等LLM扩展架构,优化计算绑定推理的混合系统,避免模块瓶颈,提供工程参数与落地清单。
基于Claude API的高级工具集成方案,实现多工具并行执行、会话状态持久与智能重试,支持复杂代理工作流,提供落地参数与监控要点。
分析GrapheneOS服务器迁移工程,详述选型、加固参数与合规模块,提供落地清单。