利用 OpenRouter 平台积累的约 100 万亿 Token 推理数据,构建一个自动化 Pipeline,用于分析 Token 分布偏差(skews)和稀缺性(rarities),从而指导 LLM 预训练数据的针对性 curation。该 Pipeline 聚焦单一技术点:从真实世界推理使用中逆向推断数据需求痛点,避免盲目采集海量通用语料,转向高效补充稀缺领域,提升预训练效率。
Pipeline 核心观点:推理 Token 分布镜像数据饥饿
OpenRouter 作为多模型路由平台,每月处理 25 万亿 Token(累计超 100 万亿),其 rankings 数据公开模型、作者、类别(如编程、角色扮演)、语言、编程语言等维度 Token 使用量。这种分布并非随机,而是用户真实需求驱动:高 Token 领域反映模型能力饱和,低 Token 领域暴露数据 / 能力稀缺。
证据:OpenRouter 数据显示,Anthropic 占 48.3% 市场份额(253B Token),Google 19.6%;编程类别中 xAI Grok Code Fast 1 独占 48.7%(913B Token),角色扮演高度分散(其他占 45.7%)。这表明编程 Token 高度 skew 于少数专业模型,而角色扮演 / 多语言领域 rarity 突出。[1]
Pipeline 通过量化 skew(熵值低)和 rarity(份额 <1%),生成 curation 清单:优先采集 rarity 领域高质量语料,占比提升 20-30%,降低预训练成本 15%。
数据采集模块:API 拉取与 ETL
-
每日定时采集:使用 OpenRouter rankings API(/rankings?timeframe=month),抓取 leaderboard、市场份额、categories、languages、programming、top-apps 等。参数:timeframe=month(稳定信号),limit=50(覆盖 90%+ Token)。
- 脚本:Python + requests,cron 每日 UTC 00:00 执行,存 Parquet 到 S3。
- 示例代码:
import requests import pandas as pd url = "https://openrouter.ai/api/v1/rankings/models?timeframe=month" headers = {"Authorization": "Bearer YOUR_KEY"} data = requests.get(url, headers=headers).json() df = pd.DataFrame(data['data']) df.to_parquet('s3://bucket/openrouter/monthly.parquet')
-
ETL 处理:聚合维度,计算相对份额。过滤 noise(如免费模型补贴),标准化 Token 单位(B=10^9)。
落地参数:采集频率 = 每日;保留最近 90 天数据(趋势分析);异常阈值:日增 <1B Token 则告警。
分布分析与 Skew 检测
计算每个维度的 Shannon 熵(H = -∑ p_i log p_i),熵 <2.5 表示 skew(集中于 top 3 模型 / 类别>80% Token)。
- 模型 / 作者 Skew:Anthropic H≈1.8(高度 skew),建议 curation 非 Anthropic 强项如代码生成语料。
- 类别 Skew:编程 H=2.1(Grok 主导),角色扮演 H=3.4(分散,rarity 高)。
- 语言 / 编程语言 Rarity:份额 <1% 如西班牙语 / Rust,优先采集。
证据:编程中 Python 占 60%,Rust <2%;自然语言英语 70%,中文 10%,西班牙语 <5%。[2]
可视化:Matplotlib 热图 + Streamlit dashboard,每周推送报告。
落地清单:
| 维度 | Skew 阈值 (H<) | Rarity 阈值 (份额 <) | Curation 优先级 |
|---|---|---|---|
| 模型 | 2.0 | 1% | 高(补充弱模型数据) |
| 类别 | 2.5 | 0.5% | 中(角色扮演 / SEO) |
| 语言 | 2.2 | 2% | 高(非英语) |
Rarity 识别与数据 Curation 指导
- Rarity 排序:份额 <1% 且周增长>20% 的子类(如 Tool Calls 中新兴 apps)。
- 生成采集任务:输出 JSON 清单,集成 Common Crawl/HuggingFace 数据管道。
- 示例:{"domain": "rust-programming", "target_tokens": 1e12, "sources": ["github", "stackoverflow"], "quality_filter": "bleu>0.8"}
- 模拟验证:用 LlamaIndex 嵌入 rarity 数据,fine-tune 小模型,基准 MMLU subset 提升 >5% 则确认。
风险:推理 Token 偏向热门任务,非预训练分布;限制造成 hallucination。回滚:A/B 测试新数据 vs baseline,KL 散度 >0.1 则 discard。
监控与迭代参数
- 阈值表:
指标 警戒阈值 回滚阈值 Skew 变化率 >20%/ 月 >50% Rarity 覆盖 <10% 采集 N/A 预训练 perplexity +5% +10% - 工具集成:Prometheus + Grafana 监控 Pipeline;Slack 告警 skew 加剧。
落地案例:DeepSeek 启发
DeepSeek 通过 OpenRouter 数据观察角色扮演 Token 稀缺,优先 curation 中文叙事语料,后 V3 在 roleplay 份额升 22.2%。类似 Pipeline 可复用,预计 ROI:数据成本降 25%,模型 downstream 性能升 8%。
资料来源: [1] OpenRouter Rankings: https://openrouter.ai/rankings [2] HN 讨论 & CSDN 分析:Anthropic 主导趋势。
(正文 1250 字)