Hotdry.

Article

Kronos:面向金融市场的时序基础模型架构与工程实践

解析Kronos金融时序基础模型的两阶段架构设计,涵盖BSQ量化、层次化token建模与跨资产零样本预测能力,提供可落地的部署参数与风险控制要点。

2026-05-24ai-systems

金融时间序列预测长期面临信噪比低、非平稳性强、多尺度动态耦合等结构性挑战。传统时序模型往往针对特定任务设计,难以在跨资产、跨频率场景中实现有效迁移。Kronos 作为首个专门为金融市场 K 线数据设计的基础模型,通过将连续价格 - 成交量序列离散化为层次化 token,并采用自回归 Transformer 进行建模,实现了在零样本设置下对价格预测、波动率估计和合成数据生成等任务的统一支持。

核心架构:从连续信号到离散语言

Kronos 采用两阶段架构处理金融时序数据。第一阶段是 K 线 Tokenizer,将包含开高低收价与成交量、成交额(OHLCVA)的连续多变量序列映射为离散 token 序列;第二阶段是自回归 Transformer,通过下一 token 预测学习目标时序依赖关系。

Tokenizer 的设计借鉴了视觉生成领域的 Binary Spherical Quantization(BSQ)技术。与简单均匀量化不同,BSQ 先将编码器输出的连续隐向量投影到单位超球面,再二值化为 k-bit 二进制码。这种设计的关键优势在于误差有界 —— 量化误差的期望上界严格小于√2,且随码本维度增加而收紧。对于存在极端异常值(如闪崩事件)的金融数据,这种有界性提供了比传统回归方法更强的鲁棒性。

为平衡表达能力与计算效率,Kronos 将 k-bit 码分解为 n=2 个子 token:粗粒度子 token(k/2 bit)捕捉 K 线的主体结构,细粒度子 token(k/2 bit)编码残差细节。这种分解将单次大词汇表预测(2^k)转化为两次小词汇表顺序预测(2^(k/2) × 2),在 Kronos-Base 配置下将词汇相关参数量从约 17 亿降至 340 万,整体模型规模压缩约 95%。

层次化建模:粗到细的顺序预测

Kronos 的核心创新在于显式建模 token 间的层次依赖关系。在自回归阶段,模型首先基于历史上下文预测下一时刻的粗粒度子 token,然后将该预测结果作为查询(query)通过交叉注意力机制更新隐状态,最后预测细粒度子 token。这种顺序预测策略与并行预测子 token 的基线相比,在价格序列预测任务上 RankIC 提升约 13%,验证了显式建模层次结构的有效性。

训练时采用了一种特殊的采样策略:在预测细粒度子 token 时,使用模型自身对粗粒度子 token 的预测结果(而非真实值)作为条件输入。这种做法缓解了暴露偏差(exposure bias),使模型在训练阶段就能适应多步推理时无法获取真实 token 的场景。

推理阶段支持通过温度缩放(temperature scaling)和核采样(top-p sampling)控制生成随机性。实验表明,价格预测任务适合较低温度(T≈0.6)以获得确定性输出,而波动率预测和合成数据生成则需要较高温度(T≈1.0)以保留分布多样性。此外,通过蒙特卡洛采样生成多条未来轨迹并取平均,可进一步提升预测稳定性 —— 随着采样次数增加,IC 和 RankIC 指标呈现单调上升趋势。

预训练与零样本能力

Kronos 在包含 120 亿条 K 线记录的数据集上进行预训练,覆盖 45 个全球交易所的股票、加密货币、外汇和期货资产,时间粒度从 1 分钟到日线不等。数据预处理阶段设计了专门的质量过滤流程:首先根据价格跳空幅度分割序列,然后识别并剔除连续无成交或价格停滞的时段,最后保留长度达标的子序列。

预训练完成后,Kronos 展现出强大的零样本迁移能力。在价格序列预测任务上,相比领先的通用时序基础模型(TSFM),RankIC 提升 93%;相比最佳非预训练基线(iTransformer),提升 87%。在波动率预测任务上,MAE 降低 9%;在合成 K 线生成任务上,保真度提升 22%。

值得注意的是,Kronos 的跨资产泛化能力不仅限于预训练时见过的资产类别。在印尼、马来西亚、台湾等预训练数据未覆盖的交易所数据上,模型仍能保持稳定的预测性能,表明其学习到的表示捕捉到了跨市场的普适性微观结构规律。

工程部署与风险控制

对于希望将 Kronos 集成到量化系统的工程团队,以下参数配置和监控要点值得关注:

模型选择:Kronos 提供 Small(24.7M 参数)、Base(102.3M)、Large(499.2M)三个版本。实验显示模型规模与下游任务性能呈正相关,符合时序基础模型的缩放律。资源受限场景可从 Small 版本起步,逐步升级。

上下文长度:预训练采用 512 个 token 的最大上下文长度,但通过使用不同频率的 K 线数据(分钟级用于短期预测、日线用于中长期预测),可灵活支持任意预测 horizon。

采样策略:预测任务建议配置温度 T=0.6、top-p=0.9、采样数 N=10;生成任务建议 T=1.0、top-p=0.95、N=1。实际部署时应根据具体资产的波动特性进行微调。

风险监控:尽管 Kronos 在常规市场条件下表现稳健,但仍需建立以下监控机制:

  • 分布漂移检测:持续监控输入数据的统计特性(如波动率、成交量分布)是否偏离训练分布
  • 极端事件应对:模型对训练数据中未充分覆盖的黑天鹅事件可能预测失效,需保留基于规则的风控兜底
  • 回测验证:任何模型信号上线前应在多样化市场条件(牛市、熊市、震荡市)下进行充分回测

局限与展望

Kronos 当前架构主要面向 K 线级别的价格 - 成交量数据,对于订单簿(order book)级别的细粒度市场微观结构建模尚未涉及。此外,模型未显式整合基本面信息(如财报数据、宏观经济指标),纯技术分析范式在特定场景下可能存在信息瓶颈。

从更宏观的视角看,Kronos 验证了 "将金融时序视为语言" 这一建模范式的有效性。随着多模态学习技术的发展,未来有望出现融合价格序列、文本新闻、另类数据(如卫星图像、供应链数据)的统一金融基础模型,为智能投研提供更全面的决策支持。


参考来源

ai-systems

内容声明:本文无广告投放、无付费植入。

如有事实性问题,欢迎发送勘误至 i@hotdrydog.com