Hotdry.
ai-systems

Glyph:清华智谱的视觉-文本压缩革命,如何用"看图"突破LLM百万级上下文?

清华智谱联合提出Glyph框架,通过视觉-文本压缩技术实现LLM上下文窗口的革命性扩展。在保持性能的同时实现3-4倍压缩率和4倍推理加速,为长上下文建模开辟全新道路。

长上下文建模已成为大语言模型(LLM)实现真正生产力的关键门槛。当模型需要处理整本书籍、复杂代码库或多步骤推理时,往往需要数十万甚至上百万 token 的输入。然而,直接扩展上下文窗口会带来指数级的计算开销 —— 注意力机制的二次方复杂度让百万级上下文处理变得昂贵而缓慢。

传统解决方案往往治标不治本:稀疏注意力或线性注意力虽能降低复杂度,但 token 总数并未减少;RAG 虽然巧妙,但依赖检索准确性,容易遗漏关键信息;位置编码外推如 YaRN 技术虽有创新,但仍局限于一维 token 序列的框架内。

清华交叉信息研究院 CoAI 团队与智谱 AI 联合提出的 Glyph 框架带来了颠覆性思路:为什么一定要处理文本 token 序列?

视觉 - 文本压缩:用 "看图" 重新定义长上下文

Glyph 的核心洞察在于:图像承载信息的方式比线性文本要密集得多。一个视觉 token(图像的一个小块)可以包含多个单词甚至一整行文字,而这些文字原本需要几十个文本 token 来表示。

以经典小说《简・爱》为例,全书约 24 万文本 token。传统 128K 上下文的 LLM 无法容纳全书,自然无法回答需要通览全文的问题(如 "简离开桑菲尔德后陷入困境时,谁给予了她支持?")。而 Glyph 将整本书渲染为紧凑图像后,只需约 80K 个视觉 token,128K 上下文的 VLM 就能轻松处理整部小说并准确回答问题。

这种视觉 - 文本压缩不仅实现了 3-4 倍的 token 压缩,还带来了约 4 倍的推理速度提升和 2 倍的监督微调训练加速。本质上,Glyph 用信息密度换取了计算效率。

三阶段革命性框架:从 "读文" 到 "看图" 的能力迁移

Glyph 的成功源于其精心设计的三阶段框架,每一阶段都针对视觉 - 文本压缩的核心挑战。

第一阶段:持续预训练 —— 建立跨模态语义对齐

团队首先将大规模长文本数据渲染为多种视觉风格,包括文档布局、网页结构、代码展示等形式,以模拟真实长文本场景的多样性。渲染过程中引入各种变化:不同字体大小(9-14pt)、字体样式(SourceSans3、Verdana)、页面布局(960×540)、背景颜色和行高。

训练任务设计巧妙:模型需要完成类似完形填空的掩码语言建模,随机遮盖图像中部分文字,让模型根据上下文猜出内容;同时还要处理完整渲染文本图像的就全文内容提问。这种双重任务迫使模型学会从视觉信号重建文本信息,建立起视觉与语言间的跨模态语义对齐能力。

第二阶段:LLM 驱动的遗传搜索 —— 用 AI 为 AI 找到最优学习材料

如何将文本渲染成图片,这里面大有学问。字体大小、页面布局、图像分辨率、背景颜色等渲染参数的任意组合都会直接影响压缩率和模型性能。参数空间庞大,手动优化显然不现实。

Glyph 设计了 LLM 驱动的遗传搜索算法,让 AI 充当 "设计优化专家":

  • 随机生成初始种群(渲染配置方案)
  • 每种方案渲染文本并用 VLM 评估,给出适应度评分
  • 将所有配置和性能数据喂给强大 LLM(如 GLM-4),让它分析优劣并提出变异或交叉建议
  • 迭代直到找到压缩率与性能间的帕累托最优配置

这套自动化搜索机制用 AI 的智慧为 AI 找到了最高效的学习材料,超越了简单的网格搜索,能理解参数间的关联关系。

第三阶段:后训练 —— 多任务协同优化

找到最优渲染配置后,模型进入精细化后训练阶段:监督微调(SFT)结合 GRPO 强化学习,使用高质量图文对数据进行指令微调。为防止模型在学习长程推理时丢失细节感知,加入辅助 OCR 任务持续给模型施加 "必须看清每个字" 的压力。

这种多任务协同确保 Glyph 既能 "看懂" 整体语义,又能 "读准" 具体文字。

性能表现:重新定义长上下文效率边界

Glyph 在一系列长上下文基准测试中展现了令人瞩目的表现:

压缩效率与性能并重

在 LongBench 上实现平均 3.3 倍有效压缩率(部分任务达 5 倍),在 MRCR 上平均压缩率 3.0 倍。关键是在大幅减少输入 token 的同时,性能与 Qwen3-8B、GLM-4-9B-Chat-1M 等顶尖模型相当甚至超越。

推理与训练加速显著

  • 预填充速度最高提升 4.8 倍
  • 解码速度提升 4.4 倍
  • 整体推理吞吐量提升 4.8 倍
  • SFT 训练速度提高约 2 倍

随着上下文长度增加,这种加速优势愈发明显。当纯文本模型将上下文窗口从 32K 扩展到 64K 时,只能多处理 32K 内容;而 Glyph 凭借约 3 倍压缩率,相当于有效增加 96K 原始文本信息量。

极端压缩潜力巨大

在更激进的 8 倍压缩率设置下,Glyph 展现出处理百万级上下文任务的潜力,性能与 GLM-4-9B-Chat-1M 和 Qwen2.5-1M 相当。这意味着未来模型有望支持 4M 甚至 8M token 的超长上下文。

跨任务泛化能力强

在 MMLongBench-Doc 文档理解任务上显著优于原始视觉语言基线,展现了跨模态泛化能力,为处理真实世界的多模态长上下文任务奠定了基础。

技术局限与挑战:通往通用智能必经之路

当然,Glyph 框架也存在需要正视的局限性:

渲染参数敏感性问题:性能可能受分辨率、字体、间距等渲染配置影响。虽然搜索过程能找到在下游任务上表现良好的固定配置,但如何让模型在各种渲染设置下保持鲁棒性仍是未解决的问题。

OCR 保真度挑战:UUID 等稀有字符组合的识别对当前 VLM 仍具挑战性。虽然这对大多数自然语言任务影响较小,但提高 OCR 保真度可以提升 Glyph 的上限性能。

泛化能力局限:训练主要针对长上下文理解,其他任务能力有待进一步研究。与纯文本模型相比,视觉 - 文本模型在跨任务泛化方面仍有改进空间。

未来展望:通往千万级上下文的技术路径

Glyph 的意义在于,它证明视觉通道可以成为扩展语言模型上下文窗口的高效、正交路径。我们不再仅仅是 "语言" 模型,而是真正利用了 "视觉语言" 模型的能力。

面向未来,这个框架仍有广阔的探索空间:

自适应渲染策略:训练能够根据任务类型或用户查询进行条件调整的渲染模型,生成平衡压缩与性能的定制可视化方案。

增强视觉编码能力:提升视觉编码器的细粒度文本识别能力以及与语言表征的对齐,提高跨任务的鲁棒性和可迁移性。

跨模态对齐优化:通过知识蒸馏或跨模态监督等方式,改进视觉 - 文本模型与纯文本模型间的对齐,缩小泛化方面的性能差距。

扩展应用场景:将这一方法扩展到能管理长期对话或 agentic 上下文的记忆系统,以及可利用结构化视觉布局进行推理和检索的任务。

工程启示:从输入层突破传统框架限制

Glyph 的成功给我们的重要启示是:有时候解决问题的最佳方式不是优化现有框架,而是跳出框架重新定义问题本质。

在长上下文处理这一挑战上,Glyph 没有继续在注意力机制上做文章,而是从输入层重新思考:将文本转换为视觉表示,让视觉编码器承担信息压缩的职责。这条 "视觉 - 文本压缩" 道路与现有的基于注意力的方法互为补充,为解决 LLM 长上下文挑战提供了新的可能性。

从更宏观的角度看,Glyph 代表了多模态 AI 发展的重要趋势:用视觉通道增强语言能力。随着视觉编码器的不断进步和计算资源的持续发展,这种融合方法可能在未来成为主流。

** 目标明确:将 1M 上下文成为标配,并向 10M 甚至更高发起冲击。** 这条路,才刚刚开始。


参考资料

  1. GitHub - thu-coai/Glyph: Official Repository
  2. 用视觉压缩文本!清华、智谱推出 Glyph 框架
  3. DeepSeek-OCR 刚发布,智谱清华联手再用 VLM 视觉处理长上下文
  4. Glyph: Scaling Context Windows via Visual-Text Compression
查看归档