在当今多模态大模型激烈竞争的格局中,单纯将视觉编码器与语言模型拼接的 “适配器” 架构已显疲态。模型需要在理解图像内容的同时,进行复杂的逻辑推理、工具调用和长序列规划 —— 这正是智能代理(Agent)的核心能力。Qwen3.5 的提出,标志着一种范式的转变:它不再是一个 “能看图的聊天模型”,而是一个从底层设计就为多模态交互与决策而生的原生代理。其最核心的创新,在于一套名为 “视觉 - 语言交错推理” 的架构,它允许模型在单一、连贯的信息流中处理图文交错序列,实现真正的端到端决策,无需依赖外部的中间表示或繁琐的模块调度。本文将深入拆解这一架构,并探讨其工程落地中的关键参数。
何为 “原生” 交错推理?
传统多模态模型通常采用 “视觉编码器 + 投影层 + LLM” 的三段式管道。视觉信息在编码后被压缩成一组固定的特征向量,再 “注入” 语言模型。这种设计存在固有瓶颈:视觉特征与语言 token 处于不同的表示空间,交互是浅层的、单向的;复杂的多步推理(例如,观察图表、读取数据、进行推算、最后调用工具绘制新图表)需要模型在内部或通过外部机制进行多次模态切换与状态维护,效率低下且容易出错。
Qwen3.5 的 “原生交错推理” 旨在彻底解决这一问题。其核心是一个庞大的因果语言模型,但内部集成了视觉编码器,并采用了一个统一的 multimodal token 接口。图像(及视频帧)被转换为视觉 token,与文本 token 毫无区别地输入同一个 Transformer 进行自回归预测。这意味着,模型处理的序列可能是这样的:[文本A, 图像1, 文本B, 图像2, 文本C]。这种设计带来了根本性优势:
- 统一的注意力图谱:视觉 token 和文本 token 在同一注意力机制下交互,允许模型在推理的任意时刻,让文本关注图像区域,也让图像的语义理解被后续文本所影响。
- 连贯的生成流:模型可以自主决定下一个输出是文本 token 还是图像 token,实现了 “边看边想边说” 的连续认知过程。
- 端到端的训练:模型从预训练开始就接触这种交错数据,其 “思维模式” 天生就是多模态融合的,而非事后修补。
架构深度解析:从统一接口到早期融合
1. 混合稀疏专家与门控增量网络
为了在保持强大能力的同时控制计算成本,Qwen3.5 采用了混合稀疏 Mixture-of-Experts (MoE) 与 Gated Delta Networks 的设计。其总参数量高达约 397B,但每步推理仅激活约 17B 参数。这种设计在维持 “深度” 推理能力(由专家网络提供)的同时,通过动态路由保证了 “宽度” 与计算效率。对于需要长序列交错推理的代理任务,这种高效激活机制至关重要。
2. 视觉 - 语言融合器与 DeepStack
视觉 token 如何融入语言主干?Qwen3.5 借鉴并发展了 Qwen3-VL 中的 DeepStack Fusion 技术。与简单地将视觉特征投影后拼接不同,DeepStack 在解码器堆栈的多个中间层引入了轻量级的交叉注意力模块。视觉特征在早期(例如,在底层 Transformer 块之后)就被引入,并与文本表示进行深度融合,然后共同参与后续所有层的计算。这好比在文章的开头就插入了一张图表,后续的所有分析和结论都基于这个已完全内化的图文结合体展开,而非反复回头查阅一个孤立的 “附录”。
3. 交错的多分辨率旋转位置编码
处理长距离的交错序列需要强大的位置感知能力。Qwen3.5 使用了改进的旋转位置编码,支持交错的多分辨率旋转位置编码。它能清晰地区分序列中不同位置的 token 是来自文本还是图像,并理解它们的相对顺序(如图像是在哪段文字之后出现的)。这对于理解长文档(如穿插着图表和公式的学术论文)或长视频序列至关重要。
交错推理的行为模式:从 Token 到认知
“交错推理” 在 Qwen3.5 中体现为两个层面:
1. Token 级交错 这是最基础的机制。模型的自回归下一个 token 预测目标,现在覆盖了文本和视觉词汇表。在生成过程中,模型根据当前上下文(可能包含之前的图像和文本),直接预测下一个应该是描述性的文字,还是一个代表某种图像特征的视觉 token。这使得模型能够生成图文并茂的回答,或在思考过程中插入 “视觉草稿”。
2. 认知级交错(代理核心) 这是实现智能代理行为的关键。Qwen3.5 的同一套主干网络,同时承担着语言推理、视觉理解(OCR、空间定位、视频解析)和工具调用决策的功能。因此,一个典型的代理循环 “感知→思考→行动” 可以表示为单一、演化的多模态隐藏状态序列。例如:
- 感知:模型接收网页截图(视觉 token 流)。
- 思考:在内部,模型交错地 “看到” 页面上的按钮(视觉理解)并 “想到”“需要点击这个登录按钮”(文本推理),所有这些都在同一个连续的隐藏状态流中完成。
- 行动:模型直接输出调用
click(x, y)工具的指令(文本 token)。
由于整个过程的中间状态都是多模态融合的,因此无需在专门的 “视觉模块” 和 “推理模块” 之间进行损失巨大的信息转换与传递,决策路径更短,也更一致。
工程落地:关键参数与监控清单
将如此复杂的架构投入实际应用,需要关注一系列工程参数。以下是一份可落地的要点清单:
推理参数
- 激活参数阈值:监控每步推理实际激活的参数量(目标~17B),异常增高可能提示路由机制失效或输入异常。
- 交错序列长度:合理设置输入序列的 token 预算(例如 128K),平衡视觉细节(更多图像 token)与文本指令的复杂度。
- 视觉 token 压缩比:调整图像编码器的 patch 大小或采样策略,控制一张图像占用的 token 数,这是吞吐量与精度的关键权衡点。
训练与微调
- 交错数据比例:在 SFT 或 RLHF 阶段,确保训练数据包含足够比例的真实图文交错序列(如带图标的 UI 操作流程、图文教程),而非简单的 “图片 - 描述” 对。
- 工具调用一致性:在代理微调中,需设计环境让模型在交错的多模态上下文中练习工具使用,并监控其 “思考过程” 中视觉与工具参数的相关性。
监控与评估
- 跨模态注意力熵:分析模型在关键决策层,文本 token 对视觉 token 的注意力分布。过于集中或过于分散都可能表示融合不佳。
- 端到端延迟分解:拆解请求总耗时:图像编码时间、交错序列的前向传播时间、token 生成时间。优化瓶颈环节。
- 长上下文遗忘测试:设计测试用例,在长序列的末尾提问关于序列早期图像细节的问题,评估模型在长交错上下文中的记忆与关联能力。
风险与局限
尽管架构先进,Qwen3.5 的多模态代理之路仍面临挑战:
- 计算成本:即使采用 MoE,17B 的每步激活参数对推理基础设施仍是沉重负担,限制了实时交互的场景。
- 长序列优化:处理数十万 token 的交错序列对内存带宽和注意力计算是极大考验,需要持续的 Kernel 级优化。
- 评估体系缺失:如何系统性地评估一个模型在开放域、长视野、多模态环境中的 “代理能力”,仍是学界和工业界的开放问题。
结语
Qwen3.5 的原生多模态代理架构,通过视觉 - 语言交错推理这一核心设计,向我们展示了通向更通用人工智能的一条务实路径:不是堆叠更多的独立模块,而是创造一个能自然流畅地处理混合信息流的基础思维模型。它将视觉理解从 “前置预处理” 提升为 “并行认知线程”,让决策在融合的语义空间中直接涌现。对于开发者而言,理解其交错推理的机制,不仅是跟上技术前沿,更是为设计和优化下一代具备真正 “眼脑手” 协同能力的 AI 应用打下基础。未来的竞争,或许将不再是单一模态的强弱,而是这种原生融合与端到端决策的效率与深度之争。
资料来源
- Qwen3.5: Towards Native Multimodal Agents - Qwen 官方技术介绍
- Qwen3-VL: DeepStack Fusion, Interleaved-MRoPE, and a Native 256K Interleaved Context Window - The Salt 技术分析文章
- 相关技术报告与模型卡片(Hugging Face, arXiv)