Qwen VL精读 | Equinox

2026-05-29

零、写在前面

Qwen-VL官方源码：Qwen/Qwen-VL

论文基本没什么图，感觉Method也没有介绍的很细，对比源码看看会好一些。

一、标题

Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond

Qwen-VL：一个多功能的视觉语言模型，用于理解、定位、文本阅读及其他任务

标题直接给出模型名、能力范围和任务定位，没有把 Qwen-VL 描述成单一的 image captioning 或 VQA 模型，而是强调 versatile vision-language model，并用 “Understanding, Localization, Text Reading, and Beyond” 展开能力边界。这说明论文的核心目标是把 Qwen 系列语言模型扩展为通用视觉语言基础模型，而不是只解决一个 benchmark。

二、摘要

摘要首先指出本文提出 Qwen-VL series，即一组大规模 vision-language models，目标是同时感知和理解文本与图像。模型从 Qwen-LM 出发，通过四个关键设计获得视觉能力：

visual receptor：视觉接收器，包括视觉编码器与视觉语言适配器；
input-output interface：统一图像、文本、bounding box 等输入输出格式；
3-stage training pipeline：三阶段训练流程；
multilingual multimodal cleaned corpus：多语言、多模态清洗语料。

强调 Qwen-VL 不只处理常规图像描述和视觉问答，还通过对齐 image-caption-box tuples 实现 grounding 和 text-reading 能力。

最终模型包括 Qwen-VL 与 Qwen-VL-Chat：前者是预训练/多任务训练后的基础视觉语言模型，后者是 instruction-tuned chatbot。论文声称在 image captioning、question answering、visual grounding 等 benchmark 上，相比同规模 generalist models 取得新纪录，并且 Qwen-VL-Chat 在真实对话 benchmark 上优于已有 vision-language chatbots。

摘要的信息密度还是比较高的，贡献点排列地很清楚，尤其是把 architecture、interface、training pipeline、data corpus 四个组成部分并列列出，方便读者快速建立论文结构。

三、引言

引言从 LLM 的成功写起：大语言模型在文本生成、理解和 instruction following 中表现突出，但原生 LLM 只能处理纯文本，无法直接理解图像、语音、视频等常见模态。这构成了发展 LVLM 的动机。

随后论文指出，已有 LVLM 虽然展示了潜力，但开放模型仍面临两个关键问题：

训练和优化不足：开源 LVLM 与 proprietary models（GPT-4等）仍有明显差距，限制了开源社区的进一步探索和应用。
细粒度视觉理解不足：现实场景复杂，模型如果只能粗粒度看图，就难以完成定位、文字读取、细节识别等任务。已有少数模型如 Kosmos-2、Shikra 关注 grounding，但多数开源 LVLM 仍缺少 fine-grained perception。

在这个背景下，论文提出 Qwen-VL 系列。Qwen-VL 基于 Qwen-7B，通过 language-aligned visual encoder 和 position-aware adapter 为 LLM 引入视觉能力。论文强调整体 architecture 和 input-output interface 保持简洁，同时依赖三阶段训练流程和大规模图文语料获得多任务能力。

引言明确列出 Qwen-VL 系列的四个特征：

Leading performance：在同规模 generalist models 中取得强结果，覆盖 captioning、VQA、grounding 和 dialogue benchmarks。
Multi-lingual：训练数据包含英文和中文图文语料，因此天然支持中英文和多语言指令。
Multi-image：训练阶段允许 interleaved image-text inputs，使 Qwen-VL-Chat 能处理多图比较、理解和分析。
Fine-grained visual understanding：更高输入分辨率和细粒度训练语料增强 grounding、text-reading、text-oriented QA 和细粒度对话能力。

四、结论

论文结论部分比较简短，主要重申 Qwen-VL 是一组大规模多语言 vision-language models，目标是促进多模态研究。作者总结模型在多个 benchmark 上超过同类模型，并支持多语言对话、多图 interleaved conversation、中文 grounding 和细粒度识别。

未来工作提出三个方向：

引入更多模态：例如 speech 和 video；
扩大模型规模、训练数据和输入分辨率：增强模型处理复杂多模态关系的能力；
扩展多模态生成能力：例如生成高保真图像和流畅语音。

总结就是：Qwen-VL 当前主要是视觉理解与视觉语言对话模型，下一步希望走向更多模态、更大规模和生成式多模态能力。

五、相关工作

相关工作先回顾 vision-language learning 的传统脉络，包括 VLBERT、UNITER、OSCAR、VinVL、ViLT、ALBEF、BLIP 等；随后讨论 multi-task generalist models，如 CoCa、OFA、Unified-IO。论文指出这些方法尝试统一图文理解与生成任务，或者把多种任务转成 sequence-to-sequence 格式。

第二类相关工作是 vision-language representation models，如 CLIP、ALIGN、Florence、Chinese-CLIP。CLIP 通过大规模对比学习对齐图像和语言语义空间，具有很强的迁移能力。BEIT-3、ImageBind、ONE-PEACE 等进一步把统一表示扩展到更多任务或更多模态。

第三类是基于 LLM 的 LVLM。论文列举 Flamingo、PaLI、BLIP-2、InstructBLIP、Kosmos、Kosmos-2、MiniGPT-4、LLaVA、mPLUG-Owl、mPLUG-DocOwl、Shikra、Otter、VideoLLaMA、Emu 等。这里的重点是说明 LVLM 已经从“图文表示学习”走向“以 LLM 为核心的多模态通用助手”。

论文特别强调几个与 Qwen-VL 直接相关的方向：

BLIP-2：用 Q-Former 对齐 frozen vision foundation model 和 LLM；
LLaVA / MiniGPT-4：通过 visual instruction tuning 增强 LVLM 的 instruction following；
mPLUG-DocOwl：通过 digital documents data 引入文档理解能力；
Kosmos-2 / Shikra / BuboGPT：通过 grounding 使模型具备区域描述和定位能力。

Qwen-VL 的定位是把 image captioning、VQA、OCR、document understanding、visual grounding 等能力整合进一个模型，并在多个任务上取得较强表现。

六、Method

Qwen-VL 以 Qwen-7B为语言基座，然后加入了视觉编码器和语言适配器，把图像特征压缩成固定长度序列后，和文本token拼接送入 LLM。

6.1 模型架构

Qwen-VL 包含三个主要组件：

Large Language Model
使用 Qwen-7B 作为基础语言模型。论文中的参数表显示，LLM 部分约 7.7B，总模型约 9.6B。
Visual Encoder
视觉编码器采用 ViT 架构，初始化自 OpenCLIP 的 ViT-bigG。输入图像被 resize 到指定分辨率，并以 stride 14 做卷积切分成 patch，输出图像特征序列。
Position-aware Vision-Language Adapter
为了避免直接把过长视觉特征序列输入 LLM，Qwen-VL 使用一个单层 cross-attention adapter。它用一组可训练 query 向量从视觉编码器输出中抽取信息，把视觉序列压缩到固定长度 256。为了减少压缩过程中的空间信息损失，adapter 在 query-key 交互中加入 2D absolute positional encodings。

这个 adapter 是方法部分的关键。它与 BLIP-2 的 Q-Former 在动机上相似，都是为了在视觉编码器和 LLM 之间建立信息瓶颈和跨模态对齐；但 Qwen-VL 特别强调 position-aware，以服务 grounding 和 text-reading 等细粒度任务。

6.2 输入输出接口

Qwen-VL 的接口设计非常重要，因为它决定了模型如何统一图像、文本和定位信息。

图像输入：图像经 visual encoder 和 adapter 后变成固定长度视觉特征序列，并用 <img> 与 </img> 标记图像内容边界。
Bounding box 输入输出：为了支持 grounding，论文把 bounding box 坐标归一化到 [0, 1000)，并转换成字符串格式，例如 (X_top left, Y_top left), (X_bottom right, Y_bottom right)。box 字符串用 <box> 与 </box> 包裹。
Reference 标记：为了把描述文本和对应 box 关联起来，使用 <ref> 与 </ref> 标记被定位的文本片段。

这种设计的好处是：box 不需要额外的位置词表，而是作为普通文本 token 被 LLM 生成和理解。它把 grounding 任务转化为语言建模任务，使 captioning、VQA、grounding、OCR 等任务可以共享自回归生成框架。

下面是一条典型的grounding 任务的样本实例

6.3 三阶段训练流程

论文把训练分成三个阶段。

第一阶段：Pre-training
使用大规模弱标注 web-crawled image-text pairs。原始数据约 5B，清洗后保留 1.4B，其中英文文本数据占 77.3%，中文文本数据占 22.7%。数据来源包括 LAION-en、LAION-zh、LAION-COCO、DataComp、Coyo、CC12M、CC3M、SBU、COCO Caption 和 in-house data。

这一阶段冻结 LLM，只优化视觉编码器和 VL adapter。图像分辨率为 224 x 224，目标是最小化文本 token 的 cross-entropy。训练 50,000 steps，batch size 为 30,720，约消耗 1.5B image-text samples。

第二阶段：Multi-task Pre-training
引入高质量、细粒度视觉语言标注数据，并把图像分辨率提升到 448 x 448。这一阶段解冻 LLM，训练整个模型。任务包括：

多任务训练是 Qwen-VL 能力形成的核心。它把普通图文对齐、VQA、grounding、OCR、文档理解、纯文本生成混合起来，让模型同时具备通用理解和细粒度视觉语言能力。

第三阶段：Supervised Fine-tuning
对 Qwen-VL 进行 instruction fine-tuning，得到 Qwen-VL-Chat。SFT 数据约 350K，来源包括 caption/dialogue 数据、人工标注、模型生成和策略拼接，重点补充 localization 和 multi-image comprehension。该阶段冻结视觉编码器，优化语言模型和 adapter，并混合多模态与纯文本对话数据，以保持通用对话能力。

7. 实验

实验部分覆盖面很广，目标是证明 Qwen-VL 不只是某个单项任务强，而是作为 generalist LVLM 在 captioning、VQA、text-oriented VQA、grounding、few-shot learning 和 instruction following 上都有竞争力。

7.1 Image Captioning 与 General VQA

论文在 Nocaps、Flickr30K、VQAv2、OKVQA、GQA、ScienceQA-Img、VizWiz 等数据集上评估。结果显示：

Qwen-VL 在 Flickr30K zero-shot captioning 上达到 85.8 CIDEr，超过 Flamingo-80B 等更大模型；
在 VQAv2、OKVQA、GQA 上分别达到 79.5、58.6、59.3；
Qwen-VL-Chat 在 ScienceQA-Img 和 VizWiz 上表现更强，说明 instruction tuning 有助于部分交互式或真实场景任务。

这里的关键点是，Qwen-VL-7B 规模不算最大，但在多个 generalist model 比较中表现突出。论文用这一组实验支撑 “leading performance under similar model scales”。

7.2 Text-oriented VQA

Text-oriented VQA 是 Qwen-VL 的重点能力之一。论文评估 TextVQA、DocVQA、ChartQA、AI2D、OCR-VQA。结果包括：

Qwen-VL 在 TextVQA 上达到 63.8，明显高于 BLIP-2、InstructBLIP、mPLUG-DocOwl；
在 DocVQA 上达到 65.1；
在 ChartQA 上 Qwen-VL-Chat 达到 66.3；
在 AI2D 上 Qwen-VL 达到 62.3；
在 OCR-VQA 上 Qwen-VL 达到 75.7。

这些结果说明 OCR、PDF/HTML 渲染数据、SynthDoG 英中合成数据对 text-reading 能力有明显帮助。相比只用自然图像问答数据的 LVLM，Qwen-VL 对带文字图像、文档、图表、科学图示的支持更强。

7.3 Referring Expression Comprehension / Grounding

论文用 RefCOCO、RefCOCO+、RefCOCOg、GRIT 等 benchmark 测试定位能力。Qwen-VL 在多个 split 上接近或超过当时 generalist models，甚至部分接近 specialist SOTA。例如 Qwen-VL-7B 在 RefCOCO val/test-B、RefCOCO+ val/test-B、RefCOCOg 等任务上表现强劲。

这部分实验支撑了论文标题中的 “Localization”。由于 Qwen-VL 把 box 坐标作为文本输出，grounding 能力本质上来自接口设计与 grounding 数据训练的结合。

7.4 Few-shot Learning

论文还评估了视觉语言任务上的 in-context few-shot learning，包括 OKVQA、VizWiz、TextVQA、Flickr30K。作者指出 Qwen-VL 相比 Flamingo-9B、OpenFlamingo-9B、IDEFICS-9B 等同规模模型有更好的 few-shot 表现，甚至可接近更大规模模型。

重要的是，论文说明 few-shot 示例采用朴素随机采样，没有使用 RICES 等更复杂的 exemplar selection 方法。这有助于增强实验说服力，因为性能不是依赖精心设计的 few-shot 检索策略。

7.5 Instruction Following in Real-world User Behavior

Qwen-VL-Chat 在 TouchStone、SEED-Bench、MME 上评估真实用户行为下的视觉语言指令跟随能力。结果显示：

TouchStone 英文得分 645.2，中文得分 401.2，超过 VisualGLM、MiniGPT-4、InstructBLIP、LLaVA、mPLUG-Owl 等；
SEED-Bench overall 达到 58.2，image 维度 65.4；
MME perception / cognition 分别达到 1487.58 / 360.71。

这一组实验突出 Qwen-VL-Chat 的对话与指令跟随能力，尤其强调中文能力和理解识别类任务。论文还提到，在 SEED-Bench 中，简单采样四帧即可把视觉能力迁移到 video tasks，这为后续 Qwen-VL 向视频扩展埋下伏笔。

7.6 附录中的补充实验

附录提供了几个有价值的细节：

数据清洗流程：对 web-crawled image-text pairs 做 aspect ratio、图像尺寸、CLIP score、语言字符、emoji、文本长度、HTML tag 等过滤。
OCR 数据构造：SynthDoG 使用 COCO 背景、41 种英文字体和 11 种中文字体生成文本；PDF 用 PyMuPDF 渲染页面并提取文本 bbox；HTML 用 Puppeteer 渲染和提取。
Adapter query 数量 ablation：最终选择 256 queries，因为太少会丢失视觉信息，太多会增加收敛难度和计算成本。
Window attention vs global attention：实验发现 window attention loss 更高，训练速度优势有限，因此最终使用 vanilla/global attention。
纯文本能力：通过混合 pure-text data，Qwen-VL 没有明显损害文本任务能力，在 MMLU、CMMLU、C-Eval 上相对 Qwen-7B intermediate checkpoint 还有一定提升。