【通义时间】如何让Qwen2.5-VL更好地看见这个世界？

Detailed Summary 摘要

生成：2025-06-02 11:02

摘要详情

音频文件: 【通义时间】如何让Qwen2.5-VL更好地看见这个世界？
摘要类型: Detailed Summary
LLM 提供商: openai
LLM 模型: gemini-2.5-pro-exp-03-25
创建时间: 2025-06-02 11:02:24

摘要内容

概览/核心摘要 (Executive Summary)

本次讨论详细介绍了通义千问Qwen-VL系列多模态模型的迭代历程与Qwen2.5-VL的显著能力提升。Qwen-VL系列致力于让模型“更好地看见这个世界”，从最初Qwen-VL实现“one model”涵盖多种视觉任务，到Qwen-VL Max/Plus达到GPT-4V水平，再到Qwen-VL 2开源并引入动态分辨率与视频理解。最新的Qwen2.5-VL在72B规模上，纯文本能力与Qwen2.5 72B持平，视觉能力达到SOTA水平，尤其在视频理解、视觉Agent、文档智能（引入Qwen-VL HTML格式）和通用Grounding能力上取得重大突破。模型通过原生动态分辨率、改进的M-RoPE（支持绝对时间/位置编码）和高效VI Encoder（大量使用Window Attention）优化了网络结构。训练采用4.1T token数据，分阶段进行，并特别强化了长序列（视频、长文档、Agent交互历史）处理能力和多样的训练数据（如interleaved图文、绝对位置Grounding数据、OCR、视频、Agent操作数据）。Qwen2.5-VL提供3B、7B、72B三种版本，其中7B模型在DocVQA等任务上表现突出，3B模型适合端侧部署。演示环节展示了模型在梗图理解、菜品识别与热量估算、景点识别、菜单翻译、复杂海报OCR、空间定位、Mobile/Desktop Agent等多种场景的应用。Q&A环节解答了关于模型输入尺寸、坐标系、微调、量化、视频处理等技术细节。

Qwen-VL系列发展历程

通义实验室科学家白帅介绍了Qwen-VL系列模型的目标是让模型“更好地看见这个世界”，并回顾了其迭代过程：

Qwen-VL (2023年8月):
- 核心理念: 通过一个“one model”涵盖所有视觉任务，包括视觉理解、定位、OCR等。
- 训练: 首次引入约1B或几B的数据量，分三阶段训练：
  1. 提升VI（Visual Encoder）对文字和OCR任务的感知。
  2. 使用更多Multi-task数据进行网络预训练，采用cross-attention压缩token。
  3. 指令微调，赋予初步对话能力。
- 意义: 证明了单一模型完成多样化视觉任务的可行性。> “一个one model的we model，它能够去完成各种各类各种各样多样的一个task。”
Qwen-VL Max / Qwen-VL Plus (2024年1月):
- 国内首个达到GPT-4V水平表现的模型。
- 在中文文字理解等特定能力上超越GPT-4V。
- 开始尝试解决多分辨率问题。
Qwen-VL 2 (2024年8月):
- 首个在大部分基准上超越GPT-4o（0513版）或Plus 3.5 son等模型的开源模型。
- 核心点：将动态分辨率、M-RoPE（多模态旋转位置编码）、视频理解以通用方式引入训练。
Qwen-VL 2 72B (Qwen2 72B, 2024年12月):
- 基于Qwen-VL 2 72B继续训练。
- 通过增加“长的thinking的过程”有效提高复杂问题解决能力（如MathVista、学科问题）。
- MMEU Benchmark: 从64.5提升至70.3，达到SOTA水平。

Qwen2.5-VL 核心发布 (2025年1月)

Qwen2.5-VL是系列的最新迭代，在多个维度实现了能力跃升。

主要特点与性能

纯文本能力: 72B版本与Qwen2.5 72B纯文本模型保持一致。> “我们的vmodel可以作为一个纯文本模型一样去回答我们各样的问题。”
视觉能力: 达到SOTA（State-of-the-Art）水平。
显著进步: 相比上一代Qwen-VL 2 72B，在视频理解和Agent能力上提升明显。

关键基准测试表现

对比Gemini Flash: > “基本上大部分指标已经呃是有来有回了。”
MMEU (zero-shot): 与顶尖模型表现相当。
InfoVQAv2 (文档页面理解): 相比上一版提升约3个点。
OCR能力 (CC-OCR, OCRBenchV2): 在多语言、复杂KIE（关键信息提取）任务上有效提升。
Qwen-VL HTML格式: 为通用模型解决文档智能和OCR任务引入的新格式。
General VQA: 达到SOTA水平。
视频理解:
- 在VideoMME-Bench、MVBench等长视频理解基准上取得进步。
- 通用模型在视频事件定位上达到SOTA水平，超越专用模型。
Visual Agent能力:
- 定位能力 (Mobile-Eval, SeeClick, RefCoCo, Visual-Reasoning-7W): 达到全面SOTA，超越许多专用模型。
- 完整任务目标达成率:
  - AndroidEnv: 35%
  - Mind2Web (PC端): 8.8%
  - 在通用模型中达到第一梯队水平。

模型版本

Qwen2.5-VL提供了三个版本，采用相同数据和训练策略迭代：

3B模型:
- 适合本地化部署和移动端。
- 性能可媲美上一代Qwen-VL 2 7B。
- 在简单视觉定位任务上表现出色，适合离线理解、定位、决策任务。
7B模型:
- 相比上一版有非常明显的进步。
- DocVQA: 达到95.7的高分，接近之前72B模型才能达到的水平，表明其文档理解能力极强。
- 在视频理解、General VQA等任务上也有不错表现，整体可与Gemini Pro媲美。
72B模型: (能力已在前述内容中详述)

Qwen2.5-VL 关键能力提升详解

Omni-Doc Parsing (全能文档解析):
- 目标: 将所有2D文档（文档、海报、页面）以统一范式表示和解析。
- 能力:
  - 基础能力：文字提取 (OCR)、阅读顺序。
  - 进阶能力：多语言支持、图片信息提取、表格、公式、化学式、图表解析、整体布局解析。
- 格式: 引入“Qwen-VL HTML”自研格式，在HTML基础上增加额外信息（如坐标）来表示文档结构和内容。
Universal Grounding (通用定位能力):
- 特点:
  - 准确输出定位结果（box, point）。
  - 支持多种输出格式（JSON, XML）。
  - 具备空间推理能力。
- 目标: 作为感知世界的中间表达，服务于更复杂的任务，如计数。
Long Video Understanding & Fine-grained Event Localization (长视频理解与细粒度事件定位):
- 核心: 从动态分辨率扩展到时间维度，通过动态FPS采样和绝对时间编码，使模型理解视频中的时间概念、间隔和流速。
- 能力:
  - 支持长达1小时的视频输入（通过动态FPS）。
  - 事件定位精确到秒级。
Complex Visual Agent Tasks (复杂视觉Agent任务):
- 基于强大的感知模型，尝试操控手机或电脑完成自动化任务。

网络架构与创新

原生动态分辨率 (Native Dynamic Resolution):
- 机制: 几乎以原始尺寸输入图像，保持长宽比和像素数量，无需额外patch切割或anchor匹配。
- 图像会被resize到长宽均为28的整数倍，最小token单元对应28x28像素区域。
- 示例: 8204x1092的图像映射为11427个token；28x24的图像映射为88个token。
- 优势: 避免传统resize造成的图像扭曲和信息损失，根据图片实际大小动态映射token。
视频输入的动态FPS采样与绝对时间编码:
- 训练时: 采用动态FPS采样（1/8 FPS 到 8 FPS）。
- M-RoPE改进: 时间维度的position ID与绝对时间对齐。例如，8秒视频，每秒2个ID，共16个ID (0-15)。不同采样率下，帧对应的ID能映射到绝对时刻。
- 3D卷积: 输入处的2x14x14的3D卷积核，时间维度上会将2帧合并为1个token的embedding。
改进的M-RoPE (Multimodal Rotary Position Embedding):
- 将token的position ID划分为三维：时间、宽度、高度。
- 时间维度与绝对时间对齐。
- 文本兼容性: 对于文本，三个维度的ID设为相同值，即可兼容传统1D RoPE。
更快更高效的VI Encoder (Visual Encoder):
- 动机: 解决动态分辨率下大图输入导致VI计算量过大的问题。
- 改进: 大量引入Window Attention (窗口大小112x112，对应patch层面8x8)，仅保留4层Full Attention。
- 结构统一: 采用RMSNorm和GeGLU，与LLM部分结构更一致。

训练策略与数据

Projector: 采用两层MLP，将相邻2x2的视觉token映射为与LLM输入embedding一致的vision token，实现动态映射。
VI参数: 三个版本模型VI大小基本一致（约600M）。3B模型共享embedding和output layer参数。
训练数据量: 总计 4.1T token (包含图像映射的token和文本token，仅监督文本token loss)。
训练阶段:
- 阶段一 (VI Pre-training): 单独训练VI部分 (Clip pre-training)。
- 阶段二 (VLM Pre-training): 引入更多task，端到端训练整个网络。
- 阶段三 (Long Sequence Extension): 针对视频、长文档、Agent长交互历史等数据，训练更长的序列长度。
- 阶段四 (SFT): 使用32K上下文长度进行指令微调。支持通过YaRN扩展至128K（可能损失定位能力，但理解能力较好）。视觉输入因M-RoPE占用ID少，实际可处理更长视觉序列。
训练数据特点:
- Interleaved Image-Text Data: 大量增加，探索data scaling对模型性能的提升。
- Grounding Data: 采用绝对位置编码，输出坐标直接对应输入图片（resize后）的实际像素坐标。> “我们是将我们的坐标完全和这个图片的输入大小来对应。” 这有助于模型理解图片真实大小。
- Omni-Doc Parsing Data: 使用Qwen-VL HTML格式。
- OCR Data: 强调其对理解人类知识的重要性。
- Video Data: 包括理解、QA、定位、长视频理解。训练时采用动态FPS采样。
- Agent Data: 除通用Agent数据外，引入大量针对PC/手机页面的定位和reasoning数据。

关键技术洞察

动态分辨率的价值: 不同任务和数据集有其最佳适应分辨率。Qwen-VL允许输入接近原始分辨率的图片，或由用户调整min_pixel和max_pixel以探索任务最佳分辨率设置，从而在性能和效率间取得平衡。
M-RoPE与长上下文: 图片的position ID占用较少，为文本token留出更多空间，使得模型在32K训练长度下也能很好地外推至更长上下文（如视频测试到80K-90K仍有性能提升）。
Scaling Law: 模型性能随模型尺寸增大和训练数据量增多呈现一致的（对数线性）增长趋势，直至饱和。

模型能力展示 (部分示例 - 白帅提及)

知识与识别: 地标识别、中国菜识别等长尾识别任务。
通用Grounding:
- 检测骑摩托车的人并判断是否戴头盔，输出JSON格式（含坐标和属性）。
- 识别篮球运动员并点出其头部和手部（区分左右手）。
OCR与坐标输出: 定义prompt即可输出所需格式和内容的OCR结果，包括App界面、PC搜索结果。
Omni-Doc Parsing (Qwen-VL HTML):
- 能解析复杂书籍页面（含图片、公式、标题）和技术报告（图、插图、URL）。
- 局限性: 目前对分辨率鲁棒性有待提升，推荐图片短边在1000-2000像素（对应token数1280-4096）效果较好。
视频理解:
- 视频内OCR（如拍摄论文截图并提取文字）。
- 在线交互与对话（如总结擦黑板、画图等行为）。
- 时间定位: 将烹饪视频按秒级时间戳分割事件并总结。
Agent能力:
- 手机操控: 演示发送新春祝福QQ消息（打开QQ、思考内容、输入、发送）。
- PC操控: 演示搜索天气信息（打开浏览器、输入网址、获取结果）。

使用技巧与建议

分辨率设置 (min_pixel, max_pixel):
- 这两个参数控制输入图片的总像素数（token数约等于总像素数 / (28*28)）。
- 线上API默认参数范围对应的token数约为256到1280。
- 重要: 输出坐标是基于模型实际接收到的、经过resize后的图片尺寸。用户需注意转换到原始图片坐标系。processor.image_grid_thw 乘以14可得到模型输入的真实H和W。
- Omni-Doc Parsing推荐: min_pixel对应token约1280，max_pixel对应token约2560或4096。短边1000-2000像素效果更鲁棒。
视频输入FPS设置:
- 可调。长视频使用更低FPS，短视频使用更高FPS。
- qwen_processor提供大致的映射逻辑，用户可自行调整。

模型体验与资源

在线体验: Chat Qwen (chat.qwen.ai)
模型下载: Hugging Face, ModelScope (魔搭社区)
代码与进展: Qwen2.5-VL GitHub repo (含cookbook)
API服务: 百炼平台

实战演示 (程宇)

程宇老师演示了Qwen2.5-VL-72B-Int4模型在QwenChat平台及通过GitHub Cookbook的多种应用：

QwenChat平台 (chat.qwen.ai):
- Qwen-VL HTML: 将论文截图转换为可预览的HTML网页。手绘网页草图也能生成HTML代码。
- 梗图理解: 准确识别图片中鸭子支持全聚德、鸡支持肯德基的幽默讽刺点。
- 食物识别与营养估算: 识别餐盘中的烧鱼、豆腐、皮蛋等，返回名称、坐标、预估重量和热量。
- 旅行场景:
  - 景点识别: 通过图片细节（如马里奥logo）识别出日本大阪环球影城。
  - 菜单翻译: 框选菜单中的外文菜品名，进行翻译并解释食材。
- 物体识别: 识别汽车型号为宝马X3。
- 复杂OCR: 准确识别海报上的繁体字、手写风格字体、印章字体等。
GitHub Cookbook (Qwen2.5-VL repo):
- 空间定位: 框出图中所有小蛋糕、特定位置的小蛋糕、厨房用品，甚至能识别并框出折纸狐狸在墙上的影子。
- Mobile Agent: 根据手机截屏和指令，解析操作步骤并输出点击位置或输入文本，实现自动化手机操作（如比价、社交媒体点赞）。
- Computer Use (Desktop Agent): 根据电脑屏幕截图和指令，操作电脑完成任务（如发送邮件、整理会议纪要、处理GitHub Issue）。绿色点标示鼠标点击位置。
- 其他: Cookbook中还包含视频理解、OCR、文档解析等高级功能示例。

问答环节精选 (白帅)

图片输入尺寸: 理论上最大支持32K token对应分辨率，推荐最大16384 token (约2427x2427px)。min_pixel和max_pixel控制像素总数，进而影响token数。
坐标系: 输出坐标是绝对坐标，对应模型实际输入（resize后）的图片尺寸。用户需通过processor.image_grid_thw获取模型输入尺寸并进行转换，才能映射回原始图片。绝对坐标有助于模型理解图片大小和提升不同尺度预测的精度。
3B模型构成: LLM部分为Qwen2.5 3B，VI部分约600M，整体参数略大于3B。
视频事件定位: 支持事件发生时刻的秒级定位。暂不支持带时空戳的物体跟踪（即视频中的bounding box）。
VI推理加速与量化: VI引入Window Attention已减少计算量。AWQ量化版本已发布。可通过限制max_pixel进一步提速。
训练数据扩充与框架优化: 主要增加interleaved图文数据。训练时采用离线动态打包，将不同长度样本拼接至相似token总数，保证GPU负载均衡。
1小时视频输入原理: 通过极低FPS采样（如1/8 FPS，即8秒采一帧）结合3D卷积的帧合并及模型良好的外推能力（支持到90K token输入）。
Omni-Doc Parsing (Qwen-VL HTML): 是一种以HTML为基础，加入坐标等信息的文档表示方式，用于关键信息抽取和通用文档理解。对分辨率有一定要求，推荐短边1000-2000像素。
多图输入与时间ID: M-RoPE能区分图文交错序列中的不同图片，每张新图片会获得新的、区别于前一张图和视频帧的时间ID。
Projector选型 (MLP vs Cross-Attention): MLP能更好兼容动态分辨率，保留空间信息，收敛更快。当前Llama3.VL的Cross-Attention方案参数量大，效果未显优势。
量化模型: AWQ量化版本已在Hugging Face和ModelScope提供。
微调策略 (全量 vs LoRA): 数据量大（数万以上）且有通用数据混合时，推荐全量微调。数据量少或通用数据匮乏时，推荐LoRA。
多图理解与对比: 支持多图内容总结和变化点对比（细粒度“找不同”仍有挑战）。

核心观点总结

Qwen2.5-VL代表了通义千问在多模态理解领域的最新进展，其核心目标是赋予模型更强的“视觉感知”能力。通过在动态分辨率处理、长视频理解、精细化事件定位、通用Grounding以及文档和视觉Agent交互等方面的关键技术突破，Qwen2.5-VL不仅在多项基准测试中达到行业领先水平，也为实际应用场景提供了更强大和灵活的解决方案。模型的开放性和多版本策略，结合详细的使用技巧和丰富的社区资源，旨在推动多模态技术的发展和普及。

返回音频媒体