详细摘要 摘要
生成:2025-06-02 11:02摘要详情
- 音频文件
- 【通义时间】如何让Qwen2.5-VL更好地看见这个世界?
- 摘要类型
- 详细摘要
- LLM 提供商
- openai
- LLM 模型
- gemini-2.5-pro-exp-03-25
- 已创建
- 2025-06-02 11:02:24
摘要内容
概览/核心摘要 (Executive Summary)
本次讨论详细介绍了通义千问Qwen-VL系列多模态模型的迭代历程与Qwen2.5-VL的显著能力提升。Qwen-VL系列致力于让模型“更好地看见这个世界”,从最初Qwen-VL实现“one model”涵盖多种视觉任务,到Qwen-VL Max/Plus达到GPT-4V水平,再到Qwen-VL 2开源并引入动态分辨率与视频理解。最新的Qwen2.5-VL在72B规模上,纯文本能力与Qwen2.5 72B持平,视觉能力达到SOTA水平,尤其在视频理解、视觉Agent、文档智能(引入Qwen-VL HTML格式)和通用Grounding能力上取得重大突破。模型通过原生动态分辨率、改进的M-RoPE(支持绝对时间/位置编码)和高效VI Encoder(大量使用Window Attention)优化了网络结构。训练采用4.1T token数据,分阶段进行,并特别强化了长序列(视频、长文档、Agent交互历史)处理能力和多样的训练数据(如interleaved图文、绝对位置Grounding数据、OCR、视频、Agent操作数据)。Qwen2.5-VL提供3B、7B、72B三种版本,其中7B模型在DocVQA等任务上表现突出,3B模型适合端侧部署。演示环节展示了模型在梗图理解、菜品识别与热量估算、景点识别、菜单翻译、复杂海报OCR、空间定位、Mobile/Desktop Agent等多种场景的应用。Q&A环节解答了关于模型输入尺寸、坐标系、微调、量化、视频处理等技术细节。
Qwen-VL系列发展历程
通义实验室科学家白帅介绍了Qwen-VL系列模型的目标是让模型“更好地看见这个世界”,并回顾了其迭代过程:
-
Qwen-VL (2023年8月):
- 核心理念: 通过一个“one model”涵盖所有视觉任务,包括视觉理解、定位、OCR等。
- 训练: 首次引入约1B或几B的数据量,分三阶段训练:
- 提升VI(Visual Encoder)对文字和OCR任务的感知。
- 使用更多Multi-task数据进行网络预训练,采用cross-attention压缩token。
- 指令微调,赋予初步对话能力。
- 意义: 证明了单一模型完成多样化视觉任务的可行性。> “一个one model的we model,它能够去完成各种各类各种各样多样的一个task。”
-
Qwen-VL Max / Qwen-VL Plus (2024年1月):
- 国内首个达到GPT-4V水平表现的模型。
- 在中文文字理解等特定能力上超越GPT-4V。
- 开始尝试解决多分辨率问题。
-
Qwen-VL 2 (2024年8月):
- 首个在大部分基准上超越GPT-4o(0513版)或Plus 3.5 son等模型的开源模型。
- 核心点:将动态分辨率、M-RoPE(多模态旋转位置编码)、视频理解以通用方式引入训练。
-
Qwen-VL 2 72B (Qwen2 72B, 2024年12月):
- 基于Qwen-VL 2 72B继续训练。
- 通过增加“长的thinking的过程”有效提高复杂问题解决能力(如MathVista、学科问题)。
- MMEU Benchmark: 从64.5提升至70.3,达到SOTA水平。
Qwen2.5-VL 核心发布 (2025年1月)
Qwen2.5-VL是系列的最新迭代,在多个维度实现了能力跃升。
主要特点与性能
- 纯文本能力: 72B版本与Qwen2.5 72B纯文本模型保持一致。> “我们的vmodel可以作为一个纯文本模型一样去回答我们各样的问题。”
- 视觉能力: 达到SOTA(State-of-the-Art)水平。
- 显著进步: 相比上一代Qwen-VL 2 72B,在视频理解和Agent能力上提升明显。
关键基准测试表现
- 对比Gemini Flash: > “基本上大部分指标已经呃是有来有回了。”
- MMEU (zero-shot): 与顶尖模型表现相当。
- InfoVQAv2 (文档页面理解): 相比上一版提升约3个点。
- OCR能力 (CC-OCR, OCRBenchV2): 在多语言、复杂KIE(关键信息提取)任务上有效提升。
- Qwen-VL HTML格式: 为通用模型解决文档智能和OCR任务引入的新格式。
- General VQA: 达到SOTA水平。
- 视频理解:
- 在VideoMME-Bench、MVBench等长视频理解基准上取得进步。
- 通用模型在视频事件定位上达到SOTA水平,超越专用模型。
- Visual Agent能力:
- 定位能力 (Mobile-Eval, SeeClick, RefCoCo, Visual-Reasoning-7W): 达到全面SOTA,超越许多专用模型。
- 完整任务目标达成率:
- AndroidEnv: 35%
- Mind2Web (PC端): 8.8%
- 在通用模型中达到第一梯队水平。
模型版本
Qwen2.5-VL提供了三个版本,采用相同数据和训练策略迭代:
- 3B模型:
- 适合本地化部署和移动端。
- 性能可媲美上一代Qwen-VL 2 7B。
- 在简单视觉定位任务上表现出色,适合离线理解、定位、决策任务。
- 7B模型:
- 相比上一版有非常明显的进步。
- DocVQA: 达到95.7的高分,接近之前72B模型才能达到的水平,表明其文档理解能力极强。
- 在视频理解、General VQA等任务上也有不错表现,整体可与Gemini Pro媲美。
- 72B模型: (能力已在前述内容中详述)
Qwen2.5-VL 关键能力提升详解
-
Omni-Doc Parsing (全能文档解析):
- 目标: 将所有2D文档(文档、海报、页面)以统一范式表示和解析。
- 能力:
- 基础能力:文字提取 (OCR)、阅读顺序。
- 进阶能力:多语言支持、图片信息提取、表格、公式、化学式、图表解析、整体布局解析。
- 格式: 引入“Qwen-VL HTML”自研格式,在HTML基础上增加额外信息(如坐标)来表示文档结构和内容。
-
Universal Grounding (通用定位能力):
- 特点:
- 准确输出定位结果(box, point)。
- 支持多种输出格式(JSON, XML)。
- 具备空间推理能力。
- 目标: 作为感知世界的中间表达,服务于更复杂的任务,如计数。
- 特点:
-
Long Video Understanding & Fine-grained Event Localization (长视频理解与细粒度事件定位):
- 核心: 从动态分辨率扩展到时间维度,通过动态FPS采样和绝对时间编码,使模型理解视频中的时间概念、间隔和流速。
- 能力:
- 支持长达1小时的视频输入(通过动态FPS)。
- 事件定位精确到秒级。
-
Complex Visual Agent Tasks (复杂视觉Agent任务):
- 基于强大的感知模型,尝试操控手机或电脑完成自动化任务。
网络架构与创新
-
原生动态分辨率 (Native Dynamic Resolution):
- 机制: 几乎以原始尺寸输入图像,保持长宽比和像素数量,无需额外patch切割或anchor匹配。
- 图像会被resize到长宽均为28的整数倍,最小token单元对应28x28像素区域。
- 示例: 8204x1092的图像映射为11427个token;28x24的图像映射为88个token。
- 优势: 避免传统resize造成的图像扭曲和信息损失,根据图片实际大小动态映射token。
-
视频输入的动态FPS采样与绝对时间编码:
- 训练时: 采用动态FPS采样(1/8 FPS 到 8 FPS)。
- M-RoPE改进: 时间维度的position ID与绝对时间对齐。例如,8秒视频,每秒2个ID,共16个ID (0-15)。不同采样率下,帧对应的ID能映射到绝对时刻。
- 3D卷积: 输入处的2x14x14的3D卷积核,时间维度上会将2帧合并为1个token的embedding。
-
改进的M-RoPE (Multimodal Rotary Position Embedding):
- 将token的position ID划分为三维:时间、宽度、高度。
- 时间维度与绝对时间对齐。
- 文本兼容性: 对于文本,三个维度的ID设为相同值,即可兼容传统1D RoPE。
-
更快更高效的VI Encoder (Visual Encoder):
- 动机: 解决动态分辨率下大图输入导致VI计算量过大的问题。
- 改进: 大量引入Window Attention (窗口大小112x112,对应patch层面8x8),仅保留4层Full Attention。
- 结构统一: 采用RMSNorm和GeGLU,与LLM部分结构更一致。
训练策略与数据
- Projector: 采用两层MLP,将相邻2x2的视觉token映射为与LLM输入embedding一致的vision token,实现动态映射。
- VI参数: 三个版本模型VI大小基本一致(约600M)。3B模型共享embedding和output layer参数。
- 训练数据量: 总计 4.1T token (包含图像映射的token和文本token,仅监督文本token loss)。
- 训练阶段:
- 阶段一 (VI Pre-training): 单独训练VI部分 (Clip pre-training)。
- 阶段二 (VLM Pre-training): 引入更多task,端到端训练整个网络。
- 阶段三 (Long Sequence Extension): 针对视频、长文档、Agent长交互历史等数据,训练更长的序列长度。
- 阶段四 (SFT): 使用32K上下文长度进行指令微调。支持通过YaRN扩展至128K(可能损失定位能力,但理解能力较好)。视觉输入因M-RoPE占用ID少,实际可处理更长视觉序列。
- 训练数据特点:
- Interleaved Image-Text Data: 大量增加,探索data scaling对模型性能的提升。
- Grounding Data: 采用绝对位置编码,输出坐标直接对应输入图片(resize后)的实际像素坐标。> “我们是将我们的坐标完全和这个图片的输入大小来对应。” 这有助于模型理解图片真实大小。
- Omni-Doc Parsing Data: 使用Qwen-VL HTML格式。
- OCR Data: 强调其对理解人类知识的重要性。
- Video Data: 包括理解、QA、定位、长视频理解。训练时采用动态FPS采样。
- Agent Data: 除通用Agent数据外,引入大量针对PC/手机页面的定位和reasoning数据。
关键技术洞察
- 动态分辨率的价值: 不同任务和数据集有其最佳适应分辨率。Qwen-VL允许输入接近原始分辨率的图片,或由用户调整
min_pixel和max_pixel以探索任务最佳分辨率设置,从而在性能和效率间取得平衡。 - M-RoPE与长上下文: 图片的position ID占用较少,为文本token留出更多空间,使得模型在32K训练长度下也能很好地外推至更长上下文(如视频测试到80K-90K仍有性能提升)。
- Scaling Law: 模型性能随模型尺寸增大和训练数据量增多呈现一致的(对数线性)增长趋势,直至饱和。
模型能力展示 (部分示例 - 白帅提及)
- 知识与识别: 地标识别、中国菜识别等长尾识别任务。
- 通用Grounding:
- 检测骑摩托车的人并判断是否戴头盔,输出JSON格式(含坐标和属性)。
- 识别篮球运动员并点出其头部和手部(区分左右手)。
- OCR与坐标输出: 定义prompt即可输出所需格式和内容的OCR结果,包括App界面、PC搜索结果。
- Omni-Doc Parsing (Qwen-VL HTML):
- 能解析复杂书籍页面(含图片、公式、标题)和技术报告(图、插图、URL)。
- 局限性: 目前对分辨率鲁棒性有待提升,推荐图片短边在1000-2000像素(对应token数1280-4096)效果较好。
- 视频理解:
- 视频内OCR(如拍摄论文截图并提取文字)。
- 在线交互与对话(如总结擦黑板、画图等行为)。
- 时间定位: 将烹饪视频按秒级时间戳分割事件并总结。
- Agent能力:
- 手机操控: 演示发送新春祝福QQ消息(打开QQ、思考内容、输入、发送)。
- PC操控: 演示搜索天气信息(打开浏览器、输入网址、获取结果)。
使用技巧与建议
-
分辨率设置 (
min_pixel,max_pixel):- 这两个参数控制输入图片的总像素数(token数约等于总像素数 / (28*28))。
- 线上API默认参数范围对应的token数约为256到1280。
- 重要: 输出坐标是基于模型实际接收到的、经过resize后的图片尺寸。用户需注意转换到原始图片坐标系。
processor.image_grid_thw乘以14可得到模型输入的真实H和W。 - Omni-Doc Parsing推荐:
min_pixel对应token约1280,max_pixel对应token约2560或4096。短边1000-2000像素效果更鲁棒。
-
视频输入FPS设置:
- 可调。长视频使用更低FPS,短视频使用更高FPS。
qwen_processor提供大致的映射逻辑,用户可自行调整。
模型体验与资源
- 在线体验: Chat Qwen (chat.qwen.ai)
- 模型下载: Hugging Face, ModelScope (魔搭社区)
- 代码与进展: Qwen2.5-VL GitHub repo (含cookbook)
- API服务: 百炼平台
实战演示 (程宇)
程宇老师演示了Qwen2.5-VL-72B-Int4模型在QwenChat平台及通过GitHub Cookbook的多种应用:
-
QwenChat平台 (chat.qwen.ai):
- Qwen-VL HTML: 将论文截图转换为可预览的HTML网页。手绘网页草图也能生成HTML代码。
- 梗图理解: 准确识别图片中鸭子支持全聚德、鸡支持肯德基的幽默讽刺点。
- 食物识别与营养估算: 识别餐盘中的烧鱼、豆腐、皮蛋等,返回名称、坐标、预估重量和热量。
- 旅行场景:
- 景点识别: 通过图片细节(如马里奥logo)识别出日本大阪环球影城。
- 菜单翻译: 框选菜单中的外文菜品名,进行翻译并解释食材。
- 物体识别: 识别汽车型号为宝马X3。
- 复杂OCR: 准确识别海报上的繁体字、手写风格字体、印章字体等。
-
GitHub Cookbook (Qwen2.5-VL repo):
- 空间定位: 框出图中所有小蛋糕、特定位置的小蛋糕、厨房用品,甚至能识别并框出折纸狐狸在墙上的影子。
- Mobile Agent: 根据手机截屏和指令,解析操作步骤并输出点击位置或输入文本,实现自动化手机操作(如比价、社交媒体点赞)。
- Computer Use (Desktop Agent): 根据电脑屏幕截图和指令,操作电脑完成任务(如发送邮件、整理会议纪要、处理GitHub Issue)。绿色点标示鼠标点击位置。
- 其他: Cookbook中还包含视频理解、OCR、文档解析等高级功能示例。
问答环节精选 (白帅)
- 图片输入尺寸: 理论上最大支持32K token对应分辨率,推荐最大16384 token (约2427x2427px)。
min_pixel和max_pixel控制像素总数,进而影响token数。 - 坐标系: 输出坐标是绝对坐标,对应模型实际输入(resize后)的图片尺寸。用户需通过
processor.image_grid_thw获取模型输入尺寸并进行转换,才能映射回原始图片。绝对坐标有助于模型理解图片大小和提升不同尺度预测的精度。 - 3B模型构成: LLM部分为Qwen2.5 3B,VI部分约600M,整体参数略大于3B。
- 视频事件定位: 支持事件发生时刻的秒级定位。暂不支持带时空戳的物体跟踪(即视频中的bounding box)。
- VI推理加速与量化: VI引入Window Attention已减少计算量。AWQ量化版本已发布。可通过限制
max_pixel进一步提速。 - 训练数据扩充与框架优化: 主要增加interleaved图文数据。训练时采用离线动态打包,将不同长度样本拼接至相似token总数,保证GPU负载均衡。
- 1小时视频输入原理: 通过极低FPS采样(如1/8 FPS,即8秒采一帧)结合3D卷积的帧合并及模型良好的外推能力(支持到90K token输入)。
- Omni-Doc Parsing (Qwen-VL HTML): 是一种以HTML为基础,加入坐标等信息的文档表示方式,用于关键信息抽取和通用文档理解。对分辨率有一定要求,推荐短边1000-2000像素。
- 多图输入与时间ID: M-RoPE能区分图文交错序列中的不同图片,每张新图片会获得新的、区别于前一张图和视频帧的时间ID。
- Projector选型 (MLP vs Cross-Attention): MLP能更好兼容动态分辨率,保留空间信息,收敛更快。当前Llama3.VL的Cross-Attention方案参数量大,效果未显优势。
- 量化模型: AWQ量化版本已在Hugging Face和ModelScope提供。
- 微调策略 (全量 vs LoRA): 数据量大(数万以上)且有通用数据混合时,推荐全量微调。数据量少或通用数据匮乏时,推荐LoRA。
- 多图理解与对比: 支持多图内容总结和变化点对比(细粒度“找不同”仍有挑战)。
核心观点总结
Qwen2.5-VL代表了通义千问在多模态理解领域的最新进展,其核心目标是赋予模型更强的“视觉感知”能力。通过在动态分辨率处理、长视频理解、精细化事件定位、通用Grounding以及文档和视觉Agent交互等方面的关键技术突破,Qwen2.5-VL不仅在多项基准测试中达到行业领先水平,也为实际应用场景提供了更强大和灵活的解决方案。模型的开放性和多版本策略,结合详细的使用技巧和丰富的社区资源,旨在推动多模态技术的发展和普及。