当前位置：首页 > news >正文

[PaperReading] Qwen2-VL: Enhancing Vision-Language Model’s Perception of the World at Any Resolution

news 2026/6/11 15:47:10

Qwen2-VL: Enhancing Vision-Language Model’s Perception of the World at Any Resolution
TL;DR
Method
- Naive Dynamic Resolution
- Multimodal Rotary Position Embedding (M-RoPE)
- Unified Image and Video Understanding
- Training
Experiment
Q&A
总结与思考
相关链接

Qwen2-VL: Enhancing Vision-Language Model’s Perception of the World at Any Resolution

link
时间：24.09
单位：Qween
作者：Peng Wang
相关领域：多模态理解
被引次数：1527
项目主页：
https://github.com/QwenLM/Qwen2.5-VL

TL;DR

Qween2-VL相对于上一代：

支持原生动态图片分辨率输入
使用M-RoPE更高效将位置信息融合至多模态输入中
构建统一架构将图像、视频融入模型中
多尺寸模型：2B、8B、72B

Method

Naive Dynamic Resolution

固定patch_size的分辨率，根据输入图像动态分辨率，动态计算出token sequence，再增加vision_start与vision_end的两个特殊token，例如，分辨率为224x224的图像对应66 tokens，计算方式如下：
\(224 / 14 = 16\)
\(16 / 2\) x \(16 / 2 + 2 = 66\)

Multimodal Rotary Position Embedding (M-RoPE)

将位置编码按照(temporal, height, width)三种ID来表示，若是text模态则三者一样，若是图像模态 temporal ID保持固定，height与width随图像不同位置变化，若是视频模态，则不同帧temporal ID也随之变化。

Unified Image and Video Understanding

采样：以2FPS的速率从视频中抽取帧序列。
统一表示：将每张静态图像视为一个只有2帧的“微视频”，这两帧是完全相同的图像。
3D建模：使用轻量级3D卷积ViT处理立方体，生成融合了时空信息的视觉token序列。
令牌长度限制：将每个视频输入的总token数上限设置为 16,384。

Training

与Qween的三阶段训练策略一致，只不过使用的数据量不一样：

Vision Encoder训练
全参数微调
指令微调

Experiment

能力展示

全家桶

与SOTA对比

分辨率
归功于“Naive Dynamic Resolution”训练，Qween2-VL受分辨率影响不大

M-RoPE
优势：

对于长度外推有好处
Image/Video Benchmarks上比1D-RoPE更好

Q&A

Q：相对于上一代QweenVL有多大提升？
未对比
Q：相对于上一代模型尺寸、训练数据量变化？

Q：为什么M-RoPE会对长度外推有好处？

长度外推是指模型在推理时处理比训练时见过的更长的序列的能力。这是一个极具挑战性的任务，因为模型必须理解训练数据中未曾出现过的位置关系。

维度解耦：将不同模态的位置信息分离到时间、高、宽三个独立维度，避免了单一序列中外推时不同模态位置信息的冲突与混淆，这是其最核心的贡献。
相对位置感知：继承了RoPE的优良特性，使模型专注于学习相对位置关系而非绝对位置，从而能更好地泛化到更长的序列。
数值平滑稳定：基于旋转正弦余弦函数的编码方式确保了外推时数值计算的稳定性和可预测性，避免了数值异常。

总结与思考

无

相关链接

https://zhuanlan.zhihu.com/p/1944799681357017732

http://www.rkmt.cn/news/10418.html

相关文章：

总线的性能指标

VoxCPM:新一代高拟真语音生成模型

Python精品任务-基于python的个性化音乐推荐架构的设计与实现(源码+LW+部署文档+全bao+远程调试+代码讲解等)

旧手机改服务器-旧Android手机改Linux服务器Termux方案

2025 年在线 Excel 协作工具：纯前端架构引领协作范式革新

大屏适配不同分辨率

详细介绍：【HTML】第一章：HTML 基础

二叉树专题

Kettle: pentaho-server-9.4登录问题

Win11/Win10/Office 永久激活

IvorySQL文档共建计划第一期！提 PR，提 Issue，赢取 Beats 耳机、机械键盘、书籍等多重好礼！

题解：P14058 【MX-X21-T3】[IAMOI R5] 两个人的演唱会

深入解析Wallarm安全边缘：API边缘的即时防护技术

A Great Beginning

邮件系统的未来趋势：技术革新与智能化的未来

python-uv入门使用 - 教程

docker volume使用

PLC中的运动控制 - （二）基本控制指令MC_Power，MC_Stop，MC_Halt

使用命令行powershell修改系统变量

赋能智慧水利：国标GB28181平台EasyGBS在农业水文监控中的落地实践

陇剑杯2025 决赛-ShellDecoder

Springcloud gateway笔记

网易NDH大数据平台使用经验

ncpa.cpl 意义这个名称的

sql统计一个字段各个值各有多个个的方法

智启新程：哲讯科技引领SAP ERP实施新范式

移动端性能监控探索：鸿蒙 NEXT 探针架构与技术实现

哲讯科技：以数智之力，铸就企业SAP ERP实施新典范

【CVCVCV】GAN代码解析