当前位置: 首页 > news >正文

[PaperReading] Qwen2-VL: Enhancing Vision-Language Model’s Perception of the World at Any Resolution

目录
  • Qwen2-VL: Enhancing Vision-Language Model’s Perception of the World at Any Resolution
  • TL;DR
  • Method
    • Naive Dynamic Resolution
    • Multimodal Rotary Position Embedding (M-RoPE)
    • Unified Image and Video Understanding
    • Training
  • Experiment
  • Q&A
  • 总结与思考
  • 相关链接

Qwen2-VL: Enhancing Vision-Language Model’s Perception of the World at Any Resolution

link
时间:24.09
单位:Qween
作者:Peng Wang
相关领域:多模态理解
被引次数:1527
项目主页:
https://github.com/QwenLM/Qwen2.5-VL

TL;DR

Qween2-VL相对于上一代:

  • 支持原生动态图片分辨率输入
  • 使用M-RoPE更高效将位置信息融合至多模态输入中
  • 构建统一架构将图像、视频融入模型中
  • 多尺寸模型:2B、8B、72B

Method

image

Naive Dynamic Resolution

固定patch_size的分辨率,根据输入图像动态分辨率,动态计算出token sequence,再增加vision_start与vision_end的两个特殊token,例如,分辨率为224x224的图像对应66 tokens,计算方式如下:
\(224 / 14 = 16\)
\(16 / 2\) x \(16 / 2 + 2 = 66\)

Multimodal Rotary Position Embedding (M-RoPE)

将位置编码按照(temporal, height, width)三种ID来表示,若是text模态则三者一样,若是图像模态 temporal ID保持固定,height与width随图像不同位置变化,若是视频模态,则不同帧temporal ID也随之变化。
image

Unified Image and Video Understanding

  • 采样​​:以2FPS的速率从视频中抽取帧序列。
  • 统一表示​​:将每张静态图像视为一个只有2帧的“微视频”​​,这两帧是​​完全相同​​的图像。
  • 3D建模​​:使用轻量级3D卷积ViT处理立方体,生成融合了时空信息的视觉token序列。
  • 令牌长度限制:将每个视频输入的总token数上限设置为 ​​16,384。

Training

与Qween的三阶段训练策略一致,只不过使用的数据量不一样:

  • Vision Encoder训练
  • 全参数微调
  • 指令微调

Experiment

能力展示
image
全家桶
image
与SOTA对比
image
分辨率
归功于“Naive Dynamic Resolution”训练,Qween2-VL受分辨率影响不大
image
M-RoPE
优势:

  • 对于长度外推有好处
  • Image/Video Benchmarks上比1D-RoPE更好
    image

Q&A

Q:相对于上一代QweenVL有多大提升?
未对比
Q:相对于上一代模型尺寸、训练数据量变化?
image
Q:为什么M-RoPE会对长度外推有好处?

长度外推是指模型在​​推理时​​处理比​​训练时​​见过的​​更长的序列​​的能力。这是一个极具挑战性的任务,因为模型必须理解训练数据中未曾出现过的位置关系。

  • ​​维度解耦​​:将不同模态的位置信息分离到时间、高、宽三个独立维度,避免了单一序列中外推时不同模态位置信息的冲突与混淆,这是其​​最核心的贡献​​。
  • 相对位置感知​​:继承了RoPE的优良特性,使模型专注于学习相对位置关系而非绝对位置,从而能更好地泛化到更长的序列。
  • 数值平滑稳定​​:基于旋转正弦余弦函数的编码方式确保了外推时数值计算的稳定性和可预测性,避免了数值异常。

总结与思考

相关链接

https://zhuanlan.zhihu.com/p/1944799681357017732

http://www.rkmt.cn/news/10418.html

相关文章:

  • 总线的性能指标
  • VoxCPM:新一代高拟真语音生成模型
  • Python精品任务-基于python的个性化音乐推荐架构的设计与实现(源码+LW+部署文档+全bao+远程调试+代码讲解等)
  • 旧手机改服务器-旧Android手机改Linux服务器Termux方案
  • 2025 年在线 Excel 协作工具:纯前端架构引领协作范式革新
  • 大屏适配不同分辨率
  • 详细介绍:【HTML】 第一章:HTML 基础
  • 二叉树专题
  • Kettle: pentaho-server-9.4登录问题
  • Win11/Win10/Office 永久激活
  • IvorySQL文档共建计划第一期!提 PR,提 Issue,赢取 Beats 耳机、机械键盘、书籍等多重好礼!
  • 题解:P14058 【MX-X21-T3】[IAMOI R5] 两个人的演唱会
  • 深入解析Wallarm安全边缘:API边缘的即时防护技术
  • A Great Beginning
  • 邮件系统的未来趋势:技术革新与智能化的未来
  • python-uv入门使用 - 教程
  • docker volume使用
  • pl/sql使用
  • PLC中的运动控制 - (二)基本控制指令MC_Power,MC_Stop,MC_Halt
  • 使用命令行powershell修改系统变量
  • 赋能智慧水利:国标GB28181平台EasyGBS在农业水文监控中的落地实践
  • 陇剑杯2025 决赛-ShellDecoder
  • Springcloud gateway笔记
  • 网易NDH大数据平台使用经验
  • ncpa.cpl 意义 这个名称的
  • sql统计一个字段各个值各有多个个的方法
  • 智启新程:哲讯科技引领SAP ERP实施新范式
  • 移动端性能监控探索:鸿蒙 NEXT 探针架构与技术实现
  • 哲讯科技:以数智之力,铸就企业SAP ERP实施新典范
  • 【CVCVCV】GAN代码解析