尧图网站建设 尧图网络
  • 首页
  • 关于我们
  • 服务项目
  • 案例展示
  • 建站流程
  • 资讯中心
  • 联系我们
首页/资讯中心/详情

[PaperReading] Qwen2-VL: Enhancing Vision-Language Model’s Perception of the World at Any Resolution

[PaperReading] Qwen2-VL: Enhancing Vision-Language Model’s Perception of the World at Any Resolution
📅 发布时间:2026/6/19 22:20:18

目录
  • Qwen2-VL: Enhancing Vision-Language Model’s Perception of the World at Any Resolution
  • TL;DR
  • Method
    • Naive Dynamic Resolution
    • Multimodal Rotary Position Embedding (M-RoPE)
    • Unified Image and Video Understanding
    • Training
  • Experiment
  • Q&A
  • 总结与思考
  • 相关链接

Qwen2-VL: Enhancing Vision-Language Model’s Perception of the World at Any Resolution

link
时间:24.09
单位:Qween
作者:Peng Wang
相关领域:多模态理解
被引次数:1527
项目主页:
https://github.com/QwenLM/Qwen2.5-VL

TL;DR

Qween2-VL相对于上一代:

  • 支持原生动态图片分辨率输入
  • 使用M-RoPE更高效将位置信息融合至多模态输入中
  • 构建统一架构将图像、视频融入模型中
  • 多尺寸模型:2B、8B、72B

Method

image

Naive Dynamic Resolution

固定patch_size的分辨率,根据输入图像动态分辨率,动态计算出token sequence,再增加vision_start与vision_end的两个特殊token,例如,分辨率为224x224的图像对应66 tokens,计算方式如下:
\(224 / 14 = 16\)
\(16 / 2\) x \(16 / 2 + 2 = 66\)

Multimodal Rotary Position Embedding (M-RoPE)

将位置编码按照(temporal, height, width)三种ID来表示,若是text模态则三者一样,若是图像模态 temporal ID保持固定,height与width随图像不同位置变化,若是视频模态,则不同帧temporal ID也随之变化。
image

Unified Image and Video Understanding

  • 采样​​:以2FPS的速率从视频中抽取帧序列。
  • 统一表示​​:将每张静态图像视为一个只有2帧的“微视频”​​,这两帧是​​完全相同​​的图像。
  • 3D建模​​:使用轻量级3D卷积ViT处理立方体,生成融合了时空信息的视觉token序列。
  • 令牌长度限制:将每个视频输入的总token数上限设置为 ​​16,384。

Training

与Qween的三阶段训练策略一致,只不过使用的数据量不一样:

  • Vision Encoder训练
  • 全参数微调
  • 指令微调

Experiment

能力展示
image
全家桶
image
与SOTA对比
image
分辨率
归功于“Naive Dynamic Resolution”训练,Qween2-VL受分辨率影响不大
image
M-RoPE
优势:

  • 对于长度外推有好处
  • Image/Video Benchmarks上比1D-RoPE更好
    image

Q&A

Q:相对于上一代QweenVL有多大提升?
未对比
Q:相对于上一代模型尺寸、训练数据量变化?
image
Q:为什么M-RoPE会对长度外推有好处?

长度外推是指模型在​​推理时​​处理比​​训练时​​见过的​​更长的序列​​的能力。这是一个极具挑战性的任务,因为模型必须理解训练数据中未曾出现过的位置关系。

  • ​​维度解耦​​:将不同模态的位置信息分离到时间、高、宽三个独立维度,避免了单一序列中外推时不同模态位置信息的冲突与混淆,这是其​​最核心的贡献​​。
  • 相对位置感知​​:继承了RoPE的优良特性,使模型专注于学习相对位置关系而非绝对位置,从而能更好地泛化到更长的序列。
  • 数值平滑稳定​​:基于旋转正弦余弦函数的编码方式确保了外推时数值计算的稳定性和可预测性,避免了数值异常。

总结与思考

无

相关链接

https://zhuanlan.zhihu.com/p/1944799681357017732

本文来自博客园,作者:fariver,转载请注明原文链接:https://www.cnblogs.com/fariver/p/19107705

相关新闻

  • 总线的性能指标
  • VoxCPM:新一代高拟真语音生成模型
  • Python精品任务-基于python的个性化音乐推荐架构的设计与实现(源码+LW+部署文档+全bao+远程调试+代码讲解等)

最新新闻

  • MC9S12XE PWM引擎深度解析:从时钟架构到紧急关断安全设计
  • A卡炼丹环境搭建避坑指南:从RX 6700 XT驱动到PyTorch实战部署
  • AI为何像差生:从学习机制看模型泛化失效
  • 服务外包大赛
  • 2026东莞樟木头企业风控法律顾问专业律所盘点(TOP5) - GrowthUME
  • SPI通信协议深度解析:从主从模式到时钟配置的嵌入式实战指南

日新闻

  • 5分钟掌握Python进化算法:Geatpy高性能优化工具完全指南
  • Microchip 24AA044 EEPROM选型与应用全指南:从参数解析到实战编程
  • 华为的鸿蒙到底有多牛?为什么称作遥遥领先?

周新闻

  • 3步解锁iOS设备:applera1n激活锁绕过完全指南
  • 39 2026 人工智能证书终极盘点,普通人选 AI 证书可以从这些方向入手
  • Redis 暴露公网有多危险?从端口检查到补救步骤

月新闻

  • 【总结】入门篇:50句话让你记住架构核心概念
  • WeChatMsg技术方案解析:实现Mac微信数据自主管理的完整解决方案
  • WeChatMsg:革新性微信数据备份方案,打造你的专属数字记忆库

关于尧图

  • 公司简介
  • 团队介绍
  • 企业文化
  • 荣誉资质

服务项目

  • 定制开发
  • 电商建站
  • UI 设计
  • 运维服务

快速链接

  • 案例展示
  • 建站流程
  • 常见问题
  • 资讯中心

联系方式

  • 📍北京市朝阳区互联网产业园 A 座 10 层
  • 📞400-888-8888
  • ✉️contact@rkmt.cn
  • 🕐周一至周日 9:00-21:00

© 2024 北京尧图网络科技有限公司 版权所有 | 京 ICP 备 XXXXXXXX 号