当前位置: 首页 > news >正文

[PaperReading] VLM2Vec-V2: Advancing Multimodal Embedding for Videos, Images, and Visual Documents

目录
  • VLM2Vec-V2: Advancing Multimodal Embedding for Videos, Images, and Visual Documents
  • TL;DR
  • Method
    • Q:VLM2Vec-V2与原始VLM2Vec算法有什么区别?
  • Benchmark
  • Q&A
    • Q:CLS, QA, RET, GD, Overall这些指标是什么含义?
    • Q:训练使用了多少训练集?
  • Experiment
  • 参考链接
  • 总结与思考
  • 相关链接

VLM2Vec-V2: Advancing Multimodal Embedding for Videos, Images, and Visual Documents

link
时间:2025.07
单位:Salesforce Research等
相关领域:多模态表征学习
作者相关工作:Rui Meng、Ziyan Jiang
被引次数:1705
项目主页:https://tiger-ai-lab.github.io/VLM2Vec/

TL;DR

之前的方法主要关注image与text,模态种类太少,未使用到视频与视觉文档模态信息,VLM2VecV2解决了该问题。同时,扩充了MMEB Benchmark,也设计了新的统一模型架构VLM2VecV2。

Method

Q:VLM2Vec-V2与原始VLM2Vec算法有什么区别?

  1. VLM2Vec仅支持文本与图像两种模态,而V2支持了更多,包括:视频、PDF、网页截图、语音(预留接口);
  2. Data Sampling Strategies:
  • on-the-fly batch mixing: 为每个数据集分配特定采样概率;
  • Interleaved Sub-batching: 将大批次划分为更小的​​子批次,每个子批次独立从单一数据源采样;
  1. multi-modal data formatting
    \(q_{inst}\)=inst+[VISUAL_TOKEN]+q
    inst: 构造出来的指令,例如,"Find a video that contains this image
    VISUAL_TOKEN:用来声明后续q的类型,具体值可以是 image_pad声明“图像”、video_pad声明“视频” 以及 无 声明“文本”

Benchmark

MMEB-V2 Benchmark与MMEB有什么区别? => 蓝色为V1的,红色为V2相对于V1扩充的。
image

Q&A

Q:CLS, QA, RET, GD, Overall这些指标是什么含义?

  • CLS指标​​指导特征学习优化
  • RET指标​​指导嵌入空间对齐
  • ​QA指标​​指导语义理解深化
  • GD指标​​指导细粒度感知提升

Q:训练使用了多少训练集?

Experiment

image

Ablation Study: 增加更多视觉模态是能继续涨点的
image

sub-size超参数的Ablation,最佳值为64
image

image

参考链接

总结与思考

相关链接

https://zhuanlan.zhihu.com/p/1932043359238726091

http://www.rkmt.cn/news/23160.html

相关文章:

  • 标悬浮展开多级菜单
  • 深入解析Pure恶意软件家族:从RAT到构建器再到开发者
  • 3. JVM 运行时数据区
  • 软工学习日志
  • 修电脑不求人:AI智能修复电脑工具的体验分享
  • Xcode上编译调试ffmpeg - 详解
  • 《程序员修炼之道》阅读笔记1
  • OOP - 实验一
  • 题解:qoj8329 Excuse
  • VMware17.6图文安装教程(附安装包)VMware17.6
  • Sourcetree - Git 备份
  • uni-app x实现上下拉动,动态加载数据
  • 企业微信ipad协议稳定防封的最新最全功能
  • 企业微信协议ipad,稳定防封私有化部署私域流量聚合聊天,机器人实现方案
  • 重新思考钓鱼攻击意识培训:网络安全的关键反思
  • 任务分解与小模型如何降低AI成本
  • spring事件监听的核心机制
  • freeswitch的proxy_media模式下video流的问题与修正
  • DNS 相关
  • Dubbo入门-通过spring-boot来动手实践
  • 使用ceph rdb做k8s后端存储(ceph-csi storageclass
  • 2025 最新火烧板源头厂家推荐排行榜:自有矿山加持 + 品质卓越,芝麻灰 / 五莲花等石材采购优选指南
  • 【IEEE出版、吉首大学主办】第二届智能机器人与自动控制国际学术会议 (IRAC 2025)
  • 2025 防火隔断厂家最新推荐排行榜:甲级防火玻璃隔断厂家深度测评,精选优质品牌助力采购决策
  • 作业3
  • 2025 年最新推荐!国内优质球墨铸铁管厂家排行榜,涵盖市政 / 给水 / 水利工程用管,助力采购高效选材
  • 用于博客美化的测试(后面再更新)
  • 看图猜成语达人小程序:一站式趣味与变现解决方案
  • Metasploit Pro 4.22.8-20251014 (Linux, Windows) - 专业渗透测试框架
  • 高考语文 词类活用