尧图网站建设 尧图网络
  • 首页
  • 关于我们
  • 服务项目
  • 案例展示
  • 建站流程
  • 资讯中心
  • 联系我们
首页/资讯中心/详情

[PaperReading] VLM2Vec-V2: Advancing Multimodal Embedding for Videos, Images, and Visual Documents

[PaperReading] VLM2Vec-V2: Advancing Multimodal Embedding for Videos, Images, and Visual Documents
📅 发布时间:2026/6/17 22:51:43

目录
  • VLM2Vec-V2: Advancing Multimodal Embedding for Videos, Images, and Visual Documents
  • TL;DR
  • Method
    • Q:VLM2Vec-V2与原始VLM2Vec算法有什么区别?
  • Benchmark
  • Q&A
    • Q:CLS, QA, RET, GD, Overall这些指标是什么含义?
    • Q:训练使用了多少训练集?
  • Experiment
  • 参考链接
  • 总结与思考
  • 相关链接

VLM2Vec-V2: Advancing Multimodal Embedding for Videos, Images, and Visual Documents

link
时间:2025.07
单位:Salesforce Research等
相关领域:多模态表征学习
作者相关工作:Rui Meng、Ziyan Jiang
被引次数:1705
项目主页:https://tiger-ai-lab.github.io/VLM2Vec/

TL;DR

之前的方法主要关注image与text,模态种类太少,未使用到视频与视觉文档模态信息,VLM2VecV2解决了该问题。同时,扩充了MMEB Benchmark,也设计了新的统一模型架构VLM2VecV2。

Method

Q:VLM2Vec-V2与原始VLM2Vec算法有什么区别?

  1. VLM2Vec仅支持文本与图像两种模态,而V2支持了更多,包括:视频、PDF、网页截图、语音(预留接口);
  2. Data Sampling Strategies:
  • on-the-fly batch mixing: 为每个数据集分配特定采样概率;
  • Interleaved Sub-batching: 将大批次划分为更小的​​子批次,每个子批次独立从单一数据源采样;
  1. multi-modal data formatting
    \(q_{inst}\)=inst+[VISUAL_TOKEN]+q
    inst: 构造出来的指令,例如,"Find a video that contains this image
    VISUAL_TOKEN:用来声明后续q的类型,具体值可以是 image_pad声明“图像”、video_pad声明“视频” 以及 无 声明“文本”

Benchmark

MMEB-V2 Benchmark与MMEB有什么区别? => 蓝色为V1的,红色为V2相对于V1扩充的。
image

Q&A

Q:CLS, QA, RET, GD, Overall这些指标是什么含义?

  • CLS指标​​指导特征学习优化
  • RET指标​​指导嵌入空间对齐
  • ​QA指标​​指导语义理解深化
  • GD指标​​指导细粒度感知提升

Q:训练使用了多少训练集?

Experiment

image

Ablation Study: 增加更多视觉模态是能继续涨点的
image

sub-size超参数的Ablation,最佳值为64
image

image

参考链接

总结与思考

无

相关链接

https://zhuanlan.zhihu.com/p/1932043359238726091

本文来自博客园,作者:fariver,转载请注明原文链接:https://www.cnblogs.com/fariver/p/19148600

相关新闻

  • 标悬浮展开多级菜单
  • 深入解析Pure恶意软件家族:从RAT到构建器再到开发者
  • 3. JVM 运行时数据区

最新新闻

  • 2026年河南食品软包装定制与种子袋生产厂家完全指南:从源头工厂到全国覆盖的深度选型 - 精选优质企业推荐官
  • 等离子处理清洗机主流厂家技术实力实测解析 - 起跑123
  • CNAS实验室认证咨询机构实力排行:五家头部机构盘点 - 起跑123
  • 涿州老王匠全屋定制|全系ENF级高端板材硬核解析,高端家装健康选材首选 - GrowthUME
  • TensorFlow图模式实战:@tf.function性能优化与AutoGraph避坑指南
  • 2026上海破坏计算机信息系统罪律师推荐|网络攻击、数据篡改辩护 - 法律资讯

日新闻

  • 2026年不锈钢卷板厂家推荐排行榜:冷轧热轧/304/201不锈钢卷板,高颜值耐腐蚀源头厂家实力精选 - 企业推荐官【官方】
  • FLUX.1-dev FP8模型实战指南:24GB以下显卡高效部署方案
  • 2026佛山长途搬家价目表:跨省跨市搬家费用完整计算指南 - 从来都是英雄出少年

周新闻

  • 3步解锁iOS设备:applera1n激活锁绕过完全指南
  • 39 2026 人工智能证书终极盘点,普通人选 AI 证书可以从这些方向入手
  • Redis 暴露公网有多危险?从端口检查到补救步骤

月新闻

  • 【总结】入门篇:50句话让你记住架构核心概念
  • WeChatMsg技术方案解析:实现Mac微信数据自主管理的完整解决方案
  • WeChatMsg:革新性微信数据备份方案,打造你的专属数字记忆库

关于尧图

  • 公司简介
  • 团队介绍
  • 企业文化
  • 荣誉资质

服务项目

  • 定制开发
  • 电商建站
  • UI 设计
  • 运维服务

快速链接

  • 案例展示
  • 建站流程
  • 常见问题
  • 资讯中心

联系方式

  • 📍北京市朝阳区互联网产业园 A 座 10 层
  • 📞400-888-8888
  • ✉️contact@rkmt.cn
  • 🕐周一至周日 9:00-21:00

© 2024 北京尧图网络科技有限公司 版权所有 | 京 ICP 备 XXXXXXXX 号