当前位置: 首页 > news >正文

2024–2026视觉编码器十大变体技术梳理

CLIP之后如何迭代?2024–2026视觉编码器十大变体技术梳理

视觉编码器的作用:将图像数据转化为LLM可以理解的视觉Token特征序列。

流程:图像(224×224×3)→ 视觉编码器(ViT/ConvNet)→ 视觉特征 Token → 投影层适配 → 输入 LLM

VLM 80%的性能瓶颈来自视觉编码器,而非语言模型。

根据训练范式差异,可将当前主流视觉编码器分为对比学习、自监督学习、高分辨率优化、多专家混合四大流派。

流派一:对比学习流派(CLIP 一脉)

核心思路:基于图文对训练,通过对比损失拉近匹配图文特征、推远无关特征,是语义对齐能力最强的技术路线。

1. CLIP(OpenAI, 2021)

  • 架构:ViT-L/14,约300M参数

  • 训练方式:4亿图文对 + 对比损失

  • 优势:图文语义匹配效果经典、稳定

  • 短板:空间感知能力弱,固定224×224低分辨率,细节捕捉差

  • 现状:实际部署已淘汰,仅作为论文基线用于对比

2. SigLIP(Google, 2023)

  • 架构:ViT-So400M

  • 核心改进:用 Sigmoid 损失替换原版 Softmax 对比损失,大幅降低计算开销

  • 优势:训练效率更高,整体性能较 CLIP 提升10%以上

  • 现状:LLaVA-1.6、LLaVA-Next 标配视觉编码器

3. SigLIP 2(Google, 2025)

  • 核心升级:在对比损失基础上,新增文本描述损失、自蒸馏、掩码预测多任务训练

  • 性能亮点:仅400M参数,在绝大多数VLM任务中,效果优于6B参数的 InternViT-6B

  • 现状:2025年对比学习路线最优通用编码器,适用性极强

科研实操建议:做实验、跑基线建议同时对比 CLIP 与 SigLIP,既保证学术工作的延续性,也符合当前前沿性能标准。

流派二:自监督学习流派(DINO 一脉)

核心思路:无需文本标注,仅依靠图像自身信息做自监督学习,几何、空间、分割感知能力极强

1. DINOv2(Meta, 2023)

  • 架构:ViT-L/14、ViT-g/14

  • 训练方式:1.42亿无标注图像 + 自监督蒸馏

  • 优势:物体定位、语义分割、深度估计、场景几何理解能力突出

  • 短板:无图文对齐训练,纯语义识别任务表现一般

  • 现状:所有需要空间感知、精准定位的多模态模型,基本都会融合 DINOv2 特征

2. DINOv3(Meta, 2025)

  • 核心升级:扩大训练数据规模,强化密集预测、细粒度特征提取能力

  • 适配场景:具身智能、机器人 VLA、动态场景感知等前沿方向

  • 核心区别:CLIP/SigLIP 擅长识别「物体是什么」,DINO 系列擅长判断「物体在哪里、形态如何」。高性能 SOTA 模型基本都会融合两类特征。

流派三:高分辨率优化流派

原版 CLIP 仅支持224×224输入,在文档、小目标、高清图像场景严重失效。该流派专门解决细粒度识别、高清视觉问题。

1. EVA-CLIP(北智院, 2023)

  • 架构:超大 ViT-g 模型,参数超1B

  • 训练特点:MIM掩码预训练 + CLIP图文微调,兼顾性能与部署可行性

  • 现状:InternVL 早期版本的核心视觉编码器

2. InternViT-6B(上海AI Lab, 2024)

  • 架构:6B超大参数视觉模型

  • 训练方式:渐进式蒸馏 + 适配大语言模型特征对齐

  • 优势:支持动态分辨率,最高可处理4K高清图像

  • 现状:InternVL2、InternVL3 核心编码器,国产主流方案

  • 客观短板:参数体量巨大,但多数通用任务性能不及轻量化的 SigLIP 2

3. AnyRes 动态分辨率策略(2024)

不属于新编码器,而是通用性极强的工程优化方案。

  • 核心逻辑:将高清大图切分为多个局部 Patch,独立编码后融合特征

  • 优势:零成本改造原有模型,快速适配高分辨率场景

  • 现状:LLaVA-Next、Qwen2-VL、InternVL2 全部采用

场景结论:OCR、文档解析、医学影像、遥感图像等任务中,分辨率的影响远大于模型参数量,AnyRes 是2024年性价比最高的工程优化技巧。

流派四:多视觉专家混合流派(MoVE)

单一编码器均存在短板:语义、几何、分割、文档理解无法兼顾。多专家方案通过多编码器并联,实现能力互补。

1. Eagle / MoVA / Cambrian-1(2024–2025)

  • 架构思路:并联 CLIP(语义)、DINOv2(几何)、SAM(分割)、Pix2Struct(文档)等多个专用编码器

  • 核心技术:路由网络动态调度不同模块的特征,按需融合

  • 优势:OCR、定位、几何推理、图文匹配全面均衡

  • 短板:计算量大、推理速度慢、资源开销高

  • 现状:2025年顶会主流刷分方案,多模块融合是性能提升的通用套路

2. OpenVision(UCSC, 2025)

  • 特点:训练数据、训练配方完全开源,复现性拉满

  • 性能:B/16架构384分辨率下,多项指标超越原生 CLIP

  • 适用场景:学术复现、公平对比实验,无训练黑箱

视觉编码器选型方案

  • OCR / 文档理解:AnyRes 动态分辨率 + SigLIP 2

  • 分割 / 具身智能 / VLA机器人:DINOv2 / DINOv3

  • 中文场景 / 4K高清图像:InternViT

  • 顶会刷分 / 性能极致优化:MoVE多编码器混合方案

  • 学术复现 / 公平对比实验:OpenVision

  • 通用场景无明确方向:优先 SigLIP 2(综合最优、容错率最高)

视觉编码器未来发展趋势

  • 无独立编码器范式(Encoder-Free):Eve、Fuyu 等模型直接将图像 Patch 送入大语言模型,取消独立视觉编码模块。目前性能仍略低于传统方案,但潜力较大。

  • LLM 兼任视觉编码器:2025年新出的 LLaViT 架构,让语言模型同时承担视觉编码任务,通过独立视觉QKV与双向注意力建模图像特征,3B小模型可对标7B级多模态模型效果。

  • 原生多模态联合预训练:Gemini、Chameleon 主流路线,编码器与LLM从0开始联合预训练、全程协同优化,是未来三年的主流架构。

http://www.rkmt.cn/news/1442528.html

相关文章:

  • 充电头暗藏玄机:宽幅变窄幅,低价背后是省钱还是埋雷?
  • 反洗钱平台-互联网平台反洗钱系统全景设计
  • Java基础中级进阶篇二之IO流(IO流、嵌套类、多线程)
  • 南宋历代皇帝完整脉络全解析:偏安江南的百年抗争与崖山终章
  • 3步打造专业级无线网络安全测试:Fluxion钓鱼页面深度解析
  • 如何快速解密.NET混淆代码:de4dot终极完整指南
  • FlipIt翻页时钟:Windows桌面上的时光艺术,告别Flash的复古新选择
  • 基于仿生机械手的肌动传感器动作识别解析方案【附仿真】“
  • 聊一聊TCP:三次握手我背了100遍,TIME_WAIT还是把我问住了
  • 3PEAK思瑞浦 TPA6031-S5TR SOT23-5 运算放大器
  • 500+网站支持:WebToEpub如何将任意网页小说转换为标准EPUB电子书
  • m4s-converter:轻松解锁B站缓存视频的免费转换神器
  • 2026河南新乡昆虫标本厂家实力排行推荐:合规性与性价比对比 - 奔跑123
  • STM32智能温控系统:3步打造你的第一个嵌入式PID控制器
  • 网盘直链下载助手:免费开源工具,3分钟突破六大网盘下载限速
  • 开发者对接大模型 API 太繁琐?CenToken 帮你省 80% 时间
  • Linux Shell 脚本入门、执行方式与批量压解实战
  • Sora 2生成长视频崩溃频发?独家披露GPU显存碎片化监控脚本+TensorRT优化配置(实测A100 80G吞吐提升3.2倍)
  • TV Bro:专为Android电视设计的终极遥控器友好浏览器解决方案
  • 3分钟解锁Minecraft RTX光影新境界:BetterRTX安装器深度体验
  • 今年北京车展,为什么那么多设计“撞脸”?
  • 如何用STM32快速构建智能温控系统:完整嵌入式开发实战指南
  • 山东大学软件学院项目实训——计科智伴(六)——前后端接口全面对齐、成就体系与 RAG 兜底
  • 我找到的国内直连 GPT 5.5 / Claude Opus 低成本方案
  • WindowResizer终极指南:3分钟掌握窗口强制调整技巧
  • Fusion360一体化设计:从零打造自定义按钮盒的完整指南
  • 【C++基础】循环嵌套
  • 2026 折叠棋牌桌选购避坑,拆机测评选材,稳固低故障棋牌桌源头品牌推荐 - 品牌榜中榜
  • 精通GTA5高级游戏增强:YimMenu架构深度解析与实战配置
  • 原神与崩坏:星穹铁道帧率解锁完整指南:如何轻松突破60帧限制