当前位置: 首页 > news >正文

【科研快报】哈工深等开源CVSearch | 首创认知驱动视觉搜索,让大模型学会“看重点“

在多模态大模型(MLLM)的研究中,如何让模型"看清"高分辨率图像一直是个让人头疼的问题。虽然现在的模型推理能力越来越强,但面对动辄4K甚至8K的超清图像,它们往往会因为严重的下采样而变成"近视眼",漏掉那些关键的微小细节。

真实场景中感知尺度的多样性以及现有方法的局限性

为了破解这一难题,来自哈尔滨工业大学(深圳)、深圳鹏城实验室以及中国科学院深圳先进技术研究院的研究团队提出了CVSearch框架。这种"先评估、再搜索"的机制,让大模型在不经过任何额外训练的情况下,就能精准捕捉到超清图像中的每一个角落。

背景与动机:为什么大模型总是"看不清"?

目前大模型处理高分辨率图像主要有三条路:要么暴力切图(AnyRes),但这会把物体切碎,导致语义断裂;要么修改架构,但这会增加计算负担且不够灵活;要么引入视觉搜索。

传统的视觉搜索虽然有潜力,但往往陷入"两难"境地:

  • 专家辅助搜索(如调用SAM模型):效率高,但如果专家模型没找准,大模型就彻底"瞎"了,缺乏兜底机制。

  • 扫描式搜索:虽然覆盖全面,但通常采用死板的网格切分(Rigid Grid),不仅浪费计算资源在背景上,还会把物体切得支离破碎。

如图所示,现有的视觉专家辅助方法(如DyFo)在极小目标上覆盖不足,而基于扫描的方法(如RAP)效率又太低。CVSearch的出现,正是为了在效率和鲁棒性之间找到那个完美的平衡点。

方法详解:像人类一样"按需搜索"

CVSearch的核心是一个三阶段的认知工作流,它将视觉搜索重新定义为一个分层的决策过程。

1. 认知驱动的自适应切换机制

CVSearch的核心理念是"先评估、再搜索"——模型首先对图像进行整体感知,判断哪些区域需要重点关注,然后再针对性地调用视觉专家进行细粒度分析。这种机制模拟了人类看图时的注意力分配:先扫一眼全局,找到值得关注的区域,再凑近看细节。

认知驱动机制示意图,展示自适应切换逻辑

与传统方法相比,CVSearch的优势在于:

  • 语义完整性保护:避免网格切分把物体主体切断,保留完整的语义信息

  • 计算资源高效利用:只对高价值区域调用专家模型,避免全图扫描

  • 鲁棒性保障:即使专家模型判断失误,仍有场景感知扫描作为兜底

2. 场景感知网格切分(SGAP)

当专家搜索无法完全覆盖目标时,CVSearch采用了一种智能的网格切分策略。与传统刚性网格不同,SGAP能够感知场景语义,自动避开物体主体,只在留白区域进行切分。

SGAP策略与传统网格切分的对比

从定性对比可以清晰地看到:传统的网格切分(Zoom Eye/RAP)会把商店招牌、教堂尖顶、卡车车头无情切断。而CVSearch的SGAP策略则像是有灵性一样,完美避开了物体主体,保留了完整的语义信息。

实验结果:免训练也能刷爆榜单

研究团队在多个高分辨率基准测试上验证了CVSearch的威力。由于它是**免训练(Training-free)**的,可以直接"插"在Qwen2.5-VL、LLaVA-OV或InternVL2.5等模型上使用。


1. 性能大幅领先

在专门针对高分辨率的V* Bench上,CVSearch配合LLaVA-OV-7B达到了91.6的惊人准确率。在更具挑战性的HR-Bench 8K任务中,配合InternVL2.5-8B更是达到了77.6的SOTA成绩,相比原始模型提升了整整20.2个百分点!

基准测试

基础模型

原始成绩

+CVSearch

提升

V* Bench

LLaVA-OV-7B

    91.6

    SOTA

    HR-Bench 8K

    InternVL2.5-8B

    57.4

    77.6

    +20.2

    HR-Bench 4K

    Qwen2.5-VL

      75.8

      显著提升

      2. 搜索效率的质变

      相比于传统的扫描方法(如Zoom Eye和RAP),CVSearch在保持高精度的同时,吞吐量提升了数倍。在HR-Bench 4K任务中,CVSearch的吞吐量达到了3.77,而传统扫描方法仅为1.2左右。


      这意味着CVSearch不仅"看得准",而且"看得快",真正实现了效率和精度的双赢。

      3. 跨模型与尺寸的稳健性

      实验表明,CVSearch具有极强的通用性。无论是2B的小模型还是32B的大模型,集成该框架后性能均有显著提升。例如,在Qwen3-VL-32B上,它依然能在HR-8K任务上带来7.5点的增益。

      技术启示:从"暴力计算"到"认知智能"

      CVSearch的成功给我们带来了重要启示:提升视觉模型的高分辨率感知能力,未必要靠更大的计算量、更复杂的架构。关键在于让模型学会像人类一样"按需分配注意力"——先看轮廓、再找重点、最后扫细节。

      这种"认知驱动"的设计理念,不仅解决了高分辨率感知的痛点,也为未来开发更高效、更智能的视觉交互系统开辟了新路径。

      开源与展望

      目前代码已经开源(GitHub: liliupeng28/ICML26-CVSearch),对于想要在超清图像理解、小目标检测等领域有所突破的开发者来说,这是一个值得尝试的工具。

      CVSearch项目GitHub页面

      未来,研究团队计划进一步探索:

      • 将CVSearch扩展到视频理解领域

      • 结合多模态大模型的推理能力,实现更复杂的视觉问答

      • 探索端到端的可训练版本,在特定任务上进行微调优化

      看到如此精彩的计算机视觉研究成果,是否也想站上国际学术舞台展示你的工作?
      IC-EISIT 2026(International Conference on Electronic Information Systems and Intelligent Technologies)由SPIE出版,EI Compendex + Scopus双检索,快展示你的研究一起共同交流吧!


      ©洵锋学术(SUNFER ACADEMIC)————洵启学术,专业凝锋

      版权说明:以上图片均来自开源技术博客及论文公开资源,版权归属各原作者

      http://www.rkmt.cn/news/1475823.html

      相关文章:

    • 免费绕过iOS 15-16激活锁的终极指南:applera1n让你的iPhone重获新生
    • 如何完整备份你的QQ空间:GetQzonehistory终极指南
    • 高端制造行业晶圆制造技术岗工艺整合工程师晋升CTO的路径
    • C# 文件级 using(global using)
    • GEO监测工具选哪个?搜极星、GEO探针、AllrightTOP、AiSaysTOP横向对比
    • 告别臃肿系统软件:GHelper如何用50MB内存为华硕笔记本带来极致性能控制体验
    • 2026实力之选:市政清洗吸污车/化粪池清理车/下水道疏通吸污车/工地泥浆转运车等源头工厂实力解析 - 品牌企业推荐师(官方)
    • 采购岗位全解析:从Sourcing到Buyer,供应链管理的职能细分与职业发展
    • 风场光伏光缆分缆测损,DM-40A 光通信综合测试仪高效运维
    • 从稳定币到存款代币:美国银行业联合反击背后的支付基础设施重构
    • 光伏+储能迎来“1+1>2”!一张图看懂
    • 多语言模型知识遗忘技术:原理、挑战与实践
    • 用555和74LS192做个课堂抢答器:从Proteus仿真到面包板实战,附完整元器件清单
    • 2000-2025年绿色低碳技术专利
    • CanvasGroup 透明隐藏能否规避 Spine 错乱问题
    • 中国日度省市县平均夜间灯光数据集
    • 免费解锁IDM全功能:开源脚本终极解决方案
    • 嵌入式处理器性能指标深度解析:MIPS、DMIPS与MFLOPS的工程实践指南
    • 新手避坑指南:用Synopsys ICC完成RISC芯片从Floorplan到Route的全流程实战
    • 音频调音台直滑电位器选型:ALPS RK12L123000E 与国产同于科技替代方案评估
    • 电子入射晶体衍射图样不是因为晶体原子的震动导致
    • 107、【Agent】【OpenCode】todowrite 工具提示词(示例)(一)
    • 金融大模型深度落地:风控、投研、客服三大场景全景复盘
    • Cadence Allegro PCB设计规则深度解析:从约束管理到高速信号实战
    • 如何优化标题提升点击率?标题加上最新年份,点击率直接拉高300%
    • 新手福音:在快马平台上用akshare获取你的第一份股票数据
    • JavaQuestPlayer:跨平台QSP游戏运行器的终极解决方案
    • 领嵌iLeadE-588边缘计算盒子内置算法及应用
    • 从零搭建实时数字人!LiveTalking一行命令启动,3060 显卡 60 帧丝滑对话,商用级开源方案
    • AMD Ryzen系统管理单元调试工具:5个简单步骤掌握硬件级控制