【科研快报】哈工深等开源CVSearch | 首创认知驱动视觉搜索,让大模型学会“看重点“
在多模态大模型(MLLM)的研究中,如何让模型"看清"高分辨率图像一直是个让人头疼的问题。虽然现在的模型推理能力越来越强,但面对动辄4K甚至8K的超清图像,它们往往会因为严重的下采样而变成"近视眼",漏掉那些关键的微小细节。
真实场景中感知尺度的多样性以及现有方法的局限性
为了破解这一难题,来自哈尔滨工业大学(深圳)、深圳鹏城实验室以及中国科学院深圳先进技术研究院的研究团队提出了CVSearch框架。这种"先评估、再搜索"的机制,让大模型在不经过任何额外训练的情况下,就能精准捕捉到超清图像中的每一个角落。
背景与动机:为什么大模型总是"看不清"?
目前大模型处理高分辨率图像主要有三条路:要么暴力切图(AnyRes),但这会把物体切碎,导致语义断裂;要么修改架构,但这会增加计算负担且不够灵活;要么引入视觉搜索。
传统的视觉搜索虽然有潜力,但往往陷入"两难"境地:
专家辅助搜索(如调用SAM模型):效率高,但如果专家模型没找准,大模型就彻底"瞎"了,缺乏兜底机制。
扫描式搜索:虽然覆盖全面,但通常采用死板的网格切分(Rigid Grid),不仅浪费计算资源在背景上,还会把物体切得支离破碎。
如图所示,现有的视觉专家辅助方法(如DyFo)在极小目标上覆盖不足,而基于扫描的方法(如RAP)效率又太低。CVSearch的出现,正是为了在效率和鲁棒性之间找到那个完美的平衡点。
方法详解:像人类一样"按需搜索"
CVSearch的核心是一个三阶段的认知工作流,它将视觉搜索重新定义为一个分层的决策过程。
1. 认知驱动的自适应切换机制
CVSearch的核心理念是"先评估、再搜索"——模型首先对图像进行整体感知,判断哪些区域需要重点关注,然后再针对性地调用视觉专家进行细粒度分析。这种机制模拟了人类看图时的注意力分配:先扫一眼全局,找到值得关注的区域,再凑近看细节。
认知驱动机制示意图,展示自适应切换逻辑
与传统方法相比,CVSearch的优势在于:
语义完整性保护:避免网格切分把物体主体切断,保留完整的语义信息
计算资源高效利用:只对高价值区域调用专家模型,避免全图扫描
鲁棒性保障:即使专家模型判断失误,仍有场景感知扫描作为兜底
2. 场景感知网格切分(SGAP)
当专家搜索无法完全覆盖目标时,CVSearch采用了一种智能的网格切分策略。与传统刚性网格不同,SGAP能够感知场景语义,自动避开物体主体,只在留白区域进行切分。
SGAP策略与传统网格切分的对比
从定性对比可以清晰地看到:传统的网格切分(Zoom Eye/RAP)会把商店招牌、教堂尖顶、卡车车头无情切断。而CVSearch的SGAP策略则像是有灵性一样,完美避开了物体主体,保留了完整的语义信息。
实验结果:免训练也能刷爆榜单
研究团队在多个高分辨率基准测试上验证了CVSearch的威力。由于它是**免训练(Training-free)**的,可以直接"插"在Qwen2.5-VL、LLaVA-OV或InternVL2.5等模型上使用。
1. 性能大幅领先
在专门针对高分辨率的V* Bench上,CVSearch配合LLaVA-OV-7B达到了91.6的惊人准确率。在更具挑战性的HR-Bench 8K任务中,配合InternVL2.5-8B更是达到了77.6的SOTA成绩,相比原始模型提升了整整20.2个百分点!
基准测试 | 基础模型 | 原始成绩 | +CVSearch | 提升 |
|---|---|---|---|---|
V* Bench | LLaVA-OV-7B | 91.6 | SOTA | |
HR-Bench 8K | InternVL2.5-8B | 57.4 | 77.6 | +20.2 |
HR-Bench 4K | Qwen2.5-VL | 75.8 | 显著提升 | |
2. 搜索效率的质变 |
相比于传统的扫描方法(如Zoom Eye和RAP),CVSearch在保持高精度的同时,吞吐量提升了数倍。在HR-Bench 4K任务中,CVSearch的吞吐量达到了3.77,而传统扫描方法仅为1.2左右。
这意味着CVSearch不仅"看得准",而且"看得快",真正实现了效率和精度的双赢。
3. 跨模型与尺寸的稳健性
实验表明,CVSearch具有极强的通用性。无论是2B的小模型还是32B的大模型,集成该框架后性能均有显著提升。例如,在Qwen3-VL-32B上,它依然能在HR-8K任务上带来7.5点的增益。
技术启示:从"暴力计算"到"认知智能"
CVSearch的成功给我们带来了重要启示:提升视觉模型的高分辨率感知能力,未必要靠更大的计算量、更复杂的架构。关键在于让模型学会像人类一样"按需分配注意力"——先看轮廓、再找重点、最后扫细节。
这种"认知驱动"的设计理念,不仅解决了高分辨率感知的痛点,也为未来开发更高效、更智能的视觉交互系统开辟了新路径。
开源与展望
目前代码已经开源(GitHub: liliupeng28/ICML26-CVSearch),对于想要在超清图像理解、小目标检测等领域有所突破的开发者来说,这是一个值得尝试的工具。
CVSearch项目GitHub页面
未来,研究团队计划进一步探索:
将CVSearch扩展到视频理解领域
结合多模态大模型的推理能力,实现更复杂的视觉问答
探索端到端的可训练版本,在特定任务上进行微调优化
看到如此精彩的计算机视觉研究成果,是否也想站上国际学术舞台展示你的工作?
IC-EISIT 2026(International Conference on Electronic Information Systems and Intelligent Technologies)由SPIE出版,EI Compendex + Scopus双检索,快展示你的研究一起共同交流吧!
©洵锋学术(SUNFER ACADEMIC)————洵启学术,专业凝锋
版权说明:以上图片均来自开源技术博客及论文公开资源,版权归属各原作者
