当前位置：首页 > news >正文

【厦门大学-纪荣嵘组-arXiv25】全参考图像分割

news 2026/6/13 18:39:00

文章：Omni-Referring Image Segmentation

代码：https://github.com/As-Time-Goes-By/OmniSegNet

单位：厦门大学

一、问题背景

现有图像分割任务主要分为两类：一类是基于文本提示的RIS（Referring Image Segmentation），擅长通过文字描述定位具有特定属性或空间关系的常见物体，但面对难以用语言表达的目标时精度大幅下降；另一类是基于视觉参考的Visual RIS，依靠参考图像能有效定位罕见或难描述物体，却难以区分同类别下细节不同的对象。

此外，现有任务的分割设置较为单一，大多局限于一对一、一对多等简单场景，缺乏对多对多等复杂场景的支持，且无法灵活切换单模态与多模态提示，通用性和实用性受到极大限制。如何融合两种模态的优势，构建更通用、灵活的分割框架，成为当前领域的重要研究方向。

二、方法创新

1. 提出新型任务OmniRIS

首次提出全参考图像分割（Omni-Referring Image Segmentation, OmniRIS）任务，支持文本指令、带掩码/边界框/涂鸦的参考图像作为输入，可灵活组合单模态或多模态提示。同时覆盖一对一、一对多、多对一、多对多及无目标五种分割场景，实现高度通用的图像分割。

2. 构建大规模数据集OmniRef

为支撑任务研究，构建了包含30,956张图像、186,939个全模态提示的OmniRef数据集。数据集经过严格的四步构建流程（图像筛选、视觉标注、文本标注、全模态标注融合），划分了文本仅、视觉仅、全模态三种测试集，覆盖单目标、多目标、无目标等多种场景，规模远超现有RIS基准数据集。

3. 设计基线模型OmniSegNet

提出强基线模型OmniSegNet，核心创新在于：

新型全提示编码器（Omni-Prompt Encoder），包含提示嵌入模块（PEM）和提示生成器，实现文本与视觉空间提示的有效融合；
三步训练机制：先通过视觉-语言对齐预训练，再进行视觉指令微调，最后开展全模态联合训练，兼顾单模态与多模态处理能力；
多尺度特征融合与自适应掩码解码，可根据输入提示动态调整输出掩码数量。

三、实验结果

1. 数据集测试表现

在OmniRef的三种测试集上，OmniSegNet均表现优异：

文本仅测试集：与同规模骨干网络的方法相比，性能更优，展现出强大的文本指令理解能力；
视觉仅测试集：在掩码、边界框、涂鸦三种提示类型下，各项指标（cIoU、gIoU、Pr@0.7等）均超过现有先进视觉RIS方法；
全模态测试集：大幅超越ReLA+VRP-SAM等组合基线，证明其在多模态融合推理上的优势。

2. 泛化能力验证

在gRefCOCO、RefCOCO等传统RIS基准数据集上，OmniSegNet超越ReLA等SOTA方法，部分指标甚至优于大语言模型驱动的方法；
在PASCAL-5ᵢ少样本语义分割任务中，平均mIoU达到53.0，显著优于PerSAM、MIAPnet等专用模型，展现出极强的泛化能力。

3. 消融实验结论

视觉提示类型中，掩码提示因信息最完整表现最佳，边界框次之，涂鸦因覆盖有限表现稍弱；
提示嵌入模块中，加法融合比乘法融合更稳定，无融合时性能大幅下降，验证了模块的必要性；
文本与视觉数据的训练采样比为7:2时，模型在双模态任务上均达到最优平衡。

四、优势与局限

优势

模态融合：充分发挥文本的细粒度属性描述优势与视觉的罕见目标定位优势，解决单模态任务的固有缺陷；
场景灵活：支持五种分割场景和多种提示类型，可适配人机交互等实际应用中的复杂需求；
泛化性强：在传统RIS任务、少样本分割任务中均表现出色，无需针对特定任务重新设计模型；
数据优质：OmniRef数据集标注严格、场景丰富，为多模态分割研究提供了高质量基准。

局限

模型复杂度较高，全模态联合训练需要更多计算资源支持；
面对极端相似的同类别对象时，对细节差异的区分能力仍有提升空间；
长文本指令的理解效率和复杂空间关系的推理精度可进一步优化。

五、一句话总结

OmniRIS通过融合文本与视觉多模态提示，结合大规模数据集OmniRef和强基线模型OmniSegNet，突破了单模态分割任务的局限，实现了多场景、高通用的图像分割，为复杂场景下的交互式分割应用提供了新范式。

http://www.rkmt.cn/news/154882.html

相关文章：

Dify如何实现动态参数传递？运行时变量注入技巧

Dify中知识库权限分级管理：不同用户查看不同内容

基于DaVinci的AUTOSAR架构时间触发调度配置详解

空间关系判断：包含、相交与邻近分析

2、JMP软件可靠性与生存分析功能全解析

3、寿命分布分析：方法、应用与统计细节

深入探讨：AWS架构中的Nginx配置与负载均衡

4、可靠性与生存分析中的寿命分布及拟合方法

Dify平台能否用于法律咨询？专业领域适配挑战

深入解析Log4j2的RoutingAppender在单元测试中的应用

CAN回环测试 QA

Dify平台能否接入CRM系统？客户关系智能化升级

JAVA25新特性：AOT优化启动性能

处理PowerShell脚本中的异常：从401到429

Dify平台能否用于艺术创作？AI绘画提示词生成器

核心要点：确保CUDA版本与深度学习框架匹配的关键步骤

Dify平台能否用于股票分析？量化交易信号生成尝试

零基础入门LVGL的canvas画布渲染功能

Dify平台语音识别扩展可能性：结合ASR模型的应用

ECU端如何解析UDS 19服务子功能请求手把手教程

Dify平台能否构建AI主播？虚拟人后台逻辑设计

Dify平台是否支持微调？当前阶段的模型训练限制说明

rs485modbus协议源代码错误处理机制设计实践

Dify中Markdown输出支持情况：结构化内容生成体验

Windows系统USB-Serial Controller D驱动下载操作指南

Dify平台能否对接ERP系统？企业数字化转型切入点

CANoe中多节点ECU场景下UDS 28服务并发处理解析

L298N电机驱动模块基础应用：控制电机正反转操作指南

SDR无线通信原理：一文说清软件定义无线电的核心要点

WinDbg分析蓝屏dump文件：运维工程师快速理解手册