当前位置：首页 > news >正文

ICLR2026 ！SAM3重磅来袭：能“听懂人话”的分割模型，性能狂飙2倍

news 2026/6/1 5:38:51

Part one ：论文概述

论文标题： SAM3: Segment Anything with Concepts

作者团队： Anonymous authors

发布时间： ICLR2026

👉一键直达论文

👉Lab4AI大模型实验室论文阅读

01 摘要解析

SAM3（SegmentAnythingModel3）代表了图像和视频分割领域的重大突破，这是一个基于概念提示的统一模型，能够检测、分割和跟踪图像视频中的对象。其核心创新在于提出了可提示概念分割（PromptableConceptSegmentation,，PCS），支持通过短名词短语（如“黄色校车”）、图像范例或二者组合作为提示，为所有匹配对象实例返回分割掩码和唯一标识。传统方法相比，SAM3在图像和视频PCS任务上实现了2倍的性能提升，同时在交互式视觉分割任务中也改进了前代SAM的能力。

02 研究背景与动机

计算机视觉中寻找和分割视觉场景中任何对象的能力是多模态AI的基础，支撑着机器人技术、内容创作、增强现实、数据注释和科学领域的应用。虽然SAM系列引入了通过交互式提示分割图像视频中对象的概念，但SAM1和SAM2主要关注视觉提示（点、框、掩码），且每个提示仅分割单个对象实例，存在明显局限：

任务范围窄： 仅聚焦单提示单目标实例分割，无法处理“分割场景中所有某类概念目标”，如视频中所有“猫”；
提示类型受限： SAM1、SAM2以视觉提示为主，对文本概念的泛化能力不足；
开放性不足： 难以应对开放词汇表场景下的歧义问题（如“小窗户”的主观性边界定义）。为解决上述问题，SAM3扩展出提示性概念分割（PCS）任务，填补“概念级全实例分割”的技术空白。

03 可提示概念分割（PCS）

PCS任务的核心目标是：给定一张图像或时长≤30秒的短视频，模型根据概念提示（短名词短语、图像示例或两者结合），完成检测、分割、跟踪符合概念的对象。该类任务的本质是开放词汇，它具有固有的模糊性或歧义。许多概念存在多种解释，例如“小窗户”是主观的（小vs大）且边界模糊（有百叶窗vs无百叶窗）。

SAM3研究团队通过三大方式缓解： 一是在SA-Co基准的Gold子集为每个数据点收集3名位专家的标注，允许“多有效解释” ；二是在数据标注阶段制定清晰指南，减少标注歧义；三是在模型中引入“歧义模块”，学习概念的不同合理解释。

04 架构设计

SAM3基于SAM2与DETR架构扩展，SAM3采用检测器与跟踪器共享视觉编码器的双路径架构。PE是SAM3的“多模态特征中枢”，负责统一编码图像、文本、图像示例的特征，为检测器与跟踪器提供对齐的视觉-语言嵌入。检测器基于DETR范式设计，核心创新是“解耦识别与定位”，解决传统DETR中“单个目标查询需同时负责‘目标是否存在（识别）’与‘目标在哪里（定位）’”的矛盾。跟踪器继承SAM2的Transformer编解码器架构，核心是实现“检测器新目标检测+跟踪器掩码传播+实例匹配更新”的闭环流程，确保视频帧间实例ID的一致性与掩码精度。

简单来说就是，SAM3能理解点或者框圈出来的物体（exemplar），也能理解提示概念（a penguin）。

05 四阶段数据引擎

为解决PCS任务 “数据稀缺且概念覆盖不足” 的问题，研究团队构建了四阶段数据引擎，通过与SAM3、人类标注员和AI标注员的反馈循环迭代地生成注释数据。数据引擎分四个阶段演进，每个阶段增加AI模型的使用，将人类努力导向最具挑战性的失败案例，同时扩展视觉领域覆盖范围。

阶段1：人类验证。 该阶段的目标是建立“人工标注基准”，为后续AI标注器训练提供高质量数据。
阶段2：人类+AI验证。 使用第一阶段收集的人工标注数据微调Llama3.2，得到两个AI验证器：一是“掩码验证器（MVAI）”，判断掩码与概念提示的匹配度；二是“完整性验证器（EVAI）”，判断掩码是否覆盖所有实例。
阶段3：扩展与领域扩展。 该阶段聚焦“长尾概念”与“多领域数据”，使用AI模型挖掘日益挑战性的案例，将领域覆盖扩展到15个数据集，通过从可用alt-text中提取NP扩展概念覆盖。
阶段4：视频标注。 该阶段将数据引擎扩展到视频，聚焦“视频特有挑战”（如遮挡、快速运动、帧间实例关联）。

这种数据引擎设计使标注吞吐量翻倍，最终产生了包含400万个独特短语和5200万个掩码的高质量训练数据集，以及包含3800万个短语和14亿个掩码的合成数据集。