当前位置: 首页 > news >正文

ICLR2026 !SAM3重磅来袭:能“听懂人话”的分割模型,性能狂飙2倍

Part one :论文概述

论文标题: SAM3: Segment Anything with Concepts

作者团队: Anonymous authors

发布时间: ICLR2026

👉一键直达论文

👉Lab4AI大模型实验室论文阅读

01 摘要解析

SAM3(SegmentAnythingModel3)代表了图像和视频分割领域的重大突破,这是一个基于概念提示的统一模型,能够检测、分割和跟踪图像视频中的对象。其核心创新在于提出了可提示概念分割(PromptableConceptSegmentation,,PCS),支持通过短名词短语(如“黄色校车”)、图像范例或二者组合作为提示,为所有匹配对象实例返回分割掩码和唯一标识。传统方法相比,SAM3在图像和视频PCS任务上实现了2倍的性能提升,同时在交互式视觉分割任务中也改进了前代SAM的能力

02 研究背景与动机

计算机视觉中寻找和分割视觉场景中任何对象的能力是多模态AI的基础,支撑着机器人技术、内容创作、增强现实、数据注释和科学领域的应用。虽然SAM系列引入了通过交互式提示分割图像视频中对象的概念,但SAM1和SAM2主要关注视觉提示(点、框、掩码),且每个提示仅分割单个对象实例,存在明显局限:

  • 任务范围窄: 仅聚焦单提示单目标实例分割,无法处理“分割场景中所有某类概念目标”,如视频中所有“猫”;

  • 提示类型受限: SAM1、SAM2以视觉提示为主,对文本概念的泛化能力不足;

  • 开放性不足: 难以应对开放词汇表场景下的歧义问题(如“小窗户”的主观性边界定义)。为解决上述问题,SAM3扩展出提示性概念分割(PCS)任务,填补“概念级全实例分割”的技术空白。

03 可提示概念分割(PCS)

PCS任务的核心目标是:给定一张图像或时长≤30秒的短视频,模型根据概念提示(短名词短语、图像示例或两者结合),完成检测、分割、跟踪符合概念的对象。 该类任务的本质是开放词汇,它具有固有的模糊性或歧义。许多概念存在多种解释,例如“小窗户”是主观的(小vs大)且边界模糊(有百叶窗vs无百叶窗)。

SAM3研究团队通过三大方式缓解: 一是在SA-Co基准的Gold子集为每个数据点收集3名位专家的标注,允许“多有效解释” ;二是在数据标注阶段制定清晰指南,减少标注歧义;三是在模型中引入“歧义模块”,学习概念的不同合理解释

04 架构设计

SAM3基于SAM2与DETR架构扩展,SAM3采用检测器与跟踪器共享视觉编码器的双路径架构。PE是SAM3的“多模态特征中枢”,负责统一编码图像、文本、图像示例的特征,为检测器与跟踪器提供对齐的视觉-语言嵌入。检测器基于DETR范式设计,核心创新是“解耦识别与定位”,解决传统DETR中“单个目标查询需同时负责‘目标是否存在(识别)’与‘目标在哪里(定位)’”的矛盾。跟踪器继承SAM2的Transformer编解码器架构,核心是实现“检测器新目标检测+跟踪器掩码传播+实例匹配更新”的闭环流程,确保视频帧间实例ID的一致性与掩码精度。

简单来说就是,SAM3能理解点或者框圈出来的物体(exemplar),也能理解提示概念(a penguin)。

05 四阶段数据引擎

为解决PCS任务 “数据稀缺且概念覆盖不足” 的问题,研究团队构建了四阶段数据引擎,通过与SAM3、人类标注员和AI标注员的反馈循环迭代地生成注释数据。数据引擎分四个阶段演进,每个阶段增加AI模型的使用,将人类努力导向最具挑战性的失败案例,同时扩展视觉领域覆盖范围。

  • 阶段1:人类验证。 该阶段的目标是建立“人工标注基准”,为后续AI标注器训练提供高质量数据。
  • 阶段2:人类+AI验证。 使用第一阶段收集的人工标注数据微调Llama3.2,得到两个AI验证器:一是“掩码验证器(MVAI)”,判断掩码与概念提示的匹配度;二是“完整性验证器(EVAI)”,判断掩码是否覆盖所有实例。
  • 阶段3:扩展与领域扩展。 该阶段聚焦“长尾概念”与“多领域数据”,使用AI模型挖掘日益挑战性的案例,将领域覆盖扩展到15个数据集,通过从可用alt-text中提取NP扩展概念覆盖。
  • 阶段4:视频标注。 该阶段将数据引擎扩展到视频,聚焦“视频特有挑战”(如遮挡、快速运动、帧间实例关联)。

这种数据引擎设计使标注吞吐量翻倍,最终产生了包含400万个独特短语和5200万个掩码的高质量训练数据集,以及包含3800万个短语和14亿个掩码的合成数据集。

06 实验设计与结果分析

应用研究团队在图像/视频PCS、少样本迁移、目标计数、复杂查询分割等任务上验证SAM3性能,详细结果可见论文原文。

Part Two: 论文原文阅读

您可以跳转到Lab4AI平台上去阅读论文原文。

👉Lab4AI大模型实验室论文阅读

目前,SAM3论文的复现工作还在招募中,欢迎各位感兴趣的朋友报名参与复现创作,我们提供一定额度的H800算力作为奖励。

Lab4AI大模型实验室已经提供🔥SAM2论文的一键复现🔥,您无需准备代码、模型、数据、环境,即可一键快速体验:👉Lab4AI大模型实验室论文复现

  • Lab4AI.cn覆盖全周期科研支撑平台,提供论文速递、AI翻译和AI导读工具辅助论文阅读;
  • 支持投稿论文复现和Github项目复现,动手复现感兴趣的论文;
  • 论文复现完成后,您可基于您的思路和想法,开启论文创新与成果转化。
http://www.rkmt.cn/news/49614.html

相关文章:

  • [题解]P11294 [NOISG 2022 Qualification] Tree Cutting
  • uniapp开发H5避坑指南
  • 精准把控VBAT,轻松规避电源设计99%陷阱
  • RAID(磁盘阵列)技术介绍
  • Sora2、Nano Banana AI批量生图视频实战,API低价调用和免费批量生成教程
  • 7 款最佳自托管 AI 工具,快速构建业务应用
  • 2025年果胶裂解酶批发厂家权威推荐榜单:果胶甲酯酶/果胶酶纤维素酶/果胶酶源头厂家精选
  • 鸿蒙应用开发实战:集成农历功能
  • 2025 最新波纹管厂家推荐榜:隧道 / 双壁 / 打孔 / 防结晶波纹管优质厂家权威甄选双壁波纹管/打孔波纹管/隧道打孔波纹管公司推荐
  • 2025年富氢水素机加盟生产厂家权威推荐榜单:家用富氢水机加盟/富氢水机加盟/智能富氢水机加盟源头厂家精选
  • 2025年木纹转印加工服务优质厂家推荐榜单TOP10
  • 2025年木纹转印加工服务全方位解析与优质厂家推荐榜单
  • Python操作多波段图像改变数据结构
  • 迈向人机共生文明:AI元人文构想的理论框架、架构与意义
  • dp problems
  • 2025年栏杆制作厂家综合实力排行榜:专业视角下的五大优选厂商
  • uniapp开发抖音小程序避坑指南
  • Windows安装MySQL,无服务模式,随用随有,一键初始化,可替换phpstudy_pro
  • 读书笔记:为什么数据库存储LOB数据时要选择「行内存储」?
  • LuatOS exgnss扩展库应用精讲:GNSS调试与优化实战全景!
  • 2025年北京雅思培训机构哪家强,高分提分 / 定制课程 / 封闭集训 / 小班教学 / 全程督学机构推荐哪家好
  • Keycloak会话标识符重用漏洞导致会话劫持风险分析
  • 2025 最新净化工程厂家推荐排行榜 实验室 / 手术室 / 医药 / 食品 / 厂房洁净工程优质服务商医药/食品净化工程/净化车间工程公司推荐
  • TurboWarp 部署云变量服务
  • JSC2023 Max Degree Sum
  • 2025年燃生物质有机热载体锅炉生产厂家权威推荐榜单:燃生物质热水锅炉/生物质专用锅炉/生物质热水锅炉源头厂家精选
  • 在线文档大全
  • AI大事记12:Transformer 架构——重塑 NLP 的革命性技能(下)
  • 字的bi-gram可能是个馊主意
  • Proxmox VE9.0优化-功耗切换到智能模式