尧图网站建设 尧图网络
  • 首页
  • 关于我们
  • 服务项目
  • 案例展示
  • 建站流程
  • 资讯中心
  • 联系我们
首页/资讯中心/详情

ICLR2026 !SAM3重磅来袭:能“听懂人话”的分割模型,性能狂飙2倍

ICLR2026 !SAM3重磅来袭:能“听懂人话”的分割模型,性能狂飙2倍
📅 发布时间:2026/6/19 17:06:47

Part one :论文概述

论文标题: SAM3: Segment Anything with Concepts

作者团队: Anonymous authors

发布时间: ICLR2026

👉一键直达论文

👉Lab4AI大模型实验室论文阅读

01 摘要解析

SAM3(SegmentAnythingModel3)代表了图像和视频分割领域的重大突破,这是一个基于概念提示的统一模型,能够检测、分割和跟踪图像视频中的对象。其核心创新在于提出了可提示概念分割(PromptableConceptSegmentation,,PCS),支持通过短名词短语(如“黄色校车”)、图像范例或二者组合作为提示,为所有匹配对象实例返回分割掩码和唯一标识。传统方法相比,SAM3在图像和视频PCS任务上实现了2倍的性能提升,同时在交互式视觉分割任务中也改进了前代SAM的能力。

02 研究背景与动机

计算机视觉中寻找和分割视觉场景中任何对象的能力是多模态AI的基础,支撑着机器人技术、内容创作、增强现实、数据注释和科学领域的应用。虽然SAM系列引入了通过交互式提示分割图像视频中对象的概念,但SAM1和SAM2主要关注视觉提示(点、框、掩码),且每个提示仅分割单个对象实例,存在明显局限:

  • 任务范围窄: 仅聚焦单提示单目标实例分割,无法处理“分割场景中所有某类概念目标”,如视频中所有“猫”;

  • 提示类型受限: SAM1、SAM2以视觉提示为主,对文本概念的泛化能力不足;

  • 开放性不足: 难以应对开放词汇表场景下的歧义问题(如“小窗户”的主观性边界定义)。为解决上述问题,SAM3扩展出提示性概念分割(PCS)任务,填补“概念级全实例分割”的技术空白。

03 可提示概念分割(PCS)

PCS任务的核心目标是:给定一张图像或时长≤30秒的短视频,模型根据概念提示(短名词短语、图像示例或两者结合),完成检测、分割、跟踪符合概念的对象。 该类任务的本质是开放词汇,它具有固有的模糊性或歧义。许多概念存在多种解释,例如“小窗户”是主观的(小vs大)且边界模糊(有百叶窗vs无百叶窗)。

SAM3研究团队通过三大方式缓解: 一是在SA-Co基准的Gold子集为每个数据点收集3名位专家的标注,允许“多有效解释” ;二是在数据标注阶段制定清晰指南,减少标注歧义;三是在模型中引入“歧义模块”,学习概念的不同合理解释。

04 架构设计

SAM3基于SAM2与DETR架构扩展,SAM3采用检测器与跟踪器共享视觉编码器的双路径架构。PE是SAM3的“多模态特征中枢”,负责统一编码图像、文本、图像示例的特征,为检测器与跟踪器提供对齐的视觉-语言嵌入。检测器基于DETR范式设计,核心创新是“解耦识别与定位”,解决传统DETR中“单个目标查询需同时负责‘目标是否存在(识别)’与‘目标在哪里(定位)’”的矛盾。跟踪器继承SAM2的Transformer编解码器架构,核心是实现“检测器新目标检测+跟踪器掩码传播+实例匹配更新”的闭环流程,确保视频帧间实例ID的一致性与掩码精度。

简单来说就是,SAM3能理解点或者框圈出来的物体(exemplar),也能理解提示概念(a penguin)。

05 四阶段数据引擎

为解决PCS任务 “数据稀缺且概念覆盖不足” 的问题,研究团队构建了四阶段数据引擎,通过与SAM3、人类标注员和AI标注员的反馈循环迭代地生成注释数据。数据引擎分四个阶段演进,每个阶段增加AI模型的使用,将人类努力导向最具挑战性的失败案例,同时扩展视觉领域覆盖范围。

  • 阶段1:人类验证。 该阶段的目标是建立“人工标注基准”,为后续AI标注器训练提供高质量数据。
  • 阶段2:人类+AI验证。 使用第一阶段收集的人工标注数据微调Llama3.2,得到两个AI验证器:一是“掩码验证器(MVAI)”,判断掩码与概念提示的匹配度;二是“完整性验证器(EVAI)”,判断掩码是否覆盖所有实例。
  • 阶段3:扩展与领域扩展。 该阶段聚焦“长尾概念”与“多领域数据”,使用AI模型挖掘日益挑战性的案例,将领域覆盖扩展到15个数据集,通过从可用alt-text中提取NP扩展概念覆盖。
  • 阶段4:视频标注。 该阶段将数据引擎扩展到视频,聚焦“视频特有挑战”(如遮挡、快速运动、帧间实例关联)。

这种数据引擎设计使标注吞吐量翻倍,最终产生了包含400万个独特短语和5200万个掩码的高质量训练数据集,以及包含3800万个短语和14亿个掩码的合成数据集。

06 实验设计与结果分析

应用研究团队在图像/视频PCS、少样本迁移、目标计数、复杂查询分割等任务上验证SAM3性能,详细结果可见论文原文。

Part Two: 论文原文阅读

您可以跳转到Lab4AI平台上去阅读论文原文。

👉Lab4AI大模型实验室论文阅读

目前,SAM3论文的复现工作还在招募中,欢迎各位感兴趣的朋友报名参与复现创作,我们提供一定额度的H800算力作为奖励。

Lab4AI大模型实验室已经提供🔥SAM2论文的一键复现🔥,您无需准备代码、模型、数据、环境,即可一键快速体验:👉Lab4AI大模型实验室论文复现

  • Lab4AI.cn覆盖全周期科研支撑平台,提供论文速递、AI翻译和AI导读工具辅助论文阅读;
  • 支持投稿论文复现和Github项目复现,动手复现感兴趣的论文;
  • 论文复现完成后,您可基于您的思路和想法,开启论文创新与成果转化。

相关新闻

  • [题解]P11294 [NOISG 2022 Qualification] Tree Cutting
  • uniapp开发H5避坑指南
  • 精准把控VBAT,轻松规避电源设计99%陷阱

最新新闻

  • 终极游戏分屏指南:让任何PC游戏都能本地多人对战
  • 本地代码AI工作流:Ollama+VSCode替代Codex实战指南
  • 沧州家长口碑优选!2026单招择校高满意度机构,差异对比一目了然 - 快乐的大脚123
  • 2026 年邯郸厨卫屋顶防水修缮三家对比测评 吉修匠 99.8 分 - 吉修匠
  • 2026 年 6 月最新资讯:萧邦国内全部官方维修门店地址全面更新公示,专属全国服务热线同步上线运行 - 亨得利中国服务中心
  • 卡地亚 2026 年 6 月全国官方维修网点实地调研验证报告:统一服务流程全面更新,专属售后体验迎来系统性全新升级 - 卡地亚中国服务中心

日新闻

  • 信任的进化:技术实现详解——如何用JavaScript构建博弈论模拟器
  • Terrakube自定义工作流:如何集成OPA、Infracost等工具扩展IaC能力
  • grunt-concurrent快速入门:5分钟学会并行运行Grunt任务

周新闻

  • 3步解锁iOS设备:applera1n激活锁绕过完全指南
  • 39 2026 人工智能证书终极盘点,普通人选 AI 证书可以从这些方向入手
  • Redis 暴露公网有多危险?从端口检查到补救步骤

月新闻

  • 【总结】入门篇:50句话让你记住架构核心概念
  • WeChatMsg技术方案解析:实现Mac微信数据自主管理的完整解决方案
  • WeChatMsg:革新性微信数据备份方案,打造你的专属数字记忆库

关于尧图

  • 公司简介
  • 团队介绍
  • 企业文化
  • 荣誉资质

服务项目

  • 定制开发
  • 电商建站
  • UI 设计
  • 运维服务

快速链接

  • 案例展示
  • 建站流程
  • 常见问题
  • 资讯中心

联系方式

  • 📍北京市朝阳区互联网产业园 A 座 10 层
  • 📞400-888-8888
  • ✉️contact@rkmt.cn
  • 🕐周一至周日 9:00-21:00

© 2024 北京尧图网络科技有限公司 版权所有 | 京 ICP 备 XXXXXXXX 号