尧图网站建设 尧图网络
  • 首页
  • 关于我们
  • 服务项目
  • 案例展示
  • 建站流程
  • 资讯中心
  • 联系我们
首页/资讯中心/详情

SAM+ARM

SAM+ARM
📅 发布时间:2026/6/18 18:04:40

image

一、首先是图像caption的生成。

输入的图像,被输入进BLIP的图像编码器得到图像嵌入image,图像嵌入再经过image(BLIP Image-grounded Text Decoder)
得到图像caption。

image

ti表示caption的第i个单词,总共有L个单词。

但是,caption中会存在与目标对象无关的内容(floor),分散了注意力。所以我们使用spaCy库进行词性标记,提取出现在caption中的第一个名词。

二、Initial Multimodal Prompt的生成。

我们将图像嵌入image与名词image输入进BLIP Image-grounder Text Encoderimage,然后它会输出一个分数S,反应输入图像与文本的匹配程度。

image

Across表示来自image的cross attention layer的注意力权重,反映着图像和文本的关系。

接着,通过反向传播以获得梯度Gcross,Gcross再与Aross进行element-wise(逐元素运算)。

image

Pinit就是Initial Multimodal Prompt。
Grad-CAM表示梯度加权类激活映射,是一种可视化技术,可视化BLIP(输入多模态数据后)的对齐过程,以生成热力图(Pinit)。
这里的平均操作是,对每个注意头下不同文本序列对图像的影响进行平均,从而得到最终的Pinit。
也就是说,哪里影响最大,图像的哪里就高亮。

image

上面得到Pinit后,我们发现Initial的掩码是不完整的,所以我们设计了ARM模块来优化这个不完整prompt。
因为,我们输入的文本只有一个名词,并没有额外的描述,所以最初生成的prompt只能粗略地之时对象的位置,而不能完全捕获其结构。

三、ARM
1、Adapter部分

image

对于每一个Adapter模块,计算过程是(Conv是二维卷积):

image

对于第k个Adapter模块的输出:

image

等号左边是第k个Adapter模块的输出,右边的第一个Emb是从上面来的Vision Embedding(BLIP Image Encoder),第二个Emb是从下面来的嵌入(SAM Image Encoder中的第k个Transformer Layer输出的图像嵌入)。

2、SAM图像编码器的优化。

上面第k个Adapter的输出与SAM图像编码器中第k个Transformer层的输出相结合,作为第k+1个Transformer层的输入。

image

从左到右,第一个Emb是第k+1个Transformer层的输入,第二个Emb是第k个Adapter的输出,第三个Emb是第k个Transformer层的输出。

3、对热力图的优化。

受CLIP-ES[32]的启发,我们不重新训练另外的模型来精炼Pint,而是从image中提取注意力权重Aself,并使用最后一层Adapter的输出(吸取了所有的图像信息)来调整注意力权重。

image

问:为什么要从image中提取?

答:我们的Pinit是通过输入image和名词然后对齐得到的,所以要提取它里面的注意力权重。

然后:

image

其中,vec(M)是通过提取Pinit的高亮区域而产生的掩码M的矢量化。这里的第一个操作符还是Element-wise逐元素运算,第二个是矩阵乘法。

然后我们就得到了优化后的热力图,提取其中的高亮区域,得到最终的高质量掩码。

4、最后SAM Decoder的输入(共三个输入)。

(1)上一步生成的高质量掩码,经过SAM Prompt Encoder,生成密集嵌入。这是第一个输入。

image

(2)将SAM图像编码器中最后一个Transformer层产生的图像嵌入与ARM模块中最后一个Adapter层产生的图像嵌入相结合,得到最终的图像嵌入。这是第二个输入。

image

(3)我们把名词输入进Mamba得到对应的文本嵌入image
,再将文本嵌入与image相结合,得到辅助稀疏嵌入。这是第三个输入。

image

这三个一起输入进SAM Decoder,得到最终的分割结果。

总结一下整个过程:

1、图像输入进BLIP图像编码器得到图像嵌入,
2、这个图像嵌入先经过文本解码器得到描述,
3、在描述中提取第一个名词,输入进BLIP Image-grounded Text Encoder得到文本嵌入,
4、在BLIP Image-grounded Text Encoder中进行图像嵌入和文本嵌入的对齐,得到Pinit。
5、但是Pinit是低质量的,所以我们引入了ARM模块来优化Pinit。
(1)ARM一方面用来优化SAM Image Encoder,有效地将Adapter提取的图像特征集成到SAM中(第k个Adapter的输出与第k个Transformer的输出相结合作为第k+1个Transformer的输入),
(2)ARM一方面通过调整图像嵌入里的注意力权重(最后一个Adapter的输出与初始权重Elemrnt-wise)来优化Pinit。
6、得到高质量掩码后,最后输入进SAM Decoder就好了。
7、另外还有一个辅助稀疏嵌入,将名词输入进Mamba得到文本嵌入,然后与图像嵌入级联Concat。

实验:

常用的COD数据集(4个):CHAMELEON、CAMO、COD10K、NC4K

评估指标(4个,前三个值越高效果越好,第四个值越小效果越好):

image

与其他SOTA的比较(table 1、figure 5):

image

image

相关新闻

  • 《代码大全2》观后感(二):需求分析——代码质量的“源头防线”
  • NRF54LM20A 芯片的优点
  • CFS任务的负载均衡(load balance)

最新新闻

  • 2026 年 6 月 19 日北京东城区奢侈品名表回收核心门店专业测评 - 奢侈品回收
  • 2026湖北现代科技学校招生政策详解:报名条件+录取分数线+资助政策(免学费2000元/年+助学金6900元) - 速递信息
  • 物联网Lora模块串口通讯实战:数据收发与指令解析
  • 青岛名包回收避坑指南,认准资质齐全合扬门店保障交易安全 - 奢侈品交易观察员
  • 风管的连接方式优化:提升安装效率与质量
  • 《今日头条》Feed流接口逆向实战:Python爬虫全流程解析(含代码)

日新闻

  • 5分钟掌握Python进化算法:Geatpy高性能优化工具完全指南
  • Microchip 24AA044 EEPROM选型与应用全指南:从参数解析到实战编程
  • 华为的鸿蒙到底有多牛?为什么称作遥遥领先?

周新闻

  • 3步解锁iOS设备:applera1n激活锁绕过完全指南
  • 39 2026 人工智能证书终极盘点,普通人选 AI 证书可以从这些方向入手
  • Redis 暴露公网有多危险?从端口检查到补救步骤

月新闻

  • 【总结】入门篇:50句话让你记住架构核心概念
  • WeChatMsg技术方案解析:实现Mac微信数据自主管理的完整解决方案
  • WeChatMsg:革新性微信数据备份方案,打造你的专属数字记忆库

关于尧图

  • 公司简介
  • 团队介绍
  • 企业文化
  • 荣誉资质

服务项目

  • 定制开发
  • 电商建站
  • UI 设计
  • 运维服务

快速链接

  • 案例展示
  • 建站流程
  • 常见问题
  • 资讯中心

联系方式

  • 📍北京市朝阳区互联网产业园 A 座 10 层
  • 📞400-888-8888
  • ✉️contact@rkmt.cn
  • 🕐周一至周日 9:00-21:00

© 2024 北京尧图网络科技有限公司 版权所有 | 京 ICP 备 XXXXXXXX 号