尧图网站建设 尧图网络
  • 首页
  • 关于我们
  • 服务项目
  • 案例展示
  • 建站流程
  • 资讯中心
  • 联系我们
首页/资讯中心/详情

LDC

LDC
📅 发布时间:2026/6/19 18:32:23

image

这篇论文旨在解决,CLIP存在类间混淆问题。

CLIP通过对比学习在大规模图文对上进行预训练,而不是直接优化分类边界,因此在分类任务中区分类别能力不足,存在明显的类间混淆。
而且,下游数据与预训练数据之间存在显著域差异进一步加剧了类间混淆,特别是类别间相似度较高时。

我们可以通过一个可学习模块来建模类间混淆,然后通过残差结构消除这些混淆。

下面是方法:

传统CLIP:

image

先计算每个图文对的余弦相似度(第3个),然后归一化这个值(第2个),然后最大值就是预测值(第1个)。

改进:

但是这时候是有类间混淆的,所以我们在最后比较最大值之前,应该用去除混淆的干净值来比较。所以要在归一化之后去除混淆,即:

image

混淆是怎么得到的呢?

将图像xi作为先验,然后通过归一化得到的值来学习类间混淆,即:

image

然后,我们方法中的参数通过最小化干净值(去了混淆的干净值)与标签值的交叉熵损失来优化:

image

最后,为了防止过度去混淆,采用了L1正则化的相似损失,以确保干净值(预测值)与原始值(预测值)保持相似:

image

总损失(交叉熵损失 + λ × 相似损失):

image

下面介绍一下模型及各个模块:

总体逻辑:

首先通过CLIP得到原始值。

下面的MAF会融合图像编码器的不同层的特征,以融合低层细节信息和高层语义信息,得到增强特征,

增强特征经过MLP得到 MAF的s值(特征值)。

ICD模块以增强特征为先验,通过残差结构从原始值来学习类间混淆得到 ICD的s值(类间混淆值)。

最后,ALF模块将 MAF的s值 与 ICD的s值 融合,其中 权重α 由 α Generator 得到。

MAF模块:

image

其中 Fusion 步骤有 WF 和 LF 两种方式:

image

WF中的 β 是预置权重;LF首先通过跨特征通道维度进行特征串接,然后使用 Adapter 降维。

image

ICD模块:

首先,A1 Adapter 从原始值 学习类间混淆模式,
A2 Adapter从增强特征学习类间混淆的先验,
然后 A1 和 A2 的输出 一起输入到 A3 Adapter,联合学习 原始值 和 增强特征 的类间混淆模式。
最后,通过残差结构去除学习到的混淆模式,得到干净值。

image

ALF模块:

将 MAF的s值(特征值) 和 ICD的s值(类间混淆值) 结合起来,权重α 由 α Generator 得到。

image

image

可以从公式注意到:α Generator的输入是增强特征。

优化:

image

image

最后,总损失:

image

下面是实验部分:
图像分类数据集(11个):ImageNet、Caltech101、DTD、EuroSAT、FGVCAircraft、Flowers102、Food101、OxfordPets、StanfordCars、SUN397、UCF101

比较的SOTA(基于CLIP的FSL方法)(11个):CoOp、VT-CLIP、Tip-Adapter、SuS-X、FAR、CALIP-FS、SGVA-CLIP、Proto-CLIP-F、APE、DAC-V、LP++

image

11个数据集和1个平均性能,红线是本文的LDC。

消融实验:

三个模块:

image

MAF中的四层特征、β取值、Projector:

image

ICD中的三个Adapter:

image

ALF中的α取值(通过α Generator自适应取值最好):

image

相关新闻

  • 完整教程:由JoyAgent观察AI Agent 发展
  • Spark计算引擎
  • 173天隧道技术篇防火墙组策略ICMPDNSSMB协议出网判断C2上线解决方案

最新新闻

  • 2026杭州黄金回收机构测评:全域正规门店排名优选 - 奢侈品回收评测
  • 期权定价实战:从BSM模型到Python代码实现
  • FanControl:Windows平台专业风扇智能温控的完整解决方案
  • 建构之法阅读笔记5
  • 别被线上虚高报价骗了!广州正规回收认准收的顶,报价即成交价 - 奢侈品回收测评
  • Honey Select 2终极游戏增强补丁:一键解锁完整游戏体验的完整解决方案

日新闻

  • 5分钟掌握Python进化算法:Geatpy高性能优化工具完全指南
  • Microchip 24AA044 EEPROM选型与应用全指南:从参数解析到实战编程
  • 华为的鸿蒙到底有多牛?为什么称作遥遥领先?

周新闻

  • 3步解锁iOS设备:applera1n激活锁绕过完全指南
  • 39 2026 人工智能证书终极盘点,普通人选 AI 证书可以从这些方向入手
  • Redis 暴露公网有多危险?从端口检查到补救步骤

月新闻

  • 【总结】入门篇:50句话让你记住架构核心概念
  • WeChatMsg技术方案解析:实现Mac微信数据自主管理的完整解决方案
  • WeChatMsg:革新性微信数据备份方案,打造你的专属数字记忆库

关于尧图

  • 公司简介
  • 团队介绍
  • 企业文化
  • 荣誉资质

服务项目

  • 定制开发
  • 电商建站
  • UI 设计
  • 运维服务

快速链接

  • 案例展示
  • 建站流程
  • 常见问题
  • 资讯中心

联系方式

  • 📍北京市朝阳区互联网产业园 A 座 10 层
  • 📞400-888-8888
  • ✉️contact@rkmt.cn
  • 🕐周一至周日 9:00-21:00

© 2024 北京尧图网络科技有限公司 版权所有 | 京 ICP 备 XXXXXXXX 号