尧图网站建设 尧图网络
  • 首页
  • 关于我们
  • 服务项目
  • 案例展示
  • 建站流程
  • 资讯中心
  • 联系我们
首页/资讯中心/详情

[ICML2023]CLIPood Generalizing CLIP to Out-of-Distributions

[ICML2023]CLIPood Generalizing CLIP to Out-of-Distributions
📅 发布时间:2026/6/23 2:16:16

Background

OOD泛化任务(Out-of-Distribution (OOD) Generalization)包含两类子任务:
1761462444353

域偏移(domain shift):指训练集和测试集分布不同,例如训练集是写实的,测试集是素描。这类问题的解决方法包括,主要是集中在训练阶段的源域上。例如:

  • 让不同域的特征对齐
  • 将特征解耦为域的特定知识和域的通用知识
  • 用元学习的方式学习不同的域
  • 设计数据增强任务
  • 使用带权重的集成学习

开放类(open classes):指测试集出现训练集不存在的类别。需要注意下,这里并不是把新类样本当作负样本,然后计算AUCROC,而是说,虽然训练集没见过新类,但是依然要对新类进行标签预测,这在CLIP这种图像-文本模型的测试中比较常见

CLIP在OOD泛化任务

区别于带label的训练集,CLIP在预训练阶段使用大规模的图片-文本对预训练,这使得CLIP学习了来自不同域的知识,对开放世界有着很强的zero-shot能力。

因此相较于使用标签学习的模型,CLIP有着出色的OOD泛化能力,和zero-shot一样都是对没见过的样本表现较强的鲁棒性。

CLIP虽然有着较强的zero-shot能力,但CLIP的预训练是任务无关的。为了满足下游任务需求,往往需要进行微调,来适应下游任务的分布。

有些文献(Wortsman et al., 2022)指出,微调后的CLIP的zero-shot能力会退化,特别是在分布与下游数据集不同时。

Motivation

作者希望设计一种微调方法。一方面,缓解上游数据集和下游数据集的分布gap。另一方面,考虑到下游数据集数据有限,并且OOD泛化任务遇到的样本和分布是未知的,所以作者希望尽可能保留住原来模型的zero-shot的能力

\[P(y|\mathbf{x})=\frac{\exp\left(\mathbf{w}_y\cdot g_I\left(\mathbf{x}\right)\right)}{\sum_{c=1}^C\exp\left(\mathbf{w}_c\cdot g_I\left(\mathbf{x}\right)\right)}. \]

标准的微调是后训练一个线性分类器\(\mathbf{w}_y\),输入图像特征,得到概率分布。这抛弃了文本模型,也破坏了图像-文本的特征对齐,降低了模型的泛化能力。此外,线性分类器的设置取决于训练集,很难泛化到未见类。因此文中,作者保留了图像-文本对的训练方式。

\[P(y|\mathbf{x})=\frac{\exp\left(S\left(\mathbf{I_x},\mathbf{T_y}\right)/\tau\right)}{\sum_{c=1}^C\exp\left(S\left(\mathbf{I_x},\mathbf{T_c}\right)/\tau\right)}, \]

下游数据集中,图像信息很丰富。但文本信息相较于预训练阶段非常少,仅有固定的prompt构造的文本:"an photo of a [CLASS]"。因此常见的作法是仅微调图像编码器,固定文本编码器,避免文本特征坍缩。

但这样的损失函数,将图片和正确的文本对齐,但是平等得对待其他的负样本,忽略了一些与正样本相似的类。因此我们可以用两个类别的文本描述的相似度表示量化两个类的相似度。

Method

Margin Metric Softmax(MMS)

\(\mathcal{L}=-\log\frac{\exp\left(S\left(\mathbf{I_x},\mathbf{T_y}\right)/\tau\right)}{\sum_{c=1}^C\exp\left(\left(S\left(\mathbf{I_x},\mathbf{T_c}\right)+\lambda\cdot D\left(\mathbf{T_y},\mathbf{T_c}\right)\right)/\tau\right)}.\)

\(D\left(\mathbf{T}_y,\mathbf{T}_c\right)=1-S\left(\mathbf{T}_y,\mathbf{T}_c\right).\)

这里就引出了作者第一个改动,用\(D\)量化两个类别之间的距离,这样保证了图-文对齐,也考虑了语义相关性增强了泛化能力。

1761477932188

上图表示取预测的概率分布的 top-5。在引入了margin后,模型做到正确预测的同时,置信度较高的也是相似的类

Beta Moving Average

尽管微调能帮助更好地适应下游任务,但是可能会引起预训练模型参数变化过大导致灾难性遗忘、以及特征坍缩。这里作者提出一种beta移动平均的参数更新方式。

假设更新参数\(T\)次,每次的模型参数为:\(\{\theta_t\}_{t=0}^T\)。然后计算参数的加权平均:\(\theta_{\text{AVG}} = \frac{1}{T} \sum_{t=1}^{T} \theta_t\)。\(\alpha_t=\mathrm{Beta}(\beta,\beta)\left(\frac{t+0.5}{T+1}\right)\),\(t\)越大的参数权重越大。

考虑到参数存储开销,可以改写为:

\[\theta_t^{\mathrm{BMA}}=\frac{\sum_{k=0}^{t-1}\alpha_k}{\sum_{k=0}^t\alpha_k}\cdot\theta_{t-1}^{\mathrm{BMA}}+\frac{\alpha_t}{\sum_{k=0}^t\alpha_k}\cdot\theta_t. \]

之前权重的和,乘上上一步参数,加上当前参数乘上当前权重。作者还把BMA和常见的EMA进行比较:

1761479205111

Experiment

  • 域适应任务:每个数据集有M个域,选择M-1个域进行训练,选择一个域进行测试。重复M次,求平均值。

1761479241723

  • 新类发现任务:将数据集的类分成两部分,一部分base作为已知类,一部分新类new仅出现在测试集,作为测试模型的泛化能力。

参考文献

  • Shu, Yang, et al. "Clipood: Generalizing clip to out-of-distributions." International conference on machine learning. PMLR, 2023.

相关新闻

  • 最短路学习笔记
  • 语文_阅读_The power of curiosity in science_待读
  • 大学课堂“走神危机”,认真听讲能否破局?

最新新闻

  • Excel 批量导入实战:当 EasyExcel 遇上单元格嵌入附件
  • 终极免费方案:如何让小爱音箱告别会员限制,实现无限音乐自由
  • 自然语言驱动全栈开发:从想法到完整项目,AI 编程的能力边界在哪里
  • 如何用猫抓Cat-Catch实现浏览器资源嗅探:终极免费视频下载工具指南
  • 异步 FIFO 的时序约束
  • 音乐歌词下载终极指南:免费获取网易云QQ音乐LRC歌词的完整方案

日新闻

  • Arduino-ESP32项目深度解析:解锁隐藏芯片支持与架构演进
  • 2026年 系统窗厂家/品牌推荐榜单:隔音系统窗+高端系统门窗的核心优势与选购指南 - 品牌发掘
  • NVBench:首个双语非言语发声语音合成评测基准详解与实践

周新闻

  • Visual C++运行库修复终极指南:5分钟快速解决Windows软件启动错误
  • 手把手教你构建统计局地区经济数据爬虫:从环境搭建到数据持久化全指南
  • 2026多Agent深度解析:用AI团队替代单一模型,四种架构实战落地

月新闻

  • 【总结】入门篇:50句话让你记住架构核心概念
  • WeChatMsg技术方案解析:实现Mac微信数据自主管理的完整解决方案
  • WeChatMsg:革新性微信数据备份方案,打造你的专属数字记忆库

关于尧图

  • 公司简介
  • 团队介绍
  • 企业文化
  • 荣誉资质

服务项目

  • 定制开发
  • 电商建站
  • UI 设计
  • 运维服务

快速链接

  • 案例展示
  • 建站流程
  • 常见问题
  • 资讯中心

联系方式

  • 📍北京市朝阳区互联网产业园 A 座 10 层
  • 📞400-888-8888
  • ✉️contact@rkmt.cn
  • 🕐周一至周日 9:00-21:00

© 2024 北京尧图网络科技有限公司 版权所有 | 京 ICP 备 XXXXXXXX 号