[ICML2023]CLIPood Generalizing CLIP to Out-of-Distributions-尧图网站建设

📅 发布时间：2026/6/23 2:16:16

Background

OOD泛化任务（Out-of-Distribution (OOD) Generalization）包含两类子任务：
1761462444353

域偏移（domain shift）：指训练集和测试集分布不同，例如训练集是写实的，测试集是素描。这类问题的解决方法包括，主要是集中在训练阶段的源域上。例如：

让不同域的特征对齐
将特征解耦为域的特定知识和域的通用知识
用元学习的方式学习不同的域
设计数据增强任务
使用带权重的集成学习

开放类（open classes）：指测试集出现训练集不存在的类别。需要注意下，这里并不是把新类样本当作负样本，然后计算AUCROC，而是说，虽然训练集没见过新类，但是依然要对新类进行标签预测，这在CLIP这种图像-文本模型的测试中比较常见

CLIP在OOD泛化任务

区别于带label的训练集，CLIP在预训练阶段使用大规模的图片-文本对预训练，这使得CLIP学习了来自不同域的知识，对开放世界有着很强的zero-shot能力。

因此相较于使用标签学习的模型，CLIP有着出色的OOD泛化能力，和zero-shot一样都是对没见过的样本表现较强的鲁棒性。

CLIP虽然有着较强的zero-shot能力，但CLIP的预训练是任务无关的。为了满足下游任务需求，往往需要进行微调，来适应下游任务的分布。

有些文献（Wortsman et al., 2022）指出，微调后的CLIP的zero-shot能力会退化，特别是在分布与下游数据集不同时。

Motivation

作者希望设计一种微调方法。一方面，缓解上游数据集和下游数据集的分布gap。另一方面，考虑到下游数据集数据有限，并且OOD泛化任务遇到的样本和分布是未知的，所以作者希望尽可能保留住原来模型的zero-shot的能力

\[P(y|\mathbf{x})=\frac{\exp\left(\mathbf{w}_y\cdot g_I\left(\mathbf{x}\right)\right)}{\sum_{c=1}^C\exp\left(\mathbf{w}_c\cdot g_I\left(\mathbf{x}\right)\right)}. \]

标准的微调是后训练一个线性分类器\(\mathbf{w}_y\)，输入图像特征，得到概率分布。这抛弃了文本模型，也破坏了图像-文本的特征对齐，降低了模型的泛化能力。此外，线性分类器的设置取决于训练集，很难泛化到未见类。因此文中，作者保留了图像-文本对的训练方式。

\[P(y|\mathbf{x})=\frac{\exp\left(S\left(\mathbf{I_x},\mathbf{T_y}\right)/\tau\right)}{\sum_{c=1}^C\exp\left(S\left(\mathbf{I_x},\mathbf{T_c}\right)/\tau\right)}, \]

下游数据集中，图像信息很丰富。但文本信息相较于预训练阶段非常少，仅有固定的prompt构造的文本："an photo of a [CLASS]"。因此常见的作法是仅微调图像编码器，固定文本编码器，避免文本特征坍缩。

但这样的损失函数，将图片和正确的文本对齐，但是平等得对待其他的负样本，忽略了一些与正样本相似的类。因此我们可以用两个类别的文本描述的相似度表示量化两个类的相似度。

Method

Margin Metric Softmax（MMS）

\(\mathcal{L}=-\log\frac{\exp\left(S\left(\mathbf{I_x},\mathbf{T_y}\right)/\tau\right)}{\sum_{c=1}^C\exp\left(\left(S\left(\mathbf{I_x},\mathbf{T_c}\right)+\lambda\cdot D\left(\mathbf{T_y},\mathbf{T_c}\right)\right)/\tau\right)}.\)

\(D\left(\mathbf{T}_y,\mathbf{T}_c\right)=1-S\left(\mathbf{T}_y,\mathbf{T}_c\right).\)

这里就引出了作者第一个改动，用\(D\)量化两个类别之间的距离，这样保证了图-文对齐，也考虑了语义相关性增强了泛化能力。

1761477932188

上图表示取预测的概率分布的 top-5。在引入了margin后，模型做到正确预测的同时，置信度较高的也是相似的类

Beta Moving Average

尽管微调能帮助更好地适应下游任务，但是可能会引起预训练模型参数变化过大导致灾难性遗忘、以及特征坍缩。这里作者提出一种beta移动平均的参数更新方式。

假设更新参数\(T\)次，每次的模型参数为：\(\{\theta_t\}_{t=0}^T\)。然后计算参数的加权平均：\(\theta_{\text{AVG}} = \frac{1}{T} \sum_{t=1}^{T} \theta_t\)。\(\alpha_t=\mathrm{Beta}(\beta,\beta)\left(\frac{t+0.5}{T+1}\right)\)，\(t\)越大的参数权重越大。

考虑到参数存储开销，可以改写为：

\[\theta_t^{\mathrm{BMA}}=\frac{\sum_{k=0}^{t-1}\alpha_k}{\sum_{k=0}^t\alpha_k}\cdot\theta_{t-1}^{\mathrm{BMA}}+\frac{\alpha_t}{\sum_{k=0}^t\alpha_k}\cdot\theta_t. \]

之前权重的和，乘上上一步参数，加上当前参数乘上当前权重。作者还把BMA和常见的EMA进行比较：

1761479205111

Experiment

域适应任务：每个数据集有M个域，选择M-1个域进行训练，选择一个域进行测试。重复M次，求平均值。

1761479241723

新类发现任务：将数据集的类分成两部分，一部分base作为已知类，一部分新类new仅出现在测试集，作为测试模型的泛化能力。

参考文献

Shu, Yang, et al. "Clipood: Generalizing clip to out-of-distributions." International conference on machine learning. PMLR, 2023.