苟欢
发布于 2023-12-20 / 10 阅读
0

论文学习

SMMix: Self-Motivated Image Mixing for Vision Transformers

ICCV 2023

主要思路:

对于CutMix 这个增强策略,由于混合图像与相应标签之间的不一致可能会损害一定的效果。现有的 CutMix 变体通过生成更一致的混合图像或更精确的混合标签来解决这个问题,但不可避免地会带来繁重的训练开销或需要额外的信息。为此,作者提出了一种新颖有效的自激励图像混合方法(SMMix),该方法通过训练本身的模型来激励图像和标签增强。具体来说,作者提出了一种最大-最小注意力区域混合方法,该方法丰富了混合图像中的注意力集中对象。然后,又引入了一种细粒度的标签分配技术,该技术通过细粒度的监督来共同训练混合图像的输出标记。此外,还设计了一种新颖的特征一致性约束来对齐混合和非混合图像的特征。

SMMix框架

该模型包含三个框架,a)最大-最小注意力区域混合:根据图像注意力得分最大化混合图像的信息。 b) 细粒度标签分配:对来自不同区域的令牌应用不同的监督标签。 c)特征一致性约束:约束模型对混合和非混合图像提取一致的特征。

最大-最小注意力区域混合

作者的最大最小注意区域混合就是用源图像的最大得分区域替换目标图像的最小得分区域。

细粒度标签分配

为了实现用不同标签来监督混合图像中的不同区域,作者将最终输出图像标记序列 XM 重塑为 XM ∈ R H P ×W P ×d 的图像形状,其中 d 是最终标记嵌入大小。用不同区域的输出序列得到对应的预测分布,再与真实标签做交叉熵损失。

特征一致性约束

混合图像 xM 的语义内容相当于未混合图像 xA 和 xB 的语义内容的混合。然而混合图像的语义内容更加复杂,增加了特征提取的难度。为了帮助混合图像的特征与原始未混合图像的特征落入一致的空间,作者使用未混合图像是预测分布按一定比例与混合图像的预测分布做KL散度来进行约束。

实验结果

作者通过对比基于VIT的各种模型,运用不同的混合图像方法。结果显示作者的方法对比其他方法均有不同的提升。