vision transformer

VTAB：视觉任务适应性基准（visual task adaptation benchmark），是一个多元的、切实且具有挑战性的表征基准，基于以下原则：在所需领域内数据有限的情况下，找到更好的能够在未见任务上实现更优性能的表征。是用户选择最佳预训练表征的基准。

SOTA：全称是state of the art，是指在特定任务中目前表现最好的方法或模型。

摘要：transformer的体系结构已经成为了自然语言处理任务的事实上的标准，但它在计算机视觉上的应用仍然有限。在视觉上，注意力要么与卷积神经网络结合使用，要么用于代替神经网络中的某些组成部分，同时要保证其整体结构不变。我们证明了这种对CNN的依赖是不必要的，直接应用与图像patch 序列的transformer结构能够在图像的分类任务上表现的很好。在对大量数据进行预先训练，并将其转移到多个中型或小型图像识别基准测试(ImageNet、CIFAR-100、VTAB等)时，Vision Transformer与最先进的卷积网络相比获得了出色的结果，同时需要训练的计算资源大大减少。

网络结构:

Vision Transformer将输入图片分为了多个patch，再将每个patch经过Linear Projection of Flattened Patches层投影为固定长度的向量送入Transformer，后续encoder的操作与原始Transformer中完全相同，由于是对图片进行分类，因此在输入序列中加入一个特殊的token，该token对应的输出即为最后的类别预测。

（１）patch embedding：假设输入图片大小为224x224，将图片分为固定大小的patch，patch大小为16x16，则每张图片生成224x224/16x16=196个patch，即输入序列长度为196，每个patch的维度为16x16x3=768，线性投射层的维度为768xN (N=768)，因此输入通过线性投射层之后的维度依然为

196x768，即一共有196个token，每个token的维度是768。这里还需要加上一个特殊字符cls，因此最终的维度是197x168。到目前为止，已经通过patch embedding将一个视觉问题转化为了一个seq2seq 问题。

（2） position embedding：Vision Transformer同样需要输入位置编码来保留位置信息，Vision Transformer采用了标准可学习的1-D位置编码，在输入transformer encoding前将patch embedding 与position embedding按元素相加，而不是拼接。

（3） LN/multi-head attention/LN：LN输出维度依然是197x768。多头自注意力时，先将输入映射到q，k，v，如果只有一个头，qkv的维度都是197x768，如果有12个头（768/12=64），则qkv的维度是197x64，一共有12组qkv，最后再将12组qkv的输出拼接起来，输出维度是197x768，然后在过一层LN，维度依然是197x768。

（4） MLP：将维度放大再缩小回去，197x768放大为197x3072，再缩小变为197x768，一个block之后维度依然和输入相同，都是197x768，因此可以堆叠多个block。最后会将特殊字符cls对应的输出 zL0 作为encoder的最终输出，代表最终的image presentation。

实验： ViT 并不像 CNN 那样具有 Inductive Bias，若直接在 ImageNet 上训练，同 level 的 ViT 效果不如 ResNet。但若先在较大的数据集上预训练，然后再对特定的较小数据集进行微调，则效果优于ResNet。比如 ViT 在Google 私有的 300M JFT 数据集上预训练后，在 ImageNet 上的最好的 Top-1 ACC 可达 88.55%，这在当时已和 ImageNet上的 SOTA 相当了 (Noisy Student EfficientNet-L2 效果为88.5%，Google 最新的 SOTA 是 Meta Pseudo Labels，效果可达 90.2%)

为了探究数据集的大小对VIT性能的影响，作者又做了如下实验：（1）在不断增大的数据集上预训练 VIT模型，ImageNet, ImageNet-21k, and JFT-300M数据集（2）在9M、30M和90M的随机子集以及完整的JFT300M数据集上训练模型。均发现数据集越大，VIT的效果更好。作者也探究了不同架构之间的性能：Transformer（VIT）、ResNet（BIT）、Hybrid，发现在相同的计算预算下，VIT通常优于BIT。Hybrid在较小的计算预算下略优于VIT，但在较大的模型中，这种差异消失了。

菜单

分享

vision transformer

【0号教程】书写代码的必要前置工作

服务器代理配置指南

Vscode连接服务器失败的解决方案

记录一次GPU集群的存储崩溃

ddwgroup共享文件夹使用方式

服务器基础环境安装

Accelerate使用

Gitea简要使用教程

配置IB网卡的ip地址和测试带宽

论文学习

分享