vi文献综述,关于vi的论文

　　1.引言这篇文章解释了VIT的一篇论文，这是VIT和CNN争论的开始。

　　论文链接：戳我

　　Transformer结构最初应用于自然语言处理。本文希望找到一种方法，在不使用CNN的情况下，在图像分类任务中使用纯变换器结构，并使用少量计算资源进行训练，以获得更好的结果。

　　废话少说，我们开始吧！

　　2.变压器特点一般来说，变压器的一些优点如下：

　　卓越的计算效率和可扩展性。您可以预先训练大量数据，并在其他数据集中对其进行微调，以减少注意力转移器(计算资源)的缺乏：

　　需要大量的训练数据，缺乏CNN固有的归纳偏差，如翻译等变和局部性。当训练数据量不足时，就达不到良好的泛化能力。3.之前相关工作也有很多实验，大致可以分为以下三种方式：

　　对一幅图像的每个像素点进行局部多头点积自关注(local multi-head dot-product self-attention)基本上可以完全替代CNN的稀疏变换器，通过估计获得全局自关注。目的是通过使用不同大小的块来衡量注意力，从而关注整个图像，但在极端情况下，上述三种方法只能沿着轴来做。虽然都可以应用于图像任务，但是需要大量的计算资源和硬件要求。

　　2020年，Cordonnier提出了从输入图片中取出22面片，采用全自我关注的方式，这是最接近本文采用的方式，但本文进一步证明了用大量训练数据训练出来的Transformer比CNN SOTA具有更高的性能。

　　4.实施方法VIT的网络结果如下图所示：

　　主要处理流程如下：

　　路径嵌入：将输入为[H，W，C]的图像按照[P，P，C]的大小切割成N份，然后通过线性投影到D维，输出大小变成[N，D]。追加类别令牌嵌入：和BERT一样，在第0位添加一个可学习的嵌入作为类别的令牌，输出为[N ^ 1，D]。结论位置嵌入：直接使用1D位置嵌入，从0到N，实验中使用的一些2D的也差不多，输出为[N ^ 1，D ^ 1]。l层变压器编码器：变压器编码器如上图右侧所示。分类：在类标记位置的输出后面跟着MLP头进行分类。5.实验结果最终的定量实验结果如下：

　　定性结果如下：

　　以上实验表明，Transformer可以用足够多的数据进行预训练，最终效果会比CNN更好。

　　然后让我们观察不同数据大小的影响，如下所示：

　　上图是作者通过不同的训练子集(9M，30M，90M)对模型进行预训练。随着数据量的增加，发现ViT的性能逐渐增强，这表明卷积的归纳偏差用于较小的训练数据集，而变换器可用于大规模数据集。

　　将我们所学的注意力形象化如下：

　　上图是作者将训练模型的注意力地图可视化后的效果。可以发现，注意机制在语义上与图像分类任务相关。

　　6.摘要本文将Transformer应用于图像分类任务，不同于其他将特定图像感应偏差引入模型框架的方式。而是将一张图片分解成多个大小相同的面片块，通过在大量数据集上进行预训练，取得了比CNN框架更好的效果。同时，ViT可以用来输入各种尺寸的图像。我们建议你多使用！

　　关注微信官方账号《AI算法之道》了解更多关于AI算法的信息。

郑重声明：本文由网友发布，不代表盛行IT的观点，版权归原作者所有，仅为传播更多信息之目的，如有侵权请联系，我们将第一时间修改或删除，多谢。

相关文章阅读