【论文精读】CMT: Convolutional Neural Networks MeetVision Transformers_python

声明

不定期更新自己精读的论文，通俗易懂，初级小白也可以理解

涉及范围：深度学习方向，包括 CV、NLP、Data fusion、Digital Twin

论文标题：

CMT: Convolutional Neural Networks MeetVision Transformers

CMT：卷积神经网络与视觉变压器

论文链接：https://arxiv.org/abs/2107.06263

论文代码：

发表时间：2021年7月

创新点

1、提出了一种新颖的 CMT（CNNs meet transformers）架构用于视觉识别

2、提出了局部感知单元（LPU）和反向残差前馈网络（IRFFN）

Abstract

Vision Transformer 已成功应用于图像识别任务，因为它们能够捕获图像中的远程依赖关系。然而，Transformer 和现有的卷积神经网络 (CNN) 在性能和计算成本上仍然存在差距。在本文中，我们的目标是解决这个问题并开发一个网络，该网络不仅可以胜过传统的 Transformer，还可以胜过高性能卷积模型。

我们提出了一种新的基于 Transformer 的混合网络，利用变压器来捕获远程依赖关系，并利用 CNN 对局部特征进行建模。此外，我们对其进行缩放以获得一系列模型，称为 CMT，与以前的基于卷积和 Transformer 的模型相比，获得了更好的准确性和效率。

特别是，我们的 CMT-S 在 ImageNet 上实现了 83.5% 的 top-1 准确率，而在 FLOP 上分别比现有的 DeiT 和 EfficientNet 小 14 倍和 2 倍。所提出的 CMT-S 在 CIFAR10 (99.2%)、CIFAR100 (91.7%)、Flowers (98.7%) 和其他具有挑战性的视觉数据集如 COCO (44.3% mAP) 上也能很好地推广，而且计算成本要低得多。

Method

首先，输入 Image 进入 CMT Stem，CMT Stem 架构是一个 3×3 卷积、步幅为 2 和一个输出通道为 32 的茎架构来减小输入图像的大小，后接的是另外两个步幅为 1 的 3×3 卷积以获得更好的局部信息

然后，2*2 Conv stride=2 接 CMT Block*3，重复 4 次后 + 全局平均池化 + 全连接 + softmax 的1000 路分类

CMT Block

CMT 模块由一个局部感知单元 (LPU)、一个轻量级多头自注意力 (LMHSA) 模块和一个反向残差前馈网络 (IRFFN) 组成，如图所示，

Local Perception Unit

架构如上图，公式定义如下图

本质就是，将输入图片信息，与 3*3 的卷积 *** 作后相加，旨在增加了空间信息，可以和 ViT 的绝对位置编码的对应理解

Lightweight Multi-head Self-attention

在原始的self-attention模块中，输入 X 被线性变换为 query、key、value 再进行计算，运算成本高

此模块主要功能就是使用深度卷积计算代替了 key 和 value 的计算，从而减轻了计算开销，具体计算过程，可以看一下原文进行参考

Inverted Residual Feed-forward Network

此块的功能类似于反向残差块，由扩展层、深度卷积和投影层组成。具体来说，改变l连接的位置，以获得更好的性能

Experiments

实验目标：CMT-结构

实验目标：CMT 与流行方法比较

实验结果：CMT 有明显优势

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/langs/716653.html

【论文精读】CMT: Convolutional Neural Networks MeetVision Transformers

发表评论

评论列表（0条）