【论文精读】CMT: Convolutional Neural Networks MeetVision Transformers

【论文精读】CMT: Convolutional Neural Networks MeetVision Transformers,第1张

声明

不定期更新自己精读的论文,通俗易懂,初级小白也可以理解

涉及范围:深度学习方向,包括 CV、NLP、Data fusion、Digital Twin

论文标题:

CMT: Convolutional Neural Networks MeetVision Transformers

CMT:卷积神经网络与视觉变压器

论文链接:https://arxiv.org/abs/2107.06263

论文代码:

发表时间:2021年7月

创新点

1、提出了一种新颖的 CMT(CNNs meet transformers)架构用于视觉识别

2、 提出了局部感知单元(LPU)和反向残差前馈网络(IRFFN)

Abstract

Vision Transformer 已成功应用于图像识别任务,因为它们能够捕获图像中的远程依赖关系。然而,Transformer 和现有的卷积神经网络 (CNN) 在性能和计算成本上仍然存在差距。在本文中,我们的目标是解决这个问题并开发一个网络,该网络不仅可以胜过传统的 Transformer,还可以胜过高性能卷积模型。

我们提出了一种新的基于 Transformer 的混合网络,利用变压器来捕获远程依赖关系,并利用 CNN 对局部特征进行建模。此外,我们对其进行缩放以获得一系列模型,称为 CMT,与以前的基于卷积和 Transformer 的模型相比,获得了更好的准确性和效率。

特别是,我们的 CMT-S 在 ImageNet 上实现了 83.5% 的 top-1 准确率,而在 FLOP 上分别比现有的 DeiT 和 EfficientNet 小 14 倍和 2 倍。所提出的 CMT-S 在 CIFAR10 (99.2%)、CIFAR100 (91.7%)、Flowers (98.7%) 和其他具有挑战性的视觉数据集如 COCO (44.3% mAP) 上也能很好地推广,而且计算成本要低得多。

Method

首先,输入 Image 进入 CMT Stem,CMT Stem 架构是一个 3×3 卷积、步幅为 2 和一个输出通道为 32 的茎架构来减小输入图像的大小,后接的是另外两个步幅为 1 的 3×3 卷积以获得更好的局部 信息

然后,2*2 Conv stride=2 接 CMT Block*3,重复 4 次后 + 全局平均池化 + 全连接 + softmax 的1000 路分类

CMT Block

CMT 模块由一个局部感知单元 (LPU)、一个轻量级多头自注意力 (LMHSA) 模块和一个反向残差前馈网络 (IRFFN) 组成,如图所示,

Local Perception Unit

架构如上图,公式定义如下图 

本质就是,将输入图片信息,与 3*3 的卷积 *** 作后相加,旨在增加了空间信息,可以和 ViT 的绝对位置编码的对应理解

Lightweight Multi-head Self-attention

在原始的self-attention模块中,输入 X 被线性变换为 query、key、value 再进行计算,运算成本高

此模块主要功能就是使用深度卷积计算代替了 key 和 value 的计算,从而减轻了计算开销,具体计算过程,可以看一下原文进行参考 

 Inverted Residual Feed-forward Network

此块的功能类似于反向残差块,由扩展层、深度卷积和投影层组成。具体来说,改变l连接的位置,以获得更好的性能

Experiments

实验目标:CMT-结构

实验目标:CMT 与流行方法比较

实验结果:CMT 有明显优势

欢迎分享,转载请注明来源:内存溢出

原文地址: https://outofmemory.cn/langs/716653.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-04-25
下一篇 2022-04-25

发表评论

登录后才能评论

评论列表(0条)

保存