声明
不定期更新自己精读的论文,通俗易懂,初级小白也可以理解
涉及范围:深度学习方向,包括 CV、NLP、Data fusion、Digital Twin
论文标题:
CMT: Convolutional Neural Networks MeetVision Transformers
CMT:卷积神经网络与视觉变压器
论文链接:https://arxiv.org/abs/2107.06263
论文代码:
发表时间:2021年7月
创新点1、提出了一种新颖的 CMT(CNNs meet transformers)架构用于视觉识别
2、 提出了局部感知单元(LPU)和反向残差前馈网络(IRFFN)
AbstractVision Transformer 已成功应用于图像识别任务,因为它们能够捕获图像中的远程依赖关系。然而,Transformer 和现有的卷积神经网络 (CNN) 在性能和计算成本上仍然存在差距。在本文中,我们的目标是解决这个问题并开发一个网络,该网络不仅可以胜过传统的 Transformer,还可以胜过高性能卷积模型。
我们提出了一种新的基于 Transformer 的混合网络,利用变压器来捕获远程依赖关系,并利用 CNN 对局部特征进行建模。此外,我们对其进行缩放以获得一系列模型,称为 CMT,与以前的基于卷积和 Transformer 的模型相比,获得了更好的准确性和效率。
特别是,我们的 CMT-S 在 ImageNet 上实现了 83.5% 的 top-1 准确率,而在 FLOP 上分别比现有的 DeiT 和 EfficientNet 小 14 倍和 2 倍。所提出的 CMT-S 在 CIFAR10 (99.2%)、CIFAR100 (91.7%)、Flowers (98.7%) 和其他具有挑战性的视觉数据集如 COCO (44.3% mAP) 上也能很好地推广,而且计算成本要低得多。
Method首先,输入 Image 进入 CMT Stem,CMT Stem 架构是一个 3×3 卷积、步幅为 2 和一个输出通道为 32 的茎架构来减小输入图像的大小,后接的是另外两个步幅为 1 的 3×3 卷积以获得更好的局部 信息
然后,2*2 Conv stride=2 接 CMT Block*3,重复 4 次后 + 全局平均池化 + 全连接 + softmax 的1000 路分类
CMT BlockCMT 模块由一个局部感知单元 (LPU)、一个轻量级多头自注意力 (LMHSA) 模块和一个反向残差前馈网络 (IRFFN) 组成,如图所示,
Local Perception Unit架构如上图,公式定义如下图
本质就是,将输入图片信息,与 3*3 的卷积 *** 作后相加,旨在增加了空间信息,可以和 ViT 的绝对位置编码的对应理解
Lightweight Multi-head Self-attention在原始的self-attention模块中,输入 X 被线性变换为 query、key、value 再进行计算,运算成本高
此模块主要功能就是使用深度卷积计算代替了 key 和 value 的计算,从而减轻了计算开销,具体计算过程,可以看一下原文进行参考
Inverted Residual Feed-forward Network此块的功能类似于反向残差块,由扩展层、深度卷积和投影层组成。具体来说,改变l连接的位置,以获得更好的性能
Experiments实验目标:CMT-结构
实验目标:CMT 与流行方法比较
实验结果:CMT 有明显优势
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)