torch.backends.cudnn.deterministic 会影响空洞卷积吗

torch.backends.cudnn.deterministic 会影响空洞卷积吗,第1张

感受野(Receptive Field)

感受野指的是卷积神经网络每一层输出的特征图(feature map)上每个像素点映射回输入图像上的区域大小,神经元感受野的范围越大表示其能接触到的原始图像范围就越大,也意味着它能学习更为全局,语义层次更高的特征信息,相反,范围越小则表示其所包含的特征越趋向局部和细节。因此感受野的范围可以用来大致判断每一层的抽象层次,并且我们可以很明显地知道网络越深,神经元的感受野越大。

分辨率(Resolution)

分辨率指的是输入模型的图像尺寸,即长宽大小。通常情况会根据模型下采样次数n和最后一次下采样后feature map的分辨率k×k来决定输入分辨率的大小,即:

从输入r×r到最后一个卷积特征feature map的k×k,整个过程是一个信息逐渐抽象化的过程,即网络学习到的信息逐渐由低级的几何信息转变为高级的语义信息,这个feature map的大小可以是3×3,5×5,7×7,9×9等等,k太大会增加后续的计算量且信息抽象层次不够高,影响网络性能,k太小会造成非常严重的信息丢失,如原始分辨率映射到最后一层的feature map有效区域可能不到一个像素点,使得训练无法收敛。

在ImageNet分类任务中,通常设置的5次下采样,并且考虑到其原始图像大多数在300分辨率左右,所以把最后一个卷积特征大小设定为7×7,将输入尺寸固定为224×224×3。在目标检测任务中,很多采用的是416×416×3的输入尺寸,当然由于很多目标检测模型是全卷积的结构,通常可以使用多尺寸训练的方式,即每次输入只需要保证是32×的图像尺寸大小就行,不固定具体数值。但这种多尺度训练的方式在图像分类当中是不通用的,因为分类模型最后一层是全连接结构,即矩阵乘法,需要固定输入数据的维度。

深度(Depth)

神经网络的深度决定了网络的表达能力,它有两种计算方法,早期的backbone设计都是直接使用卷积层堆叠的方式,它的深度即神经网络的层数,后来的backbone设计采用了更高效的module(或block)堆叠的方式,每个module是由多个卷积层组成,它的深度也可以指module的个数,这种说法在神经架构搜索(NAS)中出现的更为频繁。通常而言网络越深表达能力越强,但深度大于某个值可能会带来相反的效果,所以它的具体设定需要不断调参得到。

宽度(Width)

宽度决定了网络在某一层学到的信息量,但网络的宽度时指的是卷积神经网络中最大的通道数,由卷积核数量最多的层决定。通常的结构设计中卷积核的数量随着层数越来越多的,直到最后一层feature map达到最大,这是因为越到深层,feature map的分辨率越小,所包含的信息越高级,所以需要更多的卷积核来进行学习。通道越多效果越好,但带来的计算量也会大大增加,所以具体设定也是一个调参的过程,并且各层通道数会按照8×的倍数来确定,这样有利于GPU的并行计算。

下采样(Down-Sample)

下采样层有两个作用,一是减少计算量,防止过拟合,二是增大感受野,使得后面的卷积核能够学到更加全局的信息。下采样的设计有两种:

采用stride为2的池化层,如Max-pooling或Average-pooling,目前通常使用Max-pooling,因为它计算简单且最大响应能更好保留纹理特征;

采用stride为2的卷积层,下采样的过程是一个信息损失的过程,而池化层是不可学习的,用stride为2的可学习卷积层来代替pooling可以得到更好的效果,当然同时也增加了一定的计算量。

上采样(Up-Sampling)

在卷积神经网络中,由于输入图像通过卷积神经网络(CNN)提取特征后,输出的尺寸往往会变小,而有时我们需要将图像恢复到原来的尺寸以便进行进一步的计算(如图像的语义分割),这个使图像由小分辨率映射到大分辨率的 *** 作,叫做上采样,它的实现一般有三种方式:

插值,一般使用的是双线性插值,因为效果最好,虽然计算上比其他插值方式复杂,但是相对于卷积计算可以说不值一提;

转置卷积又或是说反卷积,通过对输入feature map间隔填充0,再进行标准的卷积计算,可以使得输出feature map的尺寸比输入更大;

Max Unpooling,在对称的max pooling位置记录最大值的索引位置,然后在unpooling阶段时将对应的值放置到原先最大值位置,其余位置补0;

参数量(Params)

参数量指的网络中可学习变量的数量,包括卷积核的权重weight,批归一化(BN)的缩放系数γ,偏移系数β,有些没有BN的层可能有偏置bias,这些都是可学习的参数 ,即在模型训练开始前被赋予初值,在训练过程根据链式法则中不断迭代更新,整个模型的参数量主要由卷积核的权重weight的数量决定,参数量越大,则该结构对运行平台的内存要求越高,参数量的大小是轻量化网络设计的一个重要评价指标。

计算量(FLOPs)

神经网络的前向推理过程基本上都是乘累加计算,所以它的计算量也是指的前向推理过程中乘加运算的次数,通常用FLOPs来表示,即floating point operations(浮点运算数)。计算量越大,在同一平台上模型运行延时越长,尤其是在移动端/嵌入式这种资源受限的平台上想要达到实时性的要求就必须要求模型的计算量尽可能地低,但这个不是严格成正比关系,也跟具体算子的计算密集程度(即计算时间与IO时间占比)和该算子底层优化的程度有关。

在神经网络架构设计中,标准卷积是最常见的结构,假设其输入feature map的维度是(1, iC, iH, iW),每个卷积核的维度是(1, iC, k, k),一次卷积滤波得到一层feature map的维度为(1,1, oH, oW),一共有oC个卷积核,则输出feature map的维度是(1, oC, oH, oW),计算量为iC×k×k×oC×oH×oW,

深度卷积 (Depthwise Convolution)

深度卷积与标准卷积相比,顾名思义是在深度上做了文章,而这里的深度跟网络的深度无关,它指的通道,标准卷积中每个卷积核都需要与feature map的所有层进行计算,所以每个卷积核的通道数等于输入feature map的通道数,通过设定卷积核的数量可以控制输出feature map的通道数。而深度卷积每个卷积核都是单通道的,维度为(1,1,k,k) ,卷积核的个数为iC,即第i个卷积核与feature map第i个通道进行二维的卷积计算,最后输出维度为(1,iC,oH,oW),它不能改变输出feature map的通道数,所以通常会在深度卷积后面接上一个(oC,iC,1,1)的标准卷积来代替3×3或更大尺寸的标准卷积,总的计算量为iC×k×k×oH×oW+iC×oH×oW×oC,是普通卷积的1/oC+1/(k×k),大大减少了计算量和参数量,又可以达到相同的效果,这种结构被称为深度可分离卷积(Depthwise Separable Convolution),在MobileNet V1被提出,后来渐渐成为轻量化结构设计的标配。

分组卷积 (Group Convolution)

分组卷积最早在AlexNet中出现,当时作者在训练模型时为了减少显存占用而将feature map分组然后给多个GPU进行处理,最后把多个输出进行融合。具体计算过程是,分组卷积首先将输入feature map分成g个组,每个组的大小为(1, iC/g, iH, iW),对应每组中一个卷积核的大小是(1,iC/g,k,k),每组有oC/g个卷积核,所以每组输出feature map的尺寸为(1,oC/g,oH,oW),最终g组输出拼接得到一个(1,oC,oH,oW)的大feature map,总的计算量为iC/g×k×k×oC×oH×oW,是标准卷积的1/g,参数量也是标准卷积的1/g。

空洞卷积 (Dilated Convolution)

空洞卷积是针对图像语义分割问题中下采样会降低图像分辨率、丢失信息而提出的一种卷积思路。通过间隔取值扩大感受野,让原本3x3的卷积核,在相同参数量和计算量下拥有更大的感受野。这里面有个扩张率(dilation rate)的系数,

,标准卷积相当于dilation rate为1的空洞卷积,下图展示的是dilation rate为2的空洞卷积计算过程,可以看出3×3的卷积核可以感知标准的5×5卷积核的范围,还有一种理解思路就是先对3×3的卷积核间隔补0,使它变成5×5的卷积,然后再执行标准卷积的 *** 作。

转置卷积 (Transposed Convolutions)

转置卷积又称反卷积(Deconvolution),它和空洞卷积的思路正好相反,是为上采样而生,也应用于语义分割当中,而且他的计算也和空洞卷积正好相反,先对输入的feature map间隔补0,卷积核不变,然后使用标准的卷积进行计算,得到更大尺寸的feature map。

可变形卷积 (deformable convolution)

以上的卷积计算都是固定的,每次输入不同的图像数据,卷积计算的位置都是完全固定不变,即使是空洞卷积/转置卷积,0填充的位置也都是事先确定的。而可变性卷积是指卷积核上对每一个元素额外增加了一个h和w方向上偏移的参数,然后根据这个偏移在feature map上动态取点来进行卷积计算,这样卷积核就能在训练过程中扩展到很大的范围。而显而易见的是可变性卷积虽然比其他卷积方式更加灵活,可以根据每张输入感知不同位置的信息,类似于注意力,从而达到更好的效果,但是它比可行变卷积在增加了很多计算量和实现难度,目前感觉只在GPU上优化的很好,在其他平台上还没有见到部署。

池化(pooling)

池化这个 *** 作比较简单,一般在上采样和下采样的时候用到,没有参数,不可学习,但 *** 作极为简单,和depthwise卷积类似,只是把乘累加 *** 作替换成取最大/取平均 *** 作。

最大池化和平均池化

全局平均池化  全局平均池化的 *** 作是对一个维度为(C,H,W)的feature map,在HW方向整个取平均,然后输出一个长度为C的向量,这个 *** 作一般在分类模型的最后一个feature map之后出现,然后接一个全连接层就可以完成分类结果的输出了。早期的分类模型都是把最后一个feature map直接拉平成C×H×W的向量,然后再接全连接层,但是显然可以看出来这个计算量极大,甚至有的模型最后一个全连接层占了整个模型计算量的50%以上,之后由研究人员发现对这个feature map做一个全局平均池化,然后再加全连接层可以达到相似的效果,且计算量降低到了原来的1/HW。

全连接计算(Full Connected)

这个本质其实就是矩阵乘法,输入一个(B, iC)的数据,权重为(iC, oC),那么输出为(B, oC),在多层感知机和分类模型最后一层常常见到。

Addition / Concatenate分支

Addition和Concatenate分支 *** 作统称为shortcut,如下图所示, *** 作极为简单。Addition是在ResNet中提出,两个相同维度的feature map相同位置点的值直接相加,得到新的相同维度feature map,这个 *** 作可以融合之前的特征,增加信息的表达,Concatenate *** 作是在Inception中首次使用,被DenseNet发扬光大,和addition不同的是,它只要求两个feature map的HW相同,通道数可以不同,然后两个feature map在通道上直接拼接,得到一个更大的feature map,它保留了一些原始的特征,增加了特征的数量,使得有效的信息流继续向后传递。

Channel shuffle

channel shuffle是ShuffleNet中首次提出,主要是针对分组卷积中不同组之间信息不流通,对不同组的feature map进行混洗的一个 *** 作,如下图所示,假设原始的feature map维度为(1,9,H,W),被分成了3个组,每个组有三个通道,那么首先将这个feature map进行重塑 *** 作,得到(1,3,3,H,W),然后对中间的两个大小为3的维度进行转置,依然是(1,3,3,H,W),最后将通道拉平,变回(1,9,H,W),就完成了通道混洗,使得不同组的feature map间隔保存,增强了信息的交互。

激活函数的非线性是神经网络发挥作用最重要的因素之一,而对于实际部署,激活函数的实现也是很重要的一个方面,实现的不好对加速效果影响很大。

ReLU系列

这里主要指常用的ReLU,ReLU6和leaky ReLU。ReLU比较好部署,小于0的部分为0,大于0的部分为原始值,只需要判断一下符号位就行;ReLU6与ReLU相比也只是在正向部分多了个阈值,大于6的值等于6,在实现时多了个比较也不算麻烦;而leaky ReLU和ReLU正向部分一样,都是大于0等于原始值,但负向部分却是等于原始值的1/10,浮点运算的话乘个01就好了,如果因为量化要实现整数运算,这块可以做个近似,如01用13>>7来代替,

Sigmoid系列

早期比较经典的卷积神经网络,如AlexNet,VGG,GoogleNet(或Inception),ResNet,DenseNet都是以提升模型在ImageNet数据集上的分类精度为主了,很少考虑参数量和计算量的问题,他们的主要结构解析起来也比较简单,基本都是由标准卷积(7×7,5×5,3×3和1×1),Pooling和shortcut *** 作(Addition / Concatenate)构成,而且以3×3及其以上的卷积核为主,通道数也是动辄上千,所以参数量和计算量巨大。后续研究人员慢慢发现两个3×3卷积可以代替一个5×5卷积的效果,三个3×3卷积可以代替一个7×7卷积的效果,大量使用1×1卷积,使用3×3 depthwise conv + pointwise conv(1×1标准卷积)可以代替3×3普通卷积一系列 *** 作可以减少参数量和计算量

SqueezeNet

SqueezeNet是公认的轻量级模型设计最早期的工作之一,作者提出了三种策略来实现在保持精度的情况下大大减少当时主流模型(以AlexNet为例)的计算量和参数量:

将模型中一部分的3×3卷积用1×1来代替,1×1卷积是3×3参数量和计算量的1/9,所以可以大大减少参数量和计算量;减少3×3卷积的输入通道数,这个可以通过在进入3×3卷积之前加一个1×1卷积来实现通道数量的减少;将下采样层的位置往后推,使得模型可以在更大的feature map上进行更多的学习,这一步虽然会在增加计算量,但是和上面两个策略结合可以在维持模型精度的情况下仍大大减少参数量和计算量;

根据上面的策略,作者提出了fire module的子结构,如上图所示,然后整个模型由这样的子结构堆叠而成。这个fire module由squeeze部分和expand部分构成,squeeze部分是1×1的卷积层,而expand部分是1×1的卷积和3×3的卷积拼接起来的,每次feature map输入这个fire module会在squeeze层降低通道数,然后在expand通道增加通道数,从而在参数量更少的情况下仍然可以得到充分的学习。最后结合一些模型压缩的方法可以使得SqueezeNet在达到AlexNet同等精度的情况下,参数量减少到后者的1/50,计算量减少到后者的1/510。

这篇论文使用大量1×1的卷积核代替3×3卷积,并且利用1×1卷积改变大尺度卷积层输入feature map的通道数从而减少计算量的思想是非常有意义的,后续的很多轻量级网路的论文都沿用了这种套路。

MobileNet系列

MobileNet系列一共有V1,V2和V3三篇论文,简要的讲:

MobileNet V1主要思想是提出了一种新的结构—深度可分离卷积(Depthwise Separable Convolution)来代替标准3×3卷积,从而大大减少模型的参数量和计算量;

MobileNet V2在V1的基础上提出了一种倒置残差的模块,这个模块有三个卷积,第一个部分是一个1×1标准卷积,用来升维,第二个部分是由3×3深度卷积+1×1标准卷积构成的深度分离卷积,用来学习特征和降维,模块的输出和输入再进行一个Addition的 *** 作,由于和ResNet中维度升降方式相反,所以称为倒置残差。中间升维的作用是让深度可分离卷积得到更充分的学习,计算量相对于标准卷积来说也不大,而且这种升降维的方式非常灵活,可以大大减少计算量。本文还从流形学的角度探究了输入深度可分离卷积上一层的ReLU6对信息传递的影响,理论证明去掉上一个1×1标准卷积的ReLU激活函数能更有利于后面的深度可分离卷积对特征的学习。

MobileNet V3感觉相对于前两篇没有那么大的结构创新了,主要思想是神经架构搜索(NAS)和硬件友好结构,总的来看V3的结构是在V2的基础上进行了一些修改,如增加了SE block这种已被提出的注意力机制,激活函数换成了H-swish,last stage减少了几层计算,针对语义分割提出了Lite R-ASPP的head(不在讨论之列)。

ShuffleNet系列  旷视出品的ShuffleNet系列有两篇论文

ShuffleNet V1是在MobileNet V1后MobileNet V2前提出的,说实话结构上和MobileNet V2还挺像,大家可以上下两张对比一下。两者都想到了学习ResNet的残差结构,区别在于ShuffleNet V1觉得block当中的1×1标准卷积也非常耗时,于是用1×1的分组卷积外加channel shuffle的 *** 作给替换了,然后MobileNet V2会先升维让深度可分离卷积得到充分的学习再降维回来,ShuffleNet V1中stride为2的模块也有自己的特色,虽然看着MobileNet V2的结构更简洁一些,但ShuffleNet V1创新也是不少,尤其那个用channel shuffle增强不同组之间信息交互的 *** 作

huffleNet  V2论文是一篇诚意满满之作,作者通过分析ShuffleNet v1与MobileNet v2这两个移动端网络在GPU/ARM两种平台下的时间消耗分布,看出Conv等计算密集型 *** 作占了绝大多数时间,但其它像Elemwise和IO等内存读写密集型 *** 作也占了相当比例的时间,因此像以往那样仅以FLOPs来作为指导准则来设计CNN网络是不完备的,虽然它可以反映出占大比例时间的Conv *** 作,但不够准确。于是作者提出了高效网络设计的四个指导原则:

当输入和输出的通道数相同时,conv计算所需的MAC(memory access cost)最小;

大量的分组卷积会增加MAC开销;

网络结构的碎片化会减少其可并行优化的程度,GoogleNet系列和NASNet中很多分支进行不同的卷积/pool计算非常碎片,对硬件运行很不友好;

Element-wise *** 作不可忽视,对延时影响很大,包括ReLU,Addition,AddBias等,主要是因为这些 *** 作计算与内存访问的占比太小;

基于此,作者提出了ShuffleNet V2的blocks,如下所示,与V1相比,去掉了分组卷积的 *** 作,去掉了Add *** 作,换成了Concat,stride为2的block的旁路把平均池化换成了深度可分离卷积,为了继续延续channel shuffle的 *** 作,作者在block进去的地方做了个split的 *** 作,最后再concat+channel shuffle,这里是为了替换掉之前的Add,同时也可以减少计算量。

GhostNet

GhostNet也是一篇很有意思且简洁的架构设计的论文,作者在可视化一些训练好的神经网络中间feature map时发现它们通常会包含一些相似且冗余的特征图,使得神经网络能得到更充分的学习。基于这个想法,作者通过设定一系列廉价的线性运算 *** 作来代替部分卷积计算,以此来产生更多的特征图,仅仅这么一个简单的 *** 作就可以减少模型的参数量和计算量,而且在几个视觉公开数据集上取得了很不错的效果,甚至超越了MobileNet V3

总的思路:选定合适结构 + 通道剪枝 + 量化

训练  :ImageNet pretrain model + Data Normalization(统计自己数据集的均值和方差) + Batch Normlization + 大batch size + 一堆数据增强tricks + 尝试各种花里胡哨的loss function和optimizer

>

        作者提出了一种图像级联网络(ICNet),该网络在适当的标签指导下合并了多分辨率分支。作者对ICNet进行了深入分析,并引入级联特征融合单元以快速实现高质量的分割。由此可见,ICNet属于多支路轻量化分割网络。

        作者首先对语义分割中的时间预算进行了深度的分析,并进行了大量的实验来证明直观加速策略的不足,而这促进了图像级联网络(ICNet)的生成,该网络是一个高质量和高效的分割网络。 它利用了处理低分辨率图像的效率和高分辨率图像的高推理质量。

        ICNet的思想是首先将低分辨率的经过完整的语义感知网络来获取错 *** 的预测特征图,然后提出了级联特征融合单元和级联标签指导的策略,以融合中、高分辨率特征,逐步完善粗略语义图。

        ICNet采用了级联特征融合单元并结合级联标签指导进行训练,而不是采用级联的输入(低、中、高分辨率)。ICNet的结构如图1所示,具有全分辨率的输入图像(例如Cityscapes [7]中的1024×2048)通过2和4因子进行下采样,从而形成了对中分辨率和高分辨率分支的级联输入。采用经典的分割网络(例如FCN)对高分辨率的输入进行分割非常的耗时,为了克服这一缺点,作者使用低分辨率输入进行语义提取,如图1顶部所示。将1/4尺寸的图像送入下采样率为8的PSPNet,从而生成1/32分辨率的特征图。 为了获得高质量的分割,中等和高分辨率的分支(图1中的下部)有助于恢复和完善粗略的预测。尽管低分辨率的输入会丢失细节的信息,但是顶部的支路已经收获了大多数的语义部分。 因此,作者采取限制中低支路的参数数量。底部的分支中作者采用了轻量级的CNN(绿色虚线框);作者采用了级联特征融合单元(CFF)来将不同支路的特征进行融合,并通过级联标签指导进行训练。

        尽管顶部的支路是一个完整的分割backbone,但由于输入分辨率小,因此计算量也不是很大,即使对于具有50层以上的PSPNet,对于Cityscapes中的大图像,推理时间和内存也为18ms和06GB。由于权重和计算(在17层中)可以在顶部分支和中间分支之间共享,因此仅花费6毫秒即可构建融合图。 底部分支的层数更少。 尽管分辨率很高,但推理仅需9ms。 通过这三个分支,ICNet成为一种非常有效且对内存友好的体系结构,可以实现高质量的分割。

        为了融合不同分辨率的特征,作者提出了CFF模块,如图2所示。输入包含了三部分,两个特征图F1(C1xH1xW1)和F2(C2xH2xW2)以及一个标签(1xH2xW2)。F2的分辨率是F1的两倍。作者首先使用双线性插值将F1的分辨率提升两倍,变成F2相同的分辨率,然后使用卷积核大小为C3x3x3和空洞率为2的卷积核来精修上采样特征。此时特征变为了C3xH2xW2空洞卷积结合了来自几个原本相邻像素的特征信息。相比于反卷积,上采样+空洞卷积只需要更小的卷积核,便可以收获相同的感受野。为了获得相同的感受野,反卷积需要更大的卷积核尺寸,这会造成更大的计算量(这里可以反向来理解,一个空洞率为2,卷积核大小为3的卷积相当于卷积核大小为5的卷积核,再加上下采样率为2的双线性插值,所以相当于7x7的卷积核的感受野,也就是3x3 vs 7x7)。对于特征F2,采用卷积核为C3x1x1的卷积来讲F2进行映射,映射后的特征数量和F1相同。接着采用BN对F1和F2特征进行归一化,然后讲两个特征图进行相加并采用Relu激活函数处理,得到特征图F`2(C3xH2xW2)。为了增强对F 1的学习,我们对F1的上采样特征使用了辅助标签指导。

        为了增强每个支路的学习过程,作者采用了级联标签指导的策略。使用不同尺寸(1/16、1/8、1/4)的真实标签来指导顶部中部和底部的学习阶段。

        作者对比了ICNet和目前存在的级联结构的分割网络的不同,如图3所示,之前的结构都是给定高分辨率输入,进行相对密集的计算。但是ICNet只需要给heavy CNN小分辨率的输入(这里的heavy是指计算复杂)来减少计算量,同时产生一个粗略的分割预测,较高分辨率的输入用于逐步恢复和完善对于模糊边界和缺失细节的预测。高分辨率的输入采用的是轻量化的CNN,CFF模块和标签指导策略讲中高分辨率的特征进行整合来逐步精修粗糙的分割特征图。基于这种设计,ICNet获得了高效的推理速度和合理质量的分割结果。

        作者对级联支路进行了对比试验,baseline是压缩一半的PSPNet40,170ms的前向推理时间,mIOU是679%。这表明,在保持良好的分割质量的条件下,模型压缩几乎没有机会获得实时性能。为了显示ICNet的有效性,作者将低,中和高分辨率分支的输出表示为“ sub4”,“ sub24”和“ sub124”,其中数字代表所使用的信息。sub4表示的是仅使用顶部支路,sub24表示的是使用顶部和中部的支路,sub124代表使用全部的支路。

        结果如图4 Table2所示。只用顶部支路时,尽管速度是最快的,但是准确率掉到了596%,用顶部和中部分支时,准确率为665%,全部支路都使用时,准确率为677%,而计算速度却没有太多的下降。

        作者还对级联特征融合单元和级联标签引导进行了对比实验研究。 结果如图4 Table3所示。与3×3和5×5大小的卷积核的反卷积层相比,级联特征融合单元具有更高的mIoU性能,网络推理速度相近。 与具有7×7的较大内核的反卷积层相比,mIoU性能接近,但是级联特征融合单元的推理速度更快。 如果没有级联标签指导,性能将下降很多,如最后一行所示。

这个网络主要源自于Resnet网络,其作用是:

将靠前若干层的某一层数据输出直接跳过多层引入到后面数据层的输入部分。

意味着后面的特征层的内容会有一部分由其前面的某一层线性贡献。

实验表明,残差网络更容易优化,并且能够通过增加相当的深度来提高准确率。

最终可以使得网络越来越深,Resnet152就是一个很深很深的网络。

残差网络的典型结构如下:

这个结构主要是在Inception网络结构中出现。

Inception网络采用不同大小的卷积核,使得存在不同大小的感受野,最后实现拼接达到不同尺度特征的融合。

不同大小卷积核并行卷积的典型结构如下:

这种结构主要利用在InceptionV3中。

利用1x7的卷积和7x1的卷积代替7x7的卷积,这样可以只使用约(1x7 + 7x1) / (7x7) = 286%的计算开销;利用1x3的卷积和3x1的卷积代替3x3的卷积,这样可以只使用约(1x3 + 3x1) / (3x3) = 67%的计算开销。

下图利用1x7的卷积和7x1的卷积代替7x7的卷积。

下图利用1x3的卷积和3x1的卷积代替3x3的卷积。

这个结构在Resnet里非常常见,其它网络也有用到。

所谓Bottleneck结构就是首先利用1x1卷积层进行特征压缩,再利用3x3卷积网络进行特征提取,再利用1x1卷积层进行特征扩张。

该结构相比于直接对输入进行3x3卷积减少了许多参数量。

当输入为26,26,512时,直接使用3x3、filter为512的卷积网络的参数量为512x3x3x512=2,359,296。

采用Bottleneck结构的话,假设其首先利用1x1、filter为128卷积层进行特征压缩,再利用3x3、filter为128的卷积网络进行特征提取,再利用1x1、filter为512的卷积层进行特征扩张,则参数量为 512×1×1×128 + 128×3×3×128 + 128×1×1×512 = 278,528。

深度可分离卷积主要在MobileNet模型上应用。

其特点是3x3的卷积核厚度只有一层,然后在输入张量上一层一层地滑动,每一次卷积完生成一个输出通道,当卷积完成后,在利用1x1的卷积调整厚度。

假设有一个3×3大小的卷积层,其输入通道为16、输出通道为32。具体为,32个3×3大小的卷积核会遍历16个通道中的每个数据,最后可得到所需的32个输出通道,所需参数为16×32×3×3=4608个。

应用深度可分离卷积,用16个3×3大小的卷积核分别遍历16通道的数据,得到了16个特征图谱。在融合 *** 作之前,接着用32个1×1大小的卷积核遍历这16个特征图谱,所需参数为16×3×3+16×32×1×1=656个。

这种结构主要存在在Xception网络中。

改进版深度可分离卷积就是调换了一下深度可分离的顺序,先进行1x1卷积调整通道,再利用3x3卷积提取特征。

和普通的深度可分离卷积相比,参数量也会有一定的变化。

改进版深度可分离卷积加上残差网络的结构其实和它的名字是一样的,很好理解。

如下图所示:

在ResNet50里我们认识到一个结构,bottleneck design结构,在3x3网络结构前利用1x1卷积降维,在3x3网络结构后,利用1x1卷积升维,相比直接使用3x3网络卷积效果更好,参数更少,先进行压缩,再进行扩张。

而Inverted residuals结构,在3x3网络结构前利用1x1卷积升维,在3x3网络结构后,利用1x1卷积降维,先进行扩张,再进行压缩。

这种结构主要用在MobilenetV2中。

其主要结构如下:

这个结构出现在Deeplabv3语义分割中。

其经过并行的空洞卷积,分别用不同rate的空洞卷积进行特征提取,再进行合并,再进行1x1卷积压缩特征。

空洞卷积可以在不损失信息的情况下,加大了感受野,让每个卷积输出都包含较大范围的信息。如下就是空洞卷积的一个示意图,所谓空洞就是特征点提取的时候会跨像素。

原文链接: >

以上就是关于torch.backends.cudnn.deterministic 会影响空洞卷积吗全部的内容,包括:torch.backends.cudnn.deterministic 会影响空洞卷积吗、计算机视觉算法工程师常见面试题1、轻量化CNN构建总结等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!

欢迎分享,转载请注明来源:内存溢出

原文地址: https://outofmemory.cn/zz/9630509.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-04-30
下一篇 2023-04-30

发表评论

登录后才能评论

评论列表(0条)

保存