轻量化分割模型-LiteSeg_服务器

图像分类
图像分类主要是基于图像的内容对图像进行标记，通常会有一组固定的标签，而你的模型必须预测出最适合图像的标签。这个问题对于机器来说相当困难的，因为它看到的只是图像中的一组数字流。
上来自于Google Images
而且，世界各地经常会举办多种多样的图像分类比赛。在Kaggle中就可以找到很多这样的竞赛。最著名的比赛之一就是ImageNet挑战赛。ImageNet实际上是一个很神奇的图像库（截止到编辑本文时，其中就约有1400万张图像），拥有超过20000个图像标签。这是由斯坦福大学计算机视觉实验室维护的。ImageNet挑战或大规模视觉识别挑战（LSVRC）都是一个年度竞赛，其中具有诸如目标分类，目标检测和目标定位等各种子挑战。LSVRC，特别是目标分类的挑战，自从2012年，Alex Krizhevsky实施了著名的AlexNet，将图像的错误率降低到157%（在当时从未实现），便开始获得了很多关注。而最新的结果显示，微软ResNet的错误率为357％，Google的Inception-v3已经达到346％，而Inception-v4则又向前进了一步。
来源于Alfredo Canziani，Adam Paszke和Eugenio Culurciello于2017年撰写的文章《实际应用中深度神经网络模型的分析》（>在深度学习广泛应用于计算机视觉之前，人们一般使用TextonForest和Random Forest based Classifiers的方法进行语义分割。

深度学习方法中常见的一种语义分割方法是图像块分类（patch classification），即利用像素周围的图像块对每一个像素进行分类。原因是网络模型通常包含全连接层（fully connect layer），而且要求固定大小的图像输入。

2014年，加州大学伯克利分校的Long等人提出全卷积网络（FCN），使得卷积神经网络不需要全连接层就可以实现密集的像素级分类，从而成为当前非常流行的像素级分类CNN架构。由于不需要全连接层，所以可以对任意大小的图像进行语义分割，而且比传统方法要快上很多。之后，语义分割领域几乎所有的先进方法都是基于该模型进行扩展的。

为了保留像素的空间位置信息，有两种方法可以解决这个问题：

（1）编码器-解码器结构，编码器与解码器之间通常存在跨越连接（shortcut connections）。U-Net是这类架构中最常用的模型之一（源于： Convolutional Networks for Biomedical Image Segmentation ）。

（2）使用带孔卷积（dilated/atrous convolutions），从而除去池化层。

条件随机场（CRF）通常用于后处理来进一步改善分割效果。CRF是一种基于底层图像的像素强度进行的平滑分割的图模型，原理是相似强度的像素更可能标记为同一类别。

主要贡献：

1 为语义分割引入了端到端的全卷积网络。

2 利用ImageNet的预训练网络做语义分割。

3 使用反卷积层（取代线性插值）进行上采样。

4 引入少量跳跃连接改善上采样粗糙的像素定位。

主要贡献：

使用编码-解码架构。并且将池化结果应用到译码的过程，使用的是Pooling indices（记录位置信息）而不是简单地复制特征。其实没有跳跃连接，更节省内存。

U-Net的结构更规整，是FCN的延伸，通过将编码器的每层结果拼接到译码器中得到更好的结果。

移去了VGG网络的最后两层池化层，并且后续的卷积层都采用带孔卷积。还训练了一个模块，输入卷积结果，级联了不同孔大小的带孔卷积层。

主要贡献：

1 通过带孔卷积提取和聚合多尺度的信息。

2 提出context module来聚合多尺度的信息。

主要贡献：

1 采用了带孔卷积。

2 提出了金字塔形的空洞池化（Atrous Spatial Pyramid Pooling, ASPP）。

3 采用了全连接的CRF。

由于带孔卷积需要大量的高分辨率特征图，对计算和内存的消耗很大，因此无法利用高分辨率的精细预测。

该文章采用编码解码结构。编码器是ResNet-101，解码器是RefineNet模块，用于连接编码器中高分辨率特征和先前RefineNet中低分辨率的特征。

每一个RefineNet都有两个组件，一个组件通过对低分辨率特征的上采样 *** 作融合不同的分辨率特征，另一个组件利用窗口为55且步长为1的池化层来获取背景信息。这些组件都遵循恒等映射（identity mapping）思想，采用残差连接设计。

主要贡献：

1 精心设计了译码模块。

2 所有模块遵循残差连接设计。

金字塔池化模块通过使用大窗口的池化层来提高感受野。使用带孔卷积来修改ResNet网络，并增加了金字塔池化模块。金字塔池化模块对ResNet输出的特征进行不同规模的池化 *** 作，并作上采样后，拼接起来，最后得到结果。

金字塔池化模块简单来说是将DeepLab（不完全一样）ASPP之前的feature map池化了四种尺度之后，将五种feature map拼接到一起，经过卷积，最后进行预测的过程。

在ResNet的第四个阶段之后（即输入到金字塔池化模块的阶段），在主分支损失之外增加辅助损失（其他论文称为中间监督）。

主要贡献：

1 提出了金字塔池化模块来聚合上下文信息。

2 使用附加的辅助损失函数。

理论上更深的ResNet能有很大的感受野，但研究表明实际上网络更适合收集较小区域（有效感受野）内的信息，因此使用大核来扩大感受野。但是核越大，计算量越大，因此将 k x k 的卷积近似转换为 1 x k + k x 1 和 k x 1 + 1 x k 卷积的和。本文称为GCN。

编码器使用ResNet（无带孔卷积），解码器由GCNs和反卷积构成。此外还用到了边界精调（Boundary Refinement, BR）的简单残差块。

主要贡献：提出具有大卷积核的编码-解码架构。

主要贡献：

1 改进ASPP。将不同孔率的带孔卷积的结果拼接起来（DeepLab v2使用的是求和），并使用了BN。

2 串行部署ASPP的模块。直接对中间的特征图进行带孔卷积（Dilated Convolutions(2015) 是在最后做）。

欢迎分享，转载请注明来源：内存溢出

原文地址: https://outofmemory.cn/zz/13426332.html

轻量化分割模型-LiteSeg

发表评论

评论列表（0条）