深度学习模型种类多，科学研究如何选择_技术

（文章来源：雷锋网）

关于标准的神经网络，普遍认为包括用于图像预测和变换的卷积神经网络、用于化学领域的图神经网络、专长于序列数据的transformer。最基本的深度神经网络当属多层感知器，模型设置非常简单，只有一堆非线性函数组成的全连接层。

虽然简单，但是对付数据可能由一组截然不同的特征组成的问题很有用，例如表格数据。这个模型比逻辑回归和线性回归有更强的表达能力。但是在用的时候，需要对数据进行预处理，选择一些特征集进行计算，并将其用作输入。最近的一项研究是用在了药物开发上面，研究机构是中药质量研究国家重点实验室。

多层感知机只是简单的深度网络，在它的基础上，卷积神经网络发展了起来，成为了最广为人知的神经网络家族，其特有的卷积层允许许神经网络在图像的不同空间位置重复使用参数。作为一种对图像数据非常有用的归纳偏差，能够帮助更加有效地学习一些好特征以应用层面来分，卷积神经网络派生了图像分类、目标检测、语义分割和实例分割、图像超分辨率、图像配准、姿势估计。

其中四个的分类的区别大致可以用上图表示他们之间的区别可以大致用上图表示，在分类的时候整个图像只有一个气球标签，而在目标检测中，每个气球都用一个边界框进行定位。而在语义分割中，算法识别的是气球对应的所有像素，在实例分割中分别识别每个单独的气球。简单来看，图像分类是经过一个函数，输入一个图形，输出一个类别。在医学上将胸部X图片映射到二进制疾病标签，就是图像分类的应用。

常见的用于图像分类的神经网络有：VGG，这个模型在多个迁移学习任务中的表现要优于googLeNet，缺点在于参数量有140M之多，需要更大的存储空间；Resnet，能够对付梯度消失和梯度爆炸问题；DenseNet，其特色在于能够通过特征在channel上的连接来实现特征重用；还有最新的ResNeXt和EfficientNets，其能够对网络深度、宽度和输入图像的空间分辨率有单独的缩放系数。图像分类算法已经应用于了许多不同的科学项目，例如分析低温电子显微镜技术，但主要还是在医学上应用广泛，因为从眼科到放射科都需要通过图像预测疾病标签。

如果说图像分类是对图像做一个大致的总结，那么目标检测就深入到图像的一些细节中了。例如给定一张户外图片，里面有树、人、狗，目标检测算法的任务是分别同时识别出这三个物体，并用“圈圈”标记他们。

有很多卷积框架在目标检测方向表现优异，包括最早期的Faster R-CNN，后来在他基础上改进的 Mask R-CNN斩获了 ICCV2017 年的最佳论文，在实例分割、目标检测、人体关键点检测三个任务都取得了很好的效果。除此之外，很多改进的模型例如，YOLOv3、EfficientDets 以及刚刚开源的 YOLOv4 也是做目标检测的很好选择。

目标检测也是医学方向大爱，在跨模式的肿瘤细胞识别，放射学中的骨折判断都已经有相关研究发布。如果更加深入到图像的底层细节，对图像的像素进行分类，那么这就涉及到语义分割技术了。如果有一张街道图片，里面有道路、车辆、行人等，语义分割算法的目的是确定图片中像素的归属，即是属于车辆，还是属于道路，亦或者属于行人。而实例分割则更加复杂，它要弄明白的是这个像素是属于行人一，还是行人二，还是行人三。

综上，分割模型需要对每个像素进行分类，所以它们输出的不是单个类别的标签和边界框，而是完整的图像。设计分割模型时要求算法能够保存图片的空间信息。当前比较常用的架构是U-net，主要由卷积层、最大池化层（下采样）、反卷积层（上采样）以及ReLU非线性激活函数组成。

FCN，此架构不含全连接层的全卷积网络，可适应任意尺寸输入；增大数据尺寸的反卷积层，能够输出精细的结果；结合不同深度层结果的skip结构，同时确保鲁棒性和精确性。此外，还有Segnet模型，它在FCN的语义分割任务基础上，搭建编码器-解码器对称结构，实现端到端的像素级别图像分割。

最后，做实例分割，首选 Mask R-CNN和最近的Detectron2框架。值得一提的是Detectron2 与其他框架不同，其还包含了全景分割这一任务。分割任务在医学界应用也非常广泛，分割大脑MR图像，识别不同组织中细胞的关键区域，甚至研究骨骼结构等方向已经发表了许多论文。

除了上述四个，图像超分辨率也是卷积神经网络的一个分支应用。对于低分辨率图像，传统的解决方案是想法办在图片上思佳一些约束条件，如稀疏度等。卷积神经网络家族中的SRCNN找到了稀疏编码和卷积神经网络之间的对应关系。RDN网络已经成为实现超分辨率的流行方法。此外，预测滤波流（PredicTIve Filter Flow）在图像去噪和去模糊化方向也非常棒。

图像配准是数字图像处理的一种重要应用，用于对齐两幅或多幅相同场景的图片。图像配准需要输入图像与参考图像。输入图像是我们希望变换的图像，参考图像是想要配准输入图像的图像。这种需要让两幅图像对齐的技术核心是卷积神经网络，通常需要的是编码器-解码器结构的神经网络，例如U-net。

姿势估计也能看做卷积神经网络的应用，重点在于图片中人物的关键节点，例如膝盖、手肘、头部等。2D的姿势估计是计算机的核心问题，此类的数据集和卷积架构也比较多，早期的堆叠沙漏网络结构衍生的各种变种算法，牢牢占据了姿态检测的半壁江山。

最近的网络 HRNet，能够通过并行连接高分辨率到低分辨率卷积来保持高分辨率表示，并通过重复跨并行卷积执行多尺度融合来增强高分辨率表示。另外，卡内基梅陇大学也提供了端到端的多人姿势检测系统，用自监督学习实现了人类3D动作追踪。值得一提的是，姿势估计已经在助力动物行为研究的相关项目了。
（责任编辑：fqj）

欢迎分享，转载请注明来源：内存溢出

原文地址: https://outofmemory.cn/dianzi/2579113.html

深度学习模型种类多，科学研究如何选择

发表评论

评论列表（0条）