Keras，Theano，pytorch，caffe2 哪个更好一些，应该怎么尝试学习_教程

最近刚开始使用theano, 经验不多，连个基本的模型都跑不通，于是去看了下Keras，源码比较简洁，可以当作theano的示例教程来看，感受如下：

文档看似很全，每个layer是干啥的，每个参数是啥都写了，但是不去读代码，实际很多人是无法从文档理解其具体用法的。这点看issue里的讨论里可以看出。同样，example似乎很多，而且都能直接run，还都是real world的数据集，看似很好，但是实际上，对于新手，如果需要的模型跟example里的不完全一样，不容易搞懂到底需要把输入输出的数据搞成啥格式。举个例子，example都是做的classification的，没有做sequence labeling的例子，如果想拿来做个pos tagging，不知道数据如何组织。当然，这些其实花一天读下代码或者好好翻翻issue讨论就可以解决了，但我相信不少人不会去认真读代码或者看讨论，而是直接换个工具。我感觉目前的doc只有懂了代码的人才能看懂，不懂得看文档还是没啥用。

2.项目很简单所以开发者不多，但是很活跃，每天都有新东西加进去。今天增加了一个新的分支后端可以用theano或者tensorflow了，不过貌似由于不支持scan，backend用tensorflow的没实现recurrent layer。他们也意识到文档的问题，觉得需要为小白用户多加点tutorial而不是光给develop看。

我没用过其他的framework，仅说keras</ol>拿来学习theano基本用法，很不错

库本身的代码，比较简单易读，我作为python菜鸟，也能看懂。目前model有sequential和grapgh两种，前者并不是指recurrent而是说网络是一层层堆的（也包括recurrent）.其他的主要概念包括layer，regularizer, optimizer,objective都分离开。layer用于build每层的输出函数，model会用最后一层的输出，根据objective和每个layer的regularizer来确定最终的cost，然后在update时用optimizer来更新参数。把这四个看下加上model里的fit函数，就会用theano啦。很多模型都能cover，seq2seq这种也有现成的可用。建议不要光看example，多看看github上的 issues讨论，实在找不到，直接提问。效率方面，我不懂theano怎么优化，感觉keras的这种封装，没什么成本，跟自己用原生theano是一样的。当然，theano本身就好慢啊。。估计是我不懂用吧。。

人群密度计数是指估计图像或视频中人群的数量、密度或分布，它是智能视频监控分析领域的关键问题和研究热点，也是后续行为分析、拥塞分析、异常检测和事件检测等高级视频处理任务的基础。随着城市化进程的快速推进，城市人口数量急剧增长，导致各种人员高度聚集的社会活动频繁发生，如果管控不当，极易发生拥挤踩踏事故。

例如上海“12.31”外滩踩踏事故中，由于现场管理和应对措施不当，引发了人群拥挤和摔倒，最终造成了重大人员伤亡的严重后果。如果有精度良好的人群计数系统实时统计相关场所的人群数量、分布或密度等信息，及时发现人群拥挤和异常行为并进行预警，以便采取措施进行疏导，就可以避免悲剧的发生。性能良好的人群计数算法也可以迁移到其他目标计数领域，如显微图片中的细菌与细胞计数、拥挤道路上的汽车计数等，拓展人群计数算法的应用范围.因此,人群计数方法的研究有着重要的现实意义和应用价值。

显然的是传统的人群计数方法具有一定局限性，无法从图像中提取更抽象的有助于完成人群计数任务的语义特征，使得面对背景复杂、人群密集、遮挡严重的场景时，计数精度无法满足实际需求。近年来，深度学习技术发展迅猛，在许多计算机视觉任务中得到成功应用，促使研究人员开始探索基于卷积神经网络的人群计数办法.相比于传统方法，基于CNN的人群计数方法在处理场景适应性、尺度多样性等问题时表现更优。而且由于特征是自学习的,不需要人工选取，可以显著提升计数效果，因此已经成为当前人群计数领域的研究热点。使用CNN的人群计数方法主要分为直接回归计数法和密度图估计法2类。直接回归法只需向CNN送入人群图片，就可以直接输出人群数量，适用于人群稀疏场景。在密度图法中，CNN输出的是人群密度图，再以数学积分求和的方式计算出人数.这类方法性能的好坏一定程度上依赖于密度图的质量。为了提升密度图质量，会引入新的损失函数来提高密度图的清晰度和准确度。

故本项目通过采用深度学习方法获取人群密度图已估计人群数量，使用python语言搭建MSCNN网络实现实时生成人群密度图以达到估计人群数量的目的。其最终实现效果如下图可见：

基本介绍

1.1 环境要求

本次环境使用的是python3.6.5+windows平台。主要用的库有：

opencv模块。在计算机视觉项目的开发中，opencv作为较大众的开源库，拥有了丰富的常用图像处理函数库，采用C/C++语言编写，可以运行在Linux/Windows/Mac等 *** 作系统上，能够快速的实现一些图像处理和识别的任务。

numpy模块。numpy系统是Python的一种开源的数值计算扩展。这种工具可用来存储和处理大型矩阵，比Python自身的嵌套列表结构要高效得多(该结构也可以用来表示矩阵。

pillow模块。PIL是理想的图像存档和批处理应用程序。您可以使用库创建缩略图，在文件格式、打印图像等之间进行转换。它提供了广泛的文件格式支持、高效的内部表示和相当强大的图像处理功能。核心图像库是为快速访问以几种基本像素格式存储的数据而设计的。为通用图像处理工具提供了坚实的基础。

keras模块。Keras是一个由Python编写的开源人工神经网络库，可以作为Tensorflow、Microsoft-CNTK和Theano的高阶应用程序接口，进行深度学习模型的设计、调试、评估、应用和可视化。

1.2 MSCNN网络介绍

MSCNN作为多尺度卷积神经网络与传统机器学习算法相比，深度学习模型能更有效地从高维复杂输入中自动提取特征。卷积神经网络是应用最广泛的深度学习模型之一，通过卷积、池化等 *** 作提取原始数据的特征，并通过权连接层输出模型的计算结果。其中，卷积核的大小在一定程度上影响着特征提取的效果和模型的故障识别能力。MSCNN是一种改进的卷积神经网络，通过不同大小的卷积核从多尺度挖掘特征信息，有效解决了传统CNN模型卷积核的自适应选择问题。

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/tougao/6694179.html

Keras，Theano，pytorch，caffe2 哪个更好一些，应该怎么尝试学习

发表评论

评论列表（0条）