图像识别 | 基于Keras的手写数字识别(含代码)

图像识别 | 基于Keras的手写数字识别(含代码),第1张

前沿

人工智能的浪潮已经席卷全球,深度学习(Deep Learning)和人工智能(Artificial Intelligence, AI)等词汇也不断地充斥在我们身边。人工智能的发展是一个三起两落的变化,90年代期间,知识推理>神经网络>机器学习;2005年左右,机器学习>知识(语义网)>神经网络而从2017年之后,基于深度学习的神经网络>知识(知识图谱)>机器学习。

卷积神经网络(convolutional neural network, CNN)作为深度学习中的代表,最早的灵感是来源于1961年Hubel和Wiesel两位神经生物学家,在对猫视觉皮层细胞的实验中,发现大脑可视皮层是分层的(CNN中的分层网络结构与其如出一辙)。深度学习作为机器学习(ML)的一个子领域,由于计算机能力的提高和大量数据的可用性,得到了戏剧性的复苏。但是,深度学习是否能等同或代表人工智能,这一点笔者认为有待商榷,深度学习可以认为是目前人工智能发展阶段的重要技术。由于本文主要撰写关于深度学习的入门实战,关于细节概念不做深入研究,下面笔者从实际案例,介绍深度学习处理图像的大致流程。

目录:

以手写识别数字为例,作为深度学习的入门项目,本文以Keras深度学习库为基础。其中使用的tensorflow等模块需要提前配置好,同时注意模型,图片保存、载入的文件路径问题。在自己的计算机上运行时,需要创建或修改。下面的流程包括:使用Keras载入MNIST数据集,构建Lenet训练网络模型,使用Keras进行模型的保存、载入,使用Keras实现对手写数字数据集的训练和预测,最后画出误差迭代图。

手写数字数据集介绍:

手写数字识别几乎是深度学习的入门数据集了。在keras中内置了MNIST数据集,其中测试集包含60000条数据,验证集包含10000条数据,为单通道的灰度图片,每张图片的像素大小为28 28.一共包含10个类别,为数字0到9。

导入相关模块:

载入MNIST数据集

Keras可实现多种神经网络模型,并可以加载多种数据集来评价模型的效果,下面我们使用代码自动加载MNIST数据集。

显示MNIST训练数据集中的前面6张图片:

数据的预处理

首先,将数据转换为4维向量[samples][width][height][pixels],以便于后面模型的输入

为了使模型训练效果更好,通常需要对图像进行归一化处理

最后,原始MNIST数据集的数据标签是0-9,通常要将其表示成one-hot向量。如训练数据标签为1,则将其转化为向量[0,1,0,0,0,0,0,0,0,0]

模型的建立与计算

训练模型的参数设置:

本文使用Lenet网络架构,下面定义Lenet网络结构,若要更改网络结构,如用VGGNet,GoogleNet,Inception,ResNets或自己构建不同的网络结构,可以直接在这一块函数内进行修改。

再附上两个经典的模型:

VGG16:

GoogleNet:

设置优化方法,loss函数,并编译模型:

本文使用生成器以节约内存:

结果分析

作出训练阶段的损失、精确度迭代图,本文将epoch设置为10,已达到0.98的准确率(代码、图像如下所示)。

公众号:帕帕 科技 喵

欢迎关注与讨论~

附件是一个现成的图像文字识别程序,C#调用OpenCV,原来的程序还能动态识别摄像头图像里的文字,但我为了简化修改成识别静态图片的了,解压后双击ContourAnalysisDemo.exe运行。

参考资料:

http://www.codeproject.com/Articles/196168/Contour-Analysis-for-Image-Recognition-in-C


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/yw/8013567.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-04-12
下一篇 2023-04-12

发表评论

登录后才能评论

评论列表(0条)

保存