什么是神经网络

什么是神经网络,第1张

神经网络是机器学习的一个流派。这是现今最火的一个学派。我们在第一讲中,已经知道人学习知识是通过神经元的连接,科学家通过模仿人脑机理发明了人工神经元。技术的进一步发展,多层神经元的连接,就形成了神经网络。那么神经网络是怎么搭建起来的呢?神经元是构建神经网络的最基本单位, 这张图就是一个人工神经元的原理图,非常简单,一个神经元由一个加法器和一个门限器组成。加法器有一些输入,代表从其他神经元来的信号,这些信号分别被乘上一个系数后在加法器里相加,如果相加的结果大于某个值,就「激活」这个神经元,接通到下个神经元,否则就不激活。原理就这么简单,做起来也很简单。今天所有的神经网络的基本单元都是这个。输入信号乘上的系数,我们也叫「权重」,就是网络的参数,玩神经网路就是调整权重,让它做你想让它做的事。 一个神经元只能识别一个东西,比如,当你训练给感知器会「认」数字「8」,你给它看任何一个数字,它就会告诉你,这是「8」还不是「8」。为了让机器识别更多更复杂的图像,我们就需要用更多的神经元。人的大脑由 1000 亿个神经元构成,人脑神经元组成了一个很复杂的三维立体结构。

枫舞给出基本的概念:

一一些基本常识和原理

[什么叫神经网络]

人的思维有逻辑性和直观性两种不同的基本方式。逻辑性的思维是指根据逻辑规则进行推理的过程;它先将信息化成概念,并用符号表示,然后,根据符号运算按串行模式进行逻辑推理;这一过程可以写成串行的指令,让计算机执行。然而,直观性的思维是将分布式存储的信息综合起来,结果是忽然间产生想法或解决问题的办法。这种思维方式的根本之点在于以下两点:1信息是通过神经元上的兴奋模式分布储在网络上;2信息处理是通过神经元之间同时相互作用的动态过程来完成的。

人工神经网络就是模拟人思维的第二种方式。这是一个非线性动力学系统,其特色在于信息的分布式存储和并行协同处理。虽然单个神经元的结构极其简单,功能有限,但大量神经元构成的网络系统所能实现的行为却是极其丰富多彩的。

[人工神经网络的工作原理]

人工神经网络首先要以一定的学习准则进行学习,然后才能工作。现以人工神经网络对手写“A”、“B”两个字母的识别为例进行说明,规定当“A”输入网络时,应该输出“1”,而当输入为“B”时,输出为“0”。

所以网络学习的准则应该是:如果网络作出错误的的判决,则通过网络的学习,应使得网络减少下次犯同样错误的可能性。首先,给网络的各连接权值赋予(0,1)区间内的随机值,将“A”所对应的图象模式输入给网络,网络将输入模式加权求和、与门限比较、再进行非线性运算,得到网络的输出。在此情况下,网络输出为“1”和“0”的概率各为50%,也就是说是完全随机的。这时如果输出为“1”(结果正确),则使连接权值增大,以便使网络再次遇到“A”模式输入时,仍然能作出正确的判断。

如果输出为“0”(即结果错误),则把网络连接权值朝着减小综合输入加权值的方向调整,其目的在于使网络下次再遇到“A”模式输入时,减小犯同样错误的可能性。如此 *** 作调整,当给网络轮番输入若干个手写字母“A”、“B”后,经过网络按以上学习方法进行若干次学习后,网络判断的正确率将大大提高。这说明网络对这两个模式的学习已经获得了成功,它已将这两个模式分布地记忆在网络的各个连接权值上。当网络再次遇到其中任何一个模式时,能够作出迅速、准确的判断和识别。一般说来,网络中所含的神经元个数越多,则它能记忆、识别的模式也就越多。

=================================================

枫舞推荐一个小程序:

关于一个神经网络模拟程序的下载

人工神经网络实验系统(BP网络) V10 Beta 作者:沈琦

http://emuchnet/html/200506/de24132html

作者关于此程序的说明:

从输出结果可以看到,前3条"学习"指令,使"输出"神经元收敛到了值 0515974。而后3条"学习"指令,其收敛到了值0520051。再看看处理4和11的指令结果 P Out1: 0520051看到了吗? "大脑"识别出了4和11是属于第二类的!怎么样很神奇吧再打show指令看看吧!"神经网络"已经形成了!你可以自己任意的设"模式"让这个"大脑"学习分辩哦!只要样本数据量充分(可含有误差的样本),如果能够在out数据上收敛地话,那它就能分辨地很准哦!有时不是绝对精确,因为它具有"模糊处理"的特性看Process输出的值接近哪个Learning的值就是"大脑"作出的"模糊性"判别!

=================================================

枫舞推荐神经网络研究社区:

人工神经网络论坛

http://wwwyoungfancom/forum/indexphp

http://wwwyoungfancom/nn/indexhtml(旧版,枫舞推荐)

国际神经网络学会(INNS)(英文)

http://wwwinnsorg/

欧洲神经网络学会(ENNS)(英文)

http://wwwsnnkunnl/enns/

亚太神经网络学会(APNNA)(英文)

http://wwwcsecuhkeduhk/~apnna

日本神经网络学会(JNNS)(日文)

http://wwwjnnsorg

国际电气工程师协会神经网络分会

http://wwwieee-nnsorg/

研学论坛神经网络

http://bbsmatwavcom/post/pagebid=8&sty=1&age=0

人工智能研究者俱乐部

http://wwwsouwucom/

2nsoft人工神经网络中文站

http://211156161210:8888/2nsoft/indexjsp

=================================================

枫舞推荐部分书籍:

人工神经网络技术入门讲稿(PDF)

http://wwwyoungfancom/nn/annpdf

神经网络FAQ(英文)

http://wwwyoungfancom/nn/FAQ/FAQhtml

数字神经网络系统(电子图书)

http://wwwyoungfancom/nn/nnbook/directorhtm

神经网络导论(英文)

http://wwwshefacuk/psychology/gurney/notes/contentshtml

===============================================

枫舞还找到一份很有参考价值的讲座

<前向网络的敏感性研究>

http://wwwyoungfancom/nn/mgxppt

是Powerpoint文件,比较大,如果网速不够最好用鼠标右键下载另存

=========================================================

枫舞添言:很久之前,枫舞梦想智能机器人从自己手中诞生,SO在学专业的时候也有往这方面发展考研的时候亦是朝着人工智能的方向发展但是很不幸的是枫舞考研失败SO 只好放弃这个美好的愿望,为生活奔波希望你能够成为一个好的智能计算机工程师枫舞已经努力的在给你提供条件资源哦~~

深入浅出BP神经网络算法的原理

相信每位刚接触神经网络的时候都会先碰到BP算法的问题,如何形象快速地理解BP神经网络就是我们学习的高级乐趣了(画外音:乐趣?你在跟我谈乐趣?)

本篇博文就是要简单粗暴地帮助各位童鞋快速入门采取BP算法的神经网络。

BP神经网络是怎样的一种定义?看这句话:一种按“误差逆传播算法训练”的多层前馈网络。

BP的思想就是:利用输出后的误差来估计输出层前一层的误差,再用这层误差来估计更前一层误差,如此获取所有各层误差估计。这里的误差估计可以理解为某种偏导数,我们就是根据这种偏导数来调整各层的连接权值,再用调整后的连接权值重新计算输出误差。直到输出的误差达到符合的要求或者迭代次数溢出设定值。

说来说去,“误差”这个词说的很多嘛,说明这个算法是不是跟误差有很大的关系?

没错,BP的传播对象就是“误差”,传播目的就是得到所有层的估计误差。

它的学习规则是:使用最速下降法,通过反向传播(就是一层一层往前传)不断调整网络的权值和阈值,最后使全局误差系数最小。

它的学习本质就是:对各连接权值的动态调整。

拓扑结构如上图:输入层(input),隐藏层(hide layer),输出层(output)

BP网络的优势就是能学习和储存大量的输入输出的关系,而不用事先指出这种数学关系。那么它是如何学习的?

BP利用处处可导的激活函数来描述该层输入与该层输出的关系,常用S型函数δ来当作激活函数。

我们现在开始有监督的BP神经网络学习算法:

1、正向传播得到输出层误差e

=>输入层输入样本=>各隐藏层=>输出层

2、判断是否反向传播

=>若输出层误差与期望不符=>反向传播

3、误差反向传播

=>误差在各层显示=>修正各层单元的权值,直到误差减少到可接受程度。

算法阐述起来比较简单,接下来通过数学公式来认识BP的真实面目。

假设我们的网络结构是一个含有N个神经元的输入层,含有P个神经元的隐层,含有Q个神经元的输出层。

这些变量分别如下:

认识好以上变量后,开始计算:

一、用(-1,1)内的随机数初始化误差函数,并设定精度ε,最多迭代次数M

二、随机选取第k个输入样本及对应的期望输出

重复以下步骤至误差达到要求:

三、计算隐含层各神经元的输入和输出

四、计算误差函数e对输出层各神经元的偏导数,根据输出层期望输出和实际输出以及输出层输入等参数计算。

五、计算误差函数对隐藏层各神经元的偏导数,根据后一层(这里即输出层)的灵敏度(稍后介绍灵敏度)δo(k),后一层连接权值w,以及该层的输入值等参数计算

六、利用第四步中的偏导数来修正输出层连接权值

七、利用第五步中的偏导数来修正隐藏层连接权值

八、计算全局误差(m个样本,q个类别)

比较具体的计算方法介绍好了,接下来用比较简洁的数学公式来大致地概括这个过程,相信看完上述的详细步骤都会有些了解和领悟。

假设我们的神经网络是这样的,此时有两个隐藏层。

我们先来理解灵敏度是什么?

看下面一个公式:

这个公式是误差对b的一个偏导数,这个b是怎么?它是一个基,灵敏度δ就是误差对基的变化率,也就是导数。

因为u/b=1,所以E/b=E/u=δ,也就是说bias基的灵敏度E/b=δ等于误差E对一个节点全部输入u的导数E/u。

也可以认为这里的灵敏度等于误差E对该层输入的导数,注意了,这里的输入是上图U级别的输入,即已经完成层与层权值计算后的输入。

每一个隐藏层第l层的灵敏度为:

这里的“”表示每个元素相乘,不懂的可与上面详细公式对比理解

而输出层的灵敏度计算方法不同,为:

而最后的修正权值为灵敏度乘以该层的输入值,注意了,这里的输入可是未曾乘以权值的输入,即上图的Xi级别。

对于每一个权值(W)ij都有一个特定的学习率ηIj,由算法学习完成。

Back Propagation BP (Back Propagation)神经网络,即误差反传误差反向传播算法的学习过程,由信息的正向传播和误差的反向传播两个过程组成。输入层各神经元负责接收来自外界的输入信息,并传递给中间层各神经元;中间层是内部信息处理层,负责信息变换,根据信息变化能力的需求,中间层(隐含层)可以设计为单隐层或者多隐层结构;最后一个隐层传递到输出层各神经元的信息,经进一步处理后,完成一次学习的正向传播处理过程,由输出层向外界输出信息处理结果。神经网络很多种,BP神经网络最常用。

Image是Graph在欧式空间中的一种特例。Graph是相较于Image来说更加广义的一种拓扑结构。Graph由点和边组成它可以表示任意的事物与事物之间的关系。而Image是表示在欧式空间中的事物与事物之间的关系。我们可以根据Image来构建对应的Graph,将每一个像素作为节点,像素之间的关系作为边。

现实生活中能够建图的场景非常之多,社交关系,词汇搜索等等。

图神经网络就是专门用来处理图数据的神经网络架构。具体来说,会给定图的每个邻接矩阵和节点特征,通过将这两个输入进行某种图上的映射。从而得到每个节点下一层的特征。

图神经网络的聚合模式:

合理性:比如社交网络中我们想要获得某一个用户的特征,可以搜集与他相近的人的特征,他们会具有一定的相关性。(近朱者赤,近墨者黑)

许多GNN相关的模型其实都是在设计函数“ f ”

这里我们只讨论简单无向图(图无自环、无重边,边无方向)

公式中的 是邻接矩阵+单位矩阵,相当于给每一个节点添加一个自环。 是对角阵+单位阵。表示添加自环后每一个节点的度值。 代表了每一个节点的度的值。对于对角阵求幂,只要对对角线上的每一个元素求幂即可。

是可训练的参数,是对输入的feature进行线性变换。 是非线性的激活函数。

简单理解GCN在做什么:对图的邻接矩阵加了一个自环,做了对称归一化。然后用得到的结果对输入的特征进行聚合。每个节点都聚合到了自己和周边节点加权求和的feature信息。

研究与图的邻接矩阵相关的一些性质的领域。将线性代数研究矩阵性质限定在了研究图的邻接矩阵的范围内。谱图理论是线性代数的子领域。

对于一个矩阵 ,如果有 其中 为标量、 。就称 是 的特征向量, 是A的特征值。

如果一个矩阵是一个实对称阵,那么它一定有N个特征值,对应着N个互相正交的特征向量。

,其中 , 除了对角线上以外其他元素都是0。对角线上的元素都是一个特征值。

半正定矩阵就是所有的特征值都大于等于0。

给定一个矩阵A,左乘x转置,右乘x。 就称为向量x对矩阵A的二次型。

瑞利熵就是一个向量关于矩阵A的二次型与这个向量关于单位矩阵的二次型的比值 。

为什么需要研究瑞利熵:因为其与矩阵的特征值有着密切的联系。如我们假定 是矩阵A的一个特征向量,那么瑞利熵就是矩阵对应的特征值。

因此瑞利熵是我们研究特征值的重要手段。

是图的拉普拉斯矩阵, 。

是拉普拉斯矩阵的对称规范化, 。

与 都是实对称阵。因此他们都有N个特征值和N个互相正交的特征向量。可以分解为上述的 的形式。且这两个矩阵都是半正定的,其特征值都是大于等于0的。

一个更加强的性质: 不仅 而且 。

由上述证明我们得出 的瑞利熵是 的。因此 的特征值也是恒 的。

傅里叶变换其实就是“去研究同一个事物在不同的域之间不同的视角”是怎样的,以及在不同的域之间进行变换。

431 遗传BP简介

遗传识别是遗传算法+神经网络的一种新兴的寻优技术,适合于复杂的、叠加的非线性系统的辨识描述。神经网络算法是当前较为成熟的识别分类方法,但网络权值的训练一直存在着缺陷。为此结合具体应用,在对遗传算法进行改进的基础上,本文采用了一种基于遗传学习权值的神经网络识别方法,并取得了较好的效果。

尽管常规遗传算法是稳健的,但针对一个具体问题遗传算法只有和其他方法(或称原有算法)有效地结合在一起,组成一个新的混合算法,才能在实际中得到广泛应用。混合算法既要保持原有算法的长处,又要保持遗传算法的优点,因此常规遗传算法中的适应值函数、编码、遗传算子等必须做适当的修改以适应混合算法的要求。

4311 适应值信息

常规算法中,适应值常被表示为全局极小,用欧氏距离来实现。例如,适应值常被表示为如下形式:

储层特征研究与预测

式中:)Yi为第i 个样本的实际输出,Yi为第i 个样本的期望输出,N 为学习样本数。这种表示法的单点拟合能力较强,能够满足精度要求,但大多数情况下,还要考虑样本整体的一些性质,如方差、连续性等。适应值作为GA中的惟一使用信息,除了体现样本的差异性,还 应当兼顾样本间的相关性。这样就在一定程度上克服了剧烈振荡、网络容错能力差等弱点。因此,我们将灰色系统的灰关联引入进来,在保证样本的遗传 *** 作的同时,加强样本间横向上的联系,从而更有效地选择权值。

设 X0={X0(K),K=1,2,…,n}为母序列,Xi={Xi(K),K=1,2,…,n i=1,2,…,m}为子序列。

则关联系数为:

储层特征研究与预测

关联度为:

储层特征研究与预测

4312 编码问题

二进制位串编码是GA中常见的编码技术。但在实际编程中,采用浮点数直接表示更有利。主要有以下原因:

(1)避免了因网络权值范围不明确,难以进行编码的困难;

(2)取消了编码、译码过程,提高了学习算法的速度;

(3)十进制数字串的引入,在数字串长度不变的情况下,计算精度可以大为提高。例如,用七位二进制数字串来表示(-10,10)之间的数值,则精度最高为:

储层特征研究与预测

用同样长度的十进制数字串来表示(-10,10)之间的数值,去掉符号位和小数点所占用的一位,余下的四位表示小数值,则精度最高可以达到00001。

4313 修改杂交算子

由于编码方式的改变,杂交算子可以设计为具有数值特点的向量的线性组合。通常表示为如下形式:

若有两个个体Sa、Sb杂交,则产生的个体为

储层特征研究与预测

其中u的取值在(0,1),也可根据情况适当缩小取值范围。当u取常数时,杂交算子即为一致杂交,当u随代数变化时,杂交算子则为非一致杂交。

在遗传算法中,随着迭代次数的增加,个体的平均性能逐步提高,个体间的差异缩小。为了防止个体趋向一致,影响算法的收敛性能,本文对u作了如下改变,令

储层特征研究与预测

其中t为当前代数,T为预置最大代数,随着代数的增加,u从1到0变化,完成杂交的渐变过程。

4314 修改变异算子

设个体x=(v1,v2,…,vn),则每个分量以一定概率进行变异,一次变异后的结果为(v1,…,,…,vn),1<=K<=n,的值按下面的随机方式决定:

储层特征研究与预测

式中:LB,UB为第K个变量的左、右邻居,函数Δ(t,y)返回(0,y)上的一个值,并使这个值随着代数t的增大而接近于0,这样选取的函数允许这个算子在算法的开始阶段一致搜索整个空间,而在算法的后阶段进行局部搜索。

储层特征研究与预测

式中:r为[0,1]上的随机数,T为预置的最大代数,t为当前代数,b是决定非一致程度的参数,这里取为05。

4315 成熟前收敛问题

成熟前收敛是指GA不能再产生性能超过父代的后代,尽管尚未达到全局最优解,主要表现形式是连续数代或数十代适应值不发生变化。它与其他方法中的局部极值问题很相似,但又不同,因为它并不一定出现在局部极小点。目前解决这一问题的方法主要有:重新启动法、动态参数编码法、混合法等。为了便于程序表现,我们引进了一个动态记忆窗口W,W用来记录从当前代开始最优目标值保持连续不变的代数。当W达到某个给定的值时,就认为出现了成熟前收敛,这时就令杂交算子和变异算子突然增大,实现基因的重组。当然用这种方法来判别收敛问题是不严格的,对一个算法收敛性能的评价主要应体现在时间复杂性和空间复杂性上。对于像GA这样带有随机搜索性质的具体方法,理论上说,只有当随机数字完全取尽,目标值仍未改变才可认为是成熟前收敛。但在实际中是不可能这样做的。因此可根据随机数的总个数,每次计算出最多取多少个随机参数,来大致估算所需的次数,这个次数就可认为是动态记忆机制W。

432 遗传BP网络结构

遗传算法一般可以通过两种方式应用到神经网络中。一种方式是利用遗传算法训练已知结构的网络,优化网络的连接权;另一种方式是利用遗传算法寻找网络的规模、结构和学习参数。目前这种方法在理论上还不完全成熟,寻优机理、学习效率等有待进一步研究,离实际应用还有一定的距离。

对多层前馈神经网络,目前用得最多的学习算法是BP算法。然而由于BP本身固有的学习机理的限制,从根本上改进BP算法是很困难的。BP的学习过程实际上是连接权的重组优化过程,因此在保持网络结构的前提下,寻找一种能使连接权达到最优组合的学习方法,具有一定的实际意义。

利用GA的优点来克服BP算法收敛慢和易局部收敛的缺陷,同时与BP算法的结合,也解决了单独利用GA往往只能在短时间内寻找到接近最优解的近优解这一问题,引入BP算法的梯度信息将会避免这种现象。GA与BP算法可以有多种不同的组合方法:

先BP后GA:先用BP培训一个预先选定结构的ANN(人工神经网络)直到平均误差不再有意义地减少时为止,然后在此基础上再用GA进行若干代的优化。重复进行这样的搜索,直到误差范围达到满意的要求或者发现搜索不收敛为止。这种组合方法的基本思想是先用BP确定使误差函数取极小值的参数组合在参数空间的位置,再利用GA摆脱掉可能的局部极小。应用这种组合必须事先选定ANN的结构。即只能用它确定ANN的连接权重。显然,如果事先选择的ANN结构不合理或有关的参数(如学习率等)不合适,可能会导致搜索不收敛。

先GA后BP:先用GA反复优化描述ANN模型的参数组合,直到适应函数的平均不再有意义地增加为止。在此基础上再用 BP算法对它们进行优化。这种组合方法的基本思想是先用GA粗选ANN模型,再用 BP算法精细与优化。这种组合方法的优点是通用性好,既可像前一组合方法那样用来优选指定结构下的部分参数,也可用来优选其他的参数,例如 ANN 的结构、学习率等,甚至还可用于优选它们的组合。

图4-4 GABP结构图

上面两种组合GA与 BP的方法是比较基本的两种,以它们为基础可以衍生出多种具体的实现方案。但由于 BP 算法本身也有许多参数需要选定,而且选择方法也无规则可循,因而组合 GA 与BP在一定程度上也使待解决的问题更加复杂化。为此,这里提出了一种改进的GABP方法,即利用 BP网络的非线性分类能力和网络结构来设计分类器,将遗传学习的结果直接送入网络,不再经过BP优化,通过网络结构输出结果。这种改进既体现了系统的非线性,与前面的处理方法相衔接,又通过GA的学习优化了权值,提高了运算速度。该网络为一个三层 BP 网络,结构如图4-4所示。

433 遗传BP计算过程

遗传BP算法的具体步骤:

(1)随机产生N组(-1,1)区间内取值的初始网络权值。

(2)用BP算法对这N组始值分别进行训练,若这N组权值中至少已有一组满足精度要求,则算法结束;否则转入步骤(3)。

(3)分别依据经过训练的这N组较好的权值所对应的上下限确定取值区间,在区间内再随机生产成N组新的权限,连同经过训练的N组权值在一起,构成一个完整的基因群体,共2N组权值。

(4)从这2N组权值进行选择、交叉、变异等遗传 *** 作。

(5)从经过遗传 *** 作的这2N组权值中选出N组较好的,回复到步骤(2)。

图4-5 改进的 GABP计算流程图

GABP的计算过程图如图4-5所示。

人工智能技术是当前炙手可热的话题,而基于神经网络的深度学习技术更是热点中的热点。去年谷歌的Alpha Go 以4:1大比分的优势战胜韩国的李世石九段,展现了深度学习的强大威力,后续强化版的Alpha Master和无师自通的Alpha Zero更是在表现上完全碾压前者。不论你怎么看,以深度学习为代表的人工智能技术正在塑造未来。

下图为英伟达(NVIDIA)公司近年来的股价情况, 该公司的主要产品是“图形处理器”(GPU),而GPU被证明能大大加快神经网络的训练速度,是深度学习必不可少的计算组件。英伟达公司近年来股价的飞涨足以证明当前深度学习的井喷之势。

好,话不多说,下面简要介绍神经网络的基本原理、发展脉络和优势。

神经网络是一种人类由于受到生物神经细胞结构启发而研究出的一种算法体系,是机器学习算法大类中的一种。首先让我们来看人脑神经元细胞:

一个神经元通常具有多个树突 ,主要用来接受传入信息,而轴突只有一条,轴突尾端有许多轴突末梢,可以给其他多个神经元传递信息。轴突末梢跟其他神经元的树突产生连接,从而传递信号。

下图是一个经典的神经网络(Artificial Neural Network,ANN):

乍一看跟传统互联网的拓扑图有点类似,这也是称其为网络的原因,不同的是节点之间通过有向线段连接,并且节点被分成三层。我们称图中的圆圈为神经元,左边三个神经元组成的一列为输入层,中间神经元列为隐藏层,右边神经元列为输出层,神经元之间的箭头为权重。

神经元是计算单元,相当于神经元细胞的细胞核,利用输入的数据进行计算,然后输出,一般由一个线性计算部分和一个非线性计算部分组成;输入层和输出层实现数据的输入输出,相当于细胞的树突和轴突末梢;隐藏层指既不是输入也不是输出的神经元层,一个神经网络可以有很多个隐藏层。

神经网络的关键不是圆圈代表的神经元,而是每条连接线对应的权重。每条连接线对应一个权重,也就是一个参数。权重具体的值需要通过神经网络的训练才能获得。我们实际生活中的学习体现在大脑中就是一系列神经网络回路的建立与强化,多次重复的学习能让回路变得更加粗壮,使得信号的传递速度加快,最后对外表现为“深刻”的记忆。人工神经网络的训练也借鉴于此,如果某种映射关系出现很多次,那么在训练过程中就相应调高其权重。

1943年,心理学家McCulloch和数学家Pitts参考了生物神经元的结构,发表了抽象的神经元模型MP:

符号化后的模型如下:

Sum函数计算各权重与输入乘积的线性组合,是神经元中的线性计算部分,而sgn是取符号函数,当输入大于0时,输出1,反之输出0,是神经元中的非线性部分。向量化后的公式为z=sgn(w^T a)(w^T=(w_1,w_2,w_3),a=〖(a_1,a_2,a_3)〗^T)。

但是,MP模型中,权重的值都是预先设置的,因此不能学习。该模型虽然简单,并且作用有限,但已经建立了神经网络大厦的地基

1958年,计算科学家Rosenblatt提出了由两层神经元组成(一个输入层,一个输出层)的神经网络。他给它起了一个名字–“感知器”(Perceptron)

感知器是当时首个可以学习的人工神经网络。Rosenblatt现场演示了其学习识别简单图像的过程,在当时引起了轰动,掀起了第一波神经网络的研究热潮。

但感知器只能做简单的线性分类任务。1969年,人工智能领域的巨擘Minsky指出这点,并同时指出感知器对XOR(异或,即两个输入相同时输出0,不同时输出1)这样的简单逻辑都无法解决。所以,明斯基认为神经网络是没有价值的。

随后,神经网络的研究进入低谷,又称 AI Winter 。

Minsky说过单层神经网络无法解决异或问题,但是当增加一个计算层以后,两层神经网络不仅可以解决异或问题,而且具有非常好的非线性分类效果。

下图为两层神经网络(输入层一般不算在内):

上图中,输出层的输入是上一层的输出。

向量化后的公式为:

注意:

每个神经元节点默认都有偏置变量b,加上偏置变量后的计算公式为:

同时,两层神经网络不再使用sgn函数作为激励函数,而采用平滑的sigmoid函数:

σ(z)=1/(1+e^(-z) )

其图像如下:

理论证明: 两层及以上的神经网络可以无限逼近真实的对应函数,从而模拟数据之间的真实关系 ,这是神经网络强大预测能力的根本。但两层神经网络的计算量太大,当时的计算机的计算能力完全跟不上,直到1986年,Rumelhar和Hinton等人提出了反向传播(Backpropagation,BP)算法,解决了两层神经网络所需要的复杂计算量问题,带动了业界使用两层神经网络研究的热潮。

但好景不长,算法的改进仅使得神经网络风光了几年,然而计算能力不够,局部最优解,调参等一系列问题一直困扰研究人员。90年代中期,由Vapnik等人发明的SVM(Support Vector Machines,支持向量机)算法诞生,很快就在若干个方面体现出了对比神经网络的优势:无需调参;高效;全局最优解。

由于以上原因,SVM迅速打败了神经网络算法成为主流。神经网络的研究再一次进入低谷, AI Winter again 。

多层神经网络一般指两层或两层以上的神经网络(不包括输入层),更多情况下指两层以上的神经网络。

2006年,Hinton提出使用 预训练 ”(pre-training)和“微调”(fine-tuning)技术能优化神经网络训练,大幅度减少训练多层神经网络的时间

并且,他给多层神经网络相关的学习方法赋予了一个新名词–“ 深度学习 ”,以此为起点,“深度学习”纪元开始了:)

“深度学习”一方面指神经网络的比较“深”,也就是层数较多;另一方面也可以指神经网络能学到很多深层次的东西。研究发现,在权重参数不变的情况下,增加神经网络的层数,能增强神经网络的表达能力。

但深度学习究竟有多强大呢?没人知道。2012年,Hinton与他的学生在ImageNet竞赛中,用多层的卷积神经网络成功地对包含一千类别的一百万张进行了训练,取得了分类错误率15%的好成绩,这个成绩比第二名高了近11个百分点,充分证明了多层神经网络识别效果的优越性。

同时,科研人员发现GPU的大规模并行矩阵运算模式完美地契合神经网络训练的需要,在同等情况下,GPU的速度要比CPU快50-200倍,这使得神经网络的训练时间大大减少,最终再一次掀起了神经网络研究的热潮,并且一直持续到现在。

2016年基于深度学习的Alpha Go在围棋比赛中以4:1的大比分优势战胜了李世石,深度学习的威力再一次震惊了世界。

神经网络的发展历史曲折荡漾,既有被捧上神坛的高潮,也有无人问津的低谷,中间经历了数次大起大落,我们姑且称之为“三起三落”吧,其背后则是算法的改进和计算能力的持续发展。

下图展示了神经网络自发明以来的发展情况及一些重大时间节点。

当然,对于神经网络我们也要保持清醒的头脑。由上图,每次神经网络研究的兴盛期持续10年左右,从最近2012年算起,或许10年后的2022年,神经网络的发展将再次遇到瓶颈。

神经网络作为机器学习的一种,其模型训练的目的,就是使得参数尽可能的与真实的模型逼近。理论证明,两层及以上的神经网络可以无限逼近真实的映射函数。因此,给定足够的训练数据和训练时间,总能通过神经网络找到无限逼近真实关系的模型。

具体做法:首先给所有权重参数赋上随机值,然后使用这些随机生成的参数值,来预测训练数据中的样本。假设样本的预测目标为yp ,真实目标为y,定义值loss,计算公式如下:

loss = (yp -y) ^2

这个值称之为 损失 (loss),我们的目标就是使对所有训练数据的损失和尽可能的小,这就转化为求loss函数极值的问题。

一个常用方法是高等数学中的求导,但由于参数不止一个,求导后计算导数等于0的运算量很大,所以常用梯度下降算法来解决这样的优化问题。梯度是一个向量,由函数的各自变量的偏导数组成。

比如对二元函数 f =(x,y),则梯度∇f=(∂f/∂x,∂f/∂y)。梯度的方向是函数值上升最快的方向。梯度下降算法每次计算参数在当前的梯度,然后让参数向着梯度的反方向前进一段距离,不断重复,直到梯度接近零时截止。一般这个时候,所有的参数恰好达到使损失函数达到一个最低值的状态。下图为梯度下降的大致运行过程:

在神经网络模型中,由于结构复杂,每次计算梯度的代价很大。因此还需要使用 反向传播 (Back Propagation)算法。反向传播算法利用了神经网络的结构进行计算,不一次计算所有参数的梯度,而是从后往前。首先计算输出层的梯度,然后是第二个参数矩阵的梯度,接着是中间层的梯度,再然后是第一个参数矩阵的梯度,最后是输入层的梯度。计算结束以后,所要的两个参数矩阵的梯度就都有了。当然,梯度下降只是其中一个优化算法,其他的还有牛顿法、RMSprop等。

确定loss函数的最小值后,我们就确定了整个神经网络的权重,完成神经网络的训练。

在神经网络中一样的参数数量,可以用更深的层次去表达。

由上图,不算上偏置参数的话,共有三层神经元,33个权重参数。

由下图,保持权重参数不变,但增加了两层神经元。

在多层神经网络中,每一层的输入是前一层的输出,相当于在前一层的基础上学习,更深层次的神经网络意味着更深入的表示特征,以及更强的函数模拟能力。更深入的表示特征可以这样理解,随着网络的层数增加,每一层对于前一层次的抽象表示更深入。

如上图,第一个隐藏层学习到“边缘”的特征,第二个隐藏层学习到“边缘”组成的“形状”的特征,第三个隐藏层学习到由“形状”组成的“图案”的特征,最后的隐藏层学习到由“图案”组成的“目标”的特征。通过抽取更抽象的特征来对事物进行区分,从而获得更好的区分与分类能力。

前面提到, 明斯基认为Rosenblatt提出的感知器模型不能处理最简单的“异或”(XOR)非线性问题,所以神经网络的研究没有前途,但当增加一层神经元后,异或问题得到了很好地解决,原因何在?原来从输入层到隐藏层,数据发生了空间变换,坐标系发生了改变,因为矩阵运算本质上就是一种空间变换。

如下图,红色和蓝色的分界线是最终的分类结果,可以看到,该分界线是一条非常平滑的曲线。

但是,改变坐标系后,分界线却表现为直线,如下图:

同时,非线性激励函数的引入使得神经网络对非线性问题的表达能力大大加强。

对于传统的朴素贝叶斯、决策树、支持向量机SVM等分类器,提取特征是一个非常重要的前置工作。在正式训练之前,需要花费大量的时间在数据的清洗上,这样分类器才能清楚地知道数据的维度,要不然基于概率和空间距离的线性分类器是没办法进行工作的。然而在神经网络中,由于巨量的线性分类器的堆叠(并行和串行)以及卷积神经网络的使用,它对噪声的忍耐能力、对多通道数据上投射出来的不同特征偏向的敏感程度会自动重视或忽略,这样我们在处理的时候,就不需要使用太多的技巧用于数据的清洗了。有趣的是,业内大佬常感叹,“你可能知道SVM等机器学习的所有细节,但是效果并不好,而神经网络更像是一个黑盒,很难知道它究竟在做什么,但工作效果却很好”。

人类对机器学习的环节干预越少,就意味着距离人工智能的方向越近。神经网络的这个特性非常有吸引力。

1) 谷歌的TensorFlow开发了一个非常有意思的神经网络 入门教程 ,用户可以非常方便地在网页上更改神经网络的参数,并且能看到实时的学习效率和结果,非常适合初学者掌握神经网络的基本概念及神经网络的原理。网页截图如下:

2) 深度学习领域大佬吴恩达不久前发布的《 神经网络和深度学习 》MOOC,现在可以在网易云课堂上免费观看了,并且还有中文字幕。

3) 《神经网络于深度学习》(Michael Nielsen著)、《白话深度学习与TensorFlow》也是不错的入门书籍。

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zaji/11670941.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-17
下一篇 2023-05-17

发表评论

登录后才能评论

评论列表(0条)

保存