新兴产业概念扫盲3-AI人工智能-3深度学习

新兴产业概念扫盲3-AI人工智能-3深度学习,第1张

新兴产业概念扫盲3-AI人工智能-3深度学习 3 深度学习 3.1 概述

数据的井喷和计算力的飙升,推动深度学习取得巨大进步。如果说深度学习是一台探矿机,大数据就是那座有待挖掘的金矿,计算能力的进展则为这台探矿机提供了源源不断的动力。深度学习实际上是基于具有多个隐藏层的神经网络的学习;深度学习的思想来源于人类处理视觉信息的方式。

一个最成功的例子就是AlphaGo-zero。 深蓝是专注于国际象棋的、以暴力穷举为基础的专用人工智能;2016年3月,AlphaGo横空出世,作为几乎没有特定领域知识的、基于机器学习的、更加通用的人工智能,击败李世石。后升级为Master。2017 年 10 月,其升级版 AlphaGo Zero 诞生。自学成才 AlphaGo Zero 完全抛弃了来自棋谱数据的人类经验,而是通过左右互搏(自己和自己对弈)迅速提升棋力.11月,DeepMind 又推出了 AlphaGo Zero 的升级版:AlphaZero。AlphaZero 一不需要人工特征,二不需要棋谱知识,三不需要特定优化,可就是这个“三无”算法实现了对围棋、国际象棋和日本将棋的通吃,横扫棋类游戏,充分展示深度学习的能力。

3.2  技术介绍 3.2.1深度前馈网络

深度前馈网络利用深度架构实现工程上可实现的对任意函数的通用逼近;深度前馈网络使用梯度下降的方法进行学习;深度前馈网络的损失函数通常是交叉熵或最小均方误差;深度前馈网络的隐藏神经元通常使用整流线性单元作为传递函数。

3.2.2 正则化

正则化就是一类通过显式设计降低泛化误差,以提升算法通用性的策略的统称。从概率论角度看,许多正则化技术对应的是在模型参数上施加一定的先验分布,其作用是改变泛化误差的结构。正则化是对欠拟合和过拟合的折中,在不过度增加偏差的情况下显著减少方差。正则化能够改变数据分布,让通过模型得到的数据分布尽可能和真实的数据生成过程相匹配。正则化(Regularization)作为抑制过拟合的手段,是机器学习和深度学习之中必不可少的环节,具有举足轻重的地位。

正则化策略就可以分为以下几类:

  • 基于训练数据(data)的正则化:数据集增强和 Dropout
  • 基于网络架构(network architecture)的正则化:参数共享和传递函数正则化
  • 基于误差函数(error function)的正则化:使用 L2 范数和 L1 范数
  • 基于正则化项(the regularization term)的正则化:使用 L2 范数和 L1 范数
  • 基于最优化过程(optimization)的正则化:对初始化(initialization)的正则化,对参数更新(weight update)的正则化,对终止条件(termination)的正则化。)
3.2.3 深度学习的优化

          由于深度神经网络中的隐藏层数目较多,出于效率和精确性的考虑,在深度学习的优化上需要使用专门的技术。要点:

深度学习中的优化需要解决病态矩阵、局部极小值和鞍点等问题;

深度学习优化中的降噪方法包括动态采样、梯度聚合和迭代平均;

深度学习优化中的二阶导数近似方法是对原始牛顿法的各种改进;

其他优化方法包括动量方法、加速下降方法和坐标下降方法。 

3.2.4自编码器
  • 自编码器是一种无监督学习方式,目的在于学习数据的重新表达;
  • 多个浅层自编码器级联可以得到深度的栈式自编码器,并使用无监督预训练结合有监督微调的方式加以训练;
  • 稀疏自编码器利用稀疏的高维表达提取出训练集中隐含的统计规律;
  • 变分自编码器对隐藏层做参数化处理,可以用于学习数据的生成模型。
3.2.5 强化学习

作为人工智能方法的强化学习则力图使计算机在没有明确指导的情况下实现自主学习,完成从数据到决策的转变。强化学习(reinforcement learning)实质上是智能系统从环境到行为的学习过程,智能体通过与环境的互动来改善自身的行为,改善准则是使某个累积奖励函数最大化。强化学习的特点在于由环境提供的强化信号只是对智能体所产生动作的好坏作一种评价,和监督学习中清晰明确的判定结果相比,环境的反馈只能提供很少的信息。描述强化学习最常用的模式是马尔可夫决策过程(Markov decision process)。

深度强化学习(deep reinforcement learning)是深度学习和强化学习的结合,它将深度学习的感知能力和强化学习的决策能力熔于一炉,用深度学习的运行机制达到强化学习的优化目标,从而向通用人工智能迈进。根据实施方式的不同,深度强化学习方法可以分成三类,分别是基于价值、基于策略和基于模型的深度强化学习。

  • 基于价值(value-based)的深度强化学习的基本思路是建立一个价值函数的表示,通过优化价值函数得到最优策略;价值函数(value function)通常被称为 Q 函数,以状态空间 S 和动作空间 A 为自变量。某个策略在所有状态 - 动作组合上的期望回报优于所有其他策略,这就是个最优策略。通过价值函数来找到最优策略,最优策略的数目可能不止一个,但总能找到其中之一。在没有“深度”的强化学习中,使用价值函数的算法叫做 Q 学习算法(Q-learning)。Q 算法不具备泛化能力,不能对未知的情况做出预测。深度强化学习将 Q 算法的参数也作为未知的变量,用神经网络来训练 Q 算法的参数,得到深度 Q 网络。深度 Q 网络中有两种值得一提的机制,分别是经验回放和目标 Q 网络。
  • 基于策略(strategy-based)的深度强化学习的基本思路就是直接搜索能够使未来奖励最大化的最优策略。具体的做法是利用深度神经网络对策略进行参数化的表示,再利用策略梯度方法进行优化,通过不断计算总奖励的期望关于策略参数的梯度来更新策略参数,最终收敛到最优策略上。策略梯度方法的思想是直接使用逼近函数来近似表示和优化策略,通过增加总奖励较高情况的出现概率来逼近最优策略。一种实用的策略梯度方法是无监督强化辅助学习(UNsupervised REinforcement and Auxiliary Learning),简称UNREAL 算法。UNREAL 算法的核心是行动者 - 评论家(actor-critic)机制,两者分别代表两个不同的网络。
  • 基于模型(model-based)的深度强化学习的基本思路是构造关于环境的模型,再用这个模型来指导决策。关于环境的模型可以使用转移概率p(r,s′∣s,a) 来表示,它描述了从当前的状态和动作到下一步的状态和奖励的可能性。将转移概率在状态空间和动作空间上遍历,就可以得到完整的转移概率张量。不同的转移概率可以通过深度网络训练得到。目前相关的研究和应用也比较少。
3.3 深度学习+神经网络 3.3.1深度信念网络

是一种生成模型,能够建立输入和输出的联合概率分布;

受限玻尔兹曼机是构成深度信念网络的基本单元,是由可见层和隐藏层构成的神经网络;

受限玻尔兹曼机的训练方法是对比散度法,通过可见层和隐藏层的多轮交互实现;

深度神经网络的通用训练方式是无监督逐层预训练和有监督微调的结合。

3.3.2卷积神经网络

人脸识别乃至图像识别中的一项关键技术,就是卷积神经网络。卷积神经网络(convolutional neural network)指的是至少在某一层中用卷积运算(convolution)来代替矩阵乘法的神经网络。卷积运算的特性决定了神经网络适用于处理具有网格状结构的数据。最典型的网格型数据就是数字图像,因而卷积神经网络自诞生以来,便广泛地应用于图像与文本识别之中,并逐渐扩展到自然语音处理等其他领域。

  • 卷积神经网络具有稀疏感知性、参数共享性和平移不变性;
  • 卷积神经网络的结构包括交替出现的卷积层、激活层和池化层,以及作为输出的全连接层;
  • 卷积神经网络的作用是逐层提取输入对象的特征。
3.3.3 循环神经网络

在深度学习中,RNN这个缩写有两层含义,它既可以表示循环神经网络(Recurrent Neural Network),也可以表示递归神经网络(Recursive Neural Network)。两个 RNN 之间的关系还很密切:循环神经网络可以看成是递归神经网络的特例,递归神经网络则可以视为循环神经网络的推广。卷积神经网络,它具有空间上的参数共享的特性,也就是同样的核函数可以应用在图像的不同区域之上。如果把参数共享调整到时间的维度上,让神经网络使用相同的权重系数来处理具有先后顺序的数据,得到的就是循环神经网络。

前馈网络适用于表示客观性的知识,相对客观稳定的。循环网络则适用于表示主观性的知识,相对上下文情景关联的。很多主观性知识正隐藏在数据的顺序之中,输入序列的内部信息存储在循环神经网络的隐藏层中,并随着时间的推移在隐藏层中流转。

3.3.4生成式对抗网络
  • 生成式对抗网络是一类运行在零和博弈框架下的无监督学习算法,由生成器和判别器构成;
  • 生成器的目的是精确模拟真实数据的分布,判别器的目的是精确区分真实数据和生成数据;
  • 生成式对抗网络的主要优点是超越了传统神经网络分类和特征提取的功能,能够按照真实数据的特点生成新的数据;
  • 生成式对抗网络的主要问题是理论基础的缺失。
3.3.5长短期记忆网络

长短期记忆网络(long short-term memory)的作用就是实现长期记忆,更准确地说,是实现任意长度的记忆。

长短期记忆网络是由相应的基本单元构成的。长短期记忆的基本单元的作用在需要时取出并聚焦记忆,通常包括四个功能不同的隐藏层:记忆模块(memory cell)、输入门(input gate)、输出门(output gate)和遗忘门(forget gate),这比只有一个激活函数的一般循环神经网络要复杂得多。记忆模块的作用时存储数值或是状态,存储的时限既可以是长期也可以是短期。另外的“三重门”则用于控制信息的有选择通过,三者都使用对数几率函数作为传递函数。长短期记忆网络根据当前的输入、当前的记忆和前一时刻的输出确定当前的输出;长短期记忆网络能够解决梯度弥散的问题。目前,长短期记忆网络最著名的应用恐怕非谷歌翻译莫属。

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zaji/5676786.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-12-17
下一篇 2022-12-17

发表评论

登录后才能评论

评论列表(0条)

保存