谈谈Tensorflow的dropout

谈谈Tensorflow的dropout,第1张

Dropout这个概念已经推出4年了,它的详细描述见 论文 。可是呢,它仿佛是个犹抱琵琶半遮面的美女,难以捉摸!!许多文献都对dropout有过描述,但解释的含糊不清,这里呢,我也不打算解释清楚,只是通过tensorflow来看一看dropout的运行机理。

文章分两部分,第一部分介绍tensorflow中的dropout函数,第二部分是我的思考

首先看官方函数定义:

输入是:

输出是:

然后我们看看官方API是怎么说这个函数的:

注意,输出的非0元素是原来的 “1/keep_prob” 倍!说了这么多,下面给一个程序例子:

运行的结果如下:

分析一下运行结果:

特点分析完毕,小总结一下,dropout这个概念看起来好高大上,然而在程序中实现竟然如此简单!说白了,tensorflow中的dropout就是: 使输入tensor中某些元素变为0,其它没变0的元素变为原来的1/keep_prob大小

首先引用此篇 博文 的话:

然后,我就自己试了试,看看小型尺亏穗网络中dropout效果到底怎么样,程序片段如下:

网络很简单,形如 784-30-10 的一个网络,只不过在输出层前用dropout处理了陵卜一下,训练的数据是MNIST的手写数据集,然后你猜怎么着?采用dropout以后的训练精度 不升反降 ,后来我把网络隐藏层改成100个神经元,结果依旧,空嫌看来,我的网络还是太小了,真的如上面那篇博客所说,dropout用不好的话,真是个累赘!

基本使用使用TensorFlow,你必须明白TensorFlow:使用图(graph)来表示计算任务.在被称之为会话(Session)的上下文(context)中执行图.使用tensor表示数据.通过变量(Variable)维护状态.使用feed和fetch可以为任意的 *** 作(arbitraryoperation)赋值或者肢轮从其中获取数据.综述TensorFlow是一个编程系统,使用图来表示计算任务.图中的节点被称之为op(operation的缩写).一个op获得0个或多个Tensor,执行计算,产生0个或多个Tensor.每个Tensor是一个类型化的多维数组.例如,你可以将一小组图像集表示为一个四维浮点数数组,这四个维度分别是[batch,height,width,channels].一个TensorFlow图描述了计算的过程.为了进行计算,图必须在会话里被启动.会话将图的op分发到诸如CPU或GPU之类的设备上,同时提供执行op的方法.这些方法执行后,将产生的tensor返回.在Python语言中,返回的tensor是numpyndarray对象在C和C++语言中,返回的tensor是tensorflow::Tensor实例.计算图TensorFlow程序通常被组织成一个构建阶段和一个执行阶段.在构建阶段,op的执行步骤被描述成一个图.在执行阶段,使用会话执行执行图中的op.例如,通常在构建阶段创建一个图来表示和训练神经网络,然后在执行阶段反复执行图中的训练op.TensorFlow支持C,C++,Python编程语言.目前,TensorFlow的Python库更加易用,它提供了大量的辅助函数来简化构建图的工作,这些函数尚未被C和C++库支持.三种语言的会话库(sessionlibraries)是一致的.构建图构建图的第一步,是创建源op(sourceop).源op不需要任何输入,例如常量(Constant).源op的输出被传递给其它op做运算.Python库中,op构造器的返回值代表被构造出的纤塌op的输出,这些返回值可以传递给其它op构造器作为输入.TensorFlowPython库有一个默认图(defaultgraph),op构造器可以为其增加节点.这个默认图对许多程序来说已经足够用了.阅读Graph类文档来了解如何管理多个图.importtensorflowastf#创建一个常量op,产生一个1x2矩阵.这个op被作为一个节点#加到默认图中.##构造器的返回值代表该常量op的返回值.matrix1=tf.constant([[3.,3.]])#创建另外一个常量op,产生一个2x1矩阵.matrix2=tf.constant([[2.],[2.]])#创建一个矩阵乘法matmulop,把'matrix1'和'matrix2'作为输入.#返回值'product'代表矩阵乘法的结果.product=tf.matmul(matrix1,matrix2)默认图现在有三个节点,两个constant()op,和一个matmul()op.为了真正进行矩阵相乘运算,并得到矩阵乘法的结果,你必须在会话里启动这个图.在一个会话中启动图构造阶段完成后,才能启动图.启动图的第一步是创建一个Session对象,如果无任何创建参数,会话构造器将启动默认图.欲了解完整的会话API,请阅读Session类.#启动默认图.sess=tf.Session()#调用sess的'run()'方法来执行矩阵乘法op,传入'product'作为该方法的参数.#上面提到,'product'代表了矩阵乘法op的输出,传入它是向方法表明,我们希望取回#矩阵乘法op的输出.##整个执行过程是自动化的,会话负责传递op所需的全部输入.op通常是并发执行的.##函数调用'run(product)'触发了图中三个op(两个常量op和一个矩阵乘法op)的执行.##返回值'result'是一个numpy`ndarray`对象.result=sess.run(product)printresult#==>[[12.]]#任务完成,关闭会话.sess.close()Session对毁饥圆象在使用完后需要关闭以释放资源.除了显式调用close外,也可以使用"with"代码块来自动完成关闭动作.withtf.Session()assess:result=sess.run([product])printresult在实现上,TensorFlow将图形定义转换成分布式执行的 *** 作,以充分利用可用的计算资源(如CPU或GPU).一般你不需要显式指定使用CPU还是GPU,TensorFlow能自动检测.如果检测到GPU,TensorFlow会尽可能地利用找到的第一个GPU来执行 *** 作.如果机器上有超过一个可用的GPU,除第一个外的其它GPU默认是不参与计算的.为了让TensorFlow使用这些GPU,你必须将op明确指派给它们执行.withDevice语句用来指派特定的CPU或GPU执行 *** 作:withtf.Session()assess:withtf.device("/gpu:1"):matrix1=tf.constant([[3.,3.]])matrix2=tf.constant([[2.],[2.]])product=tf.matmul(matrix1,matrix2)设备用字符串进行标识.目前支持的设备包括:"/cpu:0":机器的CPU."/gpu:0":机器的第一个GPU,如果有的话."/gpu:1":机器的第二个GPU,以此类推.阅读使用GPU章节,了解TensorFlowGPU使用的信息.交互式使用文档中的Python示例使用一个会话Session来启动图,并调用Session.run()方法执行 *** 作.为了便于使用诸如IPython之类的Python交互环境,可以使用InteractiveSession代替Session类,使用Tensor.eval()和Operation.run()方法代替Session.run().这样可以避免使用一个变量来持有会话.#进入一个交互式TensorFlow会话.importtensorflowastfsess=tf.InteractiveSession()x=tf.Variable([1.0,2.0])a=tf.constant([3.0,3.0])#使用初始化器initializerop的run()方法初始化'x'x.initializer.run()#增加一个减法subop,从'x'减去'a'.运行减法op,输出结果sub=tf.sub(x,a)printsub.eval()#==>[-2.-1.]TensorTensorFlow程序使用tensor数据结构来代表所有的数据,计算图中, *** 作间传递的数据都是tensor.你可以把TensorFlowtensor看作是一个n维的数组或列表.一个tensor包含一个静态类型rank,和一个shape.想了解TensorFlow是如何处理这些概念的,参见Rank,Shape,和Type.变量Variablesformoredetails.变量维护图执行过程中的状态信息.下面的例子演示了如何使用变量实现一个简单的计数器.参见变量章节了解细节.#创建一个变量,初始化为标量0.state=tf.Variable(0,name="counter")#创建一个op,其作用是使state增加1one=tf.constant(1)new_value=tf.add(state,one)update=tf.assign(state,new_value)#启动图后,变量必须先经过`初始化`(init)op初始化,#首先必须增加一个`初始化`op到图中.init_op=tf.initialize_all_variables()#启动图,运行opwithtf.Session()assess:#运行'init'opsess.run(init_op)#打印'state'的初始值printsess.run(state)#运行op,更新'state',并打印'state'for_inrange(3):sess.run(update)printsess.run(state)#输出:#0#1#2#3代码中assign() *** 作是图所描绘的表达式的一部分,正如add() *** 作一样.所以在调用run()执行表达式之前,它并不会真正执行赋值 *** 作.通常会将一个统计模型中的参数表示为一组变量.例如,你可以将一个神经网络的权重作为某个变量存储在一个tensor中.在训练过程中,通过重复运行训练图,更新这个tensor.Fetch为了取回 *** 作的输出内容,可以在使用Session对象的run()调用执行图时,传入一些tensor,这些tensor会帮助你取回结果.在之前的例子里,我们只取回了单个节点state,但是你也可以取回多个tensor:input1=tf.constant(3.0)input2=tf.constant(2.0)input3=tf.constant(5.0)intermed=tf.add(input2,input3)mul=tf.mul(input1,intermed)withtf.Session()assess:result=sess.run([mul,intermed])printresult#输出:#[array([21.],dtype=float32),array([7.],dtype=float32)]需要获取的多个tensor值,在op的一次运行中一起获得(而不是逐个去获取tensor)。Feed上述示例在计算图中引入了tensor,以常量或变量的形式存储.TensorFlow还提供了feed机制,该机制可以临时替代图中的任意 *** 作中的tensor可以对图中任何 *** 作提交补丁,直接插入一个tensor.feed使用一个tensor值临时替换一个 *** 作的输出结果.你可以提供feed数据作为run()调用的参数.feed只在调用它的方法内有效,方法结束,feed就会消失.最常见的用例是将某些特殊的 *** 作指定为"feed" *** 作,标记的方法是使用tf.placeholder()为这些 *** 作创建占位符.input1=tf.placeholder(tf.float32)input2=tf.placeholder(tf.float32)output=tf.mul(input1,input2)withtf.Session()assess:printsess.run([output],feed_dict={input1:[7.],input2:[2.]})#输出:#[array([14.],dtype=float32)]foralarger-scaleexampleoffeeds.如果没有正确提供feed,placeholder() *** 作将会产生错误.MNIST全连通feed教程(sourcecode)给出了一个更大规模的使用feed的例子.

基本使用

使用 TensorFlow, 你必须明白 TensorFlow:

使用图 (graph) 来表示计算任务.

在被称之为 会话 (Session) 的上下文 (context) 中执行图.

使用 tensor 表示数据.

通过 变量 (Variable) 维护状态.

使用 feed 和 fetch 可以为任意的 *** 作(arbitrary operation) 赋值或者从其中获取数据.

综述

TensorFlow 是一个编程系统, 使用图来表示计算任务. 图中的节点被称之为 op

(operation 的缩写). 一个 op 获得 0 个或多个 Tensor, 执行计算,

产生 0 个或多个 Tensor. 每个 Tensor 是一个类型化的多维数组.

例如, 你可以将一小组图像集表示为一个四维浮点数数组,

这四个维度分别是 [batch, height, width, channels].

一个 TensorFlow 图描述了计算的过程. 为了进行计算, 图必须在 会话 里被启动.

会话 将图的 op 分发到诸如 CPU 或 GPU 之类的 设备 上, 同时提供执行 op 的方法.

这些方法执行后, 将产生的 tensor 返回. 在 Python 语言中, 返回的 tensor 是

numpy ndarray 对象在 C 和 C++ 语言中, 返回的 tensor 是

tensorflow::Tensor 实例.

计简神算图

TensorFlow 程序通常被组织成一个构建阶段和一个执行阶段. 在构建阶段, op 的执行步骤

被描述成一个图. 在执行阶段, 使用会话执行执行图中的 op.

例如, 通常在构建阶段创建一个图来表示和训练神经网络, 然后在执行阶段反复执行图中的训练 op.

TensorFlow 支持 C, C++, Python 编程语言. 目前, TensorFlow 的 Python 库更加易用,

它提供了大量的薯咐知辅助函数来简化构建图的工作, 这些函数尚未被 C 和 C++ 库支持.

三种语言的会话库 (session libraries) 是一致的.

构建图

构建图的第一步, 是创建源 op (source op). 源 op 不需要任何输入, 例如 常量 (Constant). 源 op 的输出被传递给其它 op 做运算.

Python 库中, op 构造器的返回值代表被构造出的 op 的输出, 这些返回值可以传递给其它

op 构造器作为输入.

TensorFlow Python 库有一个默认图 (default graph), op 构造器可以为其增加节点. 这个默认图对

许多程序来说已经足够用了. 阅读 Graph 类 文档

来了解如何管理多个图.

import tensorflow as tf

# 创建一个常量 op, 产生一个 1x2 矩阵. 这个 op 被作为一个节点

# 加到默认图中.

#

# 构造器的返回值代表该常量 op 的返回值.

matrix1 = tf.constant([[3., 3.]])

# 创建另外一个常量 op, 产生一个 2x1 矩阵.

matrix2 = tf.constant([[2.],[2.]])

# 创建一个矩阵乘法 matmul op , 把 'matrix1' 和 'matrix2' 作为输入.

# 返回值 'product' 代表矩阵乘法的结果.

product = tf.matmul(matrix1, matrix2)

默认图现在有三个节点, 两个 constant() op, 和一个matmul() op. 为了真正进行矩阵相乘运算, 并得到矩阵乘法的

结果, 你必须在会话里启动这个图.

在一个会话中启动图

构造阶段完成后, 才能启动图. 启动图的第一步是创建一个 Session 对象, 如果无任何创建参数,

会话构造器将启动默认图.

欲了解完整的会话 API, 请阅读Session 类.

# 启动默认图.

sess = tf.Session()

# 调用 sess 的数消 'run()' 方法来执行矩阵乘法 op, 传入 'product' 作为该方法的参数.

# 上面提到, 'product' 代表了矩阵乘法 op 的输出, 传入它是向方法表明, 我们希望取回

# 矩阵乘法 op 的输出.

#

# 整个执行过程是自动化的, 会话负责传递 op 所需的全部输入. op 通常是并发执行的.

#

# 函数调用 'run(product)' 触发了图中三个 op (两个常量 op 和一个矩阵乘法 op) 的执行.

#

# 返回值 'result' 是一个 numpy `ndarray` 对象.

result = sess.run(product)

print result

# ==>[[ 12.]]

# 任务完成, 关闭会话.

sess.close()

Session 对象在使用完后需要关闭以释放资源. 除了显式调用 close 外, 也可以使用 "with" 代码块

来自动完成关闭动作.

with tf.Session() as sess:

result = sess.run([product])

print result

在实现上, TensorFlow 将图形定义转换成分布式执行的 *** 作, 以充分利用可用的计算资源(如 CPU

或 GPU). 一般你不需要显式指定使用 CPU 还是 GPU, TensorFlow 能自动检测. 如果检测到 GPU, TensorFlow

会尽可能地利用找到的第一个 GPU 来执行 *** 作.

如果机器上有超过一个可用的 GPU, 除第一个外的其它 GPU 默认是不参与计算的. 为了让 TensorFlow

使用这些 GPU, 你必须将 op 明确指派给它们执行. withDevice 语句用来指派特定的 CPU 或 GPU

执行 *** 作:

with tf.Session() as sess:

with tf.device("/gpu:1"):

matrix1 = tf.constant([[3., 3.]])

matrix2 = tf.constant([[2.],[2.]])

product = tf.matmul(matrix1, matrix2)

设备用字符串进行标识. 目前支持的设备包括:

"/cpu:0": 机器的 CPU.

"/gpu:0": 机器的第一个 GPU, 如果有的话.

"/gpu:1": 机器的第二个 GPU, 以此类推.

阅读使用GPU章节, 了解 TensorFlow GPU 使用的更多信息.

交互式使用

文档中的 Python 示例使用一个会话 Session 来

启动图, 并调用 Session.run() 方法执行 *** 作.

为了便于使用诸如 IPython 之类的 Python 交互环境, 可以使用

InteractiveSession 代替

Session 类, 使用 Tensor.eval()

和 Operation.run() 方法代替

Session.run(). 这样可以避免使用一个变量来持有会话.

# 进入一个交互式 TensorFlow 会话.

import tensorflow as tf

sess = tf.InteractiveSession()

x = tf.Variable([1.0, 2.0])

a = tf.constant([3.0, 3.0])

# 使用初始化器 initializer op 的 run() 方法初始化 'x'

x.initializer.run()

# 增加一个减法 sub op, 从 'x' 减去 'a'. 运行减法 op, 输出结果

sub = tf.sub(x, a)

print sub.eval()

# ==>[-2. -1.]

Tensor

TensorFlow 程序使用 tensor 数据结构来代表所有的数据, 计算图中, *** 作间传递的数据都是 tensor.

你可以把 TensorFlow tensor 看作是一个 n 维的数组或列表. 一个 tensor 包含一个静态类型 rank, 和

一个 shape. 想了解 TensorFlow 是如何处理这些概念的, 参见

Rank, Shape, 和 Type.

变量

Variables for more details.

变量维护图执行过程中的状态信息. 下面的例子演示了如何使用变量实现一个简单的计数器. 参见

变量 章节了解更多细节.

# 创建一个变量, 初始化为标量 0.

state = tf.Variable(0, name="counter")

# 创建一个 op, 其作用是使 state 增加 1

one = tf.constant(1)

new_value = tf.add(state, one)

update = tf.assign(state, new_value)

# 启动图后, 变量必须先经过`初始化` (init) op 初始化,

# 首先必须增加一个`初始化` op 到图中.

init_op = tf.initialize_all_variables()

# 启动图, 运行 op

with tf.Session() as sess:

# 运行 'init' op

sess.run(init_op)

# 打印 'state' 的初始值

print sess.run(state)

# 运行 op, 更新 'state', 并打印 'state'

for _ in range(3):

sess.run(update)

print sess.run(state)

# 输出:

# 0

# 1

# 2

# 3

代码中 assign() *** 作是图所描绘的表达式的一部分, 正如 add() *** 作一样. 所以在调用 run()

执行表达式之前, 它并不会真正执行赋值 *** 作.

通常会将一个统计模型中的参数表示为一组变量. 例如, 你可以将一个神经网络的权重作为某个变量存储在一个 tensor 中.

在训练过程中, 通过重复运行训练图, 更新这个 tensor.

Fetch

为了取回 *** 作的输出内容, 可以在使用 Session 对象的 run() 调用 执行图时, 传入一些 tensor,

这些 tensor 会帮助你取回结果. 在之前的例子里, 我们只取回了单个节点 state, 但是你也可以取回多个

tensor:

input1 = tf.constant(3.0)

input2 = tf.constant(2.0)

input3 = tf.constant(5.0)

intermed = tf.add(input2, input3)

mul = tf.mul(input1, intermed)

with tf.Session() as sess:

result = sess.run([mul, intermed])

print result

# 输出:

# [array([ 21.], dtype=float32), array([ 7.], dtype=float32)]

需要获取的多个 tensor 值,在 op 的一次运行中一起获得(而不是逐个去获取 tensor)。

Feed

上述示例在计算图中引入了 tensor, 以常量或变量的形式存储. TensorFlow 还提供了 feed 机制, 该机制

可以临时替代图中的任意 *** 作中的 tensor 可以对图中任何 *** 作提交补丁, 直接插入一个 tensor.

feed 使用一个 tensor 值临时替换一个 *** 作的输出结果. 你可以提供 feed 数据作为 run() 调用的参数.

feed 只在调用它的方法内有效, 方法结束, feed 就会消失. 最常见的用例是将某些特殊的 *** 作指定为 "feed" *** 作,

标记的方法是使用 tf.placeholder() 为这些 *** 作创建占位符.

input1 = tf.placeholder(tf.float32)

input2 = tf.placeholder(tf.float32)

output = tf.mul(input1, input2)

with tf.Session() as sess:

print sess.run([output], feed_dict={input1:[7.], input2:[2.]})

# 输出:

# [array([ 14.], dtype=float32)]

for a larger-scale example of feeds.

如果没有正确提供 feed, placeholder() *** 作将会产生错误.

MNIST 全连通 feed 教程

(source code)

给出了一个更大规模的使用 feed 的例子.


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/yw/12365983.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-24
下一篇 2023-05-24

发表评论

登录后才能评论

评论列表(0条)

保存