Pytorch学习笔记(9) 通过DataSet、DatasetLoader构建模型输入数据集

Pytorch学习笔记(9) 通过DataSet、DatasetLoader构建模型输入数据集,第1张

如何将我们准备好的数据放入模型中呢? Pytorch 给出的答案都在 torchutilsdata 包中。

这个模块中方法并不多,所以让我们先全部列出来看看,看看名字猜猜功能。

一般情况下,使用Dataset和DatasetLoader两个类已经可以完成大部分的数据导入。首先来看Dataset类。

在此对象中,必须重写以下两个方法。

接下来看DataLoader 类

关键的几个参数:

看看实例:

想到sklearn中提供了一些小数据集,使用鸢尾花(iris)的数据集:

数据集就构架完成了,大家也可以通过DataFrame来处理数据。

然后结合DataLoader使用:

pytorch 中 random_split可以将实现sklearn 的 train_test_split类似的功能,大家可能注意到了,在上面的例子中只有训练数据,一般还需要有test set和valid set。

那么我们用random_split来划分数据集吧:

到这里就已经分好了,不过还是建议先通过其他方法提前分好。为了使每次结果都相同,可以设置好seed。

神经网络优化器中,主要为了优化我们的神经网络,使他在我们的训练过程中快起来,节省时间。在pytorch中提供了 torchoptim方法优化我们的神经网络,torchoptim 是实现各种优化算法的包。最常用的方法都已经支持,接口很常规,所以以后也可以很容易地集成更复杂的方法。

要使用torchoptim,您必须构造一个optimizer对象,这个对象能保存当前的参数状态并且基于计算梯度进行更新。

要构造一个优化器,你必须给他一个包含参数(必须都是variable对象)进行优化,然后可以指定optimizer的参数选项,比如学习率,权重衰减。具体参考torchoptim文档

modelparameters() 是获取model网络的参数

首先sgd的参数有三个,1)opfunc;2)x;3)config;4)state

在普通的情况下 x 的更新 在加上冲量后就是在普通的情况下加上上次更新的x的与mom[0,1]的乘积

Pytorch学习记录-TextMatching文本匹配01

本文是对知乎上 这篇文章 的阅读笔记,查了一下ACL和arXiv历年来关于TextMatching的论文,不知道如何下手,就找找别人的文献综述看看,但是似乎和我想象的不大一样,还是得先实现一个基于深度神经网络的模型才行。

本文基于知乎《深度文本匹配发展总结》,希望作为对之后文献阅读的一个路径。

经典模型是DSSM(2013),来自论文《Learning Deep Structured Semantic Models for Web Search using Clickthrough Data》

模型的结构。使用DNN将高维度稀疏文本特征映射到语义空间中的低维密集特征中。第一个隐藏层,具有30k单位,完成word hashing。然后通过多层非线性投影投射word hashing特征。

此DNN中的最后一层神经活动形成了语义空间中的特征。

这个模型的缺点也很明显,没有考虑单词之间的时序联系,相似度匹配用的余弦相似度是一个无参匹配公式。

经典模型是MV-LSTM模型(2015),来自中国科学院《A Deep Architecture for Semantic Matching with Multiple Positional Sentence Representations》

使用Bi-LSTM构建神经网络,对LSTM隐藏层的输出进行匹配,作者认为这个模型能够考察每个单词在不同语境下的含义,然后使用Bi-LSTM处理句子可以实现用变长的窗口逐步解读句子,从多粒度考察句子的效果。

模型中 和 就是输入的句子,首先通过Bi-LSTM获得位置语句表示(表示为虚线橙色框)。然后,k-Max汇集从每个交互矩阵中选择前k个相互作用(在图中表示为蓝色网格)。最后通过多层感知器MLP计算匹配分数。

因为语言的表示有多样性,带参数的公式比不带参数的公式显得更加合理,然后对匹配矩阵进行K-Max的动态池化 *** 作,也就是挑选K个最大的特征,最后采用全连接层进行维度压缩和分类。

来自论文《Text Matching as Image Recognition》

这篇论文从3个角度构建匹配矩阵。更精细的考虑句子间单词的两两关系,构建出3个矩阵进行叠加,把这些矩阵看作是,用卷积神经网络对矩阵进行特征提取。

论文中一共有3种方式构建匹配矩阵,Indicator是一个这个句子的单词是否在另一个句子中出现的指示矩阵,第二个是单词之间的点积,第三个是余弦相似度。三个匹配矩阵叠加再用CNN在矩阵上进行特征提取是这篇整体的思想。

在做实际匹配处理的时候,通常会出现训练集、测试集中出现语料库中没有的单词(OOV问题)。深层次句间交互模型的单词使用Glove预训练和characters卷积拼接作为单词的embedding输入。characters卷积是对每个字母随机赋予一个向量,对单词的所有字母卷积得出特征作为单词的补充特征,这些特征是为了缓解OOV的问题。

2017年IBM《Bilateral Multi-Perspective Matching for Natural Language Sentences》

双边、多角度句子匹配。

文章创新点

模型的整体框架图,输入是预训练的glove embeddings 和 chars embeddings,经过BiLSTM的编码之后,对每一个step的LSTM的输出进行从p到q和从q到p的两两配对,有四种组合方式,然后将所有的结果进行拼接和预测结果。

使用四种匹配方式,匹配公式采用带参数的余弦相似度

2018年纽约大学《Natural Language Inference over Interaction Space》

Interactive Inference Network(IIN,交互式推理网络)

DenseNet可以在经过复杂的深度神经网络之后,还可以很大程度上保留原始特征的信息。(但是为了保留原始特征,现在是不是使用attention机制会更好?)。

模型的整体框架,可以看到输入部分有四个部分的特征(Glove,char,EM(exact match),POS)。这是一个分级多阶段处理的网络,包括5个部分,每个组件都与不同类型的实现兼容。机器学习中可能存在的所有方法,例如决策树,支持向量机和神经网络方法,都可以转移以替换该体系结构中的某些组件。

什么是highway networks?

使用highway network对特征进行编码,这个编码的输出构造一个句子内的attention,(具体就是公式 ,对单词a和单词b的向量和它们的点积进行拼接,再做一个线性的映射得到一个权重参数,经过softmax归一化后成为句内attention的权重参数)然后是参考了LSTM的设计,对highway出来的向量和带了句内交互的attention项的向量用门机制进行了过滤,得到每个单词的向量表示,然后将向量表示两两之间做一个匹配形成匹配矩阵,最后用DenseNet对匹配矩阵进行特征提取。

2018年首尔大学《Semantic Sentence Matching with Densely-connected Recurrent and Co-attentive Information》

这篇论文的创新点在于:1、采用了固定的glove embedding和可变的glove embedding拼接并提升了模型效果。2、采用stack层级结构的LSTM,在层级结构上加入了DenseNet的思想,将上一层的参数拼接到下一层,一定程度上在长距离的模型中保留了前面的特征信息。3、由于不断的拼接导致参数增多,用autoencoder进行降维,并起到了正则化效果,提升了模型准确率。

怎么感觉模型越来越复杂,而且使用的模型结构和之前看到的不太一样,GEC部分还好理解,为什么文本匹配部分更加庞杂。

一个是在channel粒度上做剪枝,另一个是在神经元Unit维度上做剪枝

1torchquantize_per_tensor()函数的scale和zero_point需要自己设定。

所谓动态是指这个函数torchquantizationquantize_dynamic能自动选择最合适的scale和zero_point。

QuantStub使用的是HistogramObserver,根据输入从[-3,3]的分布,HistogramObserver计算得到min_val、max_val分别是-3、29971,而qmin和qmax又分别是0、127,其schema为per_tensor_affine,因此套用上面的per_tensor_affine逻辑可得:

Post Training Dynamic Quantization,简称为Dynamic Quantization,也就是动态量化,或者叫作Weight-only的量化,是提前把模型中某些op的参数量化为INT8,然后在运行的时候动态的把输入量化为INT8,然后在当前op输出的时候再把结果requantization回到float32类型。动态量化默认只适用于Linear以及RNN的变种。

当对整个模型进行转换时,默认只对以下的op进行转换:

Linear

LSTM

LSTMCell

RNNCell

GRUCell

为啥呢?因为dynamic quantization只是把权重参数进行量化,而这些layer一般参数数量很大,在整个模型中参数量占比极高,因此边际效益高。对其它layer进行dynamic quantization几乎没有实际的意义。

与其介绍post training static quantization是什么,我们不如先来说明下它和dynamic quantization的相同点和区别是什么。相同点就是,都是把网络的权重参数转从float32转换为int8;不同点是,需要把训练集或者和训练集分布类似的数据喂给模型(注意没有反向传播),然后通过每个op输入的分布特点来计算activation的量化参数(scale和zp)——称之为Calibrate(定标)。是的,静态量化包含有activation了,也就是post process,也就是op forward之后的后处理。为什么静态量化需要activation呢?因为静态量化的前向推理过程自(始+1)至(终-1)都是INT计算,activation需要确保一个op的输入符合下一个op的输入。

PyTorch会使用五部曲来完成模型的静态量化:

这一步不是训练。是为了获取数据的分布特点,来更好的计算activation的scale和zp。至少要喂上几百个迭代的数据,

per tensor 和 per channel。Per tensor 是说一个tensor里的所有value按照同一种方式去scale和offset; per channel是对于tensor的某一个维度(通常是channel的维度)上的值按照一种方式去scale和offset,也就是一个tensor里有多种不同的scale和offset的方式(组成一个vector),如此以来,在量化的时候相比per tensor的方式会引入更少的错误。PyTorch目前支持conv2d()、conv3d()、linear()的per channel量化。

往期的文章,我们分享了手写字母的训练与识别

使用EMNIST数据集训练第一个pytorch CNN手写字母识别神经网络

利用pytorch CNN手写字母识别神经网络模型识别手写字母

哪里的文章,我们只是分享了单个字母的识别,如何进行多个字母的识别,其思路与多数字识别类似,首先对进行识别,并进行每个字母的轮廓识别,然后进行字母的识别,识别完成后,直接在上进行多个字母识别结果的备注

Pytorch利用CNN卷积神经网络进行多数字(0-9)识别

根据上期文章的分享,我们搭建一个手写字母识别的神经网络

第一层,我们输入Eminist的数据集,Eminist的数据是一维 2828的,所以第一层的输入(1,28,28),高度为1,设置输出16通道,使用55的卷积核对进行卷积运算,每步移动一格,为了避免尺寸变化,设置pading为2,则经过第一层卷积就输出(16,28,28)数据格式

再经过relu与maxpooling (使用22卷积核)数据输出(16,14,14)

第二层卷积层是简化写法nnConv2d(16, 32, 5, 1, 2)的第一个参数为输入通道数in_channels=16,其第二个参数是输出通道数out_channels=32, # n_filters(输出通道数),第三个参数为卷积核大小,第四个参数为卷积步数,最后一个为pading,此参数为保证输入输出的尺寸大小一致

全连接层,最后使用nnlinear()全连接层进行数据的全连接数据结构(3277,37)以上便是整个卷积神经网络的结构,

大致为:input-卷积-Relu-pooling-卷积

-Relu-pooling-linear-output

卷积神经网络建完后,使用forward()前向传播神经网络进行输入的识别

这里我们使用腐蚀,膨胀 *** 作对进行一下预处理 *** 作,方便神经网络的识别,当然,我们往期的字母数字识别也可以添加此预处理 *** 作,方便神经网络进行预测,提高精度

getContours函数主要是进行中数字区域的区分,把每个数字的坐标检测出来,这样就可以 把每个字母进行CNN卷积神经网络的识别,进而实现多个字母识别的目的

首先,输入一张需要检测的,通过preProccessing预处理与getContours函数获取中的每个字母的轮廓位置

transformsCompose此函数可以 把输入进行pytorch相关的 *** 作,包括转换到torch,灰度空间转换,resize,缩放等等 *** 作

然后加载我们前期训练好的模型

由于神经网络识别完成后,反馈给程序的是字母的 UTF-8编码,我们通过查表来找到对应的字母

字符编码表(UTF-8)

通过上面的 *** 作,我们已经识别出了中包括的字母轮廓,我们遍历每个字母轮廓,获取单个字母数据,这里需要特殊提醒一下 :我们知道EMNIST数据库左右翻转后,又进行了的逆时针旋转90度

这里我们使用cv2flip(imgRes,1)函数,进行的镜像,并使用getRotationMatrix2D函数与warpAffine函数配合来进行的旋转 *** 作,这里就没有PIL来的方便些

然后,我们对数据进行torch转换train_transform(imgRes),并传递给神经网络进行识别

待识别完成后,就可以把结果备注在原始上

class torcnnnParameter()

Parameters 是 Variable 的子类。

参数说明:

class torchnnModule

所有神经网络模块的基类

你的模型也应该继承这个类

Modules 还可以包含其他模块,允许将它们嵌套在树结构中您可以将子模块分配为常规属性:

CLASS torchnnLinear(in_feature,out_feature,bias=True)

此为线性回归公式,也为DNN网络的输出公式,或全连接层的连接公式

参数解释:

apply(function)

递归调用函数应用到每个组成部分以及本身,典型应用为初始化模型参数

modules

返回所有模块的迭代器包括自身重复的模块只迭代一次

named_children()->SonModuleIteration

返回子模块迭代器

named_modules()

返回网络中所有模块迭代器,同时产生模块的名称以及模块本身

重复的模块只返回一次

named_parameters(memo=None,prefix)

返回模块参数的迭代器,同时产生参数的名称和参数本身

parameters()->ModuleParamIteration

这通常被传递个优化器

register_backward_hook(hook)

在模块上注册一个向后的钩子这是用于记录反向传播时的梯度的

每当计算相对于模块输入的梯度时,将调用该钩子挂钩应

具有一下签名:

hook(module,grad_input,grad_output)->Variable or None

register_forward_hook(hook)

在模块上注册一个forward hook,这是记录前向传播时的梯度的

hook(module,grad_input,grad_output)->Variable or None

class torchnnSequential( args)

这是一个时序容器 Modules 会以他们传入的顺序添加到容器中当然也可以传入

一个顺序字典

class torchnnModuleList(modules=None)

将 submodules 保存在一个列表中

append(module) :追加一个给定模块

extend(modules) :追加一个模块列表

class torchnnParameterList(parameters=None)

在列表中保存参数

class torchnnConv2d(in_channels, out_channels, kernel_size, stride=1, padding=0, dilation=1, groups=1, bias=True)

二维卷积:

输入形式 input[ batch_size, channels, height_1, width_1 ]

以上就是关于Pytorch学习笔记(9) 通过DataSet、DatasetLoader构建模型输入数据集全部的内容,包括:Pytorch学习笔记(9) 通过DataSet、DatasetLoader构建模型输入数据集、以optim.SGD为例介绍pytorch优化器、Pytorch学习记录-TextMatching几个经典模型等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/web/9305927.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-04-27
下一篇 2023-04-27

发表评论

登录后才能评论

评论列表(0条)

保存