pytorch中图像的数据格式实例_随笔

pytorch中图像的数据格式实例

计算机视觉方面朋友都需要跟图像打交道，在pytorch中图像与我们平时在matlab中见到的图像数据格式有所不同。matlab中我们通常使用函数imread()来轻松地读入一张图像，我们在变量空间中可看到数据的存储方式是H x W x C的顺序（其中H、W、C分别表示图像的高、宽和通道数，通道数一般为RGB三通道），另外，其中的每一个数据都是[0,255]的整数。

在使用pytorch的时候，我们通常要使用pytorch中torchvision包下面的datasets模块和transforms模块。而通常情况下在我们使用了这两个模块之后，所处理的图像数据格式已经不是我们所熟知的格式了。

下面按照代码来进行讲解：

#导入需要的包和模块
import torch
from torchvision import datasets, transforms
import os
 
#transforms指明了需要对原始图像做何种变换
data_transforms = transforms.Compose([
    transforms.RandomResizedCrop(224),
    transforms.RandomHorizontalFlip(),
    transforms.ToTensor(),
    transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225])
  ])
 
#指明了图像存放的位置；里面可能有好几个文件夹，分别存放不同种类的图像
data_dir = 'original_data'
image_dataset = datasets.ImageFolder(data_dir, data_transforms)
dataloader = torch.utils.data.DataLoader(image_dataset, batch_size=4, shuffle=True, num_workers=4)

代码中首先使用datasets模块读取图像数据，输出的图像类型为PILImage，并且图像中的每一个数据大小范围已经不再是[0,255]，而是[0,1]。datasets模块下有好几个读取图像的类，比如CIFAR10、MNIST等能够直接获取标准数据库；而我们代码中所使用的类是ImageFolder，它能够读取本地存放的图像。其中需要指定图像所在文件路径和需要对数据进行的变换。

从上面的data_transforms变量中我们能够看出进行了多种变换，而Compose就是将多种变换组合起来的方法。data_transforms中一共包含了四个变换，前两个是对PILImage进行的，分别对其进行随机大小（默认原始图像大小的0.08-1.0）和随机宽高比（默认原始图像宽高比的3/4-4/3）的裁剪，之后resize到指定大小224；以及对原始图像进行随机（默认0.5概率）的水平翻转。

第三个transforms.ToTensor()的变换 *** 作是关键一步，它将PILImage转变为torch.FloatTensor的数据形式，这种数据形式一定是C x H x W的图像格式加上[0,1]的大小范围。它将颜色通道这一维从第三维变换到了第一维。

后面的Normalize变换是对tensor这种数据格式进行的，它的 *** 作是用给定的均值和标准差分别对每个通道的数据进行正则化。具体来说，给定均值(M1,...,Mn)，给定标准差(S1,..,Sn)，其中n是通道数（一般是3），对每个通道进行如下 *** 作：

output[channel] = (input[channel] - mean[channel]) / std[channel]

经过上面一系列的转换之后，我们可以得出的结论是，图像的数据格式首先在维度的排序上发生了改变，其次数据的范围也发生了改变。

以上这篇pytorch中图像的数据格式实例就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持考高分网。

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/zaji/3238409.html

pytorch中图像的数据格式实例

发表评论

评论列表（0条）