李沐动手学深度学习 python0基础 05数据预处理_python

import pandas as pd
import os
import torch

os.makedirs(os.path.join('..','data1'),exist_ok=True)
//用来创建多层目录，exist_ok=True意思是如果已经存在这层目录也不会有影响，若=False则会报错
data1_file = os.path.join('..','data1','Animal Acrossing.csv')
//创建data1_file 路径，文件名与类型如后所示

with open(data1_file,'w') as f:
    //with open..as f可以有效减少重复打开文件造成资源浪费
    f.write('island,animal,money,sex\n')
    f.write('NA,pig,10,girls\n')
    f.write('north,cat,9,boys\n')
    f.write('south,NA,NA,NA\n')
    f.write('north,dog,2,girls\n')
    
data = pd.read_csv(data1_file)
print (data)

inputs,outputs = data.iloc[:,2],data.iloc[:,3]
//将数据列表中第2列和第3列分别命名成inputs和outputs
inputs = inputs.fillna(inputs.mean())
//将intputs中间的所有空值NA填充上其他项目的平均值
print(inputs)

outputs = pd.get_dummies(outputs,dummy_na=True)
//将outputs的元素进行one-shot编码，dummy_na意思是数据中如果中空值的话，
代码要求返回True则会新增一列来表示NaN的情况，若返回False则不存在这样一列
print(outputs)

x,y = torch.tensor(inputs.values),torch.tensor(outputs.values)
print(x,y)