李沐动手学深度学习 python0基础 05数据预处理

李沐动手学深度学习 python0基础 05数据预处理,第1张

import pandas as pd
import os
import torch

os.makedirs(os.path.join('..','data1'),exist_ok=True)
//用来创建多层目录,exist_ok=True意思是如果已经存在这层目录也不会有影响,若=False则会报错
data1_file = os.path.join('..','data1','Animal Acrossing.csv')
//创建data1_file 路径,文件名与类型如后所示

with open(data1_file,'w') as f:
    //with open..as f可以有效减少重复打开文件造成资源浪费
    f.write('island,animal,money,sex\n')
    f.write('NA,pig,10,girls\n')
    f.write('north,cat,9,boys\n')
    f.write('south,NA,NA,NA\n')
    f.write('north,dog,2,girls\n')
    
data = pd.read_csv(data1_file)
print (data)

inputs,outputs = data.iloc[:,2],data.iloc[:,3]
//将数据列表中第2列和第3列分别命名成inputs和outputs
inputs = inputs.fillna(inputs.mean())
//将intputs中间的所有空值NA填充上其他项目的平均值
print(inputs)

outputs = pd.get_dummies(outputs,dummy_na=True)
//将outputs的元素进行one-shot编码,dummy_na意思是数据中如果中空值的话,
代码要求返回True则会新增一列来表示NaN的情况,若返回False则不存在这样一列
print(outputs)

x,y = torch.tensor(inputs.values),torch.tensor(outputs.values)
print(x,y)

0基础开始跟的话看起来还是有点吃力的
整个04看了很久才差不多搞懂里面的意思

欢迎分享,转载请注明来源:内存溢出

原文地址: https://outofmemory.cn/langs/738210.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-04-28
下一篇 2022-04-28

发表评论

登录后才能评论

评论列表(0条)

保存