在处理下载后的数据,由于下载的格式不统一,导致难以进行,原始数据如下
问题
用 如下代码读取,但是第一列莫名其妙了字符串
import pandas as pd data = pd.read_csv(r"D:chorm下载datasetvowelvowel.dat",sep=" ",header=None) X = data.iloc[0:846,0:18].values Y= data.iloc[0:846,18] # 将字符类型的类别进行整数编码 dicta = {'bus':1, 'opel':2, 'saab':3, 'van':4} Y = list(map(lambda x : dicta[x],Y))
解决办法
加一行 X[:,0] = X[:,0].astype(float) 把字符串转成浮点数
import pandas as pd data = pd.read_csv(r"D:chorm下载datasetvowelvowel.dat",sep=" ",header=None) X = data.iloc[0:846,0:18].values Y= data.iloc[0:846,18] X[:,0] = X[:,0].astype(float) ## 把字符串转成浮点数 # 将字符类型的类别进行整数编码 dicta = {'bus':1, 'opel':2, 'saab':3, 'van':4} Y = list(map(lambda x : dicta[x],Y))
问题是解决了,但是为什么会出现第一行有这种奇怪的事发生呢,还需要探究下
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)