在上一次我们将mysql数据库数据经行了数据的导入以及封装,但是通常情况下数据直接导入使用容易出现各种各样的问题,所以这一次我们来讲一讲数据清洗的一种方法。
#本程序用于在导入MySQL数据库数据时,有数据出现空值或是无意义字符串时经行清洗 "如下" lists=[[None,1,2,3,4,5,6,8,5,2,10,9],[None,1,2,3,a,0,4,a,1,2,a,5]]#这是将MySQL数据导入是常会出现的情况,开头会出现None "清洗对应的无意义数据" #Dataframe处理方法 del (lists[0][0])#先去除此维度中的None del(lists[1][0])#-- df = pd.Dataframe({'lists1':lists[0],'lists2':lists[1]})#将两组数据做成dataframe表格形式 df=df.astype(str)#将表中所有数据转化为str类型 y=df[df['lists2'].str.contains('a')]#对所有出现"a"的数据经行清洗 test1=list(y.lists2) test2=list(df.lists2) ret=np.array(set(test2))^set(test1) result=df[df.lists2.isin(ret)] lists_2=list(result.lists2)#将lists2存为lists_2列表 lists_1=list(result.lists1)#同理-- print("=完成对无意义数据的清洗=")
数据处理前
lists1 lists2
1 1
2 2
3 3
4 a
5 0
. .
. .
. .
处理后
lists1 lists2
1 1
2 2
3 3
5 0
. .
. .
. .
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)