删除缺失值会损失信息,并不推荐删除,当缺失数据占比较低的时候,可以尝试使用删除缺失值
- 按行删除
age为NaN的所有行都删了
train1.dropna(subset=['Age'],how='any',inplace=True)
- 按列删除
train1.drop(['Age'],axis=1)
填充缺失值
- 常量填充
# 把数据表内所有空值填充为0
train_constant.fillna(0,inplace = True)
-
使用统计量替换(缺失值所处列的平均值、中位数、众数)
-
时间序列填充
-
用时间序列中空值的上一个非空值填充
-
用时间序列中空值的下一个非空值填充
-
线性插值方法
-
添加method参数为ffill
,用上一个值填充:
city_day.fillna(method='ffill',inplace=True)
原数据:
填充后:
添加method参数为bfill
,用下一个值填充:
city_day.fillna(method='bfill',inplace=True)
原数据:
填充后:
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)