描述统计DataFrame类别型特征数据
- 准备数据
准备数据meal_order_detail1.csv,并将meal_order_detail1.csv放到Linux本地/course/DataAnalyze/data目录
2.类别型特征的描述性统计- pandas库中实现频数统计的方法为value_counts,如代码 424所示。
代码 424 菜品名称频数统计
In[36]: | print('订单详情表dishes_name频数统计结果前10为:\n', detail['dishes_name'].value_counts()[0:10]) |
Out[36]: | 订单详情表dishes_name频数统计结果前10为: 白饭/大碗 91 凉拌菠菜 77 谷稻小庄 72 麻辣小龙虾 65 白饭/小碗 60 五色糯米饭(七色) 58 焖猪手 55 芝士烩波士顿龙虾 55 辣炒鱿鱼 53 水煮鱼 47 Name: dishes_name, dtype: int64 |
- Pandas还提供了categories类,可以使用astype方法将目标特征的数据类型转换为category类别,如代码 425所示。
代码 425 将object数据强制转换为category
In[37]: | detail['dishes_name'] = detail['dishes_name'].astype('category') print('订单信息表dishes_name列转变数据类型后为:',detail['dishes_name'].dtypes) |
Out[37]: | 订单信息表dishes_name列转变数据类型后为: category |
- describe方法除了支持传统数值型以外,还能够支持对category类型的数据进行描述性统计,如代码 426所示。
代码 426 category类型特征的描述性统计
In[38]: | print('订单信息表dishes_name的描述统计结果为:\n',detail['dishes_name'].describe()) |
Out[38]: | 订单信息表dishes_name的描述统计结果为: count 2769 unique 154 top 白饭/大碗 freq 91 Name: dishes_name, dtype: object |
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)