以泰坦尼克号数据为例
第一章:数据载入及初步观察 1.数据集下载数据集下载 https://www.kaggle.com/c/titanic/overview
2.数据查看import pandas as pd import numpy as np # 1.读取数据,读取的时加表头 data=pd.read_csv('train.csv',names=["乘客ID","是否幸存","乘客等级(1/2/3等舱位)","乘客姓名","性别","年龄","堂兄弟/妹个数","父母与小孩个数", "船票信息","票价","客舱","登船港口"],header=0,encoding='utf-8') # 2.简略观察数据(head()+shape) #显示全部列 pd.set_option('display.max_columns', None) #显示全部行 pd.set_option('display.max_row', None) data.head().append(data.tail()) #初步了解数据的情况 # 3.数据形状与数据基本信息 print(data.shape) print(data.info()) # 数据类型,以及缺失值分布 # 4.查看是否有缺失值,总共有几个 data.isnull().sum() # 5.查看dataframe的列名与行名,以及值 data.index # 列名 data.columns # 行名 data.values # 值 # 6.查看缺失列或者异常列的值 data['性别'].value_counts() # 7.删除无用行 ##法一: del data["登船港口"] ##法二 data.drop(by=["登船港口"],axis=1,inplace=True) # 8.隐藏["船票信息","票价","客舱"]三列,专注观看其他列 data.drop(["船票信息","票价","客舱"],axis=1) # 不取代就是隐藏 # 9.筛选数据 ## a。筛选出年龄小于50大于10人的数据 newdata=data[(data['年龄']>10)&(data['年龄']<50)] ## b。使用loc/iloc方法将newdata的数据中第100,105,108行的"乘客等级(1/2/3等舱位)","乘客姓名","性别"的数据显示出来 newdata.iloc[[100,105,108],[2,3,4]] newdata.loc[[100,105,108],["乘客等级(1/2/3等舱位)","乘客姓名","性别"]] # 10.给内容或者索引排序,分析一: newdata.sort_index() #索引行升序排序 newdata.sort_index(axis=1) #索引列升序排序 newdata.head(20).sort_values(by=['乘客等级(1/2/3等舱位)','性别','年龄'],ascending=True) #原数据按舱位,年龄、性别降序排列 # 11.分析二:计算出在船上最大的家族(‘兄弟姐妹个数’+‘父母子女个数’)有多少人? #代码 print(max(newdata["堂兄弟/妹个数"]+newdata["父母与小孩个数"])) print((newdata["堂兄弟/妹个数"]+newdata["父母与小孩个数"]).idxmax(axis=0)) #索引是159的人家族最庞大,人数是10人 # 12.通过df.describe()分析 newdata.describe() ''' count : 样本数据大小 mean : 样本数据的平均值 std : 样本数据的标准差 min : 样本数据的最小值 25% : 样本数据25%的时候的值 50% : 样本数据50%的时候的值 75% : 样本数据75%的时候的值 max : 样本数据的最大值 ''' #代码 data['票价'].describe() data['年龄'].describe() # 15.保存处理后的数据 data.to_csv('data.csv',index=False) # 不加索引
排序10分析:乘客一等舱有4个,幸存有3个,均是女性;二等舱3人,幸存者3人,女性2人,男性1人;三等舱13人,幸存者4人均是女性,男性均死亡
说明:同等情况下,说明乘客舱位等级越高越容易存活,女性更容易存活
排序12分析:
一共有891个有效数据,平均值32.2,标准差49.69,说明波动大,票价不稳定,票价区间为【0,512】,有25%的票价低于7.91,50%的票价低于14.45,75%的票价低于31
分析,有效年龄数据714个;平均年龄29岁;标准差14.5,波动不小,说明老人孩子都有;最小的0岁,最大的80岁;有25%的人小于20岁,50%的人小于28岁,75%的人小于38岁;
说明:小孩和青壮年居多
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)