由于文章PyTorch深度学习实践概论笔记8练习-kaggle的Titanic数据集预测(一)数据分析篇幅略长,将数据分析的一些结论总结在这篇文章,有助于做特征选择。
- 总体生存率情况(Survived):整个数据集存活率38.38%,死亡率61.62%。不同性别的人员存活率分析(Sex、Survived):整个数据集中男性人数577,女性314人,男性占比64.75%,但女性的存活率74.2%远高于男性存活率18.8%(存活率与性别有关)。不同登船港的人员存活率分析(Embarked、Survived):可以看到,C地登船的存活率最高、其次为Q地登船、S地登船人数最多但存活率仅有1/3(存活率与登船港有关)。不同船舱号的人员存活率分析(Cabin、Survived):结合之前的分析,有船舱号信息的人员占(204+91)/1309=22.54%,缺失船舱号的群体占比77.5%,但是存活率仅仅29.99%。 船舱号B/D/E存活率较高,均超过70%(存活率与船舱号有关)。不同票等级的人员存活率分析(Pclass、Survived):数据表明,票等级越高存活率就越高;等级1的人存活率62.96%;等级3的人数占比超50%,但存活率不到1/3(0.242363)(存活率与票等级有关)。不同票等级的男女存活率分析(Pclass、Sex、Survived):结果表明,不同票等级下女性的存活率均高于男性,在票等级1和2中女性存活率均超过90%。不同票价的人员存活率分析(Fare、Survived):上述箱线图表明,存活群体的票价均值要高于死亡群体,而且存活的群体中票价分布差异更大。不同票价区间的人员存活率分析(Fare_bin、Survived):随着票价的升高,票价区间的存活率越来越高,[31,515)的存活率为58.2%(存活率与票价有关)。不同票等级[细分]的人员存活率分析(Pclass_Fare_Category、Survived):数据说明,同一票等级的高价格区间的存活率高于低价格区间。不同title[name中提取]的人员存活率分析(Title、Survived):Mr和Officer的人员存活率明显更低,Mrs title的群体存活率最高(存活率与title有关)。不同name长度的人员存活率分析(Name_length、Survived):名字长度小于35的群体的存活率相对较低,名字长度越长,存活率整体越高。但是看了一下,后面名字长度长的人数基本是个位数的(存活率与名字长度有关)。区分有无兄弟姐妹/配偶在船上的人员存活率分析(SibSp、Survived):明显看出,(左侧)有兄弟姐妹/配偶在船上的存活率更高,为46.6%(存活率与SibSp有关)。区分有无父母/子女在船上的人员存活率分析(Parch、Survived):明显看出,(左侧)有父母/子女在船上的成活率更高,为48.8%(存活率与Parch有关)。不同年龄的人员存活率分析(Age、Survived):箱形图显示是否存活群体的年龄差异并不大。通过上面分组小提琴图,我们发现在不同票等级中存活下来的人员年龄相对更小(左),不同性别人员的存活与否年龄差异并不大(右)。不同年龄分层的人员存活率分析(Age_group、Survived):可以看到年幼群体的群体的存活率更高,超过一半,为56.4%。
说明:记录学习笔记,如果错误欢迎指正!写文章不易,转载请联系我。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)