1、箱子的中间一条线,是数据的中位数,代表了样本数据的平均水平。
2、箱子的上下限,分别是数据的上四分位数和下四分位数。这意味着箱子包含了50%的数据。因此,箱子的宽度在一定程度上反映了数据的波动程度。
3、在箱子的上方和下方,又各有一条线。有时候代表着最大最小值,有时候会有一些点“冒出去”。请千万不要纠结,不要纠结,不要纠结(重要的事情说三遍),如果有点冒出去,理解成“异常值”就好。
箱线图是针对连续型变量的,解读时候重点关注平均水平、波动程度和异常值。当箱子被压得很扁,或者有很多异常的时候,试着做对数变换。当只有一个连续型变量时,并不适合画箱线图,直方图是更常见的选择。箱线图最有效的使用途径是作比较,配合一个或者多个定性数据,画分组箱线图。
同一数轴上,几批数据的箱形图并行排列,几批数据的中位数、尾长、异常值、分布区间等形状信息便一目了然。在一批数据中,哪几个数据点出类拔萃,哪些数据点表现不及一般,这些数据点放在同类其它群体中处于什么位置,可以通过比较各箱形图的异常值看出。各批数据的四分位距大小,正常值的分布是集中还是分散,观察各方盒和线段的长短便可明了。每批数据分布的偏态如何,分析中位线和异常值的位置也可估计出来。还有一些箱形图的变种,使数据批间的比较更加直观明白。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)