箱盒图(也称盒图,箱线图等)是在1977年由美国统计学家John Tukey发明,分析数据需要为定量数据。通过箱盒图,可以直观的探索数据特征。
箱盒图共有两个用途,分别如下:
直观地识别数据中异常值(离群点);
直观地判断数据离散分布情况,了解数据分布状态。
箱盒图共由五个数值点构成,分别是最小观察值(下边缘),25%分位数(Q1),中位数,75%分位数(Q3),最大观察值(上边缘)。
中横线:中位数
IQR:75%分位数(Q3)-25%分位数(Q1)
最小观察值(下边缘) = Q1 – 15 IQR
最大观察值 (上边缘)= Q3 + 15 IQR
箱盒图的使用场景情况如下:
查看可能的异常值数据情况(比如在回归分析前查看是否有异常数据);
非参数检验时查看不同类别X时,Y的数据分布情况;
其它涉及查看数据分布或者异常值查看时。
SPSSAU *** 作截图如下:
上图中直观展示出C2时共有2个异常值点,如果对C2进行分析,且分析方法对异常值敏感时(比如相关分析,回归分析等),此时需要对该2个异常值点进行处理成null或者填充,或者在分析时进行过滤。
SPSSAU提供不同类别X时,Y的盒状图分布,比如上图中可以查看不同性别人群,C1,C2和C3共三项在区分性别时的盒状分布。
得到结果比如C1的盒状图如下:
上图可以看出,在男性时,C1中有2个异常点;女性时,C1共出现1个异常点。移动到异常点时会显示具体数据。此时如果有需要,可将此3个异常值进行处理,或者在分析时过滤掉异常值。
除了异常值的观察,还可以通过数据盒状图直观看出,男性在C1上的整体打分,会明显高于女性打分。
箱线图在文献中经常见到,是对数据分布的一种常用表示方法。但是所见资料中往往说的不是特别清楚,因此需要了解一下箱线图的绘制过程,与部分的意义。计算过程:1 计算上四分位数,中位数,下四分位数
2 计算上四分位数和下四分位数之间的差值,即四分位数差(IQR,interquartile range)
3 绘制箱线图的上下范围,上限为上四分位数,下限为下四分位数。在箱子内部中位数的位置绘制横线。
4 大于上四分位数15倍四分位数差的值,或者小于下四分位数15倍四分位数差的值,划为异常值(outliers)。
5 异常值之外,最靠近上边缘和下边缘的两个值处,画横线,作为箱线图的触须。
6 极端异常值,即超出四分位数差3倍距离的异常值,用实心点表示;较为温和的异常值,即处于15倍-3倍四分位数差之间的异常值,用空心点表示。
7 为箱线图添加名称,数轴等。
在SPSS,SigmaPlot, R,SPlus,Origin等软件中,绘制箱线图非常方便。
下面是R中的一个箱线图举例
箱线图举例:
在R软件中输入如下命令:
对c向量绘制箱线图。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)