统计学中的箱线图的制作具体 *** 作步骤怎么做?

统计学中的箱线图的制作具体 *** 作步骤怎么做?,第1张

箱盒图(也称盒图,箱线图等)是在1977年由美国统计学家John Tukey发明,分析数据需要为定量数据。通过箱盒图,可以直观的探索数据特征。

箱盒图共有两个用途,分别如下:

直观地识别数据中异常值(离群点);

直观地判断数据离散分布情况,了解数据分布状态。

箱盒图共由五个数值点构成,分别是最小观察值(下边缘),25%分位数(Q1),中位数,75%分位数(Q3),最大观察值(上边缘)。

中横线:中位数

IQR:75%分位数(Q3)-25%分位数(Q1)

最小观察值(下边缘) = Q1 – 1.5 IQR

最大观察值 (上边缘)= Q3 + 1.5 IQR

箱盒图的使用场景情况如下:

查看可能的异常值数据情况(比如在回归分析前查看是否有异常数据);

非参数检验时查看不同类别X时,Y的数据分布情况;

其它涉及查看数据分布或者异常值查看时。

SPSSAU *** 作截图如下:

上图中直观展示出C2时共有2个异常值点,如果对C2进行分析,且分析方法对异常值敏感时(比如相关分析,回归分析等),此时需要对该2个异常值点进行处理成null或者填充,或者在分析时进行过滤。

SPSSAU提供不同类别X时,Y的盒状图分布,比如上图中可以查看不同性别人群,C1,C2和C3共三项在区分性别时的盒状分布。

得到结果比如C1的盒状图如下:

上图可以看出,在男性时,C1中有2个异常点;女性时,C1共出现1个异常点。移动到异常点时会显示具体数据。此时如果有需要,可将此3个异常值进行处理,或者在分析时过滤掉异常值。

除了异常值的观察,还可以通过数据盒状图直观看出,男性在C1上的整体打分,会明显高于女性打分。

    箱形图(Box-plot)又称为盒须图、盒式图或箱线图,是一种用作 显示一组数据分散情况 资料的统计图。因形状如箱子而得名。在各种领域也经常被使用,常见于 品质管理 。它主要用于反映原始数据分布的特征,还可以进行多组数据分布特征的比较。箱线图的绘制方法是:先找出一组数据的 最大值、最小值、中位数 和两个 四分位数 ;然后, 连接两个四分位数画出箱子;再将最大值和最小值与箱子相连接,中位数在箱子中间。

    如上图所示,图中主要包含六个数据节点,将一组数据从大到小排列,分别计算出他的 上边缘 , 上 四分位数 Q3 , 中位数 , 下四分位数Q1 , 下边缘 ,还有一个 异常值 。

    使用5个点对 数据集 做简单总结,这5个点包括中点、上下四分位数Q1、Q3、分部状态的高位和低位(上下边缘)。箱形图很形象的分为中心、延伸以及分布状态的全部范围。

    箱形图中最重要的是对相关统计点的计算,相关统计点都可以通过 百分位 计算方法进行实现。

    1、画数轴,度量单位大小和数据批的单位一致,起点比最小值稍小,长度比该数据批的 全距 稍长。

    2、画一个矩形盒,两端边的位置分别对应数据批的上下 四分位数 (Q3和Q1)。在矩形盒内部中位数(Xm)位置画一条线段为 中位线 。

    3、在Q3+1.5 IQR 和Q1-1.5 IQR 处画两条与中位线一样的线段,这两条线段为 异常值 截断点,称其为 内限 ;

          在Q3+3IQR和Q1-3IQR处画两条线段,称其为 外限 。

          处于内限以外位置的点表示的数据都是异常值,其中在 内限与外限之间的异常值为温和的异常值 (mild outliers),在 外限以外的为极端的异常值(extreme outliers) 。

            Remark: 四分位距IQR=Q3-Q1

    4、从矩形盒两端边向外各画一条线段直到不是异常值的最远点,表示该批数据正常值的 分布区间 。

    5、用“〇”标出温和的异常值,用“*”标出极端的异常值。

    相同值的数据点并列标出在同一数据线位置上,不同值的数据点标在不同数据线位置上。

    至此一批数据的箱形图便绘出了。

     统计软件 绘制的箱形图一般没有标出内限和外限。 ?

1.体现数据的异常值

    一批数据中的异常值值得关注,忽视异常值的存在是十分危险的,不加剔除地把异常值包括进数据的计算分析过程中,会对结果会带来 不良影响 ;重视异常值的出现,分析其产生的原因,常常成为 发现问题 进而 改进决策 的契机。

    箱形图为我们提供了识别异常值的一个标准:小于Q1-1.5IQR或大于Q3+1.5IQR的值为异常值; 这种方法来源于经验判断,但经验表明它在处理需要特别注意的数据方面表现不错。

    箱形图的绘制依靠实际数据,不需要事先假定数据服从特定的分布形式,没有对数据作任何限制性要求,它只是真实直观地表现数据形状的本来面貌;另一方面,箱形图判断异常值的标准以 四分位数 和 四分位距 为基础,四分位数具有一定的耐抗性,多达25%的数据可以变得任意远而不会很大地扰动四分位数,所以异常值不能对这个标准施加影响,箱形图识别异常值的结果比较客观。

    因此,箱形图在识别异常值方面有一定的优越性。

2.反映数据的偏态和尾重

对于标准正态分布的大样本,中位数位于上下四分位数的中央,箱形图的方盒关于中位线对称。中位数越偏离上下四分位数的中心位置,分布偏态性越强。异常值集中在较大值一侧,则分布呈现右偏态;异常值集中在较小值一侧,则分布呈现左偏态。

3.反映数据的形状

   在同一数轴上,几批数据的箱形图并行排列,几批数据的 中位数 、 尾长 、 异常值 、分布区间等形状信息便一目了然。箱子的上下限,分别是数据的上四分位数和下四分位数。这意味着箱子包含了50%的数据。因此,箱子的宽度在一定程度上反映了数据的波动程度。箱体越扁说明数据越集中,端线(也就是“须”)越短也说明数据集中。


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/bake/11884428.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-19
下一篇 2023-05-19

发表评论

登录后才能评论

评论列表(0条)

保存