R语言箱线图(boxplot)四分位算法

R语言箱线图(boxplot)四分位算法,第1张

箱线图(Boxplot)也称箱须图(Box-whisker Plot),是利用数据中的五个统计量:最小值、第一四分位数、中位数、第三四分位数与最大值来描述数据的一种方法。它也可以粗略地看出数据是否具有有对称性,分布的离散程度等信息;特别适用于对几个样本的比较。

注:四分位数(Quartile),即统计学中,把所有数值由小到大排列并分成四等份,处于三个分割点位置的数值就是四分位数。

  第一四分位数 (Q1),又称“较小四分位数”,等于该样本中所有数值由小到大排列后第25%的数字。

  第二四分位数 (Q2),又称“中位数”,等于该样本中所有数值由小到大排列后第50%的数字。

  第三四分位数 (Q3),又称“较大四分位数”,等于该样本中所有数值由小到大排列后第75%的数字。

  第三四分位数与第一四分位数的差距又称四分位距(InterQuartile Range,IQR)。

R语言中计算方法:

quantile函数直接计算四分位:

例如:data = c(1,2,3,4,5,62,7,8,9,10)

quantile(data)   #其结果如下

0%       25%       50%       75%       100%

100      325       560        775      1000

其中0%:最小值;25%:第一四分位数Q1;50%:中位数;75%:第三四分位数;100%:最大值。

其计算方法为:

1 排序,从小到大排列data;

2 计算分位数的位置;pos = 1+ (n-1)p,n为数据的总个数,p为0-1之间的值

3 给出分位数

注意:另一种分位数的计算方法为:其他与前面的一致。但是分位数位置的计算采用:pos = (n+1)p,n为数据的总个数,p为0-1之间的值。

四分位数的计算方法没有一个统计的标准,如果对此计算有要求的,需要注意函数的具体算法。

另外,boxplot中存在异常值,其规定标准如下:

当数据中的值大于或小于箱体的四分位距IQR的15倍时,认定为异常值。

就是说当某值大于(Q3+15IQR)或小于(Q1-15IQR)时,处理时会认定为异常值。

这里,我们采用了stripchart函数以及RColorBrewer包来添加数据点并调整颜色。

注意,此时应当利用boxplot函数里面的内置参数names设置每个箱线图的特征名。并且将stripchart函数里面的数据用列表并起来。

这里,我们使用了dplyr包,将数据按照不同类别(1,2,3,4)来分成新的数据,并且,在boxplot函数里,不同于上述几种方式,其数据的给定是以公式的方式给出,形如“特征~类别,数据名”的样式。

   origin是画图常用的一个软件,通过这个软件,可以好多的图形,如热分析、红外。拉曼等等,有时候很不希望所得的数据在相同的坐标下,这时候,就需要用到origin的涂层工具,那么,可以经过哪几种方法t添加origin的涂层呢?

首先,对于添加任何的涂层,必须要先画个图,才能够添加涂层,因此,添加涂层前,先画个图,才能够进行添加涂层,如:

1、对于涂层也有不同的要求,比如,如想要数据与原先的数据具有不同的x、y关系,那么,可以通过origin的edit菜单进行添加涂层,如edit-new layer,其中有关于x、y的位置,及是否与原先坐标有关系等,

2、如果需要的涂层没有特别的要求,只是简单的加个涂层,可以通过tools工具进行加个涂层,如tools-layer,这个添加涂层法,当点击layer时,其中也可以选择x、y坐标的关系:

3、加入其它涂层还可以通过图中的graph这个工具进行添加涂层,graph-add plot to layer,其中可以看到对涂层画图的画法,如,line型等。

虽然有三种添加涂层 方法,但也是有细微的区别,具体的区别只有使用的时候,才能看到。

箱盒图(也称盒图,箱线图等)是在1977年由美国统计学家John Tukey发明,分析数据需要为定量数据。通过箱盒图,可以直观的探索数据特征。

箱盒图共有两个用途,分别如下:

直观地识别数据中异常值(离群点);

直观地判断数据离散分布情况,了解数据分布状态。


箱盒图共由五个数值点构成,分别是最小观察值(下边缘),25%分位数(Q1),中位数,75%分位数(Q3),最大观察值(上边缘)。

中横线:中位数

IQR:75%分位数(Q3)-25%分位数(Q1)

最小观察值(下边缘) = Q1 – 15 IQR

最大观察值 (上边缘)= Q3 + 15 IQR

箱盒图的使用场景情况如下:

查看可能的异常值数据情况(比如在回归分析前查看是否有异常数据);

非参数检验时查看不同类别X时,Y的数据分布情况;

其它涉及查看数据分布或者异常值查看时。

SPSSAU *** 作截图如下:

上图中直观展示出C2时共有2个异常值点,如果对C2进行分析,且分析方法对异常值敏感时(比如相关分析,回归分析等),此时需要对该2个异常值点进行处理成null或者填充,或者在分析时进行过滤。

SPSSAU提供不同类别X时,Y的盒状图分布,比如上图中可以查看不同性别人群,C1,C2和C3共三项在区分性别时的盒状分布。

得到结果比如C1的盒状图如下:

上图可以看出,在男性时,C1中有2个异常点;女性时,C1共出现1个异常点。移动到异常点时会显示具体数据。此时如果有需要,可将此3个异常值进行处理,或者在分析时过滤掉异常值。

除了异常值的观察,还可以通过数据盒状图直观看出,男性在C1上的整体打分,会明显高于女性打分。

箱盒图(也称盒图,箱线图等)是在1977年由美国统计学家John Tukey发明,分析数据需要为定量数据。通过箱盒图,可以直观的探索数据特征。

箱盒图共有两个用途,分别如下:

直观地识别数据中异常值(离群点);

直观地判断数据离散分布情况,了解数据分布状态。


箱盒图共由五个数值点构成,分别是最小观察值(下边缘),25%分位数(Q1),中位数,75%分位数(Q3),最大观察值(上边缘)。

中横线:中位数

IQR:75%分位数(Q3)-25%分位数(Q1)

最小观察值(下边缘) = Q1 – 15 IQR

最大观察值 (上边缘)= Q3 + 15 IQR

箱盒图的使用场景情况如下:

查看可能的异常值数据情况(比如在回归分析前查看是否有异常数据);

非参数检验时查看不同类别X时,Y的数据分布情况;

其它涉及查看数据分布或者异常值查看时。

SPSSAU *** 作截图如下:

上图中直观展示出C2时共有2个异常值点,如果对C2进行分析,且分析方法对异常值敏感时(比如相关分析,回归分析等),此时需要对该2个异常值点进行处理成null或者填充,或者在分析时进行过滤。

SPSSAU提供不同类别X时,Y的盒状图分布,比如上图中可以查看不同性别人群,C1,C2和C3共三项在区分性别时的盒状分布。

得到结果比如C1的盒状图如下:

上图可以看出,在男性时,C1中有2个异常点;女性时,C1共出现1个异常点。移动到异常点时会显示具体数据。此时如果有需要,可将此3个异常值进行处理,或者在分析时过滤掉异常值。

除了异常值的观察,还可以通过数据盒状图直观看出,男性在C1上的整体打分,会明显高于女性打分。


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/yw/10457008.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-08
下一篇 2023-05-08

发表评论

登录后才能评论

评论列表(0条)

保存