注:四分位数(Quartile),即统计学中,把所有数值由小到大排列并分成四等份,处于三个分割点位置的数值就是四分位数。
第一四分位数 (Q1),又称“较小四分位数”,等于该样本中所有数值由小到大排列后第25%的数字。
第二四分位数 (Q2),又称“中位数”,等于该样本中所有数值由小到大排列后第50%的数字。
第三四分位数 (Q3),又称“较大四分位数”,等于该样本中所有数值由小到大排列后第75%的数字。
第三四分位数与第一四分位数的差距又称四分位距(InterQuartile Range,IQR)。
R语言中计算方法:
quantile函数直接计算四分位:
例如:data = c(1,2,3,4,5,62,7,8,9,10)
quantile(data) #其结果如下
0% 25% 50% 75% 100%
100 325 560 775 1000
其中0%:最小值;25%:第一四分位数Q1;50%:中位数;75%:第三四分位数;100%:最大值。
其计算方法为:
1 排序,从小到大排列data;
2 计算分位数的位置;pos = 1+ (n-1)p,n为数据的总个数,p为0-1之间的值
3 给出分位数
注意:另一种分位数的计算方法为:其他与前面的一致。但是分位数位置的计算采用:pos = (n+1)p,n为数据的总个数,p为0-1之间的值。
四分位数的计算方法没有一个统计的标准,如果对此计算有要求的,需要注意函数的具体算法。
另外,boxplot中存在异常值,其规定标准如下:
当数据中的值大于或小于箱体的四分位距IQR的15倍时,认定为异常值。
就是说当某值大于(Q3+15IQR)或小于(Q1-15IQR)时,处理时会认定为异常值。这里,我们采用了stripchart函数以及RColorBrewer包来添加数据点并调整颜色。
注意,此时应当利用boxplot函数里面的内置参数names设置每个箱线图的特征名。并且将stripchart函数里面的数据用列表并起来。
这里,我们使用了dplyr包,将数据按照不同类别(1,2,3,4)来分成新的数据,并且,在boxplot函数里,不同于上述几种方式,其数据的给定是以公式的方式给出,形如“特征~类别,数据名”的样式。
origin是画图常用的一个软件,通过这个软件,可以好多的图形,如热分析、红外。拉曼等等,有时候很不希望所得的数据在相同的坐标下,这时候,就需要用到origin的涂层工具,那么,可以经过哪几种方法t添加origin的涂层呢?
首先,对于添加任何的涂层,必须要先画个图,才能够添加涂层,因此,添加涂层前,先画个图,才能够进行添加涂层,如:
1、对于涂层也有不同的要求,比如,如想要数据与原先的数据具有不同的x、y关系,那么,可以通过origin的edit菜单进行添加涂层,如edit-new layer,其中有关于x、y的位置,及是否与原先坐标有关系等,
2、如果需要的涂层没有特别的要求,只是简单的加个涂层,可以通过tools工具进行加个涂层,如tools-layer,这个添加涂层法,当点击layer时,其中也可以选择x、y坐标的关系:
3、加入其它涂层还可以通过图中的graph这个工具进行添加涂层,graph-add plot to layer,其中可以看到对涂层画图的画法,如,line型等。
虽然有三种添加涂层 方法,但也是有细微的区别,具体的区别只有使用的时候,才能看到。
箱盒图(也称盒图,箱线图等)是在1977年由美国统计学家John Tukey发明,分析数据需要为定量数据。通过箱盒图,可以直观的探索数据特征。
箱盒图共有两个用途,分别如下:
直观地识别数据中异常值(离群点);
直观地判断数据离散分布情况,了解数据分布状态。
箱盒图共由五个数值点构成,分别是最小观察值(下边缘),25%分位数(Q1),中位数,75%分位数(Q3),最大观察值(上边缘)。
中横线:中位数
IQR:75%分位数(Q3)-25%分位数(Q1)
最小观察值(下边缘) = Q1 – 15 IQR
最大观察值 (上边缘)= Q3 + 15 IQR
箱盒图的使用场景情况如下:
查看可能的异常值数据情况(比如在回归分析前查看是否有异常数据);
非参数检验时查看不同类别X时,Y的数据分布情况;
其它涉及查看数据分布或者异常值查看时。
SPSSAU *** 作截图如下:
上图中直观展示出C2时共有2个异常值点,如果对C2进行分析,且分析方法对异常值敏感时(比如相关分析,回归分析等),此时需要对该2个异常值点进行处理成null或者填充,或者在分析时进行过滤。
SPSSAU提供不同类别X时,Y的盒状图分布,比如上图中可以查看不同性别人群,C1,C2和C3共三项在区分性别时的盒状分布。
得到结果比如C1的盒状图如下:
上图可以看出,在男性时,C1中有2个异常点;女性时,C1共出现1个异常点。移动到异常点时会显示具体数据。此时如果有需要,可将此3个异常值进行处理,或者在分析时过滤掉异常值。
除了异常值的观察,还可以通过数据盒状图直观看出,男性在C1上的整体打分,会明显高于女性打分。
箱盒图(也称盒图,箱线图等)是在1977年由美国统计学家John Tukey发明,分析数据需要为定量数据。通过箱盒图,可以直观的探索数据特征。
箱盒图共有两个用途,分别如下:
直观地识别数据中异常值(离群点);
直观地判断数据离散分布情况,了解数据分布状态。
箱盒图共由五个数值点构成,分别是最小观察值(下边缘),25%分位数(Q1),中位数,75%分位数(Q3),最大观察值(上边缘)。
中横线:中位数
IQR:75%分位数(Q3)-25%分位数(Q1)
最小观察值(下边缘) = Q1 – 15 IQR
最大观察值 (上边缘)= Q3 + 15 IQR
箱盒图的使用场景情况如下:
查看可能的异常值数据情况(比如在回归分析前查看是否有异常数据);
非参数检验时查看不同类别X时,Y的数据分布情况;
其它涉及查看数据分布或者异常值查看时。
SPSSAU *** 作截图如下:
上图中直观展示出C2时共有2个异常值点,如果对C2进行分析,且分析方法对异常值敏感时(比如相关分析,回归分析等),此时需要对该2个异常值点进行处理成null或者填充,或者在分析时进行过滤。
SPSSAU提供不同类别X时,Y的盒状图分布,比如上图中可以查看不同性别人群,C1,C2和C3共三项在区分性别时的盒状分布。
得到结果比如C1的盒状图如下:
上图可以看出,在男性时,C1中有2个异常点;女性时,C1共出现1个异常点。移动到异常点时会显示具体数据。此时如果有需要,可将此3个异常值进行处理,或者在分析时过滤掉异常值。
除了异常值的观察,还可以通过数据盒状图直观看出,男性在C1上的整体打分,会明显高于女性打分。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)