1 绘制箱线图:在Minitab中打开你的数据集并选择"Graphs > Boxplot"。在d出的对话框中选择需要绘制箱线图的变量。
2 编辑图形属性:在绘制好的箱线图上右键单击并选择"Edit Graph Properties"。在"Boxplot Options"选项卡中,将"Median Line"选项打开。
3 自定义中位数线条:在"Median Line"选项下方,可以选择线条的颜色、线型、宽度等属性。你还可以使用"Label Median Line"选项来添加标签,以在图中显示中位数的值。
4 应用更改:完成中位数线条的自定义后,单击"OK"按钮应用更改,即可在箱线图中显示中位数。
需要注意的是,在样本较小的情况下,中位数可能与第二四分位数(即箱子中间的线条)非常接近,因此中位数线可能不易被注意到。如果你想要更好地突出中位数,可以考虑在箱线图中添加文本标签或其他注释图形来进一步说明中位数的位置。原文的链接已经不通了,下面链接也是转原文的,有图例:
>求有异常值的平均值可以采用一些方法例如:
1、根据中国物理网显示,中位数:中位数是将所有数据按大小排序后位于中间的数值,可以有效地减少异常值的影响,因为它不受极端值的影响。因此,可以使用中位数代替平均值作为集合的统计中心来减少异常值的影响。
2、均值修正值法:均值修正值法是一种常用的方法,它通过计算每个数据点与平均值的差值,然后排除超过一定标准差的差值,最后重新计算平均值。这种方法可以较好地处理一些小的异常值。
3、箱线图法:箱线图法是一种通过绘制数据的箱线图来分析数据的分布情况和异常值的影响。在箱线图中,异常值一般定义为低于第一四分位数15倍IQR(四分位距)或高于第三四分位数15倍IQR的数据点。通过排除异常值,可以重新计算平均值,以便更好地反映数据集的中心趋势。
记得之前应该整理过的,但是找不到了,就再来一次吧
箱形图又称为盒须图、箱线图
箱形图针对的是单一变量,可以用来识别异常值
要理解和使用箱形图,需要搞清楚几个概念:
有两个点注意下:
从小到大排列
分成四等份
对于这三个分割点:
Q3与Q1的差距又称为四分位距(InterQuartile Range, IQR)
这个图呢,大概是说,为什么上边界和下边界之外的数据,也就是离群值(异常值)可以忽略掉的原因,貌似就是传说中的3σ原则
我看这里还会标注离群值和极端值,上、下边界外的值
使用Excel、Python或者其他工具画箱线图很容易,但是,通过这个图到底可以得到些什么启示呢?
感觉使用箱线图,是为了看数据的分布情况,看数据集中在哪里,分布有什么特征,数据是集中在较小值一侧还是较大值一侧,有没有异常值
这些资料都没啥特别的,刚才找到篇文章,狗熊会的,不错,对这个箱线图的使用场景算是来个对比,分享下
先附上原文地址: 丑图百讲 | 箱线图应该怎么用
箱线图是针对连续性变量使用的
我们也来看个实际例子,我就使用seaborn中的数据集好了
因为这里,并没有显示具体的各项指标数据,我们可以结合 describe 函数
也就是说,小费的中位数是29美元(不知道单位是啥,就当美元吧)
Q1是2美元,Q3是35625美元,50%的数据都集中在这个区间内
异常值都集中在上限
中位数和平均值比较接近
其实用箱线图来展示这个小费的分布,并不是非常好,如果用直方图的话,更加的直观
看,数据的集中程度,更加的明显一些
不是所有的数据都适合话箱线图,如果你的箱线图画出来就是一条横线,或者很扁,那就赶紧换一种图吧
通常有2个原因导致这种情况:
原作者总结的很好,直接贴过来了,学习下
作者还说了,这里有一种解决办法,就是做 对数变换
但是,我目前还不是很理解,做了对数变换,数据不就变了吗,这个展示出来没有影响嘛?又为什么可以这样做呢?
等我研究明白了再说
箱线图到底怎么用
配合着定性变量画分组箱线图,作比较!
我理解的是,在不同维度下,对数据进行对比,可以使用箱线图
作者整理了几点箱线图的特点,这里分享下:
嗯,学习了,还是得专业的人来分享
这一篇理论篇先到这,我去整理下seaborn中绘制boxplot
四分位数(Quartile)也称四分位点,是指在统计学中把所有数值由小到大排列并分成四等份,处于三个分割点位置的数值。多应用于统计学中的箱线图绘制。它是一组数据排序后处于25%和75%位置上的值。
四分位数是通过3个点将全部数据等分为4部分,其中每部分包含25%的数据。很显然,中间的四分位数就是中位数,因此通常所说的四分位数是指处在25%位置上的数值(称为下四分位数)和处在75%位置上的数值(称为上四分位数)。
与中位数的计算方法类似,根据未分组数据计算四分位数时,首先对数据进行排序,然后确定四分位数所在的位置,该位置上的数值就是四分位数。与中位数不同的是,四分位数位置的确定方法有几种,每种方法得到的结果会有一定差异,但差异不会很大。
应用:
不论Q1,Q2,Q3的变异量数数值为何,均视为一个分界点,以此将总数分成四个相等部份,可以通过Q1,Q3比较,分析其数据变量的趋势。
四分位数在统计学中的箱线图绘制方面应用也很广泛。所谓箱线图就是 由一组数据5 个特征绘制的一个箱子和两条线段的图形,这种直观的箱线图不仅能反映出一组数据的分布特征,而且还可以进行多组数据的分析比较。这五个特征值,即数据的最大值、最小值、中位数和两个四分位数。
看箱线图的方法如下:
箱子的中间一条线,是数据的中位数,代表了样本数据的平均水平。箱子的上下限,分别是数据的上四分位数和下四分位数。这意味着箱子包含了50%的数据。因此,箱子的宽度在一定程度上反映了数据的波动程度。
在箱子的上方和下方,又各有一条线。有时候代表着最大最小值,有时候会有一些点“冒出去”。请千万不要纠结,理解成“异常值”就好。
箱线图
箱线图(Boxplot)又称盒须图、盒式图或箱形图,是一种用作显示一组数据分散情况资料的统计图,在数据分析中经常被使用到,可以被用于异常值的检测。
利用数据中的五个统计量:最小值、第一四分位数、中位数、第三四分位数与最大值来描述数据的一种方法,它也可以粗略地看出数据是否具有有对称性,分布的分散程度等信息,特别可以用于对几个样本的比较。
箱形图最大的优点就是不受异常值的影响,能够准确稳定地描绘出数据的离散分布情况,同时也利于数据的清洗。
标准化的箱线图
通过将数据进行标准化,可以解决箱线图被压缩的问题。标准化后的数据均值为0,方差为1。标准化之后可以清楚的看到,每个特征的异常值分布情况。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)