箱线图怎么看

箱线图怎么看,第1张

看箱线图的方法如下:

箱子的中间一条线,是数据的中位数,代表了样本数据的平均水平。箱子的上下限,分别是数据的上四分位数和下四分位数。这意味着箱子包含了50%的数据。因此,箱子的宽度在一定程度上反映了数据的波动程度。

在箱子的上方和下方,又各有一条线。有时候代表着最大最小值,有时候会有一些点“冒出去”。请千万不要纠结,理解成“异常值”就好。

箱线图

箱线图(Boxplot)又称盒须图、盒式图或箱形图,是一种用作显示一组数据分散情况资料的统计图,在数据分析中经常被使用到,可以被用于异常值的检测。

利用数据中的五个统计量:最小值、第一四分位数、中位数、第三四分位数与最大值来描述数据的一种方法,它也可以粗略地看出数据是否具有有对称性,分布的分散程度等信息,特别可以用于对几个样本的比较。

箱形图最大的优点就是不受异常值的影响,能够准确稳定地描绘出数据的离散分布情况,同时也利于数据的清洗。

标准化的箱线图

通过将数据进行标准化,可以解决箱线图被压缩的问题。标准化后的数据均值为0,方差为1。标准化之后可以清楚的看到,每个特征的异常值分布情况。

四分位数(Quartile)也称四分位点,是指在统计学中把所有数值由小到大排列并分成四等份,处于三个分割点位置的数值。你列出的这些数一共20个,分成四份就每份5个,Q1就是,从小到大第五个数,也就是1。Q2就是,第十个数也就是2。Q3就是第15个,也就是4。

四分位数(Quartile)也称四分位点,是指在统计学中把所有数值由小到大排列并分成四等份,处于三个分割点位置的数值。多应用于统计学中的箱线图绘制。它是一组数据排序后处于25%和75%位置上的值。

四分位数是通过3个点将全部数据等分为4部分,其中每部分包含25%的数据。很显然,中间的四分位数就是中位数,因此通常所说的四分位数是指处在25%位置上的数值(称为下四分位数)和处在75%位置上的数值(称为上四分位数)。

与中位数的计算方法类似,根据未分组数据计算四分位数时,首先对数据进行排序,然后确定四分位数所在的位置,该位置上的数值就是四分位数。与中位数不同的是,四分位数位置的确定方法有几种,每种方法得到的结果会有一定差异,但差异不会很大。

应用:

不论Q1,Q2,Q3的变异量数数值为何,均视为一个分界点,以此将总数分成四个相等部份,可以通过Q1,Q3比较,分析其数据变量的趋势。

四分位数在统计学中的箱线图绘制方面应用也很广泛。所谓箱线图就是 由一组数据5 个特征绘制的一个箱子和两条线段的图形,这种直观的箱线图不仅能反映出一组数据的分布特征,而且还可以进行多组数据的分析比较。这五个特征值,即数据的最大值、最小值、中位数和两个四分位数。

1
当一个变量增加时,相应的另一个变量随之也增加,我们称这两个变量之间为(
)。
A
单相关
B
复相关
C
正相关
D
复相关
正确答案:C
满分:4

得分:4
2
Spearman相关系数是由英国统计学家查尔斯斯皮尔曼(Charles
Spearman)在1904年提出的,适用于对(
)之间相关性的一种度量方法。
A
定量数据
B
定性数据
C
顺序数据
D
以上都不对
正确答案:C
满分:4

得分:4
3
环比发展速度是(
)。
A
报告期水平/基期水平
B
基期水平/报告期水平
C
各期水平与上一期水平之比
D
以上都不对
正确答案:C
满分:4

得分:4
4
作为一种通用的(
),统计学已经成为一种工具。
A
数学符号
B
衡量方法
C
支付手段
D
数据处理方法
正确答案:D
满分:4

得分:4
5
使用组中值代表该组数列的假设前提条件是(
)。
A
组中值是平均数
B
组中值是中间值
C
组内数值均匀变化
D
组中值最有代表性
正确答案:C
满分:4

得分:4
6
定基发展速度是(
)。
A
报告期水平/基期水平
B
各期水平与某一固定基期水平之比
C
各期水平与上一期水平之比
D
以上都不对
正确答案:B
满分:4

得分:4
7
下列关于观察法的说法错误的是(
)。
A
可以避免由于访员和问卷设计等问题造成的误差
B
不会受到被观察者的回答意愿和回答能力等因素影响
C
不会受到调查人员素质和经验的影响
D
无法搜集到动机、态度、想法、情感等主观信息
正确答案:C
满分:4

得分:4
8
总体指标也称为总体参数,是根据总体各个单位的标志值计算的统计指标,总体指标具有(
)。
A
唯一性
B
随机性
C
随样本单位变化
D
以上都不对
正确答案:A
满分:4

得分:4
9
当样本容量一定时,犯第Ⅰ类错误的概率和犯第Ⅱ类错误的概率都很小是(
)。
A
能够实现
B
不能实现
C
根据具体问题而定
D
以上都不对
正确答案:B
满分:4

得分:4
10
要对总体的内部结构进行分析,可以绘制(

A
条形图
B
箱线图
C
饼图
D
直方图
正确答案:C
满分:4

得分:4
11
在假设检验中,根据样本数值,计算出检验统计量的值,如果比临界值大,应该(
)。
A
拒绝原假设
B
接受原假设
C
原假设为真
D
原假设为假
正确答案:A
满分:4

得分:4
12
总体中出现次数的最多的标志值称为(
)。
A
组中值
B
众数
C
中位数
D
平均数
正确答案:B
满分:4

得分:4
13
对水库中鱼的存量,往往采用(
)获得数据。
A
重点调查
B
抽样调查
C
典型调查
D
全面调查
正确答案:B
满分:4

得分:4
14
同一时间序列各期环比发展速度的连乘积等于相应时期的(
)。
A
定基发展速度
B
增长速度
C
发展速度
D
增长量
正确答案:A
满分:4

得分:4
15
从某城市抽取500户居民家庭得到的人均月收入、人均生活费支出属于(
)。
A
总体指标
B
样本个数
C
样本指标
D
样本单位
正确答案:C
满分:4

得分:4
16
可以用来显示定性数据的统计图是(
)。
A
茎叶图
B
直方图
C
条形图
D
散点图
正确答案:C
满分:4

得分:4
17
用总体中各单位某一数量标志值之和除以总体单位总数,得到(
)。
A
算术平均数
B
调和平均数
C
几何平均数
D
中位数
正确答案:A
满分:4

得分:4
东财10秋学期《统计学》在线作业一
试卷总分:100
测试时间:--
试卷得分:100

单选题

多选题
、多选题(共
8
道试题,共
32
分。)
得分:32
1
调查的方式包括
(
)

A
邮寄调查
B
网络调查
C
入户访谈
D
样本调查
正确答案:ABC
满分:4

得分:4
2
在绝对数时间序列中,根据反映现象的时间状况不同,绝对数时间序列又分为
(
)。
A
时期序列
B
总量指标时间序列
C
时点序列
D
相对数时间序列
正确答案:AC
满分:4

得分:4
3
在回归分析中,按研究中使用自变量个数的多少可分为
(
)。
A
一元回归
B
多元回归
C
复相关
D
单相关
正确答案:AB
满分:4

得分:4
4
为了证明变量A和变量B之间存在因果关系,必须满足(
)。
A
A与B存在相关关系
B
A与B同时发生
C
A与B存在适当的时间顺序
D
除了A之外,不存在其他可能引起B的原因
正确答案:ACD
满分:4

得分:4
5
调查问卷中的问题通常包括(
)。
A
开放式问题
B
封闭式问题
C
结构式问题
D
量表式问题
正确答案:ABD
满分:4

得分:4
6
生产法又被称为(
)。
A
增加值法
B
部门法
C
总产出法
D
工作法
正确答案:AB
满分:4

得分:4
7
统计学可在以下哪些学科中有所应用(
)。
A
医学
B
心理学
C
考古学
D
物理学
正确答案:ABCD
满分:4

得分:4
8
按照相关变量变化的方向,分为
(
)。
A
正相关
B
负相关
C
单相关
D
偏相关
正确答案:AB
满分:4

得分:4

首先,给大家讲下什么叫四分位数。顾名思义,就是把一堆数据排序会分成四份,找出其中的那三个点。中间那个叫中位数,下面那个叫下四分位数据,上面那个叫上四分位数。如下图:

中间的两个数是12和14,平均数13即为中位数。14以上的数字,最中间的数字是20即为上四分位数。12以下中间的数字是4即为下四分位数。

当然,也是更严谨的计算方法。对样本数据或者全部数据线性回归,找出概率密度函数。反函数y=05对应的x值为中位数,y=025对应的x值为下四分位数,y=075对应的x值为上四分位数

和3σ原则相比,箱线图依据实际数据绘制,真实、直观地表现出了数据分布的本来面貌,且没有对数据作任何限制性要求(3σ原则要求数据服从正态分布或近似服从正态分布),其判断异常值的标准以四分位数和四分位距为基础。四分位数给出了数据分布的中心、散布和形状的某种指示,具有一定的鲁棒性,即25%的数据可以变得任意远而不会很大地扰动四分位数,所以异常值通常不能对这个标准施加影响。鉴于此,箱线图识别异常值的结果比较客观,因此在识别异常值方面具有一定的优越性。
箱型图提供了识别异常值的一个标准,即异常值通常被定义为小于QL-15IQR或大于QU+15IQR的值。其中,QL称为下四分位数,表示全部观察值中有四分之一的数据取值比它小;QU称为上四分位数,表示全部观察值中有四分之一的数据取值比它大;IQR称为四分位数间距,是上四分位数QU与下四分位数QL之差,其间包含了全部观察值的一半。

原文的链接已经不通了,下面链接也是转原文的,有图例:
>Python数据可视化:箱线图
一、箱线图概念
箱形图(Box-plot)又称为盒须图、盒式图或箱线图,是一种用作显示一组数据分散情况资料的统计图。
计算过程:
(1)计算上四分位数(Q3),中位数,下四分位数(Q1)
(2)计算上四分位数和下四分位数之间的差值,即四分位数差(IQR,interquartile range)Q3-Q1
(3)绘制箱线图的上下范围,上限为上四分位数,下限为下四分位数。在箱子内部中位数的位置绘制横线。
(4)大于上四分位数15倍四分位数差的值,或者小于下四分位数15倍四分位数差的值,划为异常值(outliers)。
(5)异常值之外,最靠近上边缘和下边缘的两个值处,画横线,作为箱线图的触须。
(6)极端异常值,即超出四分位数差3倍距离的异常值,用实心点表示;较为温和的异常值,即处于15倍-3倍四分位数差之间的异常值,用空心点表示。
(7)为箱线图添加名称,数轴等
二、四分位数的计算
分位数根据其将数列等分的形式不同可以分为中位数,四分位数,十分位数、百分位数等等。四分位数作为分位数的一种形式,在统计中有着十分重要的意义和作用,而大多数的统计学原理教材只介绍其基本含义,对其具体计算,尤其是由组距数列计算都不作介绍,成为统计学原理教材中的空白。那么,如何根据数列计算四分位数呢?一般来讲,视资料是否分组而定。
1、根据未分组的资料计算四分位数
第一步:确定四分位数的位置
四分位数是将数列等分成四个部分的数,一个数列有三个四分位数,设下分位数、中分位数和上分位式中n表示资料的项数
第二步:根据第一步所确定的四分位数的位置,确定其相应的四分位数。
例1:某车间某月份的工人生产某产品的数量分别为13、135、138、139、14、146、148、15、152、154、157公斤,则三个四分位数的位置分别为:
即变量数列中的第三个、第六个、第九个工人的某种产品产量分别为下四分位数、中位 数和上四分位数。即:
Q1 =138公斤、Q2=146公斤、Q3=152公斤
上例中(n+1)恰好为4的倍数,所以确定四分数较简单,如果(n+1)不为4的整数倍数,按上述分式计算出来的四分位数位置就带有小数,这时,有关的四分位数就应该是与该小数相邻的两个整数位置上的标志值的平均数,权数的大小取决于两个整数位置距离的远近,距离越近,权数越大,距离越远,权数越小,权数之和等于1。
例2:某车间某月份的工人生产某产品的数量分别为13、135、138、139、14、146、148、15、152、154公斤,则三个四分位数的位置分别为:
即变量数列中的第275项、第55项、第825项工人的某种产品产量分别为下四分位 数、中位数和上四分位数。即:
在实际资料中,由于标志值序列中的相邻标志值往往是相同的,因而不一定要通过计算才能得到有关的四分位数。
2、由组距式数列确定四分位数
第一步,向上或向下累计次数
第二步,根据累计次数确定四分位数的位置
(1)、当采用向上累计次数的资料确定四分位数时,四分位数位置的公式是:
(2)、当采用向下累计次数的资料确定四分位数时,四分位数位置的公式是:
第三步,根据四分位数的位置算出各四分位数
(1)、当累计次数是向上累计时,按下限公式计算各四分位数
(2)、当累计次数是向下累计时,按上限公式计算各四分位数
例3:某企业职工按月工资的分组资料如下:
根据上述资料确定某企业职工的月工资的三个四分位数如下:
(1)、采用向上累计职工人数的资料得月工资四分位数的位置为:
(2)、采用向下累计职工人数的资料得月工资四分位数的位置为:
3、异常值
异常值:限制线以外的数据全部为异常值
三、画图
# Python
import plotlyplotly
import plotlygraph_objs as go
data = [
goBox(
y=[0, 1, 1, 2, 3, 5, 8, 13, 21] # 9个数据
)
]
plotlyofflineplot(data) # 离线绘图

箱线图是针对连续型变量的,解读时候重点关注平均水平、波动程度和异常值。
箱子的上下限,分别是数据的上四分位数和下四分位数。这意味着箱子包含了5%的数据。因此,箱子的宽度在一定程度上反映了数据的波动程度。
箱子的中间一条线,是数据的中位数,代表了样本数据的平均水平。

在箱图中,最上方和最下方的线段分别表示数据的最大值和最小值,其中箱图的上方和下方的线段分别表示第三四分位数和第一四分位数,箱图中间的粗线段表示数据的中位数。另外,箱图中在最上方和最下方的星号和圆圈分别表示样本数据中的极端值。

有两种类型的箱图:单式箱图用于分析只有一个变量的数据分布,复式箱图用以分析具有两个或以上变量的数据分布。

扩展资料

箱形图提供了一种只用5个点对数据集做简单总结的方式。这5个点包括中点、Q1、Q3、分部状态的高位和低位。箱形图很形象的分为中心、延伸以及分布状态的全部范围。箱形图中最重要的是对相关统计点的计算,相关统计点都可以通过百分位计算方法进行实现。

在各种领域也经常被使用,常见于品质管理。不过作法相对较繁琐。箱形图于1977年由美国著名统计学家约翰·图基(John Tukey)发明。它能显示出一组数据的最大值、最小值、中位数、及上下四分位数。

参考资料来源:百度百科-箱形图

参考资料来源:百度百科-箱式图


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/yw/10417656.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-08
下一篇 2023-05-08

发表评论

登录后才能评论

评论列表(0条)

保存