2、其次点击上方的设置按钮,点击进入。
3、最后在设置中选择显示选项,点击点的个数点击显示即可。
盒图是在 1977 年由美国的统计学家约翰·图基 John Tukey 发明的。它由五个数值点组成:
也可以往盒图里面加入平均值 mean 。下四分位数、中位数、上四分位数组成一个带有隔间的盒子;上四分位数到最大值之间建立一条延伸线,这个延伸线成为胡须。
由于数据集不可避免的总是会有脏数据,通常称为“离群点”,为了不因这些少数的离群数据导致整体特征的偏移,在盒图中将这些离群点单独绘出。因此,盒图中的胡须的两级即为最小观测值与最大观测值。
关于最小观测值与最大观测值的判定,通常使用如下规则:
借助盒图,可以更加有效地帮助我们了解数据的特征:
首先,导入工具包并执行魔法指令:
构造 5 组均值为 0 ,标准差分别为 1~5 的数据集,并绘制盒图:
其中, plt.boxplot 用于绘制盒图, sym 指出离群点的绘制符号, vert=True 指出绘制方向为竖直:
下面,我们调整一下细节,为盒图添加标题、刻度标签:
绘制结果:
此外,还可以将盒图的线条颜色设置成自己喜欢的颜色:
绘制结果:
此外,我们还可以对盒子部分的颜色做个填充:
这里需要注意的是,想要设置填充盒图颜色,在调用 boxplot 时须指定 patch_artist=True 。绘制结果:
小提琴图与盒图非常相似,我们来使用 violinplot 绘制一下就可以直观地发现了:
绘制结果:
小提琴图除了可以观察到中位数、最小值、最大值之外,我们可以更友好地看出数据的分布,小提琴越胖的地方数据分布越多,越瘦的地方数据越少。为了更直观地与盒图进行对比,我们可以在上图中加入网格线:
绘制结果:
可以发现,两种图中位数的位置是一致的,最大值和最小值的位置也是一致的,只不过小提琴图没有所谓的最小观测值与最大观测值之说,因为它可以更清晰地观察每个位置数据的分布情况。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)