本章我们将介绍位置、离散程度、形态和相关程度的数值变量。
数据来自样本,计算的度量称为 样本统计量(sample statistics) ,如果数据来自总体,计算的度量成为 总体参数(population parameters) 。
统计推断中,样本统计量被称为是相应总体参数的 点估计量(point estimator)
平均数(mean) :
样本平均值: 用n表示样本观测值的个数总体平均值: 用N表示总体观测值个数
一般用 来表示变量x的第i个观测值,公式如下:
样本平均数:
总体平均数:
加权平均数(weighted mean) :
中位数(median) :所有数据按照升序排列,位于中间的数值即中位数。假设有n个数
n为奇数,就中间的即可
n为偶数,中间两个求平均值
几何平均数(geometric mean) :是一种位置度量,是n个数值乘积的n次方根。用 来表示
用途如投资10年计算年平均回报率
众数(mode) :出现次数最多的数据
有时候众数可能有多个,那么我们称数据集是双众数的或多众数的。一般多众数的数据也就没啥必要描述众数了。
百分位数(percentile) :提供了数据如何散步在从最小值和最大值的区间上的信息。
第p百分位数将数据分割为两部分,至少有p%的观测值小于或等于p百分位数,且至少有大约(100-p)%的观测值大于或等于p百分位数。
计算步骤
四分位数(quartiles)
计算方式跟用上面百分位数计算的方式来。
变异程度(亦即离散程度)
极差(range) =最大值-最小值
四分位数间距(interquartile range,IQR) 作为边意程度的一种度量,能客服异常值的影响。
方差(variance) 是用所有数据对变异程度所作的一种度量。
每个观察值 与平均值的差称为 平均数的离差(deviationabout the mean) ,当然样本和总体要分开计算。
总体方差(population variance) :
样本方差(sample variance) :
样本方差除以n-1才是对总体方差的无偏估计,样本方差 是总体方差 的点估计,别问,问就无可奉告。
方差的单位是平方,如计算某学校班级人数的方差,抽了5个班级作为样本那么
这个单位是不是很魔幻,那就别试图理解,直接理解成比较多个变量变异程度的工具。方差大意味着变异程度大,没别的了。
标准差(standard deviation) :为方差的正平方根。
样本标准差:
总体标准差:
这样做的好处是什么呢?——标准差和原始数据的单位度量相同,更容易比较。
标准差系数(coefficient of variation) =
如班级样本平均人数44人,样本标准差8;则标准差系数为
标准差系数一般用于比较不同标准差和不同平均数的变量的变异程度
分布形态的一种重要数值度量被称为 偏度(skewness)
偏度
公式不用记,计算机以后算就行。
我们想了解数据中数值的相对位置(一个数值距离平均值有多远)
z-分数(z-score) :
z-分数往往称作 标准化数值 ,可以理解为 与平均数 的距离是 个标准差。
z-分数的正负表示 是大于 还是小于
一个变量的数值转换成z-分数的过程被称作z变换。
切比雪夫定理(Chebyshev's theorem) 能使我们指出与平均数的距离在某个特定个数的标准差之内的数据值所占的比例。
定理内容:与平均数的距离在 个标准差之内的数据项所占比例至少为 ,其中 是大于1的任意实数。
当 =2, 3和4个标准差时该定理的一些应用如下:
例如100个学生成绩平均值70分,标准差5分
60-80分的人至少有75%的人
58-82分上下分别是24个标准差,
那么 = ,则至少有826%的学生成绩在58-82之间。
切比雪夫可适用于任何数据集,但实际多数是对称的峰形或钟形分布。当数据被认为近似这种分布时(正态分布),可用 经验法则(empirical rule) 来确定平均数的距离在某个特定个数的标准差内的数据值所占比例。
数据集中包含一个或多个数值异常大或者异常小的观测值,称作 异常值(outliers) 。如果错误就删除或者修正,如果时正确的反常值应该保留。
判断异常值的方法:
五数概括法(five-number summary) :
箱形图(box plot) 是基于五数概括法的数据图形汇总,关键是计算四分位数间距(IQR)。绘制步骤如下:
上图有上下限,只是为了让你们看明白,一般而言是不画的,如下图:
当然了,我们还可以竖着画箱形图,如下:
上面都是一个实践对一个变量数据汇总的数值方法,下面介绍两个变量之间关系的度量。
协方差(covariance) ,对于一个容量为n的样本,其观测值为
如之前提到的音像设备商店的广告次数 与销售额 之间的线性关系,总体协方差如下:
我们看下图,我们画了垂直虚线 和水平虚线 ,并且在四个象限中的变化特点如下。
若 为正,则 和 存在正的线性关系
若 为负,则 和 存在负的线性关系
若各点在四象限均匀分布, 趋近于0,则 和 不存在线性关系。
样本相关系数 给出了总体相关系数 的一个估计。
当 ,则x和y存在正线性关系,且 时为完全正线性关系
当 ,则x和y存在负线性关系,且 时为完全负线性关系
当 ,则x和y不存在线性关系
无
333c 复制这段内容后打开百度网盘手机App, *** 作更方便哦
先把数据整理好,再把这数据输入MINITAB表格里,再点统计——质量工具——控制图 控制图分很多种 要根据你的需要来选择哪一种控制图 控制图分计量型控制图和计数型控制图。minitab是统计软件,质量分析的数学基础就是统计学,minitab有常用质量分析模块,常用的有抽样方案分析 (此功能不是很有用,目前抽样规范都有国标,但可以定量分析一下所用标准的抽样成本有多大) spc图(这个最好采用自动化数据采集设备,进行分析) msa 汽配行业有要求。
都是分析性工具,如回归分析预测 试验设计,还有一个比较常用的是过程能力指数分析,帕累托图最常用 鱼骨图也常用 还有就是组方图!
在箱图中,最上方和最下方的线段分别表示数据的最大值和最小值,其中箱图的上方和下方的线段分别表示第三四分位数和第一四分位数,箱图中间的粗线段表示数据的中位数。另外,箱图中在最上方和最下方的星号和圆圈分别表示样本数据中的极端值。
有两种类型的箱图:单式箱图用于分析只有一个变量的数据分布,复式箱图用以分析具有两个或以上变量的数据分布。
扩展资料
箱形图提供了一种只用5个点对数据集做简单总结的方式。这5个点包括中点、Q1、Q3、分部状态的高位和低位。箱形图很形象的分为中心、延伸以及分布状态的全部范围。箱形图中最重要的是对相关统计点的计算,相关统计点都可以通过百分位计算方法进行实现。
在各种领域也经常被使用,常见于品质管理。不过作法相对较繁琐。箱形图于1977年由美国著名统计学家约翰·图基(John Tukey)发明。它能显示出一组数据的最大值、最小值、中位数、及上下四分位数。
参考资料来源:百度百科-箱形图
参考资料来源:百度百科-箱式图
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)