描述性统计分析包括哪些内容

描述性统计分析包括哪些内容,第1张

描述性统计分析包括:数据的频数分析、集中趋势分析、离散程度分析、分布以及一些基本的统计图形。

描述性统计,是指运用制表和分类,图形以及计算概括性数据来描述数据特征的各项活动。描述性统计分析要对调查总体所有变量的有关数据进行统计性描述。

描述性研究(descriptive study)是指利用常规检测记录或通过专门调查获得的数据资料(包括实验室检查结果),按不同地区、不同时间及不同人群特征进行分组,描述人群中有关疾病或健康状态以及有关特征和暴露因素的分布状况,在此基础上进行比较分析,获得疾病三间(人群、地区、时间)分布的特征,进而获得病因线索,提出病因假设和线索。是流行病研究工作的起点。

描述性统计量
平均数的 95% 信赖
个数 平均数 标准差 标准误 区间 最小值 最大值
下界 上界 下界 上界 下界 上界 下界 上界 娱乐时1 15 2200 12928 3338 1484 2916 5 50 间 2 8 3375 11573 4092 2407 4343 20 55
3 11 2409 13751 4146 1485 3333 5 55
4 6 3000 8944 3651 2061 3939 20 40
总和 40 2613 12835 2029 2202 3023 5 55 读书时1 15 2500 13628 3519 1745 3255 0 45 间 2 8 1563 7289 2577 953 2172 5 25
3 11 2091 11140 3359 1343 2839 5 40
4 6 1583 10206 4167 512 2654 5 35
总和 40 2063 11723 1854 1688 2437 0 45
变异数同质性检定
Levene 统计量 分子自由度 分母自由度 显著性
娱乐时间 400 3 36 754
读书时间 1799 3 36 165
ANOVA
平方和 自由度 平均平方和 F 检定 显著性 娱乐时间 组间 8560 3 2853 1845 157
组内 55684 36 1547
总和 64244 39 读书时间 组间 6258 3 2086 1586 210
组内 47336 36 1315
总和 53594 39

从两者的不同点进行区分。描述统计跟推论统计有3点不同:

一、两者的概述不同:

1、描述统计的概述:描述统计是通过图表或数学方法,对数据资料进行整理、分析,并对数据的分布状态、数字特征和随机变量之间关系进行估计和描述的方法。

2、推论统计的概述:推论统计是借助抽样调查,从局部推断总体,以对不肯定的事物做出决策的一种统计。

二、两者的内容不同:

1、描述统计的内容:描述统计分为集中趋势分析和离中趋势分析和相关分析三大部分。

2、推论统计的内容:包括总体参数估计与假设检验两种。前者以一次性抽样实验为依据,对整个总体的某个数字特征做出估计。后者则是对某种假设进行检验,根据计算结果推断所做的假设是否可以接受。如平均数、标准差、相关系数、回归系数等特征的总体估计及差异显著性检验。

三、两者的相关分析不同:

1、描述统计的相关分析:离中趋势分析主要靠全距、四分差、平均差、方差、标准差等统计指标来研究数据的离中趋势。例如,我们想知道两个教学班的语文成绩中,哪个班级内的成绩分布更分散,就可以用两个班级的四分差或百分点来比较。

2、推论统计的相关分析:统计推论是统计描述的对称,在抽样调查中,从样本的统计值来推论总体的参数值,以及根据抽样的结果对调查前所作的假设作出拒绝或接受的判断的方法。统计推论分为参数估计和假设检验两部分。

参考资料来源:百度百科-推论统计

参考资料来源:百度百科-描述统计

参考资料来源:百度百科-描述性统计

统计学包括 描述性统计 推论统计。

描述性统计 的含义——"A descriptive statistic is a summary statistic that quantitatively describes or summarizes features of a collection of information"

中文翻译:描述性统计是一种汇总统计,用于定量描述或总结信息集合的特征。

推论统计 :根据数据的形态建立出一个用以解释其随机性和不确定性的数学模型,以之来推论研究中的步骤及母体。

本文主要介绍描述性统计,描述性统计又分为 集中趋势 离散趋势

一、集中趋势(Measures of central tendency)
能够对总体的某一特征具有代表性,表明所研究的对象在一定时间、空间条件下的共同性质和一般水平。

1 众数(Mode)
用于定性的数据,表示一组数据中出现频次最高的数。
优点:不受极端值影响;当数据具有明显的集中趋势时,代表性好;
缺点:缺乏唯一性。

2 分位数(Quantile)
亦称分位点,是指将一个 随机变量 的 概率分布 范围分为几个等份的数值点,常用的有 中位数 (即二分位数)、 四分位数 、 百分位数 等。

21 中位数(Median)
用于定量的数据,表示数值大小位于中间(奇偶总量处理不同)的值。
优点:不受极端值影响;缺点:缺乏敏感性。

22 四分位数
第一四分位数 (Q1) ,又称“较小四分位数”,等于该样本中所有数值由小到大排列后第25%的数字。

第二四分位数 (Q2) ,又称中位数,等于该样本中所有数值由小到大排列后第50%的数字。

第三四分位数 (Q3) ,又称“较大四分位数”,等于该样本中所有数值由小到大排列后第75%的数字。

第三四分位数与第一四分位数的差距又称四分位距。

3 平均数(Mean)
31 算术平均数:
优点:充分利用所有数据,适用性强;缺点:易受极值影响。

32 加权平均数: 根据权重比例来求平均值

33 几何平均数

python实现:

二、离散趋势(Measures of Dispersion)
1 极差
一组数值型数据中最大值和最小值之差,max(x)-min(x),反映了数值样本的数据范围。

2 方差和标准差
方差 用于衡量数据的分散程度,常见的有总体方差和样本方差,计算方法类似。 标准差 为方差的平方根。

3 平均差
是数据组中各数据值与其算术平均数离差绝对值的算术平均数。

4 分位差
其数值越小表明数据越集中,数值越大表明数据越离散。常用的四分位差为:四分位差=(第三个四分位数-第一个四分位数)/2

5 异众比率
异众比率越大,说明非众数组的频数占总频数的比重越大,众数的代表性就越差;异众比率越小,说明非众数组的频数占总频数的比重越小,众数的代表性越好。

6 离散系数
离散系数又称变异系数,CV(Coefficient of Variance)表示。CV(Coefficient of Variance):标准差与均值的比值。离散系数越小,数据的离散程度就越小。

python实现:

三、分布形态
1 偏态系数(Skewness)
偏态系数又称偏差系数(deviation coefficient),偏态系数以平均值与中位数之差对标准差之比率来衡量偏斜的程度,用 SK 表示偏斜系数:偏态系数小于0,因为平均数在众数之左,是一种左偏的分布,又称为 负偏 。偏态系数大于0,因为均值在众数之右,是一种右偏的分布,又称为 正偏

偏态系数是根据众数、中位数与均值各自的性质,通过比较众数或中位数与均值来衡量偏斜度的。

2 峰态系数(Kurtosis)
峰度系数是用来反映频数分布曲线顶端尖峭或扁平程度的指标,用于衡量离群数据离群度,峰度系数越大,说明该数据集中的极端值越多。在正态分布情况下,峰度系数值是3。>3的峰度系数说明观察量更集中,有比正态分布更短的尾部;<3的峰度系数说明观测量不那么集中,有比正态分布更长的尾部,类似于矩形的均匀分布。峰度系数的标准误用来判断分布的正态性。峰度系数与其标准误的比值用来检验正态性。如果该比值绝对值大于2,将拒绝正态性。


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/yw/10392864.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-08
下一篇 2023-05-08

发表评论

登录后才能评论

评论列表(0条)

保存