描述统计学
abortion statistics
流产统计(学)
accident statistics
事故统计学
accurate statistics
精密统计
actuarial statistics
保险统计
agricultural statistics
农业统计
amplitude statistics
幅度统计
ancillary statistics
辅助统计量
applied statistics
应用统计
banking statistics
银行业务统计
Bayesian statistics
贝氏统计(以主观估计为概率曲线的基础)
benchmark statistics
标志性统计数
biological statistics
生物统计学
birth statistics
出生统计
Boltzmann statistics
玻耳兹曼统计
Bose-Einstein statistics
玻色-爱因斯坦统计(法)
boundedly complete statistics
有界完备统计量
business statistics
经济情况统计, 业务统计
capital construction statistics
基本建设统计
car statistics
车辆统计
classical statistics
经典统计(法)
classification statistics
分类统计
commercial statistics
商业统计
commodity statistics
商品统计
comprehensive table statistics
综合统计表
configurational statistics
构形统计学
conversational statistics
对话统计学
cost statistics
成本统计
counting statistics
计数统计
critical statistics
临界统计
customs clearance statistics
结关[报关]统计
demographic statistics
人口统计
derived statistics
整理后统计数字
descriptive statistics
描述统计(学)
dynamic statistics
动态统计学
economic statistics
经济统计
educational statistics
教育统计学
elementary statistics
基础统计学
empirical statistics
经验统计
employment statistics
就业率统计
enumerative statistics
枚举统计学
family budget statistics
家庭开支统计
Fermi-Dirac statistics
费米-狄拉克统计
financial statistics
金融统计, 财政统计, 财务统计
foreign trade statistics
外贸统计
forest statistics
森林统计学
freight traffic statistics
货物运输统计
government statistics
政府统计
graphic statistics
统计图表
harvest statistics
收成统计
health statistics
卫生统计学
historical statistics
历史统计
inductive statistics
归纳统计学
industrial statistics
工业统计
insurance statistics
保险统计
intensity statistics
强度统计
inventory statistics
库存统计表
labour statistics
劳动统计
linguistic statistics
语言统计学
loan statistics
借书统计, 出借资料册次统计
locomotive repair statistics
机车检修统计
manufacturing statistics
制造业统计
mathematic(al) statistics
数理统计学
Maxwell-Boltzmann statistics
麦克斯韦-玻耳兹曼统计
medical statistics
医用统计学
minimal sufficient statistics
最小充分统计量
mortality statistics
死亡率统计
national statistics
全国性统计
national income statistics
国民收入统计
national wealth statistics
国富统计
nonparametric statistics
非参数统计
official statistics
官方统计
operating statistics
业务统计, 行车统计
output statistics
产量[产品]统计
parameter-free statistics
非参数统计
parametric statistics
参数统计(学)
passenger traffic statistics
旅客运输统计
photo-counting statistics
光子计数统计学
plant statistics
厂内统计
population statistics
人口统计
primary statistics
原始统计
probability statistics
概率统计
quantum statistics
量子统计
rank statistics
秩统计量
registration statistics
人口登记统计
short time statistics
短时统计特性
social statistics
社会统计
static statistics
静态统计
status statistics
有关居民阶级构成的统计资料
sufficient statistics
充分统计
test statistics
检验统计量
trade statistics
商业统计
train operating statistics
行车统计
transport statistics
运输统计
unbias(s)ed statistics
无偏统计
vital statistics
(出生、结婚、死亡等)人口动态统计; [美]妇女的三围尺寸(胸围、腰围、臀围)
wage statistics
工资统计
statistics of attributes
质的统计, 属性统计
statistics of circulation
书刊发行(量)统计; 图书馆资料流通统计
statistics of classification frequency
分类频率统计
statistics of extremes
极值统计
statistics of fixed assets
固定资产统计
statistics of grouping the same item
同项归并统计
statistics of income
进款统计
statistics of random processes
随机过程统计学
statistics of rupture
断裂统计学统计 Statistics
SHOWPLAN 描述 SQL Server 查询优化器选择的数据检索方法。
STATISTICS IO 报告与语句内引用的每个表的扫描数、逻辑读取数(在高速缓存中访问的页数)和物理读取数(访问磁盘的次数)有关的信息。
STATISTICS TIME 显示分析、编译和执行查询所需的时间(以毫秒为单位)。
STATISTICS PROFILE 显示每个查询执行后的结果集,代表查询执行的配置文件。
FULLSCAN
指定应读取 table 或 view 中的所有行以收集统计。FULLSCAN 提供与 SAMPLE 100 PERCENT 相同的行为。FULLSCAN 不能与 SAMPLE 选项一起使用。
ALL | COLUMNS | INDEX
指定 UPDATE STATISTICS 语句是否影响列统计、索引统计或所有现有统计。如果未指定选项,则 UPDATE STATISTICS 语句影响所有的统计。每个 UPDATE STATISTICS 语句只能指定一种类型(ALL、COLUMNS 或 INDEX)。用ibmspssstatistics计算全距 *** 作如下。
1、打开SPSS的界面,在菜单栏中依次找到分析--相关--距离。
2、选择进行距离分析的变量。
3、写入了变量,接着就要写入个案标注依据。
4、然后在测量选项卡中点击测量进行进一步配置,在区间--测量下拉框中选择皮尔逊相关性,接着在转换值--标准化下拉框中选择Z得分并勾选按变量,设置完了单击继续。
5、设定好后单击确定,我们就得到了SPSS的输出结果。
6、对输出结果的分析。这一章节是在吴博士、杜姐和畅畅的关爱下学的。还有卢宝宝。
七门科目,三百多个知识点辐射出来3倍以上的记忆和理解范围。而到最后,还要回到反反复复的识记的死记硬背。因为80分是靠写。在这个过程中,你会怀疑自己的智商,怀疑自己的记忆,怀疑自己的自制力、怀疑自己的意识集中精力,可是这一切却都是正常的。
对不起,这不是一场考试。是一场自己跟自己的战争。
可是,先别放弃。我跟你们在一起呢。
杜姐姐说,统计的精髓都在这张图里。
数据特征:集中
数据类型:一致
第一章:研究中常见数据的特点和整理
数据类型
称名数据:属性和类别不同。不能排序,不可以加减乘除
顺序数据:序列。可以排序,不可以加减乘除
等距数据:间隔。可以加减不可以乘除。
等比数据:想等单位。可以加减乘除。
数据的描述:集中/离中/一致性
算术平均数和 计算样本算数平均数的条件
算术平均数简称平均数,反映一组数据分布集中趋势的量数,等于数据总和除以数据个数,用字母 M 谬表示。
计算条件如下;
1、数据同质,用同一种测量工具测量某一特质所得。
2、数值明确。
3、数据离散程度不能太大。
算数平均数的特点
1、反应灵敏,计算严密,简单明了。
2、要求相同测量工具所获得的数据。
3、若数据相对集中,对数据总体一般水平的代表性较好。
4、较少受抽样变动的影响。
中数: 一组数据按取值大小排序,位于序列 中间的数(序列中间位置两个数的平均数)即为中数 。当数据个数为偶数时,中数等于位于序列中间位置的两个数的平均数。
众数: 是指在次数分布中 出现次数最多的数据的值 。
T检验的条件:
简述利用一组原始数据编制次数分布表的主要步骤
相关系数:两列变量相关程度的数量指标
身高与体重的离散程度
第二章:数据的分布及总体参数的估计
正态分布的特点:
1连续的概率分布
2 x=μ,曲线呈钟形,中间高,两端低,曲线两端与横轴渐变渐进,但是永不相交。
3 x=μ处有最高点,x=μ+- σ 有两个拐点。
4 正态分布是一族分布,曲线形状:μ决定曲线的位置,μ越大,曲线越靠右; σ 决定曲线的高度, σ 越大,曲线越低阔(数据离散); σ 越小,曲线越高狭(数据集中)。
方差及其公式: 方差是反映一组数据离散趋势的量数,它等于一组数据离差平方的平均数。总体方差用 σ 2 表示,样本方差用 S2 表示。公式:S2=∑(X--x)2/n=∑x2/n
X 为观察数据,X-为样本平均数,n 为样本容量。称 x=X--X 为"离均差,简称"离差"
标准差的定义、公式、意义、应 用
定义:方差是每个数据与该组数据平均数之差乘方后的均值 ,即离均差平方后的平均数。标准差即方差的平方根 。
标准差的意义:
1、一个班的分数的标准差越大,说明该班学习成绩不齐,好的好,差的差。
2、若一个老师所出的试卷,学生考试成绩标准差大,说明这个试卷把不同学生的水平区别开了。
3、同一团体多次施测,标准差大,说明测量误差较大。
应用:
1、在正态分布下对标准差的解释
平均数X+-1S, 6826%
平均数X+-196S, 95%
平均数X+-258S, 99%
2、用于对数据的取舍:落在平均数X+-3S之外的数据,为异常可以舍弃。
标准正态分数 正态分布及其曲线的特点
(1)正态分布是连续概率分布。该曲线是以直线 X=μ为对称轴的对称曲线 呈钟形,中间高,两端低;曲线两端与横轴逐渐接近但永不相交。
(2)曲线在 X=μ 处有最高点;在 X=μ±σ 处有两个拐点。
(3)正态曲线的位置和形状依两个参数(μ,σ2)不同而不同。μ 决定曲线的位置,μ 越大,曲线越右移。σ 决定曲线形状,σ 越大,曲线越低阔(标准差越大,数据越离散,曲线越低阔);σ 越小,曲线越高狭(标准差越小,数据越集中,曲线越高狭)。
抽样分布
点估计:总体参数不清楚,用一个特定的值对总体进行估计,就是点估计。
一般用样本平均数-x估计总体参数μ,用样本标准差 Sn-1 估计总体标准差σ
点估计应满足以下四个条件:
(1) 无偏性:用作估计值的统计量可能会大于参数的真值,有时会小于参数的真值,但要求所有可能的统计量与参数真值的偏差的平均值为零。
(2) 一致性:当样本容量无限增大时,估计值会越来越接近它所估计的总体参数
(3) 有效性:若存在一个无偏估计量,对于其他无偏估计量来说,它的方差是最小的,就是说它的取值是比较稳定的,则这一估计值是有效的 。
(4) 充分性:用作估计值的统计量能够反映样本全部数据所反映的总体的信息。
区间估计:用数轴上的一段距离,表示未知参数可能落入的范围。
置信区间: 在某一个置信度时,总体参数可能落入的区间,置信度-置信水平:1-α,是指估计的总体参数落入置信区间的可靠性程度。
第三章:假设检验
假设检验:通过样本的差异推论总体差异就是假设检验。
虚无假设: 用H0表示, 又称零假设。与科学假设相反的假设,假设检验就是通过检验的结果对h0虚无假设进行接受或者拒绝。
备则假设: 用H1表示,又称科学假设。在统计学中,无法直接验证科学假设H1的真实性,必须通过设立虚无假设H0来验证备则假设。因此,若虚无假设为真,则备则假设为假;若虚无假设为假,则备则假设为真。
假设检验的基本步骤(5步):
1 建立虚无假设H0和科学假设H1;
2 选择统计方法,计算检验统计量
3 根据样本计算统计量的值
4 规定显著性水平α,根据检验的类型查处临界值。
5 根据检验统计量观察值决定原假设取舍。比较临界值和统计量的值:如果统计量值小于临界值,小概率事件则接受虚无假设H0, 拒绝备则假设;如果统计量值大于临界值,则拒绝虚无假设H0,接受备则假设。(不超过(小于等于)阿尔法的事件是小概率事件。)
显著性水平: 是一种检验标准,用阿尔法表示,阿尔法=005或者001,概率<不超过阿尔法的事件就是小概率事件。显著性水平是对拒绝虚无假设H0所犯错误给定的标准。
- α错误 :I型错误,虚无假设为真,拒绝虚无假设犯的错误。
- β错误 :II型错误,虚无假设为假,接受虚无假设犯的错误。
单侧检验的概念及其应用条件:
单侧检验: 查统计表时,按分布的一侧计算显著性水平概率的检验。
应用条件:凡是检验大于、小于、高于、低于、优于、劣于等有确定性大小关系的假设,都用单侧检验。
双侧检验: 查统计表时,按分布的两端计算显著性水平概率的测验。
应用条件:凡理论上不能确定两个总体一个一定比另一个大或小的假设检验。双侧检验的备择假设是 H1:u1≠u2
zhihe秩和检验法:将两样本数据混合起来统一排序,排出等级,再分别计算两个样本的 秩和。(“秩”又称等级、即上述次序号的和称“秩和”;秩和检验法就是,通过 秩和作为统计量 进行假设检验的方法。)
秩和检验的基本思路和使用条件:
秩和检验法是非参数检验,适合两总体为非正态分布的独立样本。其研究思路是将两样本数据混合起来统一排序,排出等级(秩次),再分别计算两个样本秩次之和(”秩和“)。
如果两个样本的秩和 大体相等,则两个总体的均值是相等的。
如果两个样本的秩和 相差过大,则两总体均值可能存在差异。
1) 小样本(N<25,N=n1+n2): 将n比较少的样本数据所得等级相加求和为T,查秩和检验表。
(2) 大样本(N≥25): 计算Z值,查正态表,确定差异是否显著。
选用什么统计方法,进行统计检验
积差相关(皮尔逊相关)系统所需要满足的条件:
积差相关 又叫皮尔逊积差相关, 两列线性关系且正态分布的数据变量,需满足以下几个条件 :
(1) 不少于 30 对成对的数据。
(2) 两列变量都是正态分布的变量。
(3) 两列变量之间的关系是线性的。
卡方检验的三种应用 (03, 07)
答:卡方检验是一种非参数检验,对数据的分布形态不作要求。卡方适用于对计数数据的检验。计数数据通常是用列联表的方式给出的。也能处理连续变量的拟合检验问题。卡方检验适合于对一因素多水平或多因素数据的检验。
(1) 配合度检验
指实际观 察次数 与某种 理论次 数之间 差异的 显著性 检验 ,或 检验某 种次数 分数的 总体是 否服从 某一给 定的理 论分布。属于 单因素 检验。
(2) 独立性检验
根据两变 量的交 叉分类 的次数 表,检 验两个 变量是 独立的 还是 有关的 ,属于 双因素 检验。
(3) 同质性检验
检验两个 样本在 同一变 量上的 分类是 否有类 似的分 数分布 模式 ,即这 两个样 本数据 是否同 质的问 题。
第四章:各种研究设计的方差设计
将非正态分布转变为正态分布的方法
方差分析的基本条件
y=a+bx是y对x的一元回归方程。a为回归常数,b为回归系数。
回归系数: 指在回归方程中表示自变量 x 对因变量 y 影响大小的参数。回归系数越大,表示 x 对 y 的影响越大,正回归系数表示 y随 x 增大而增大,负回归系数表示 y 随 x 增大而减小。
测定系数
公共因素方差
第五章:一元线性回归
统计学是通过搜索、整理、分析、描述数据等手段,以达到推断所测对象的本质,甚至预测对象未来的一门综合性科学。那么你知道统计学用英语怎么说吗接下来跟着我来学习一下吧。
统计学的英语说法:
statistics
统计学相关英语表达:
数理统计学 mathematical statistics
推论统计学 statistical inference
统计学原理 Principle of Statistics
国际统计学 International statistics
空间统计学 Spatial Statistics
管理统计学 Statistics for Managers
统计学的英语例句:
1 The degree provides a thorough grounding in both mathematics and statistics
该学位课程将为数学和统计学打下扎实的基础。
2 The results are not statistically significant
结果从统计学上看没有什么意义。
3 These courses provide the groundwork of statistical theory
这些课程介绍的是统计学理论的基础。
4 Although not essential, some prior knowledge of statistics is desirable
统计学的知识虽非必要,但最好是学过一点。
5 Statistics is taught in many colleges
许多大学都教授统计学
6 Business graduates must also be numerate, because most degrees will have courses in quantitative methods and statistics
商科专业大学 毕业 生也必须具备良好的数学能力, 因为大部分学位涉及定量研究法和统计学领域课程
7 In statistical language , this estimate is called the between - column variance
在统计学中这个估计值叫组间方差
8 Today, statistics and statistical analysis are used in practically every profession
今天, 统计学和统计分析已经被广泛地应用于各行各业的工作实践中
9 This is not intended to serve as a text of statistical techniques
这并不是想把它变成统计学的技术课本
10 The treatment is based on statistical theory
这种处理的根据是统计学理论
11 She's studying statistics at university
她在大学学习统计学
12 The magnitude of each type of noise listed above can be computed from elementary statistical principles
上列各种类型的噪声的大小可用基本统计学原理来计算
13 Economic statistics largely consists of the aggregation and tabulation of facts relating to economic life
经济统计学大体上是由与经济生活有关的现实资料汇总与列表工作构成的
14 She combines feminine elegance with a mind which delights in legal and statistical complexities
她既具有女性的优雅,又有喜爱研究法律和统计学等复杂问题的头脑
15 The term null hypothesis arose from earlier agricultural and medical applic ation of statistics
无效假设这个概念产生于早期的统计学在农业和医学方面的应用中
统计是对数据进行收集、分析、展示和解读的科学和艺术,这句话听起来很高深,但其实也没必要非要把统计想得过于复杂和深奥,一个简单的把数据按照从高到低的顺序整理的过程也可以称为统计。
采用一定的工具如图表、图形和计算,对被观察对象的数据进行整理,得到诸如均值 Mean/ Expectation,方差 Variance,频数 Frequency,交叉表 Crosstabulation,直方图 Histogram,柱状图 Bar Chart 等形式,并借助这些整理的结果来对数据进行解读的统计学应用称为描述统计 Descriptive statistics。
在统计学中,被研究的对象的所有可能的结果的集合称为总体 Population,之所以采用这个词是因为正是人口普查 census 催生了现代统计学的很多研究结果,所以总体这个英文单词最常用的翻译是“人口”。
在实际应用中,想统计全部的人口或任何一个研究对象的总体都是不容易的,因此常常需要通过统计学知识利用从总体中抽取的样本数据中观测到的统计值来对总体数据的相应特征进行推断,这一统计学应用称为推理统计 Inferential statistics。在推理统计中,为了使得他人可以了解推断的质量和准确性,除了点对点的给出总体的某些描述统计特征(点估计 Point estimate)外,还会同时给出这些总体特征的可能的取值区间(区间估计 Interval estimate),实验者对于这个区间包含总体特征的置信程度 confidence level 等来进一步对结果进行说明。
由于被研究的对象的某些特征的取值很可能是事先难以确定的,因此是可以说取值是一些变量 variable,所以我们常用变量符号如 x,y 来表示,而为了便于定量的研究这些变量而严格限制每一个变量的结果都采用数值的形式加以表示时,这些变量在统计学的语境中就被命名为随机变量 Random variables。
最基本的描述统计就是以表格的形式对数据进行整理归类,在分类的基础上进行频次统计、相对频率、频率百分比和其他描述统计指标的计算,在这个过程中还可以将统计的结果可视化,从而在杂乱无章的数据中找出隐含的信息,如数据的分布形态,集中程度等。
在进行频数统计时,从更有效的数据可视化的角度,对于类别型数据 Categorical data 和个别离散型数值数据 Quantitative data 可以通过柱状图 bar chart 来将数据分类,而对于大多数数值数据,尤其是连续型数值数据来说应该用直方图 Histogram 来进行统计。并且如果采用横轴做量值的分类,纵轴做频数统计的话,除非数据本身有空位,否则不应该为了区分不同类别而人为的改变横轴的度量比例,而是应该使用紧邻的直方图,并保留数据原有的分布形状,因为在很多情况下这些形状本身就蕴含着很多信息。关于在数据可视化中的图形选择原则,可以参考 Data Visualization: Rules for Encoding Values in Graph 。
上述列表分析和可视化都是针对单个随机变量而言的,如果针对两个随机变量,则在归类时可以使用交叉表 Crosstabulation 来做汇总,并重点关注列表的交叉区域,以了解这两个变量之间的关联关系。这里需要注意的是,如果数据分析中涉及多个交叉列表,有时会需要将多个交叉列表合并成一个新的汇总性的交叉列表。此时,从这个汇总的交叉列表中寻求结论时需要注意 Simpson 悖论 问题,即需要注意是否有对结果解读有影响的因素在汇总时被忽略掉了。
在可视化中,当两个变量的取值都是数值型数据时,可以通过散点图 Scatter plot 来将统计的结果可视化,从而一目了然的发现二者之间的关系:
而当这两个变量中有一个是类别数据时,则可以采用并列柱状图或累计柱状图来进行可视化:
在取得随机变量的多个不同的取值以后,在统计中每一个取值称为一个样本点,可以通过一些指标对于这些取值的位置特性进行一个度量,其中一个非常重要的指标就是均值。
均值这个指标是如此重要以至于它已经融入到我们的日常表达中,我们常说某个事情的平均水平是某个值,就代表如果从样本集中获取一个样本,可以预期其取值应该在平均水平附近,因此均值也被称为期望 Expectation。
为了区分总体和样本,总体的均值用 μ 来表示,总体中所包含的样本点的数量用 N 表示,样本的均值用 x̄ 来表示,样本中所包含的样本点的数量用 n 表示。
总体的均值为:
样本均值为:
下面这张图形象的描述了均值的“位置”描述能力,即均值取值的位置会随着样本集中不同的样本点的取值的变化而变化。
在一般的均值计算中,可以认为对于各个样本点的权重都是相等的,即都等于 1/n,在一些情况下也需要给予不同的样本点不同的权重,这样的均值计算称为加权平均,其计算公式为:
下图这个多次以不同价格采购不同数量的产品,如果想要了解所有被采购产品的平均价格,就需要采用加权平均,其最终平均价格为:
严格意义上讲,前面的均值计算应该称为算数平均数,还有一种均值的计算方式称为几何平均数,其计算公式为:
其典型应用场合为对于变化速率的计算,如复利计算、年增长率计算等。例如如果一笔投资第一年利率为 006,第二年利率为 008,第三年利率为 010,那么这三年的平均利率应该为 00799,也即是说如果每年的利率是 00799,那么在期初投资同一笔钱,三年后两种模式下的收益是一样的。
将样本集中的所有样本点按照从小到大的顺序排成一个数列后,位于这个数列中间位置的那个数称为中位数,当样本集中包含的样本的个数为偶数时,取中间两个值的平均值。在描述样本集的位置情况时,中位数相比均值不容易受到异常值 outlier 的影响。
将样本点做频数统计后,频数最高的那个数就称为众数 Mode,这个数值反映了一种取值的倾向性,所以对应的在英文中用的是 Mode,这个英文单词比较令人熟知的翻译是“趋势”。
百分位数提供了样本集中样本取值的相对位置信息,其正式的定义为:
百分位数最常用的一个特例是将样本集的取值由 25%,50%,75% 百分位数分成 4 个部分,常用 Q 1 ,Q 2 ,Q 3 来表示。
除了对随机变量取值的位置进行度量以外,我们还需要了解这些取值的变动或分布情况。
最简单的衡量取值变动程度的指标就是取值范围,也即最大值与最小值之差。
由于取值范围容易受到异常的极大和极小值的影响,因此对于数据的整体分布情况的度量能力有限,一个更进一步的度量方式是采用 IQR = Q 3 - Q 1 ,也即 75 百分位数与 25 百分位数之差来给出中间 50% 的数字的取值范围。
与前几个分布指标相比,方差充分考虑到了数据集中每一个随机变量的取值与数据集的均值的偏差值 deviation ,并以此来计算数据分布情况。
同样地,总体的均值用 μ 来表示,总体中所包含的样本点的数量用 N 表示,样本的均值用 x̄ 来表示,样本中所包含的样本点的数量用 n 表示。
总体的方差计算公式为:
样本的方差计算公式为:
样本方差的分母为 n - 1 是因为样本集的数据离散程度大概率上是小于总体的离散程度的,并且在现实应用中总体的数据是很难获得的,都是需要用样本的方差来近似总体的方差,此时就需要将样本的方差做一个校正,校正方式为将原方差公式中的 n 替换成 n - 1 将样本的方差做一个放大。
在计算样本集中每个样本的取值与均值的偏差时,由于对于任何数据集都有 Σ(x i - x̄) == 0,因此方差计算中采用的是偏差的平方和 Σ(x i - x̄) 2 。对于量值数据来说,方差的单位是原有随机变量量纲的平方,而将方差做开方后得到的值则和随机变量具有相同的量纲,这就使得通过这个统计值来和原有随机变量的取值进行比较成为了可能,这个开方的结果称为标准差。
由于标准差与随机变量的取值以及均值都具有相同的量纲,因此可以直接进行比较,我们将标准差与均值的比值定义为变动系数:
变动系数比较了标准差与均值之间的关系,可以直观的了解随机变量取值的变动程度。
在之前的内容里曾提到了直方图对于分布形状的描述能力,最简单对于分布形状的一个描述就是总体取值的偏斜程度 Skewness,其不仅可以定性的描述为“左偏”,“右偏”,还可以通过定量的计算来获得,其计算公式为:
其绝对值越大代表偏斜程度越高,并且右偏结果为正值,左偏结果为负值。当数据右偏时,均值一般会大于中值,当数据左偏时,均值会小于中值,所以中值在数据偏斜程度比较高的时候可以比均值更好的衡量数据分布的位置。
除了样本集总体的分布情况外,对于每一个样本的取值都可以通过定义一个 z-score,也称标准值 standardized value ,来了解它在数据集中的相对位置,对于第 i 个样本点,其标准值为:
标准值可以理解为样本点的取值与均值的偏离程度可以用多少个标准差的值来衡量,伟大的 Chebyshev 对于数据分布情况和标准值之间的关系给出了一个定理,使得我们可以大致的计算在均值附近的某一个范围内的数据分布的量:
注意这个定理只针对 z ≥ 1 时才有效,但对于数据整体的分布形状没有要求,对应这个定理有:
当数据整体上呈对称分布时,基于切比雪夫定理可以对于数据的分布情况给出一个经验法则 Empirical rule,即在对称分布中:
在数据集中如果出现了一个或多个数值极大或极小的异常值,就会对一些位置描述指标的计算,如均值产生较大的影响,这些异常值应该在数据分析的过程中予以检查,并酌情考虑剔除。常用的检测标准为:
有了前面的这些描述指标,可以通过以下 5 个数字来对一组数据进行描述,简称 5 数描述法:
这 5 个数字可以将即便很大的数据集做一个很好的划分,如下图所示:
更进一步地,在获得了四分位差 Q 3 - Q 1 后,前面的 5 数描述法还可以使用盒型图来可视化:
在实际的数据分析中,在进行均值和方差计算前可以先通过对于数字进行排序后通过 5 数法和盒型图来了解数据的分布情况,并检查异常值,之后再做进一步的计算。
上述指标的定义都是针对单一随机变量的,而协方差衡量则可以衡量两个随机变量之间的线性相关性。对于随机变量 x,y 来说,
总体的协方差计算公式为:
样本协方差计算公式为:
从这个计算过程可知:
尽管一定程度上协方差的绝对值对于相关性可以做一个判断,但由于相关性的计算与相应的变量的量纲有关,因此同样的一组数据,采用不同的量纲计算得到的协方差的结果不同,因此为了消除掉量纲的影响,定义了相关系数。例如当其中一个变量为身高,另外一个变量为体重时,协方差的量纲则难以被定义。
总体的相关系数计算公式为:
两个随机变量样本集中 x,y 的相关系数计算公式为:
相关系数的计算剔除了两个随机变量各自的标准差在协方差中的影响,使得相关系数只衡量两个随机变量的多个取值围绕各自均值的变化方向的相关性,其取值范围为 [-1, 1]:
再做一个类比,在线性代数中已知两个 n 维向量 a , b ,则有:
这个夹角也称为余弦距离,常被用来判定两个向量之间的相关关系。仔细对比相关系数和余弦距离这两个公式可以发现二者讨论的其实是同一个问题:只需要将随机变量 x 的取值结果向量化为 x ,并令 a = x - x̄,如此则相关系数和余弦之间只间隔一个向量化的距离:
数学原理本身是不分学科和专业的,它们被分离在不同的课本和学科内是为了方便的在一个领域内形成一个体系,但在理解数学的时候完全可以突破学科和课本的限制,这样才能形成一个更加广阔的图景。
相关系数也被称为 Pearson's Correlation,以表彰 Karl Pearson 在统计领域所做出的贡献。这个统计量在两个变量不具有线性相关性时会忽视二者之间的关系,且其计算容易收到异常值的影响,为了克服这一缺点,引入了 Spearman's rank correlation,后者的计算方法为首先先将两个变量按照数值大小进行排序,在排序的基础上再计算二者的相关系数。
这一部分是我自己做的一个扩展,并非书上的内容,为了方便查看放在了这里,不代表原书作者的观点。
在实际的统计工作中,如果已知疑似具有线性关系的自变量 x 和因变量 y 的多个取值,我们可以通过最小二乘法来构建一个线性回归模型 ŷ = mx + b 来对新的 x 生成一个具有预测作用的 y 的取值。在这个过程中,我们可以通过最小平方误差 MSE 来衡量模型的预测值与实际取值之间的差异。
但假如我们只有一系列的 y 的值而没有对应的 x 的取值,此时,如果需要构建 y 的预测值,最好的办法就是通过计算 y 的均值,并且用这个值来作为未来所有 y 值的预测值。在这个过程中引入的误差值如果在 x 与 y 具有线性关系的时候会大于上述回归得到的误差值。
这两个误差值之间的相对差异被成为决定系数 Coefficient of Determination,因为这个值也是相关系数 r 的平方,因此也称为 R 2 。对应上面这个例子,R 2 = (411879 - 137627) / 411879 = 06659,也即 R 2 衡量了线性回归在 y 的预测过程中对于误差的减少的量。
如果我们仔细观察上述两个计算过程,就可以知道针对 y 均值的计算过程实际上获取的是 y 的方差值,或变动值,因此,我们也可以说 R 2 衡量的是 x 值的变动情况对于 y 的变动情况的影响。
我写这个笔记是为了系统的复习概率论中的一些概念,阅读的是 Statistics for Business and Economics, 12th Edition 英文原版,这是一本非常经典的参考书,毫无保留的满分推荐。尽管书名暗示了是在商业和经济学中的统计学,但根本的统计学知识是不变量,并且和很多优秀的原版书一样,作者时刻注意用实例来讲解统计学概念,基本上每一个新的概念的定义都建立在日常生活的实例的基础上,在此基础上还保留了精美的排版和精心设计的插图,十分便于理解。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)