1、数据由什么类型的属性或字段组成?
2、每个属性具有何种类型的数据值?
3、哪些属性是离散的?哪些是连续值的?
4、数据看上去如何?值如何分布?
5、有什么方法可以可视化地观察数据,以便更好地理解它吗?
6、能够看出离群点吗?
7、可以度量某些数据对象与其他数据对象之间的相似性吗?
例如给定温度属性,我们可以确定其均值、中位数、众数。这些是中心趋势度量,使我们了解分布的”中部“或中心。关于每个属性的这种基本统计量的知识有助于在数据预处理时填补缺失值、光滑噪声、识别离群点。分位数图、直方图和散点图都是显示基本统计描述的其他图形方法。
一、数据对象与属性类型
属性 是一个数据字段,表示数据对象的一个特征。
1、标称属性:
一些符号或事物的名称。可以用数字符号代替,但并不是定量的。
2、二元属性:
一种标称属性,只有两个类别或状态:0或1,其中0表示该属性不出现,1表示出现。若这两种状态对应true或false,又称为布尔属性。若二元属性是 对称的 ,意思是关于哪个结果应该用0或1编码并无偏好,如男或女。若二元属性是 非对称的 ,我们常用1表示重要数据,如艾滋病阳性。
3、序数属性:
其可能的值之间具有有异议的序或秩评定,但相继值之间的差是未知的。如小中大、助教讲师副教授教授、不满意不太满意中性满意很满意。
标称、二元、序数属性都是定性的。
4、数值属性:
定量的,可度量的值,用整数或实数值表示。可以是区间标度的或比率标度的。
区间标度属性:用相等的单位尺度度量。如温度,时间等,其特点是不能用比率谈论这些数值,如不能说说10度是5度的2倍。没有绝对的零点,即0度不是“没有温度”,0年不表示时间的开始。
比率标度属性:具有固定零点的数值属性。如果度量是比率标度的,则可以说一个值是另一个倍数。
我们将属性分为标称、二元、序数和数值类型。可以用许多方法来组织属性类型,这些类型不是互斥的。
机器学习的分类算法将属性分为离散的或连续的,每种类型都可以用不同的方法处理。
二、基本统计描述
中心趋势度量:均值、中位数和众数
散布度量:极差、四分位数、方差、标准差和四分位数极差
图形显示:分位数图、qq图、直方图、散点图
中心趋势度可以度量数据分布的中部或中心位置,主要讨论均值、中位数、众数和中列数。
数据分散常见度量是数据的稽查、四分位数、四分位数极差、无数概括和盒图,以及方法和标准差。对于识别离群点,这些度量是有用的。
1、中心趋势度量:均值、中位数和众数
1)均值:
加权平均:
为了抵消少数极端值的影响,我们使用截尾均值(trimmed mean)。截尾均值是丢弃高低极端值后的平均。如可以对工资的观测值排序,并在计算均值前去掉高端和低端的2%。
2)中位数(median):
对于倾斜(非对称)数据,数据中心最好度量是中位数。
若N是奇数,中位数为有序集的中间值;若N是偶数,约定中位数是两值的平均值。
3)众数(mode):
一个、两个、三个众数的数据集合分别称为单峰的(unimodal)、双峰的(bimodal)和三峰的(trimodal)。
4)中列数(midrange ):
数据集的最大值和最小值的平均数。
正倾斜的数据,众数出现在小于中位数的值上;负倾斜的数据,众数出现在大于中位数的值上。
2、数据散布度量:极差、四分位数、方差、标准差和四分位数极差
1)极差(range):
最大值与最小值之差。
2)分位数(quantile):
取自数据分布的每隔一定间隔上的点,把数据划分成基本上大小相等的连贯集合。
2-分位数是一个数据点,把数据划分为高低两半。2-分位数对应于中位数。
4-分位数是3个数据点,把数据划分为4个相等的部分,使每部分表示数据分布的四分之一。通常称为 四分位数 (quartile)。
100-分位数吧数据分为100个大小相等的连贯集。通常称为 百分位数 (percentile)。
中位数、四分位数、百分位数是使用最广的分位数。
第1个四分位数记作Q1,是第25个百分位数,它砍掉数据的最低的25%。第3个四分位数记作Q3,是第75个百分位数,它砍掉数据的最低的75%(或最高的25%)。
第1个和第3个四分位数之间的距离是散布的一种简单度量,给出被数据的中间一半所覆盖的范围,称为 四分位数极差(IQR) :IQR=Q3-Q1
对于描述倾斜分布,单个散布数值度量(如IQR)都不是很有用。
识别可以离群点的通常规则是:挑选落在第3个四分位数之上或第1个四分位之下至少15IQR处的值。
3)五数概括(five-number summary):
由中位数、四分位数Q1和Q3、最小和最大观测值组成。按次序Mininum、Q1、Median、Q3、Maximum写出。
4)盒图(boxplot):
体现了五数概括:
盒的端点一般在四分位数上,使得盒的长度是四分位数极差IQR。
中位数用盒内的线标记。
盒外的两条线延伸到最小值和最大值。
仅当最高和最低观测值超过四分位数不到15IQR时,胡须扩展到它们。否则,胡须在出现在四分位数的15IQR之内的最极端的观测值终止,剩下的情况个别绘出。
5)方差(variance)和标准差(standard deviation):
3、图形显示
1)分位数图:
观察单变量数据分布的简单有效的方法。
2)分位数-分位数图(qq图):
对着另一个对应的分位数,绘制一个单变量分布的分位数。它是一种强有力的可视化工具,使得用户可以观察从一个分布到另一个分布是否有漂移。
3)直方图(频率直方图):
4)散点图:
是确定两个数值变量之间看上去是否存在联系、模式或趋势的最有效的图形方法之一。
散点图是一种观察双变量数据的有用的方法,用于观察点簇和离群点,或考察相关联系的可能性。
三、度量数据的相似性和相异性
我们拿到数据的数据几乎都是多字段属性的数据表,行代表对象,列代表属性,通常我们需要比较两个对象的相似性及差别才有意义,本节将介绍如何比较对象间的相似性和相异性。
有前面的介绍我们知道数据有多种类型,不同的数据属性有不同的处理方式。本节从 标称属性的相异性、二元属性的相异性及相似性、数值属性的相异性、序数属性的相异性、混合类型属性的相异性、余弦相似性 介绍不同数据属性的处理方法。
1、标称属性的近邻性度量
对于标称属性,两个对象属性相异即为1,相同即为0,相异性可以表示为:
其中m是相同的属性属性,p是所有属性数目
四个对象的相异矩阵可表示为:
混合属性中附相关例题。
2、二元属性的邻近性度量
若所有二元都被看做具有相同权重,其中q是对象i和对象j都取1的属性数。
对称的二元相异性 :每个状态都同样重要。若对象i和j都用对称二元属性刻画,那么i和j的相异性为
非对称的二元相异性 :每个状态不是同等重要的,如病理化验的阳性(1)和阴性(0)。两个都取1的情况比两个都取0的情况更有意义。因此都取0的情况被认为是不重要的,因此忽略:
非对称的二元相似性 :我们用相似性来度量两个二元属性的差别,
sim(i,j)被称为 Jaccard系数 。
例题:
3、数值属性的相异性:闵可夫斯基距离
闵可夫斯基距离:
又称 Lp范数 ,p就是这里的h
h=1, 曼哈顿距离 :
h=2, 欧几里得距离 :
4、序数属性的近邻性度量
将序数属性转换为数值属性,再进行归一化处理,之后与数值属性处理相类似。
5、混合类型属性的相异性
我们计算每一个属性的相异矩阵,并且排除掉非对称性属性和属性缺失值,对已有属性求平均
例题:
test-1、test-2、test-3相异性矩阵分别为:
由于不存在非对称二元属性和缺失值,因此求均值后得到相异矩阵为:
6、余弦相似性
从向量的角度出发,计算两向量之间的余弦,余弦值接近于1则相似性大。
常用在计算文本的相似性上。
例题: 计算文档1和文档2的相似性
两文档相似度很高。
最后请回答开头的几个问题。
---本文知识点及例题出自《数据挖掘概念与技术》第3版 机械工业出版社variability被称作变异性或者可变性,它描述了数据点彼此之间以及距分布中心的距离。
可变性有时也称为扩散或者分散。因为它告诉你点是倾向于聚集在中心周围还是更广泛地分散。
低变异性是理想的,因为这意味着可以根据样本数据更好地预测有关总体的信息。高可变性意味着值的一致性较低,因此更难做出预测。在统计学中,我们的目标是测量一组特定数据或一个分布的变异性。简单来说,如果一个分布中的数据值是相同的,那么它没有变异性。
上图中尽管数据服从正态分布,但每个样本都有不同的分布。样品 A 的变异性最大,而样品 C 的变异性最小。
可以使用多种不同的方式对变异度进行度量
极差,又称全距,可以显示数据从分布中的最低值到最高值的分布。
例如,考虑以下数字:1、3、4、5、5、6、7、11。对于这组数字,极差是 11-1 或 10。
极差的度量仅使用了 2 个数字因此受异常值影响很大,并且不会提供有关值分布的任何信息。所以它最好与其他方法结合使用。
四分位距又被称作四分差,可以提供数据分布中间的分布。
对于从低到高排序的任何分布,四分位距包含数据中一半的值。第一个四分位数 (Q1) 包含前 25% 的值,而第四个四分位数 (Q4) 包含最后 25% 的值。
它衡量数据如何围绕均值分布。基本公式为:
就像极差一样,四分位距在其计算中仅使用 2 个值。但是IQR受异常值的影响较小:这2个值来自数据集的中间一半,所以不太可能是极端数字。
小知识:每个分布都可以使用五个数字摘要进行组织:
方差表示数据集的分布范围,但它是一个抽象数字。它反映了数据集中的分散程度。数据越分散,方差与均值的关系就越大。
标准偏差是数据集中的平均变异量。它平均表示每个数据点与平均值相差多远。标准差越大,数据集的可变性越大。
当拥有总体数据时可以获得总体标准差的准确值。可以从每个总体成员收集数据,因此标准差反映了分布(总体)中的精确变异量。
但当无法获得所有数据时,就可以对整体数据进行抽样(抽样方式这就不详细介绍)。抽样的结果就被称作样本,样本的作用是对总体的数据进行统计推断的。当使用样本数据时,样本标准差始终用作总体标准差的估计值。在这个公式中使用 n 往往会给你一个有偏差的估计,它总会低估可变性。
将样本 n 减少到 n - 1 会使标准偏差人为地变大,从而提供对变异性的保守估计。虽然这不是无偏估计,但它是对标准差的偏少估计:高估而不是低估样本的可变性更好。
标准差低 - 数据点往往接近平均值 标准差高 - 数据点分布在大极差的值上
可变性的最佳衡量标准取决于不同衡量标准和分布水平。
对于在序数水平上测量的数据,极差和四分位距是唯一合适的变异性度量。
对于更复杂的区间和比率的数据,标准差和方差也适用。
对于正态分布,可以使用所有度量。但标准差和方差是首选,因为它们考虑了整个数据集,但这也意味着它们很容易受到异常值的影响。
对于偏态分布或具有异常值的数据集,四分位距是最好的度量。它受极值影响最小,因为它侧重于数据集中间的部分。
作者;Ashish Kumar Singh
原文地址 : >
平均数极差四分位差算术受极值影响。
算术平均数受极值影响最大,调和平均数是变量值的倒数计算算术平均数,可见,受极值影响小于算术平均数。几何平均数要开次方,受极值影响小于调和平均数和算术平均数。四分位数只计算中间一半的变量值,不受极值影响。
平均数
是统计中的一个重要概念。小学数学里所讲的平均数一般是指算术平均数,也就是一组数据的和除以这组数据的个数所得的商。在统计中算术平均数常用于表示统计对象的一般水平,它是描述数据集中位置的一个统计量。既可以用它来反映一组数据的一般情况、和平均水平,也可以用它进行不同组数据的比较,以看出组与组之间的差别。
四位数指数据集第3四位点数据与第1四位点数据间差额半指标与般极差区别于计算范围较窄排除部极值变异指标影响Excel通QUARTILE函数实现面先介绍QUARTILE函数QUARTILE函数:返数据集四位数四位数通用于销售额测量数据总体进行组例使用函数QUARTILE求总体前25%收入值
语:QUARTILE(arrayquart)
array:需要求四位数值数组或数字型单元格区域
quart:决定返哪四位值取值共五种情况表211所示
表211QUART取值及QUARTILE返值
QUART函数QUARTILE返值
0值
1第四位数(第25百点值)
2位数(第50百点值)
3第三四位数(第75百点值)
4值
数组空函数QUARTILE返错误值#NUM!
quart整数截尾取整
quart<0或quart>4函数QUARTILE返错误值#NUM!
quart别等于0、24函数MIN、MEDIANMAX返值与函数QUARTILE返值相同
统计学包括 描述性统计 和 推论统计。
描述性统计 的含义——"A descriptive statistic is a summary statistic that quantitatively describes or summarizes features of a collection of information"
中文翻译:描述性统计是一种汇总统计,用于定量描述或总结信息集合的特征。
推论统计 :根据数据的形态建立出一个用以解释其随机性和不确定性的数学模型,以之来推论研究中的步骤及母体。
本文主要介绍描述性统计,描述性统计又分为 集中趋势 和 离散趋势 。
一、集中趋势(Measures of central tendency)
能够对总体的某一特征具有代表性,表明所研究的对象在一定时间、空间条件下的共同性质和一般水平。
1 众数(Mode)
用于定性的数据,表示一组数据中出现频次最高的数。
优点:不受极端值影响;当数据具有明显的集中趋势时,代表性好;
缺点:缺乏唯一性。
2 分位数(Quantile)
亦称分位点,是指将一个 随机变量 的 概率分布 范围分为几个等份的数值点,常用的有 中位数 (即二分位数)、 四分位数 、 百分位数 等。
21 中位数(Median)
用于定量的数据,表示数值大小位于中间(奇偶总量处理不同)的值。
优点:不受极端值影响;缺点:缺乏敏感性。
22 四分位数
第一四分位数 (Q1) ,又称“较小四分位数”,等于该样本中所有数值由小到大排列后第25%的数字。
第二四分位数 (Q2) ,又称中位数,等于该样本中所有数值由小到大排列后第50%的数字。
第三四分位数 (Q3) ,又称“较大四分位数”,等于该样本中所有数值由小到大排列后第75%的数字。
第三四分位数与第一四分位数的差距又称四分位距。
3 平均数(Mean)
31 算术平均数:
优点:充分利用所有数据,适用性强;缺点:易受极值影响。
32 加权平均数: 根据权重比例来求平均值
33 几何平均数
python实现:
二、离散趋势(Measures of Dispersion)
1 极差
一组数值型数据中最大值和最小值之差,max(x)-min(x),反映了数值样本的数据范围。
2 方差和标准差
方差 用于衡量数据的分散程度,常见的有总体方差和样本方差,计算方法类似。 标准差 为方差的平方根。
3 平均差
是数据组中各数据值与其算术平均数离差绝对值的算术平均数。
4 分位差
其数值越小表明数据越集中,数值越大表明数据越离散。常用的四分位差为:四分位差=(第三个四分位数-第一个四分位数)/2
5 异众比率
异众比率越大,说明非众数组的频数占总频数的比重越大,众数的代表性就越差;异众比率越小,说明非众数组的频数占总频数的比重越小,众数的代表性越好。
6 离散系数
离散系数又称变异系数,CV(Coefficient of Variance)表示。CV(Coefficient of Variance):标准差与均值的比值。离散系数越小,数据的离散程度就越小。
python实现:
三、分布形态
1 偏态系数(Skewness)
偏态系数又称偏差系数(deviation coefficient),偏态系数以平均值与中位数之差对标准差之比率来衡量偏斜的程度,用 SK 表示偏斜系数:偏态系数小于0,因为平均数在众数之左,是一种左偏的分布,又称为 负偏 。偏态系数大于0,因为均值在众数之右,是一种右偏的分布,又称为 正偏 。
偏态系数是根据众数、中位数与均值各自的性质,通过比较众数或中位数与均值来衡量偏斜度的。
2 峰态系数(Kurtosis)
峰度系数是用来反映频数分布曲线顶端尖峭或扁平程度的指标,用于衡量离群数据离群度,峰度系数越大,说明该数据集中的极端值越多。在正态分布情况下,峰度系数值是3。>3的峰度系数说明观察量更集中,有比正态分布更短的尾部;<3的峰度系数说明观测量不那么集中,有比正态分布更长的尾部,类似于矩形的均匀分布。峰度系数的标准误用来判断分布的正态性。峰度系数与其标准误的比值用来检验正态性。如果该比值绝对值大于2,将拒绝正态性。
离散程度反映数据之间的差异程度。
离散程度是指观测变量各个取值之间的差异程度,是用以衡量风险大小的指标。通过对随机变量取值之间离散程度的测定,可以反映各个观测个体之间的差异大小,从而也就可以反映分布中心的指标对各个观测变量值代表性的高低。
离散程度的指标有极差,四分位数间距,标准差,方差,变异系数。
极差:也称全距,是描述定量资料变异程度最简单的指标,用符号R表示,R=最大值-最小值,由于极差只涉及两个极端值,不能反映组内其他观察值的变异,故一般用来粗估资料的变异程度。
四分位数间距:是第75百分位数与第25百分位数之差,用符号Q表示,即Q=P75-P25它反映了一组观察值按从小到大的顺序排列后,中间一半观察值的波动范围。四分位数间距常用于描述偏态分布资料,一端或两端无确切值或分布不明确资料的变异程度。
标准差:方差的单位是观察值原始单位的平方,在实际工作中使用不便,故将方差开算术平方根得到标准差。标准差是描述对称分布,特别是正态分布或近似正态分布资料变异程度的指标。
方差:描述对称分布,特别是正态分布或近似正态分布资料变异程度的指标。在实际工作中总体方差往往是未知的,常用样本方差来估计。
变异系数:亦称离散系数,简记为CV,为标准差与均数之比。极差、四分位数间距和标准差都有单位,且与观察值的原始单位相同;而变异系数为相对数,没有单位,便于计量单位不同或均数相差悬殊的多组资料间变异程度的比较。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)