1.3 数据挖掘开发
1.3.1 数据、属性和度量
本小节主要介绍数据挖掘相关的一些概念,包括数据对象、属性、属性分类,数据集的类型、维度、稀疏性和分辨率,数据汇总统计、中心趋势度量、度量数据散布等内容。
数据对象和属性类别:
○现实中的数据一般都是有噪声、数量庞大并且可能来自不同数据源。
○数据集由数据对象组成,一个数据对象代表一个实体。
○数据对象:又称样本、实例、数据点或对象。
○数据对象以数据元组的形式存放在数据库中,数据库的行为对应于数据对象,列对应于属性。
○双属性是一个数据字段,表示数据对象的特征,在文献中,属性、维度(dimension)、特征(feature)、变量(variance)可以互换的使用。
○“维”,一般用在数据仓库中。
○“特征”,一般用在机器学习中。
○“变量”,一般用在统计学中。
○一个属性的类型由该属性可能具有的值的集合决定,可以标称的、二院的、序数的。
标称属性
○特点:
◎标称属性的值是一些符号或者事务的名称。
◎每个值代表某种类别、编码、状态,因此标称属性又称看做是分类的(categorical)。
◎标称属性的值不是具有意义的序,而且不是定量的。(也就是说,给定一个对象集,找出这种属性的均值没有意义)。
二元属性
○特点:
◎二元属性是一种标称属性,只有两个状态0或1, 其中0通常表示该属性不出现,1表示该属性出现。
◎二元属性又称布尔属性,如果两种状态对应的是true和false。
序数属性
○特点:
◎属性对应的可能的值之间具有意义的序或秩评定(ranking),但是相机值之间的差是未知的(也就是对应的值有先后次序)
○其他:
◎例:drink_size,表示饮料杯的大小:小、中、大,这些值具有意义的先后次序。
◎序数属性可以通过把数值量的值域划分成有限个有序序别
(如,0-很不满意、1-不满意、2-中性、3-满意、5-很满意),把数值属性离散化而得到。
◎可以用众数和中位数表示序数属性的中性趋势,但不能定义均值。
◎标称、二元和序数属性都是定性的,即,它们描述对象的特征,而不给出实际大小或数值。
数值属性
○特点
◎是定量的可度量的量,用整数或者实数表示。
◎可以是区间标度的或比率标度的。
○区间标度属性:
◎用相等的单位尺度度量。
◎区间属性的值。
○比例标度属性
◎具有固定零点的数值属性。
离散属性与连续属性
○机器学习中的分类算法通常需要把属性分为离散和连续的。
○离散属性
◎具有有限个或无限个可数个数,可以用(或不用)整数表示。
○连续属性
◎如果属性不是离散的,则它是连续的。
数据集的类型
○数据集(dataset):数据集是指很多数据对象组成的集合。数据对象有时也叫作记录、点、向量、模式、事件、案例、样本、观测或实体。
○训练集:用来训练模型。
○测试集:用来评估模型和预测数据。
○数据集的一般特性:维度、稀疏性、分辨率。
数据集的维度
○维度:一组数据的组织形式(一维、二维或多维)。
○一维数据由对等关系的有序或无序数据构成,采用线性方式组织。
○二维数据由多个一维数据构成,是一维数据的组合形式,比如说表格就是二维数据的一种。
○多维数据由一维或者二维数据在新维度上的扩展形式,比如说加上时间维度。
○高维数据利用最简单的二元关系展示数据间的复杂结构,比如说键值对。
数据集的稀疏性
○在矩阵中,如果数值为零的元素远大于非零元素的个数,且非零元素分布没有规律时,这样的矩阵被称为稀疏矩阵;如果非零元素数目占据绝大多数时,这样的矩阵被称为稠密矩阵。
○稀疏矩阵在工程应用中经常被使用,尤其是通信编码和机器学习中。若编码矩阵或特征表达矩阵是稀疏矩阵时,其计算速度会大大提升。对于机器学习而言,稀疏矩阵应用非常广,比如在数据特征表示时,自然语言处理等领域。
数据集的分辨率
○数字图像就是能够在计算机上显示和处理的图像。自然界中的图像都是模拟量,将模拟图像经过离散化之后,得到数字表示的图像,图像的数字化包括采样和量化两个过程。采样是指在空间上连续的图像转换成离散的采样点(即像素)集的 *** 作,即:空间坐标的离散化;把采样后所得到个像素的灰度值从模拟量到离散量的转化称为图像灰度的量化。即:灰度的离散化。
○空间分辨率越高,图像质量越好,空间分辨率越低,图像质量越差,会出现棋盘模式;灰度分辨率越高,图像质量越好,灰度分辨率越低,图像质量越差。
数据汇总统计
○汇总统计是量化,用单个数或数的小集合捕获可能很大的值集的各种特征。
○中心趋势度量:均值、中位数和众数。
○度量数据散布:极差、四分位数、方差、标准差和四分位极差。
中心趋势度量
○均值、中位数和众数。
◎均值:在一组数据中所有数据之和再除以这组数据的个数。
◎加权算数均值:简称加权平均值。在对被测量进行多组测定时,考虑的每组测定结果的“权”后计算出的算术平均值,是全部加权值之和除以总权。
◎截尾均值:丢弃高低极端值后的均值。
◎中位数:有序数值中的中间值。
◎众数:众数是样本观测值在频数分布表中频数最多的那一组的组中值。
◎中列数:最大和最小的平均值。
◎正倾斜:众数出现在小于中位数的值上。
◎负倾斜:众数出现在大于中位数的值上。
度量数据散布
○极差、四分位数、方差、标准差和四分位数极差
◎极差:最大值与最小值之差。
◎分位数:把数据划分成基本大小相同的连贯集合。
◎四分位数:也称四分位点,是指在统计学中把所有数值由小到大排列并分成四等份,处于三个分割点的位置的数值。
◎百分位数:如果将这一组数据由小到大排序,并计算相应的累计百分位,则某一百分位所对应数据的值就称这一百分位的百分位数。
◎第一个四分位数:Q1,第25个百分位数。
◎第三个四分位数:Q3,第75个百分位数。
◎四分位数极差IQR:Q3—Q1。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)