常用的统计分析方法总结(聚类分析、主成分分析、因子分析)_安全

1 系统聚类法 :由N类--1类
2 分解法：由1类---N类
3 K-均值法：事先在聚类过程中确定在K类，适用于数据量大的数据
4 有序样品的聚类：N个样品排序，次序相邻的样品聚成一类
5 模糊聚类法：模糊数学的方法，多用于定性变量
6 加入法：样品依次加入，全部加入完得到聚类图。

a夹角余弦
b相关系数

a常用的类间距离定义有8种之多，与之相应的 系统聚类法 也有8种，分别为
a 中间距离法
b 最短距离法：类与类之间的距离最近两个样品的距离。
c 最长距离法：类与类之间的距离最远两个样品的距离。先距离最短，后距离最远合并
d 类平均法：两类元素中任两个样品距离的平均。
e 重心法：两个重心xp 和xq 的距离。
f 可变类平均法
e 离差平方和法（Ward法）：该方法的基本思想来自于方差分析，如果分类正确，同类样品的离差平方和应当较小，类与类的离差平方和较大。具体做法是先将 n 个样品各自成一类，然后每次缩小一类，每缩小一类，离差平方和就要增大，选择使方差增加最小的两类合并，直到所有的样品归为一类为止。

a 最短距离法的主要缺点是它有链接聚合的趋势，容易形成一个比较大的类，大部分样品都被聚在一类中，所以最短距离法的聚类效果并不好，实际中不提倡使用。
b 最长距离法克服了最短距离法链接聚合的缺陷，两类合并以后与其他类的距离是原来两个类中的距离最大者，加大了合并后的类与其他类的距离。

a 定义：主成分分析（Principal Component Analysis，简记 PCA）是将 多个指标化为少数几个综合指标的一种统计分析方法 ，通常我们把转化成的综合指标称为主成分。

b 本质：降维

c 表达：主成分为原始变量的线性组合
d 即信息量在空间降维以后信息量没有发生改变，所有主成分的方差之和与原始的方差之和

e 多个变量之间有一定的相关性，利用原始变量的线性组合形成几个综合指标（主成分），在保留原始变量主要信息的前提下起到降维与简化问题的作用。

f 累积贡献率一般是 85% 以上

（1）每一个主成分都是各 原始变量的线性组合
（2）主成分的数目大大少于原始变量的数目
（3）主成分保留了原始变量绝大多数信息
（4）各主成分之间 互不相关

a 基本目的：用 少数几个综合因子去描述多个随机变量之间的相关关系 。
b 定义：多个变量————少数综合因子（不存在的因子）
c 显在变量：原始变量X；潜在变量：因子F
d X=AF+e公共因子+特殊因子
e 应用： 因子分析主要用于相关性很强的多指标数据的降维处理。
f 通过研究原始变量相关矩阵内部的依赖关系，把一些具有错综复杂关系的变量归结为少数几个综合因子的一种多变量统计分析方法。
g 定义：原始的变量是可观测的显在变量，而综合的因子是 不可观测 的 潜在变量 ，称为因子。

i 根据相关性大小把原始变量分组，使得同组内的变量之间相关性较高，而不同组的变量间的相关性则较低。
ii 公共因子 ：每组变量代表一个基本结构，并用一个不可观测的综合变量表示。
iii 对于所研究的某一具体问题，原始变量分解成两部分：

i R 型因子分析——研究变量之间的相关关系
ii Q 型因子分析——研究样品之间的相关关系

a 因子载荷是第i个变量与第j个公共因子的相关系数，绝对值越大，相关的密切程度越高。

a 变量 Xi 的共同度是因子载荷矩阵的第i行的元素的平方和。记为

b 所有的公共因子与特殊因子对变量 Xi 的贡献和为1。

a 确定因子载荷
b 因子旋转
c 计算因子得分

a 寻找简单结构的载荷矩阵：载荷矩阵A的所有元素都接近0或±1，则模型的公共因子就易于解释。
b 如果各主因子的典型代表变量不突出，就需要进行旋转使因子载荷矩阵中载荷的绝对值向0和1两个方向分化。

a意义：对公共因子作正交旋转相当于对载荷矩阵 A 作一正交变换，右乘正交矩阵 T ，使 A = AT 能有更鲜明的实际意义。
b几何意义：是在 m 维空间上对原因子轴作一刚性旋转。因子旋转不改变公共因子的共同度，这是因为 A A '=ATT'A'=AA'
c 旋转方法有：正交旋转和斜交旋转
d 最普遍的是： 最大方差旋转法

a 定义：通过坐标变换使各个因子载荷的方差之和最大。
b 任何一个变量只在一个因子上有高贡献率，而在其它因子上的载荷几乎为0；
c 任何一个因子只在少数变量上有高载荷,而在其它变量上的载荷几乎为0。

思想相同：降维
前提条件：各变量间必须有 相关性 ，否则各变量之间没有共享信息

学习数据挖掘的朋友，对分类算法和聚类算法都很熟悉。无论是分类算法还是聚类算法，都有许多具体的算法来实现具体的数据分析需求。很多时候，我们难以判断选择分类或者聚类的场合是什么。我们最直观的概念是，分类和聚类都是把某个被分析的对象划分到某个类里面，所以觉得这两种方法实际上是差不多一回事。然而当我们学习了许多具体算法之后再回来看，分类和聚类所实现的数据分析功能实际上是大相径庭的，他们之间不仅仅有算法上的具体差异，更重要的是，甚至他们的应用领域和所解决的具体问题都不一样。
1类别是否预先定义是最直观区别
算法书上往往这样解释二者的区别：分类是把某个对象划分到某个具体的已经定义的类别当中，而聚类是把一些对象按照具体特征组织到若干个类别里。虽然都是把某个对象划分到某个类别中，但是分类的类别是已经预定义的，而聚类 *** 作时，某个对象所属的类别却不是预定义的。所以，对象所属类别是否为事先，是二者的最基本区别。而这个区别，仅仅是从算法实现流程来看的。
2二者解决的具体问题不一样
分类算法的基本功能是做预测。我们已知某个实体的具体特征，然后想判断这个实体具体属于哪一类，或者根据一些已知条件来估计感兴趣的参数。比如：我们已知某个人存款金额是10000元，这个人没有结婚，并且有一辆车，没有固定住房，然后我们估计判断这个人是否会涉嫌信用欺诈问题。这就是最典型的分类问题，预测的结果为离散值，当预测结果为连续值时，分类算法可以退化为计量经济学中常见的回归模型。分类算法的根本目标是发现新的模式、新的知识，与数据挖掘数据分析的根本目标是一致的。
聚类算法的功能是降维。假如待分析的对象很多，我们需要归归类，划划简，从而提高数据分析的效率，这就用到了聚类的算法。很多智能的搜索引擎，会将返回的结果，根据文本的相似程度进行聚类，相似的结果聚在一起，用户就很容易找到他们需要的内容。聚类方法只能起到降低被分析问题的复杂程度的作用，即降维，一百个对象的分析问题可以转化为十个对象类的分析问题。聚类的目标不是发现知识，而是化简问题，聚类算法并不直接解决数据分析的问题，而最多算是数据预处理的过程。
3有监督和无监督
分类是有监督的算法，而聚类是无监督的算法。有监督的算法并不是实时的，需要给定一些数据对模型进行训练，有了模型就能预测。新的待估计的对象来了的时候，套进模型，就得到了分类结果。而聚类算法是实时的，换句话说是一次性的，给定统计指标，根据对象与对象之间的相关性，把对象分为若干类。分类算法中，对象所属的类别取决于训练出来的模型，间接地取决于训练集中的数据。而聚类算法中，对象所属的类别，则取决于待分析的其他数据对象。
4数据处理的顺序不同
分类算法中，待分析的数据是一个一个处理的，分类的过程，就像给数据贴标签的过程，来一个数据，我放到模型里，然后贴个标签。
聚类算法中，待分析的数据同时处理，来一堆数据过来，同时给分成几小堆。
因此，数据分类算法和数据聚类算法的最大区别是时效性问题。在已有数据模型的条件下，数据分类的效率往往比数据聚类的效率要高很多，因为一次只是一个对象被处理，而对于聚类结果来说，每当加入一个新的分析对象，类别结果都有可能发生改变，因此很有必要重新对所有的待分析对象进行计算处理。
5典型的分类算法与聚类算法
典型的分类算法有：决策树，神经网络，支持向量机模型，Logistic回归分析，以及核估计等等。
聚类的方法有，基于链接关系的聚类算法，基于中心度的聚类算法，基于统计分布的聚类算法以及基于密度的聚类算法等等。

代表：kmeans算法

代表：CURE算法

代表：STING算法

代表：DBSCAN算法

代表：SOM算法

代表：谱聚类算法

一个好的聚类方法可以产生高品质簇，是的簇内相似度高，簇间相似度低。一般来说，评估聚类质量有两个标准，内部质量评价指标和外部评价指标。

内部评价指标是利用数据集的属性特征来评价聚类算法的优劣。通过计算总体的相似度，簇间平均相似度或簇内平均相似度来评价聚类质量。评价聚类效果的高低通常使用聚类的有效性指标，所以目前的检验聚类的有效性指标主要是通过簇间距离和簇内距离来衡量。这类指标常用的有CH（Calinski-Harabasz）指标等

CH指标定义为：

其中表示类间距离差矩阵的迹，表示类内离差矩阵的迹，是整个数据集的均值，是第个簇的均值，代表聚类个数，代表当前的类。值越大，聚类效果越好，主要计算簇间距离与簇内距离的比值

簇内点对的平均距离反映了簇的凝聚度，一般使用组内误差平方（SSE）表示：

簇的邻近度用组间平方和（SSB）表示，即簇的质心到簇内所有数据点的总平均值的距离的平方和

外部质量评价指标是基于已知分类标签数据集进行评价的，这样可以将原有标签数据与聚类输出结果进行对比。外部质量评价指标的理想聚类结果是：具有不同类标签的数据聚合到不同的簇中，具有相同类标签的数据聚合相同的簇中。外部质量评价准则通常使用熵，纯度等指标进行度量。

簇内包含单个类对象的一种度量。对于每一个簇，首先计算数据的类分布，即对于簇，计算簇的成员属于类的概率

其中表示簇中所有对象的个数，而是簇中类的对象个数。使用类分布，用标准公式：

计算每个簇的熵，其中K是类个数。簇集合的总熵用每个簇的熵的加权和计算即：

其中是簇的个数，而是簇内数据点的总和

簇内包含单个类对象的另外一种度量。簇的纯度为，而聚类总纯度为：

模糊聚类是采用模糊数学方法，依据客观事物间的特征、亲疏程度和相似性，通过建立模糊相似关系对客观事物进行分类的一门多元技术。其算法主要有传递闭包法、动态直接聚类法和最大树法等，其中动态直接聚类法计算量最少。在实际应用中必须经过数据预处理、特别是归一化等处理步骤，选取合适的模糊关系建立模糊相似矩阵，然后进行聚类和模式识别。
糊聚类分析在学生素质评定中的应用
学生素质的评定工作,对学校的发展具有重要的作用。本文就学生素质从德、智、体、能、劳5个方面作出评价。首先，对得到的数据进行规格化；接着，构造模糊相似矩阵；最后，利用编网法对学生素质的评定进行聚类分析，该方法简单易懂且计算量小达到了预期的效果。
模糊数学在畜禽血液蛋白多态性聚类分析中的应用
我国动植叨蛋白多态性的研究进展迅速,国内外有关这方面的报道越来越多但这一研究已有近百年的历史,真正发展是近=十年的事我国起步较晚,近年的研究和应用较快,现已推向地,县级阶段,可见这一研究和应用的普及在我国为时不远1西南民族学院2西昌农业专科学校3面昌市畜牧局了本研究表明我国畜牧兽医工作进入了分子水平阶段由于蛋白多态性的研究和方法简便,节时省钱,基层单位均可应用但此法的关键问题是聚类分析聚类分析的方法很多,如遗传距离聚类分析中的最短遗传距离聚类分析,类平均法聚类分析再如遗传相似系数分析中我们见有矩阵法,但在畜禽蛋白多态性聚类分析上,均无统一的具体分析方法为此,我们根据模糊数学集合论的原理,对遗传相似系数进行聚类分析,现介绍出来,供同行们应用时参考模糊数学是研究和处理一些模糊现象的数学但不是把数学变成模糊的东酉,而是在许多控制过程中,用模糊的手段达到精确的目的在畜禽蛋白多态性研究中,遗传相似系数也是聚类分析中常用的分析指标
模糊数学聚类分析在鲤鱼杂交种后代性状研究中的应用
杂交鲤与亲本相似，用数学语言来说是存在模糊性问题。采用模糊数学聚类分析法，首先建立模糊相似矩阵，得到鲤鱼生长性状聚类分类图谱，最后得到三杂交鲤、荷元鲤等F1代与母本相似比父本大的结论。这在鱼类杂交选育理论与生产上有一定意义

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/yw/13025271.html

常用的统计分析方法总结(聚类分析、主成分分析、因子分析)

发表评论

评论列表（0条）