普通玩家版基于SPSS的PCA攻略

普通玩家版基于SPSS的PCA攻略,第1张

这是一篇精准打击PCA之基于SPSS实战

我请我自己写一个putong玩家版基于SPSS平台的PCA攻略,以防我这个笨蛋白痴下次又重新学过。




PCA是什么?

主成分分析法(PCA), 是一种常用的无监督学习方法,旨在利用降维的思想,通过正交变换把由线性相关变量表示的观测数据转换为少数几个由线性无关变量表示的数据,线性无关的变量称为主成分。


主成分的个数通常小手原始变量的个数,所以主成分分析属于降维方法,是迄今为止最流行的降维算法


主成分分析主要用于发现数据中的基本结构,即数据中变量之间的关系,是数据分析的有力工具,也用于其他机器学习方法的前处理(比如先用PCA进行变量的降维继而作为机器学习的输入端进行输入,效果一般会比直接把变量输入模型的效果会精准一些)。


关于投影那些原理在此不作赘述,,那些字都能看懂,但连在一起感觉以我的脑子学不明白(我是笨蛋我是笨蛋我是笨蛋)哈哈哈哈哈哈

为什么用PCA?

在实际问题研究中,为了全面、系统地分析问题,我们必须考虑众多影响因素,但变量过多时会增加计算量和分析问题的复杂度。


我们希望在进行定量分析的过程中,涉及的变量较少,反而得到的信息量较多。


那么PCA刚好符合我们的需求,它的目标是(基于方差)提取出最有价值的信息。


主成分分析法把给定的一组相关变量通过线性变换转成另一组不相关的变量,这些新的变量按照方差依次递减的顺序排列。


在数学变换中保持变量的总方差不变,使第一变量具有最大的方差,称为第一主成分,第二变量的方差次大,并且和第一变量不相关,称为第二主成分。


当然现在有多种途径可以实现PCA,比如MATLAB、Python和SPSS等,但个人由于编程能力非常拉跨,一般按容易度会基于SPSS平台进行PCA。


PCA具体怎么做?
  • 具体步骤
  • 案例分析

基于SPSS软件进行PCA,本次对国内某省份选取多指标进行主成分分析。


初步选定的指标包括该省地区生产总值(GDP)、固定资产投资、海关货物进出口总值、规模以上工业增加值、社会消费品零售总额和旅游总收入等6个经济指标。


数据样例如下。



前期准备:从excel导入指标数据,其中变量名称另命名为为x1,x2…x6,第一列代表2011-2021年,每行代表当年经济状况,如图所示。



1.数据标准化处理

点击 分析-描述统计-描述,并点击将标准值存为变量,作用:使数据无量纲化,之后步骤均以标准化处理过后的数据为输入。




经标准化数据添加在首页,如下图

2.各指标相关性判定 及输出图表

点击 分析-降维-因子 选择标准化过后的变量

2.1 对描述进行修改

2.2 对提取进行修改(在这里可以任意调整你所需要的主成分个数)

2.3 对旋转进行修改(荷载图可选可不选)

2.4 对得分进行修改(保存为变量和显示因子得分系数矩阵)

基础设置修改完毕后,自动输出图表

因子分析前,首先进行KMO检验和巴特利球体检验(取值在0-1之间)

  • KMO和巴特利特检验:


KMO统计量越接近于1,变量间的相关性越强,偏相关性越弱,因子分析的效果越好。


实际分析中,KMO统计量在0.7以上时效果比较好;当KMO统计量在0.5以下,此时不适合应用因子分析法,应考虑重新设计变量结构或者采用其他统计分析方法。


  • 相关性判定

    相关性分析一般是用来对两个或多个具备相关性的变量元素进行分析,从而衡量两个或多个变量因素的相关密切程度。


    相关系数的绝对值>0.8,认为A和B有强的相关性;0.3-0.8之间,可以认为有弱的相关性;<0.3,认为没有相关性。


3. 确定主成分个数

一般按照累计贡献率85%以上或者特征值大于1进行主成分的确定。




通过总方差解释表分析,可以看到第一个成分的值大于了85%,所以仅提取一个主成分

从上图可知,原始的6×10维矩阵数据,通过主成分分析,提取出1个主成分,特征值为5.680,合理解释所有影响因素的94.670%,同时这也印证了原始数据越相关,降维效果就越好,将原始的多个指标直接降维到1个新的综合经济指标。


4. 确定主成分Fi的表达式


目前得到的是因子的载荷矩阵,并!不!是!主成分分析的载荷矩阵,所以还需进行处理!!
在输出端 的成分矩阵 点击-复制

粘贴到主页,命名为v1(瞎起的
点击 转换-计算变量

根据数理统计的相关知识,主成分分析的变换矩阵亦即主成分载荷矩阵与因子载荷矩阵以及特征值λ的数学关系如公式主成分荷载矩阵=因子荷载矩阵/sqr(特征值λi),即得出新综合指标Fi的权重系数。



计算公式:w1=v1/sqr(特征值1),w2=w2=v2/sqr(特征值2)…有几个主成分做几次计算

此时w1,w2…即为最终的成分的载荷矩阵(如w1对应的a11,a12,a13…)

继续通过公式计算最终指标值


即得出,如在本案例中主成分荷载系数,将原6个指标降维到1个新的综合指标。




当然此时如果有多个成分,比如2个或三个主成分也是同样步骤~

5. 计算综合主成分得分

本案例中由于仅提取1个主成分,F=F1
假设已提取2个主成分,那么
F=(第1成分贡献率/累计贡献率)F1+(第2成分贡献率/累计贡献率)F2
同理三个主成分或更多主成分计算方法相同。


~reference致敬各位大神respect
  • FAN Dong-kai,CAO Kai.Urban road traffic safety evaluation based on principal components analysis[J].China Safety Science Journal,2010,20(10):147-151.

  • PCA本人自行整理的PPT(包括基本原理&步骤)
    链接:https://pan.baidu.com/s/1Qs5py_5y1cnbvzU4Um0VBw 提取码:72ng

  • 博主大神的代码学习价值极高!!
    https://blog.csdn.net/weixin_43312354/article/details/105653308?spm=1001.2014.3001.5506

  • b站视频 用主成分分析计算所有因素的综合得分(爱惨这个博主了,一学就会^
    https://www.bilibili.com/video/BV1wa4y1i7Ui/

谢谢我这个笨蛋白痴
希望疫情早日过去,虽然我已经不太想开学了,但生活还是要步入正轨吧
祝我2023年顺利毕业

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/langs/570675.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-04-09
下一篇 2022-04-09

发表评论

登录后才能评论

评论列表(0条)

保存