多元统计SPSS

多元统计SPSS,第1张

回归模型普及性的基础在于用它去预测和解释度量变量。但一般的多元回归不适合解决被解释变量是 非度量变量 的问题。

而判别分析适用于被解释变量是非度量变量(属性变量),解释变量是可测量(计算均值和方差,应用于统计函数)的情形。比如对象的所属类别

任务:用SPSS做鸢尾花数据集的判别分析。

可见这150个样本都是有效的。没有变量缺失

结果:在001的显著性水平下,拒绝原假设,即认为每种长度在三组之内是有差异的。

上图反映协方差矩阵的秩和行列式的对数值。由行列式值可以看出,协方差矩阵不是病态矩阵。

上图可知在005显著型水平下拒绝原假设(协方差相等)

采用分组时也显著,于是采用分组协方差矩阵的形式。

上图反映判别函数的特征根、解释方差的比例和典型相关系数。

第一个判别函数解释了991%的方差,第二个判别函数解释了09%的方差

检验认为两个判别函数在005的显著性水平下是显著的。

y=3这一组的中心为(5783,0513)

y=2这一组的中心为(1825,-0728)

y=1这一组的中心为(-7608,0215)

第一张表概括了分类过程,说明150个观测都参与了分类。

第二张表说明各组的先验概率:我们在分类选项中选的时所有组相等。

第三张表是每组的分类函数:(区别于判别函数)

我们可以计算除每个观测在各组的分类函数值,然后将观测分类到较大的分类函数值中

第四张表是分类矩阵表:

这里交叉验证采用的是“留一个在外”的原则,每个观测是除了该观测之外的所有观测所得来的。

最后为分类结果图:

Setosa鸢尾花与Versicolor鸢尾花和Virginica鸢尾花可以很清晰地区分开,而

Versicolor鸢尾花和Virginica鸢尾花这两种之间存在重合区域,即存在误判。

由前面分析发现,协方差矩阵不等,可以考虑采用分组协方差矩阵。得到分类结果如下:

结果发现采用组内协方差矩阵和分组协方差矩阵没有明显的差别,因此可以采用组内协方差矩阵进行判别。

城镇居民消费水平的八项指标,之间存在一定的线性相关为研究城镇居民的消费结构需将相关性强的指标归并到一起,实际上就是对指标聚类

不同的聚类方法,并类的原则和步骤基本一致,所不同的是类与类的距离有不同的定义

这里我们采用欧氏距离,分别运用类平均法,最短距离法,最长距离法,对31个省,直辖市,自治区分类类平均法聚类在SPSS中的 *** 作为:

参数随意选择

分析12个指标X1-X12,对每个城市的综合发展水平做分析评价。

找到因子分析对话框:

点击继续、OK。

接下来看方差解释表和碎石图,于是知道哪几个公共因子被选入:

如图,选中的三各因子方差贡献率依次为: 5559%、2230%、922%

但此时的到的是未旋转过的公共因子。其实际意义不好解释。

于是对因子进行旋转,并将结果按大小排序,使输出的载荷矩阵中各列按载荷系数大小排列:

最后计算因子得分:

这种评价方法目前应用较多,但也有较大争议,故应慎用。

*** 作如下:

画出各城市的因子得分图:

选择简单分布:

分别选择FAC1,FAC2作为X轴与Y轴:点击OK:

由旋转后的因子载荷矩阵可以看出,公共因子F1在x1(非农业人口数),x2(工业总产值),x3(货运总量),x4(批发零售住宿餐饮业从业人数),x5(地方政府预算内收入),x6(城乡居民年底储蓄余额),x7(在岗职工人数),x8(在岗职工工资总额)上的载荷值都很大。

因而F1为反映城市规模及经济发展水平的公共因子。

由于在x10(每万人拥有公共汽车树),x11(人均拥有铺装道路面积),x12(人均公共绿地面积)上的载荷较大, 是反映城市的基础设施水平的公共因子。

F3仅在x9(人均居住面积)上有较大载荷, 是反映城市居民住房条件的公共因子。

有了对各个公共因子合理的解释,结合各个城市在三个公共因子上的得分和综合得分,就可对各中心城市的综合发展水平进行评价了:

F1(城市经济规模因子)得分较高者:上海、北京、广州、天津、重庆

F1(城市经济规模因子)得分较低者:西宁、银川、海口

F2(基础设施因子)得分较高者:深圳、广州、南京

F2(基础设施因子)得分较低者:重庆、武汉

F3(居民住房因子)得分较高者:上海、重庆、深圳

F3(居民住房因子)得分较低者:北京、哈尔滨

综合得分前5名:上海、北京、深圳、广州、天津

综合得分后5名:西宁、银川、兰州、呼和浩特、海口。

再结合各因子得分进行分析:

从因子得分图分析表明:

就城市规模而言:新兴城市好于老城市。

就基础设施水平而言:南方城市普遍好于北方城市,新兴城市好于老城市。

综合来讲:东部城市高于西部城市

上海北京深圳发展水平接近:

上海规模大,基础设施水平低。

北京规模大、基础设施好,但居民人均住房面积小。

深圳规模不大,但基础设施水平高,人均居住面积大。

其中由18个城市位于因子得分图的第三象限,这些城市多位于中西部地区,因而如何加快这些城市的发展以带动周边地区的进步,是影响我国整体经济发展的重要课题。

主成分分析的几何观点,是想用一个新的坐标体系来代替原有的坐标体系。使得在新坐标体系下降维所付出的代价能够尽可能地小。

那么就可以通过线性变换:[上传失败(image-14687b-1657953033634)]

来对坐标系进行旋转。(这里顺便推荐b站上 线性代数的本质 )

在企业经济效益的评价中,设计的指标往往很多为了简化系统结构,抓住经济效益评价中的主要问题,我们可有原始数据矩阵出发求出主成分

样品数:n=28,变量数:p=9

参考网上的案例:

主成分分析和因子分析均在因子分析模块中完成:

前两个主成分y1 和 y2 的方差和占全部方差和的比例为847%我们就选取y1为第一主成分,y2为第二主成分基本保留了原来指标的信息,这样由原来的9个指标转化为2个新指标起到了降维的作用

SPSS得到 因子载荷矩阵 输出结果如图:

对图中每一类的每个元素分别处以第i个特征根的平方根[上传失败(image-6aa51a-1657953033634)]

就得到主成分分析的第[上传失败(image-5d98fb-1657953033634)]

个主成分的系数

spss会自动给出未知分类的预测结果的。

比如有10行已知分类的数据,5行未知分类的数据,那么判别分析的结果将给出15行所有数据的预测分类结果。

通过对比10行已知分类数据与预测分类比较,可以看出预测的效果咋样。

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/langs/12182464.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-21
下一篇 2023-05-21

发表评论

登录后才能评论

评论列表(0条)

保存