结果怎么分析SAS软件已输出结果,如何判断相关性显

结果怎么分析SAS软件已输出结果,如何判断相关性显,第1张

(1)从输出结果的标题可以知道,下面表格的每一格的上一行表示Pearson相关系数,下一行表示对应的p值。

(i)变量ru和变量gan、zong、ke都线性无关。变量ke和变量zong也是线性无关的。

(ii)变量ke和变量gan线性相关性显著。001<p值<005

(iii)变量ke和变量zong线性相关性极显著。p值<001

(2)不过从输出结果看,用来计算相关系数的样本只有4个,结果显然很不可靠。

为研究人脑老化的严重程度,有人测定了不同年龄的60名正常男性10项有关指标的数据,各变量的含义如下: AGE为年龄、TJ为记忆、SG为数字广度记忆、TS为图形顺序记忆、XX为心算位数、XS为心算时间、CK为规定时间内穿孔数、BJ为步距、JJ为步行时双下肢夹角、BS步速。试对这些指标作变量聚类分析。 AGE TJ SG TS XX XS CK BJ JJ BS AGE TJ SG TS XX XS CK BJ JJ BS 16 17 9 14 514 4 9 54 3532 392 48 20 8 3 500 5 12 37 2470 373 18 12 8 14 357 5 11 46 3066 330 49 18 8 5 187 5 10 34 2254 477 19 11 8 2 1167 3 12 53 3701 308 50 13 8 4 320 5 11 45 3347 278 20 18 9 5 704 5 9 47 3010 390 51 16 7 14 358 5 2 40 2627 438 21 15 9 6 657 5 10 57 3714 272 52 17 8 14 286 5 7 34 2393 510 22 19 8 14 329 5 11 46 3066 324 53 10 8 14 343 3 4 41 2601 404 24 16 9 5 350 2 10 43 2764 441 54 11 8 8 618 5 2 37 2545 380 25 19 9 6 357 1 9 42 2654 449 55 11 8 14 215 4 0 42 2968 261 26 17 9 14 386 3 9 52 2924 354 56 8 7 9 2210 1 5 45 2980 667 27 15 8 1 600 4 9 42 3230 438 57 12 10 7 450 5 8 24 1595 729 28 18 7 14 398 5 9 51 3394 303 58 10 6 9 950 2 4 43 2896 350 29 20 10 14 193 5 8 43 3079 451 59 11 10 12 869 0 12 44 3115 289 30 14 10 14 293 5 7 45 3267 445 60 12 7 8 878 2 8 18 1292 743 31 19 8 10 373 5 10 33 1991 571 61 10 5 2 635 5 0 15 896 1114 32 14 10 14 357 2 12 44 3192 412 62 12 8 7 1700 5 8 32 2183 471 33 15 9 14 336 5 6 42 2861 539 63 14 9 4 940 2 12 42 2896 401 34 15 7 14 394 5 10 43 3026 431 64 12 9 5 300 5 12 30 2218 541 35 17 9 14 264 2 11 27 2779 445 66 7 7 3 849 5 1 29 2062 567 36 18 9 12 323 5 10 38 2583 468 67 15 8 6 343 5 6 37 2465 550 37 19 8 7 300 5 9 38 2538 373 68 14 5 6 800 0 8 40 2806 434 38 16 8 7 438 4 11 35 2334 499 69 6 7 2 834 2 2 29 1702 469 39 20 8 14 143 5 11 46 3030 341 70 13 9 11 94 4 1 38 2583 370 40 17 8 7 205 2 12 37 2456 449 71 15 9 14 450 5 6 41 2801 506 41 17 9 11 370 5 11 35 2376 433 72 10 7 2 333 5 7 38 2480 388 42 16 9 8 333 5 9 12 3211 263 73 0 7 6 577 1 0 31 2127 573 43 20 8 3 250 2 10 39 2590 377 74 20 8 8 411 5 7 39 2769 560 44 14 9 14 257 4 10 43 2703 371 75 12 8 14 814 3 4 28 1923 626 45 18 8 2 267 5 8 39 2751 394 76 6 7 3 675 3 5 24 1663 756 46 20 8 10 282 5 10 40 2706 354 78 9 7 4 820 2 4 13 944 891 47 18 9 14 193 5 9 43 2795 501 79 13 5 1 950 0 6 38 2553 324 [SAS程序]──[D6P5PRG] DATA abc; PROC VARCLUS CENTROID; INFILE 'a:llhyjdat'; VAR age tj sg xx xs INPUT age tj sg xx xs ts ck bj jj bs; RUN; ts ck bj jj bs @@; PROC VARCLUS HI MAXC=4; VAR age tj sg xx xs PROC VARCLUS; ts ck bj jj bs; RUN; VAR age tj sg xx xs PROC VARCLUS CENTROID MAXC=4; ts ck bj jj bs; VAR age tj sg xx xs RUN; ts ck bj jj bs; RUN; (程序的第1部分) (程序的第2部分) [程序修改指导] 第1个过程语句中没有任何选择项,其聚类方法为主成分聚类法;第2个过程语句中用了选择项CENTROID,其聚类方法为重心分量聚类法。这2个过程步最终会聚成多少类,将由软件中隐含的临界值来决定;第3个过程语句中加了HI(要求在不同水平上的聚类保持系统结构,但与无此选则项时的区别并不明显),MAXC=4要求从1类聚到4类,此选择项的最大值为变量的个数。第4个过程语句要求用重心分量法从1类聚到4类。对于一批给定的资料,究竟应聚成几类合适,没有统一的规则。可先将资料聚成各只同的类,然后结合专业知识和各类能解释总方差的百分比来权衡。 何时需选用重心分量聚类方法呢?当用户想让类分量或成分(Cluster Components)代表标准化变量(未加权的,是软件缺省值)或未标准化变量(若指定用COV,即用协方差矩阵)的均数时,应加CENTROID。 当 *** 作的数据对象是样本相关矩阵(缺省值)时,视各变量的重要性相同;当 *** 作的数据对象是样本协方差矩阵(需在过程语句中加COV)时,使具有较大方差的变量起的作用大些。 [输出结果及其解释] Oblique Principal Component Cluster Analysis 60 Observations PROPORTION = 0 10 Variables MAXEIGEN = 1 Cluster summary for 1 cluster(s) Cluster Variation Proportion Second Cluster Members Variation Explained Explained Eigenvalue 1 10 100000 429072 04291 16661 Total variation explained = 4290718 Proportion = 04291 Cluster 1 will be split 这是用分解法思想进行斜交主成分聚类的第1步,把全部10个变量聚成一类,能解释的方差为4290718,占总方差10的4291%,并预告这一类将被分裂。 Cluster summary for 2 cluster(s) Cluster Variation Proportion Second Cluster Members Variation Explained Explained Eigenvalue 1 5 500000 327601 06552 08495 2 5 500000 237844 04757 09116 Total variation explained = 5654444 Proportion = 05654 1类分裂成2类,各含5个指标,此时能解释的方差为565444,占总方差10的5654%。 R-squared with Own Next 1-R2 Variable Cluster Closest Ratio Cluster 1 AGE 05843 02958 05903 CK 04006 01719 07238 BJ 07414 00839 02823 JJ 08580 01320 01636 BS 06917 01106 03467 Cluster 2 TJ 05593 02701 06038 SG 04595 01927 06695 XX 03632 00983 07062 XS 05864 00489 04349 TS 04100 00134 05980 这是每个指标与类成分之间相关系数的平,如:指标AGE在第1类中,它与第1类成分(相当于因子分析中的第1公因子)之间相关系数的平是05843(称为R-Squared WithOwn Cluster),同理可理解该列中的其他相关系数的含义;第1类中的某个指标与相邻类(此处为第2类)的类成分之间的相关系数的平,称为R-squared with Next closest,如:AGE与第2类成分之间的相关系数的平为02958,该值越小,说明分类越合理。最后一列的比值由同一横行的数据求得,如:(1- 05843)/(1-02958)=05903,此值越小,表明分类越合理。从最后一列可看出,很多比值较大,说明这10个变量分成2类是不太合适的。 Standardized Scoring Coefficients Cluster 1 2 AGE -233329 0000000 TJ 0000000 0314445 SG 0000000 0284992 XX 0000000 0253402 XS 0000000 -321956 TS 0000000 0269220 CK 0193211 0000000 BJ 0262837 0000000 JJ 0282748 0000000 BS -253864 0000000 这是从标准化变量预测类成分的标准回归系数,若设C1、C2分别为第1和第2类成分, 即: C1=-0233329AGE+0193211CK+0262837BJ+0282748JJ-0253864BS C2=0314445TJ+0284992SG+0253402XX-0321956XS+0269220TS Cluster Structure Cluster 1 2 AGE -764387 -543839 TJ 0519746 0747887 SG 0438921 0677836 XX 0313525 0602701 XS -221198 -765752 TS 0115617 0640323 CK 0632961 0414644 BJ 0861055 0289621 JJ 0926285 0363380 BS -831661 -332602 类结构相当于因子分析中的因子模型,即每个标准化变量可以表示成全部类成分的线性组合。如:AGE=-0764387C1-0543839C2。 Inter-Cluster Correlations Cluster 1 2 1 100000 047031 2 047031 100000 No cluster meets the criterion for splitting 类内相关就是类成分之间的相关系数。此时已达到隐含的停止分裂的临界值,停止分裂。 ① ② ③ Total Proportion Minimum Number Variation of Variation Proportion of Explained Explained Explained Clusters by Clusters by Clusters by a Cluster 1 4290718 04291 04291 2 5654444 05654 04757 第①列表示分成一类与两类时分别能解释的总方差量;第②列表示分成一类与两类时分别能解释的方差占全部10个变量的总方差的百分比;第③列表示分成一类与两类时由1个类成分能解释的方差占全部10个变量的总方差的最小百分比。 ① ② ③ Maximum Minimum Maximum Number Second R-squared 1-R2 Ratio of Eigenvalue for a for a Clusters in a Cluster Variable Variable 1 1666142 01079 2 0911631 03632 07238 第①列为各类中最大的第2特征值;第②列为各类中1个变量与其所在类成分的最小相关系数的平R2;第③列为各类中(1-R2)own/(1-R2) next的最大比值。参见前面关于“R-squared with own cluster 、next cluster”部分输出结果及其解释。 Oblique Centroid Component Cluster Analysis 60 Observations PROPORTION = 075 10 Variables MAXEIGEN = 0 Oblique Centroid Component Cluster Analysis R-squared with Own Next 1-R2 Variable Cluster Closest Ratio Cluster 1 TJ 07991 02978 02861 CK 07991 03119 02920 Cluster 2 XS 10000 01725 00000 Cluster 3 BJ 09130 04428 01561 JJ 09130 06504 02487 Cluster 4 XX 10000 01622 00000 Cluster 5 BS 10000 05932 00000 Cluster 6 TS 10000 01725 00000 Cluster 7 SG 10000 02022 00000 Cluster 8 AGE 10000 03815 00000 No cluster meets the criterion for splitting 上述主要结果是由第2个过程步输出的。 Oblique Principal Component Cluster Analysis 60 Observations PROPORTION = 1 10 Variables MAXEIGEN = 0 R-squared with Own Next 1-R2 Variable Cluster Closest Ratio Cluster 1 BJ 08166 02582 02472 JJ 09162 03359 01262 BS 08013 02143 02529 Cluster 2 TJ 06381 04199 06239 XS 06774 01469 03782 TS 05469 00709 04876 Cluster 3 SG 07013 02547 04007 XX 07013 01067 03343 Cluster 4 AGE 07792 03298 03294 CK 07792 01771 02682 这是第3个过程步输出的主要结果。 Oblique Centroid Component Cluster Analysis 60 Observations PROPORTION = 1 10 Variables MAXEIGEN = 0 R-squared with Own Next 1-R2 Variable Cluster Closest Ratio Cluster 1 SG 07013 02374 03916 XX 07013 01392 03470 Cluster 2 AGE 06075 05235 08238 XS 04801 01725 06283 BS 05562 05019 08909 Cluster 3 TS 10000 01018 00000 Cluster 4 TJ 05368 03965 07676 CK 05720 02783 05931 BJ 06357 03369 05493 JJ 07015 04689 05621 这是第4个过程步输出的主要结果。 [专业结论] 结合专业知识发现:由第3个过程仓类的结果比较合理,即第1类中含BJ(步距)、JJ(步行时双下肢夹角)、BS(步速)这三个与走步有关的变量;第2类中含TJ(记忆)、XS(心算时间)、TS(图形顺序记忆)这三个与记忆、计算有关的指标;第3类中含SG(数字广度记忆)、XX(心算位数)这两个与记忆、计算有关的指标;第4类中含AGE(年龄)、CK(穿孔)这两个与视力和协调能力有关的指标。分类的结果将有助于研究者对影响人脑老化本质的认识,为进一步从事这方面的研究提供了一些线索。 参考: >

:模型

财务正常公司:

Y=-50489552-1121762X1+783665X2+021150X3+077499X4+036059X5-585931X6-172308X7+758422X8+1221601X9

财务困境公司:

Y=-61935520-1135101X1+560132X2+022330X3+079989X4+027322X5-599456X6-170626X7+885152X8+1363997X9

2:检验

y=367805prin1+221392prin2+112608prin3+ 078198prin4+052051prin5

在进行观测归类时,结果很好,分类错误的比率为0。因为哪个公司到底有困境,哪个正常我都是事先知道的,可是在进行主成分分析时,陷入财务困境危险的公司其得分值较高,而财务健康的公司其得分值较低或者不明显,下面是指标得分值。

问题大概就是这样了,如果你还没看明白,请说明,毕竟自己花了不少时间写的文章,不想轻易粘上去(而且文章也太长了估计复制不上去)。

模型和检验都在上面,至于程序由于分析指标太多,因此滤去了观测数据,下面。

1:一般判别分析模型

data solvency;

input type x1 x2 x3 x4 x5 x6 x7 x8 x9@@;

cards;

XXXXXXXXXX

XXXXXXXXXX

XXXXXXXXXX

class type;

var x1 x2 x3 x4 x5 x6 x7 x8 x9;run;

proc discrim pool=test slpool=005 list;

class type;

priors'1'=06 '0'=04;run;

proc discrim method=npar k=2 list;

class type;

run;

2:主成分分析模型

data solvency;

input type x1 x2 x3 x4 x5 x6 x7 x8 x9@@;

cards;

XXXXXXX

XXXXXX

XXXXXXXX

; proc princomp out=out1;

var x1-x9;run;

data a;

set out1;

y=367805prin1+221392prin2+112608prin3+ 078198prin4+052051prin5;

run;

proc sort; by y;run;

proc print;

var type y;

run;

中间打XXXXXX的是观测数据

在统计学上,我们分析比较两组之间的率是否有统计学差异是用的卡方检验。比较经典的就是4格表的卡方检验。

SAS code:

proc freq data=yourdata;

tables ab/chisq expected;

run;

这里a指记录第一组和第二组的变量,b指记录男女的变量。chisq就是卡方检验,expected输出每个格子的理论频数。如果有格子理论频数小于5,就要看矫正卡方检验的结果。结果主要就是看卡方检验对应的值,如果p值小于005,就可以认为两组之间男女存在统计学差异。

上面那个是相关系数,>07算是高度相关了,正数就是正相关,负数就是负相关啦

下面那个是P值,<005就是存在显著性

不过最好进行多重校正,你这里就是005/5=001,P<001认为显著

以上就是关于结果怎么分析SAS软件已输出结果,如何判断相关性显全部的内容,包括:结果怎么分析SAS软件已输出结果,如何判断相关性显、SAS聚类分析或回归分析,或模糊评价,需要一个数据,一个程序和运行结果的说明求大神帮助、利用sas系统模型分析一组数据等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zz/10164469.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-05
下一篇 2023-05-05

发表评论

登录后才能评论

评论列表(0条)

保存