为研究人脑老化的严重程度,有人测定了不同年龄的60名正常男性10项有关指标的数据,各变量的含义如下: AGE为年龄、TJ为记忆、SG为数字广度记忆、TS为图形顺序记忆、XX为心算位数、XS为心算时间、CK为规定时间内穿孔数、BJ为步距、JJ为步行时双下肢夹角、BS步速。试对这些指标作变量聚类分析。 AGE TJ SG TS XX XS CK BJ JJ BS AGE TJ SG TS XX XS CK BJ JJ BS 16 17 9 14 514 4 9 54 3532 392 48 20 8 3 500 5 12 37 2470 373 18 12 8 14 357 5 11 46 3066 330 49 18 8 5 187 5 10 34 2254 477 19 11 8 2 1167 3 12 53 3701 308 50 13 8 4 320 5 11 45 3347 278 20 18 9 5 704 5 9 47 3010 390 51 16 7 14 358 5 2 40 2627 438 21 15 9 6 657 5 10 57 3714 272 52 17 8 14 286 5 7 34 2393 510 22 19 8 14 329 5 11 46 3066 324 53 10 8 14 343 3 4 41 2601 404 24 16 9 5 350 2 10 43 2764 441 54 11 8 8 618 5 2 37 2545 380 25 19 9 6 357 1 9 42 2654 449 55 11 8 14 215 4 0 42 2968 261 26 17 9 14 386 3 9 52 2924 354 56 8 7 9 2210 1 5 45 2980 667 27 15 8 1 600 4 9 42 3230 438 57 12 10 7 450 5 8 24 1595 729 28 18 7 14 398 5 9 51 3394 303 58 10 6 9 950 2 4 43 2896 350 29 20 10 14 193 5 8 43 3079 451 59 11 10 12 869 0 12 44 3115 289 30 14 10 14 293 5 7 45 3267 445 60 12 7 8 878 2 8 18 1292 743 31 19 8 10 373 5 10 33 1991 571 61 10 5 2 635 5 0 15 896 1114 32 14 10 14 357 2 12 44 3192 412 62 12 8 7 1700 5 8 32 2183 471 33 15 9 14 336 5 6 42 2861 539 63 14 9 4 940 2 12 42 2896 401 34 15 7 14 394 5 10 43 3026 431 64 12 9 5 300 5 12 30 2218 541 35 17 9 14 264 2 11 27 2779 445 66 7 7 3 849 5 1 29 2062 567 36 18 9 12 323 5 10 38 2583 468 67 15 8 6 343 5 6 37 2465 550 37 19 8 7 300 5 9 38 2538 373 68 14 5 6 800 0 8 40 2806 434 38 16 8 7 438 4 11 35 2334 499 69 6 7 2 834 2 2 29 1702 469 39 20 8 14 143 5 11 46 3030 341 70 13 9 11 94 4 1 38 2583 370 40 17 8 7 205 2 12 37 2456 449 71 15 9 14 450 5 6 41 2801 506 41 17 9 11 370 5 11 35 2376 433 72 10 7 2 333 5 7 38 2480 388 42 16 9 8 333 5 9 12 3211 263 73 0 7 6 577 1 0 31 2127 573 43 20 8 3 250 2 10 39 2590 377 74 20 8 8 411 5 7 39 2769 560 44 14 9 14 257 4 10 43 2703 371 75 12 8 14 814 3 4 28 1923 626 45 18 8 2 267 5 8 39 2751 394 76 6 7 3 675 3 5 24 1663 756 46 20 8 10 282 5 10 40 2706 354 78 9 7 4 820 2 4 13 944 891 47 18 9 14 193 5 9 43 2795 501 79 13 5 1 950 0 6 38 2553 324 [SAS程序]──[D6P5PRG] DATA abc; PROC VARCLUS CENTROID; INFILE 'a:llhyjdat'; VAR age tj sg xx xs INPUT age tj sg xx xs ts ck bj jj bs; RUN; ts ck bj jj bs @@; PROC VARCLUS HI MAXC=4; VAR age tj sg xx xs PROC VARCLUS; ts ck bj jj bs; RUN; VAR age tj sg xx xs PROC VARCLUS CENTROID MAXC=4; ts ck bj jj bs; VAR age tj sg xx xs RUN; ts ck bj jj bs; RUN; (程序的第1部分) (程序的第2部分) [程序修改指导] 第1个过程语句中没有任何选择项,其聚类方法为主成分聚类法;第2个过程语句中用了选择项CENTROID,其聚类方法为重心分量聚类法。这2个过程步最终会聚成多少类,将由软件中隐含的临界值来决定;第3个过程语句中加了HI(要求在不同水平上的聚类保持系统结构,但与无此选则项时的区别并不明显),MAXC=4要求从1类聚到4类,此选择项的最大值为变量的个数。第4个过程语句要求用重心分量法从1类聚到4类。对于一批给定的资料,究竟应聚成几类合适,没有统一的规则。可先将资料聚成各只同的类,然后结合专业知识和各类能解释总方差的百分比来权衡。 何时需选用重心分量聚类方法呢?当用户想让类分量或成分(Cluster Components)代表标准化变量(未加权的,是软件缺省值)或未标准化变量(若指定用COV,即用协方差矩阵)的均数时,应加CENTROID。 当 *** 作的数据对象是样本相关矩阵(缺省值)时,视各变量的重要性相同;当 *** 作的数据对象是样本协方差矩阵(需在过程语句中加COV)时,使具有较大方差的变量起的作用大些。 [输出结果及其解释] Oblique Principal Component Cluster Analysis 60 Observations PROPORTION = 0 10 Variables MAXEIGEN = 1 Cluster summary for 1 cluster(s) Cluster Variation Proportion Second Cluster Members Variation Explained Explained Eigenvalue 1 10 100000 429072 04291 16661 Total variation explained = 4290718 Proportion = 04291 Cluster 1 will be split 这是用分解法思想进行斜交主成分聚类的第1步,把全部10个变量聚成一类,能解释的方差为4290718,占总方差10的4291%,并预告这一类将被分裂。 Cluster summary for 2 cluster(s) Cluster Variation Proportion Second Cluster Members Variation Explained Explained Eigenvalue 1 5 500000 327601 06552 08495 2 5 500000 237844 04757 09116 Total variation explained = 5654444 Proportion = 05654 1类分裂成2类,各含5个指标,此时能解释的方差为565444,占总方差10的5654%。 R-squared with Own Next 1-R2 Variable Cluster Closest Ratio Cluster 1 AGE 05843 02958 05903 CK 04006 01719 07238 BJ 07414 00839 02823 JJ 08580 01320 01636 BS 06917 01106 03467 Cluster 2 TJ 05593 02701 06038 SG 04595 01927 06695 XX 03632 00983 07062 XS 05864 00489 04349 TS 04100 00134 05980 这是每个指标与类成分之间相关系数的平,如:指标AGE在第1类中,它与第1类成分(相当于因子分析中的第1公因子)之间相关系数的平是05843(称为R-Squared WithOwn Cluster),同理可理解该列中的其他相关系数的含义;第1类中的某个指标与相邻类(此处为第2类)的类成分之间的相关系数的平,称为R-squared with Next closest,如:AGE与第2类成分之间的相关系数的平为02958,该值越小,说明分类越合理。最后一列的比值由同一横行的数据求得,如:(1- 05843)/(1-02958)=05903,此值越小,表明分类越合理。从最后一列可看出,很多比值较大,说明这10个变量分成2类是不太合适的。 Standardized Scoring Coefficients Cluster 1 2 AGE -233329 0000000 TJ 0000000 0314445 SG 0000000 0284992 XX 0000000 0253402 XS 0000000 -321956 TS 0000000 0269220 CK 0193211 0000000 BJ 0262837 0000000 JJ 0282748 0000000 BS -253864 0000000 这是从标准化变量预测类成分的标准回归系数,若设C1、C2分别为第1和第2类成分, 即: C1=-0233329AGE+0193211CK+0262837BJ+0282748JJ-0253864BS C2=0314445TJ+0284992SG+0253402XX-0321956XS+0269220TS Cluster Structure Cluster 1 2 AGE -764387 -543839 TJ 0519746 0747887 SG 0438921 0677836 XX 0313525 0602701 XS -221198 -765752 TS 0115617 0640323 CK 0632961 0414644 BJ 0861055 0289621 JJ 0926285 0363380 BS -831661 -332602 类结构相当于因子分析中的因子模型,即每个标准化变量可以表示成全部类成分的线性组合。如:AGE=-0764387C1-0543839C2。 Inter-Cluster Correlations Cluster 1 2 1 100000 047031 2 047031 100000 No cluster meets the criterion for splitting 类内相关就是类成分之间的相关系数。此时已达到隐含的停止分裂的临界值,停止分裂。 ① ② ③ Total Proportion Minimum Number Variation of Variation Proportion of Explained Explained Explained Clusters by Clusters by Clusters by a Cluster 1 4290718 04291 04291 2 5654444 05654 04757 第①列表示分成一类与两类时分别能解释的总方差量;第②列表示分成一类与两类时分别能解释的方差占全部10个变量的总方差的百分比;第③列表示分成一类与两类时由1个类成分能解释的方差占全部10个变量的总方差的最小百分比。 ① ② ③ Maximum Minimum Maximum Number Second R-squared 1-R2 Ratio of Eigenvalue for a for a Clusters in a Cluster Variable Variable 1 1666142 01079 2 0911631 03632 07238 第①列为各类中最大的第2特征值;第②列为各类中1个变量与其所在类成分的最小相关系数的平R2;第③列为各类中(1-R2)own/(1-R2) next的最大比值。参见前面关于“R-squared with own cluster 、next cluster”部分输出结果及其解释。 Oblique Centroid Component Cluster Analysis 60 Observations PROPORTION = 075 10 Variables MAXEIGEN = 0 Oblique Centroid Component Cluster Analysis R-squared with Own Next 1-R2 Variable Cluster Closest Ratio Cluster 1 TJ 07991 02978 02861 CK 07991 03119 02920 Cluster 2 XS 10000 01725 00000 Cluster 3 BJ 09130 04428 01561 JJ 09130 06504 02487 Cluster 4 XX 10000 01622 00000 Cluster 5 BS 10000 05932 00000 Cluster 6 TS 10000 01725 00000 Cluster 7 SG 10000 02022 00000 Cluster 8 AGE 10000 03815 00000 No cluster meets the criterion for splitting 上述主要结果是由第2个过程步输出的。 Oblique Principal Component Cluster Analysis 60 Observations PROPORTION = 1 10 Variables MAXEIGEN = 0 R-squared with Own Next 1-R2 Variable Cluster Closest Ratio Cluster 1 BJ 08166 02582 02472 JJ 09162 03359 01262 BS 08013 02143 02529 Cluster 2 TJ 06381 04199 06239 XS 06774 01469 03782 TS 05469 00709 04876 Cluster 3 SG 07013 02547 04007 XX 07013 01067 03343 Cluster 4 AGE 07792 03298 03294 CK 07792 01771 02682 这是第3个过程步输出的主要结果。 Oblique Centroid Component Cluster Analysis 60 Observations PROPORTION = 1 10 Variables MAXEIGEN = 0 R-squared with Own Next 1-R2 Variable Cluster Closest Ratio Cluster 1 SG 07013 02374 03916 XX 07013 01392 03470 Cluster 2 AGE 06075 05235 08238 XS 04801 01725 06283 BS 05562 05019 08909 Cluster 3 TS 10000 01018 00000 Cluster 4 TJ 05368 03965 07676 CK 05720 02783 05931 BJ 06357 03369 05493 JJ 07015 04689 05621 这是第4个过程步输出的主要结果。 [专业结论] 结合专业知识发现:由第3个过程仓类的结果比较合理,即第1类中含BJ(步距)、JJ(步行时双下肢夹角)、BS(步速)这三个与走步有关的变量;第2类中含TJ(记忆)、XS(心算时间)、TS(图形顺序记忆)这三个与记忆、计算有关的指标;第3类中含SG(数字广度记忆)、XX(心算位数)这两个与记忆、计算有关的指标;第4类中含AGE(年龄)、CK(穿孔)这两个与视力和协调能力有关的指标。分类的结果将有助于研究者对影响人脑老化本质的认识,为进一步从事这方面的研究提供了一些线索。 参考: >
data a;
infile " 文件路径,你就写你桌面的路径,文件名后缀写好 ";
input y x1 x2 x3;
run;
proc univariate data=a normal;
var x1 x2 x3 y;
run;
检查是不是符合正态分布,假设都符合(要不符合就不用往下做了)
proc reg data=a;
model y=x1 x2 x3/
stb tol vif ;
run;
quit;
看有没有共线性,假设没有共线性或者很小(共线性大的话需要用岭回归)
proc reg data=a;
model y=x1 x2 x3/selection = backward
stb tol vif ;
run;
quit;
用后退法做多重线性回归了,也可以换成其他方法
至于输出为pdf格式,用程序写好麻烦的,你点菜单选项输出html格式
然后手动变成pdf 的不行吗
这都是我手打的,忙活了半天,采不采纳无所谓,也不求分
能帮到你最好,看不懂也别追问了,还有的忙呢
wps可以实现,具体如下:
1、第一步,输入数据,使用前一列的X轴和Y轴在下一列输入数据,见下图,转到下面的步骤。
2、第二步,完成上述步骤后,选择菜单栏中的“插入”选项,选择“图表”,然后通常选择XY散点图,见下图,转到下面的步骤。
3、第三步,完成上述步骤后,单击“确定”按钮,然后将散点图插入到表格网格中,可以随意修改表名,见下图,转到下面的步骤。
4、第四步,完成上述步骤后,用鼠标选择一个点,单击鼠标右键,然后选择“添加趋势线”选项,见下图,转到下面的步骤。
5、第五步,完成上述步骤后,便完成了关于XY的趋势线,该趋势线是线性的,见下图,转到下面的步骤。
6、第六步,完成上述步骤后,趋势线的设置将出现在右侧的属性栏中,可以根据实际情况进行设置,见下图,转到下面的步骤。
7、第七步,完成上述步骤后,需要线性回归分析,在右侧的属性栏中,在趋势线下方,可以进行“显示公式”和“显示R平方值”的设置,见下图,转到下面的步骤。
8、第八步,完成上述步骤后,就获得了想要的结果了,见下图。这样,就解决了这个问题了。
以上就是关于SAS聚类分析或回归分析,或模糊评价,需要一个数据,一个程序和运行结果的说明求大神帮助全部的内容,包括:SAS聚类分析或回归分析,或模糊评价,需要一个数据,一个程序和运行结果的说明求大神帮助、sas多元线性回归截距舍去怎么修正、急求SAS多元回归的命令等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)