SAS聚类分析或回归分析，或模糊评价，需要一个数据，一个程序和运行结果的说明求大神帮助_CMS教程

为研究人脑老化的严重程度，有人测定了不同年龄的60名正常男性10项有关指标的数据，各变量的含义如下： AGE为年龄、TJ为记忆、SG为数字广度记忆、TS为图形顺序记忆、XX为心算位数、XS为心算时间、CK为规定时间内穿孔数、BJ为步距、JJ为步行时双下肢夹角、BS步速。试对这些指标作变量聚类分析。 AGE TJ SG TS XX XS CK BJ JJ BS AGE TJ SG TS XX XS CK BJ JJ BS 16 17 9 14 514 4 9 54 3532 392 48 20 8 3 500 5 12 37 2470 373 18 12 8 14 357 5 11 46 3066 330 49 18 8 5 187 5 10 34 2254 477 19 11 8 2 1167 3 12 53 3701 308 50 13 8 4 320 5 11 45 3347 278 20 18 9 5 704 5 9 47 3010 390 51 16 7 14 358 5 2 40 2627 438 21 15 9 6 657 5 10 57 3714 272 52 17 8 14 286 5 7 34 2393 510 22 19 8 14 329 5 11 46 3066 324 53 10 8 14 343 3 4 41 2601 404 24 16 9 5 350 2 10 43 2764 441 54 11 8 8 618 5 2 37 2545 380 25 19 9 6 357 1 9 42 2654 449 55 11 8 14 215 4 0 42 2968 261 26 17 9 14 386 3 9 52 2924 354 56 8 7 9 2210 1 5 45 2980 667 27 15 8 1 600 4 9 42 3230 438 57 12 10 7 450 5 8 24 1595 729 28 18 7 14 398 5 9 51 3394 303 58 10 6 9 950 2 4 43 2896 350 29 20 10 14 193 5 8 43 3079 451 59 11 10 12 869 0 12 44 3115 289 30 14 10 14 293 5 7 45 3267 445 60 12 7 8 878 2 8 18 1292 743 31 19 8 10 373 5 10 33 1991 571 61 10 5 2 635 5 0 15 896 1114 32 14 10 14 357 2 12 44 3192 412 62 12 8 7 1700 5 8 32 2183 471 33 15 9 14 336 5 6 42 2861 539 63 14 9 4 940 2 12 42 2896 401 34 15 7 14 394 5 10 43 3026 431 64 12 9 5 300 5 12 30 2218 541 35 17 9 14 264 2 11 27 2779 445 66 7 7 3 849 5 1 29 2062 567 36 18 9 12 323 5 10 38 2583 468 67 15 8 6 343 5 6 37 2465 550 37 19 8 7 300 5 9 38 2538 373 68 14 5 6 800 0 8 40 2806 434 38 16 8 7 438 4 11 35 2334 499 69 6 7 2 834 2 2 29 1702 469 39 20 8 14 143 5 11 46 3030 341 70 13 9 11 94 4 1 38 2583 370 40 17 8 7 205 2 12 37 2456 449 71 15 9 14 450 5 6 41 2801 506 41 17 9 11 370 5 11 35 2376 433 72 10 7 2 333 5 7 38 2480 388 42 16 9 8 333 5 9 12 3211 263 73 0 7 6 577 1 0 31 2127 573 43 20 8 3 250 2 10 39 2590 377 74 20 8 8 411 5 7 39 2769 560 44 14 9 14 257 4 10 43 2703 371 75 12 8 14 814 3 4 28 1923 626 45 18 8 2 267 5 8 39 2751 394 76 6 7 3 675 3 5 24 1663 756 46 20 8 10 282 5 10 40 2706 354 78 9 7 4 820 2 4 13 944 891 47 18 9 14 193 5 9 43 2795 501 79 13 5 1 950 0 6 38 2553 324 [SAS程序]──[D6P5PRG] DATA abc； PROC VARCLUS CENTROID； INFILE 'a：llhyjdat'； VAR age tj sg xx xs INPUT age tj sg xx xs ts ck bj jj bs； RUN； ts ck bj jj bs @@； PROC VARCLUS HI MAXC=4； VAR age tj sg xx xs PROC VARCLUS； ts ck bj jj bs； RUN； VAR age tj sg xx xs PROC VARCLUS CENTROID MAXC=4； ts ck bj jj bs； VAR age tj sg xx xs RUN； ts ck bj jj bs； RUN；（程序的第１部分）（程序的第２部分） [程序修改指导] 第１个过程语句中没有任何选择项，其聚类方法为主成分聚类法；第２个过程语句中用了选择项CENTROID，其聚类方法为重心分量聚类法。这２个过程步最终会聚成多少类，将由软件中隐含的临界值来决定；第３个过程语句中加了HI（要求在不同水平上的聚类保持系统结构，但与无此选则项时的区别并不明显），MAXC=4要求从１类聚到４类，此选择项的最大值为变量的个数。第４个过程语句要求用重心分量法从１类聚到４类。对于一批给定的资料，究竟应聚成几类合适，没有统一的规则。可先将资料聚成各只同的类，然后结合专业知识和各类能解释总方差的百分比来权衡。何时需选用重心分量聚类方法呢？当用户想让类分量或成分（Cluster Components）代表标准化变量（未加权的，是软件缺省值）或未标准化变量（若指定用COV，即用协方差矩阵）的均数时，应加CENTROID。当 *** 作的数据对象是样本相关矩阵（缺省值）时，视各变量的重要性相同；当 *** 作的数据对象是样本协方差矩阵（需在过程语句中加COV）时，使具有较大方差的变量起的作用大些。 [输出结果及其解释] Oblique Principal Component Cluster Analysis 60 Observations PROPORTION = 0 10 Variables MAXEIGEN = 1 Cluster summary for 1 cluster（s） Cluster Variation Proportion Second Cluster Members Variation Explained Explained Eigenvalue 1 10 100000 429072 04291 16661 Total variation explained = 4290718 Proportion = 04291 Cluster 1 will be split 这是用分解法思想进行斜交主成分聚类的第１步，把全部10个变量聚成一类，能解释的方差为4290718，占总方差10的4291％，并预告这一类将被分裂。 Cluster summary for 2 cluster（s） Cluster Variation Proportion Second Cluster Members Variation Explained Explained Eigenvalue 1 5 500000 327601 06552 08495 2 5 500000 237844 04757 09116 Total variation explained = 5654444 Proportion = 05654 １类分裂成２类，各含５个指标，此时能解释的方差为565444，占总方差10的5654％。 R-squared with Own Next 1-R2 Variable Cluster Closest Ratio Cluster 1 AGE 05843 02958 05903 CK 04006 01719 07238 BJ 07414 00839 02823 JJ 08580 01320 01636 BS 06917 01106 03467 Cluster 2 TJ 05593 02701 06038 SG 04595 01927 06695 XX 03632 00983 07062 XS 05864 00489 04349 TS 04100 00134 05980 这是每个指标与类成分之间相关系数的平，如：指标AGE在第１类中，它与第１类成分（相当于因子分析中的第１公因子）之间相关系数的平是05843（称为R-Squared WithOwn Cluster），同理可理解该列中的其他相关系数的含义；第１类中的某个指标与相邻类（此处为第２类）的类成分之间的相关系数的平，称为R-squared with Next closest，如：AGE与第２类成分之间的相关系数的平为02958，该值越小，说明分类越合理。最后一列的比值由同一横行的数据求得，如：（1- 05843）/（1-02958）=05903，此值越小，表明分类越合理。从最后一列可看出，很多比值较大，说明这10个变量分成２类是不太合适的。 Standardized Scoring Coefficients Cluster 1 2 AGE -233329 0000000 TJ 0000000 0314445 SG 0000000 0284992 XX 0000000 0253402 XS 0000000 -321956 TS 0000000 0269220 CK 0193211 0000000 BJ 0262837 0000000 JJ 0282748 0000000 BS -253864 0000000 这是从标准化变量预测类成分的标准回归系数，若设C1、C2分别为第１和第２类成分，即： C1=-0233329AGE+0193211CK+0262837BJ+0282748JJ-0253864BS C2=0314445TJ+0284992SG+0253402XX-0321956XS+0269220TS Cluster Structure Cluster 1 2 AGE -764387 -543839 TJ 0519746 0747887 SG 0438921 0677836 XX 0313525 0602701 XS -221198 -765752 TS 0115617 0640323 CK 0632961 0414644 BJ 0861055 0289621 JJ 0926285 0363380 BS -831661 -332602 类结构相当于因子分析中的因子模型，即每个标准化变量可以表示成全部类成分的线性组合。如：AGE=-0764387C1-0543839C2。 Inter-Cluster Correlations Cluster 1 2 1 100000 047031 2 047031 100000 No cluster meets the criterion for splitting 类内相关就是类成分之间的相关系数。此时已达到隐含的停止分裂的临界值，停止分裂。 ① ② ③ Total Proportion Minimum Number Variation of Variation Proportion of Explained Explained Explained Clusters by Clusters by Clusters by a Cluster 1 4290718 04291 04291 2 5654444 05654 04757 第①列表示分成一类与两类时分别能解释的总方差量；第②列表示分成一类与两类时分别能解释的方差占全部10个变量的总方差的百分比；第③列表示分成一类与两类时由１个类成分能解释的方差占全部10个变量的总方差的最小百分比。 ① ② ③ Maximum Minimum Maximum Number Second R-squared 1-R2 Ratio of Eigenvalue for a for a Clusters in a Cluster Variable Variable 1 1666142 01079 2 0911631 03632 07238 第①列为各类中最大的第２特征值；第②列为各类中１个变量与其所在类成分的最小相关系数的平R2；第③列为各类中（1-R2）own／（1-R2） next的最大比值。参见前面关于“R-squared with own cluster 、next cluster”部分输出结果及其解释。 Oblique Centroid Component Cluster Analysis 60 Observations PROPORTION = 075 10 Variables MAXEIGEN = 0 Oblique Centroid Component Cluster Analysis R-squared with Own Next 1-R2 Variable Cluster Closest Ratio Cluster 1 TJ 07991 02978 02861 CK 07991 03119 02920 Cluster 2 XS 10000 01725 00000 Cluster 3 BJ 09130 04428 01561 JJ 09130 06504 02487 Cluster 4 XX 10000 01622 00000 Cluster 5 BS 10000 05932 00000 Cluster 6 TS 10000 01725 00000 Cluster 7 SG 10000 02022 00000 Cluster 8 AGE 10000 03815 00000 No cluster meets the criterion for splitting 上述主要结果是由第２个过程步输出的。 Oblique Principal Component Cluster Analysis 60 Observations PROPORTION = 1 10 Variables MAXEIGEN = 0 R-squared with Own Next 1-R2 Variable Cluster Closest Ratio Cluster 1 BJ 08166 02582 02472 JJ 09162 03359 01262 BS 08013 02143 02529 Cluster 2 TJ 06381 04199 06239 XS 06774 01469 03782 TS 05469 00709 04876 Cluster 3 SG 07013 02547 04007 XX 07013 01067 03343 Cluster 4 AGE 07792 03298 03294 CK 07792 01771 02682 这是第３个过程步输出的主要结果。 Oblique Centroid Component Cluster Analysis 60 Observations PROPORTION = 1 10 Variables MAXEIGEN = 0 R-squared with Own Next 1-R2 Variable Cluster Closest Ratio Cluster 1 SG 07013 02374 03916 XX 07013 01392 03470 Cluster 2 AGE 06075 05235 08238 XS 04801 01725 06283 BS 05562 05019 08909 Cluster 3 TS 10000 01018 00000 Cluster 4 TJ 05368 03965 07676 CK 05720 02783 05931 BJ 06357 03369 05493 JJ 07015 04689 05621 这是第４个过程步输出的主要结果。 [专业结论] 结合专业知识发现：由第３个过程仓类的结果比较合理，即第１类中含BJ（步距）、JJ（步行时双下肢夹角）、BS（步速）这三个与走步有关的变量；第２类中含TJ（记忆）、XS（心算时间）、TS（图形顺序记忆）这三个与记忆、计算有关的指标；第３类中含SG（数字广度记忆）、XX（心算位数）这两个与记忆、计算有关的指标；第４类中含AGE（年龄）、CK（穿孔）这两个与视力和协调能力有关的指标。分类的结果将有助于研究者对影响人脑老化本质的认识，为进一步从事这方面的研究提供了一些线索。参考： >

data a;

infile " 文件路径，你就写你桌面的路径，文件名后缀写好 "；

input y x1 x2 x3;

run;

proc univariate data=a normal;

var x1 x2 x3 y;

run;

检查是不是符合正态分布，假设都符合（要不符合就不用往下做了）

proc reg data=a;

model y=x1 x2 x3/

stb tol vif ;

run;

quit;

看有没有共线性，假设没有共线性或者很小（共线性大的话需要用岭回归）

proc reg data=a;

model y=x1 x2 x3/selection = backward

stb tol vif ;

run;

quit;

用后退法做多重线性回归了，也可以换成其他方法

至于输出为pdf格式，用程序写好麻烦的，你点菜单选项输出html格式

然后手动变成pdf 的不行吗

这都是我手打的，忙活了半天，采不采纳无所谓，也不求分

能帮到你最好，看不懂也别追问了，还有的忙呢

wps可以实现，具体如下：

1、第一步，输入数据，使用前一列的X轴和Y轴在下一列输入数据，见下图，转到下面的步骤。

2、第二步，完成上述步骤后，选择菜单栏中的“插入”选项，选择“图表”，然后通常选择XY散点图，见下图，转到下面的步骤。

3、第三步，完成上述步骤后，单击“确定”按钮，然后将散点图插入到表格网格中，可以随意修改表名，见下图，转到下面的步骤。

4、第四步，完成上述步骤后，用鼠标选择一个点，单击鼠标右键，然后选择“添加趋势线”选项，见下图，转到下面的步骤。

5、第五步，完成上述步骤后，便完成了关于XY的趋势线，该趋势线是线性的，见下图，转到下面的步骤。

6、第六步，完成上述步骤后，趋势线的设置将出现在右侧的属性栏中，可以根据实际情况进行设置，见下图，转到下面的步骤。

7、第七步，完成上述步骤后，需要线性回归分析，在右侧的属性栏中，在趋势线下方，可以进行“显示公式”和“显示R平方值”的设置，见下图，转到下面的步骤。

8、第八步，完成上述步骤后，就获得了想要的结果了，见下图。这样，就解决了这个问题了。

以上就是关于SAS聚类分析或回归分析，或模糊评价，需要一个数据，一个程序和运行结果的说明求大神帮助全部的内容，包括:SAS聚类分析或回归分析，或模糊评价，需要一个数据，一个程序和运行结果的说明求大神帮助、sas多元线性回归截距舍去怎么修正、急求SAS多元回归的命令等相关内容解答，如果想了解更多相关内容，可以关注我们，你们的支持是我们更新的动力！

欢迎分享，转载请注明来源：内存溢出

原文地址: https://outofmemory.cn/zz/10106229.html

SAS聚类分析或回归分析，或模糊评价，需要一个数据，一个程序和运行结果的说明求大神帮助

发表评论

评论列表（0条）