SAS聚类分析或回归分析，或模糊评价，需要一个数据，一个程序和运行结果的说明求大神帮助_软件运维

为研究人脑老化的严重程度，有人测定了不同年龄的60名正常男性10项有关辩碰并指标的数据，各变量的含义如下： AGE为吵仿年龄、TJ为图片记忆、SG为数字广度记忆、TS为图形顺序记忆、XX为心算位数、XS为携迹心算时间、CK为规定时间内穿孔数、BJ为步距、JJ为步行时双下肢夹角、BS步速。试对这些指标作变量聚类分析。 AGE TJ SG TS XX XS CK BJ JJ BS AGE TJ SG TS XX XS CK BJ JJ BS 16 17 9 14 5.14 4 9 54 35.32 3.92 48 20 8 3 5.00 5 12 37 24.70 3.73 18 12 8 14 3.57 5 11 46 30.66 3.30 49 18 8 5 1.87 5 10 34 22.54 4.77 19 11 8 2 11.67 3 12 53 37.01 3.08 50 13 8 4 3.20 5 11 45 33.47 2.78 20 18 9 5 7.04 5 9 47 30.10 3.90 51 16 7 14 3.58 5 2 40 26.27 4.38 21 15 9 6 6.57 5 10 57 37.14 2.72 52 17 8 14 2.86 5 7 34 23.93 5.10 22 19 8 14 3.29 5 11 46 30.66 3.24 53 10 8 14 3.43 3 4 41 26.01 4.04 24 16 9 5 3.50 2 10 43 27.64 4.41 54 11 8 8 6.18 5 2 37 25.45 3.80 25 19 9 6 3.57 1 9 42 26.54 4.49 55 11 8 14 2.15 4 0 42 29.68 2.61 26 17 9 14 3.86 3 9 52 29.24 3.54 56 8 7 9 22.10 1 5 45 29.80 6.67 27 15 8 1 6.00 4 9 42 32.30 4.38 57 12 10 7 4.50 5 8 24 15.95 7.29 28 18 7 14 3.98 5 9 51 33.94 3.03 58 10 6 9 9.50 2 4 43 28.96 3.50 29 20 10 14 1.93 5 8 43 30.79 4.51 59 11 10 12 8.69 0 12 44 31.15 2.89 30 14 10 14 2.93 5 7 45 32.67 4.45 60 12 7 8 8.78 2 8 18 12.92 7.43 31 19 8 10 3.73 5 10 33 19.91 5.71 61 10 5 2 6.35 5 0 15 8.96 11.14 32 14 10 14 3.57 2 12 44 31.92 4.12 62 12 8 7 17.00 5 8 32 21.83 4.71 33 15 9 14 3.36 5 6 42 28.61 5.39 63 14 9 4 9.40 2 12 42 28.96 4.01 34 15 7 14 3.94 5 10 43 30.26 4.31 64 12 9 5 3.00 5 12 30 22.18 5.41 35 17 9 14 2.64 2 11 27 27.79 4.45 66 7 7 3 8.49 5 1 29 20.62 5.67 36 18 9 12 3.23 5 10 38 25.83 4.68 67 15 8 6 3.43 5 6 37 24.65 5.50 37 19 8 7 3.00 5 9 38 25.38 3.73 68 14 5 6 8.00 0 8 40 28.06 4.34 38 16 8 7 4.38 4 11 35 23.34 4.99 69 6 7 2 8.34 2 2 29 17.02 4.69 39 20 8 14 1.43 5 11 46 30.30 3.41 70 13 9 11 94 4 1 38 25.83 3.70 40 17 8 7 2.05 2 12 37 24.56 4.49 71 15 9 14 4.50 5 6 41 28.01 5.06 41 17 9 11 3.70 5 11 35 23.76 4.33 72 10 7 2 3.33 5 7 38 24.80 3.88 42 16 9 8 3.33 5 9 12 32.11 2.63 73 0 7 6 5.77 1 0 31 21.27 5.73 43 20 8 3 2.50 2 10 39 25.90 3.77 74 20 8 8 4.11 5 7 39 27.69 5.60 44 14 9 14 2.57 4 10 43 27.03 3.71 75 12 8 14 8.14 3 4 28 19.23 6.26 45 18 8 2 2.67 5 8 39 27.51 3.94 76 6 7 3 6.75 3 5 24 16.63 7.56 46 20 8 10 2.82 5 10 40 27.06 3.54 78 9 7 4 8.20 2 4 13 9.44 8.91 47 18 9 14 1.93 5 9 43 27.95 5.01 79 13 5 1 9.50 0 6 38 25.53 3.24 [SAS程序]──[D6P5.PRG] DATA abc； PROC VARCLUS CENTROID； INFILE 'a：llhyj.dat'； VAR age tj sg xx xs INPUT age tj sg xx xs ts ck bj jj bs； RUN； ts ck bj jj bs @@； PROC VARCLUS HI MAXC=4； VAR age tj sg xx xs PROC VARCLUS； ts ck bj jj bs； RUN； VAR age tj sg xx xs PROC VARCLUS CENTROID MAXC=4； ts ck bj jj bs； VAR age tj sg xx xs RUN； ts ck bj jj bs； RUN；（程序的第１部分）（程序的第２部分） [程序修改指导] 第１个过程语句中没有任何选择项，其聚类方法为主成分聚类法；第２个过程语句中用了选择项CENTROID，其聚类方法为重心分量聚类法。这２个过程步最终会聚成多少类，将由软件中隐含的临界值来决定；第３个过程语句中加了HI（要求在不同水平上的聚类保持系统结构，但与无此选则项时的区别并不明显），MAXC=4要求从１类聚到４类，此选择项的最大值为变量的个数。第４个过程语句要求用重心分量法从１类聚到４类。对于一批给定的资料，究竟应聚成几类合适，没有统一的规则。可先将资料聚成各只同的类，然后结合专业知识和各类能解释总方差的百分比来权衡。何时需选用重心分量聚类方法呢？当用户想让类分量或成分（Cluster Components）代表标准化变量（未加权的，是软件缺省值）或未标准化变量（若指定用COV，即用协方差矩阵）的均数时，应加CENTROID。当 *** 作的数据对象是样本相关矩阵（缺省值）时，视各变量的重要性相同；当 *** 作的数据对象是样本协方差矩阵（需在过程语句中加COV）时，使具有较大方差的变量起的作用大些。 [输出结果及其解释] Oblique Principal Component Cluster Analysis 60 Observations PROPORTION = 0 10 Variables MAXEIGEN = 1 Cluster summary for 1 cluster（s） Cluster Variation Proportion Second Cluster Members Variation Explained Explained Eigenvalue 1 10 10.0000 4.29072 0.4291 1.6661 Total variation explained = 4.290718 Proportion = 0.4291 Cluster 1 will be split. 这是用分解法思想进行斜交主成分聚类的第１步，把全部10个变量聚成一类，能解释的方差为4.290718，占总方差10的42.91％，并预告这一类将被分裂。 Cluster summary for 2 cluster（s） Cluster Variation Proportion Second Cluster Members Variation Explained Explained Eigenvalue 1 5 5.00000 3.27601 0.6552 0.8495 2 5 5.00000 2.37844 0.4757 0.9116 Total variation explained = 5.654444 Proportion = 0.5654 １类分裂成２类，各含５个指标，此时能解释的方差为5.65444，占总方差10的56.54％。 R-squared with Own Next 1-R**2 Variable Cluster Closest Ratio Cluster 1 AGE 0.5843 0.2958 0.5903 CK 0.4006 0.1719 0.7238 BJ 0.7414 0.0839 0.2823 JJ 0.8580 0.1320 0.1636 BS 0.6917 0.1106 0.3467 Cluster 2 TJ 0.5593 0.2701 0.6038 SG 0.4595 0.1927 0.6695 XX 0.3632 0.0983 0.7062 XS 0.5864 0.0489 0.4349 TS 0.4100 0.0134 0.5980 这是每个指标与类成分之间相关系数的平，如：指标AGE在第１类中，它与第１类成分（相当于因子分析中的第１公因子）之间相关系数的平是0.5843（称为R-Squared WithOwn Cluster），同理可理解该列中的其他相关系数的含义；第１类中的某个指标与相邻类（此处为第２类）的类成分之间的相关系数的平，称为R-squared with Next closest，如：AGE与第２类成分之间的相关系数的平为0.2958，该值越小，说明分类越合理。最后一列的比值由同一横行的数据求得，如：（1- 0.5843）/（1-0.2958）=0.5903，此值越小，表明分类越合理。从最后一列可看出，很多比值较大，说明这10个变量分成２类是不太合适的。 Standardized Scoring Coefficients Cluster 1 2 AGE -.233329 0.000000 TJ 0.000000 0.314445 SG 0.000000 0.284992 XX 0.000000 0.253402 XS 0.000000 -.321956 TS 0.000000 0.269220 CK 0.193211 0.000000 BJ 0.262837 0.000000 JJ 0.282748 0.000000 BS -.253864 0.000000 这是从标准化变量预测类成分的标准回归系数，若设C1、C2分别为第１和第２类成分，即： C1=-0.233329AGE+0.193211CK+0.262837BJ+0.282748JJ-0.253864BS C2=0.314445TJ+0.284992SG+0.253402XX-0.321956XS+0.269220TS Cluster Structure Cluster 1 2 AGE -.764387 -.543839 TJ 0.519746 0.747887 SG 0.438921 0.677836 XX 0.313525 0.602701 XS -.221198 -.765752 TS 0.115617 0.640323 CK 0.632961 0.414644 BJ 0.861055 0.289621 JJ 0.926285 0.363380 BS -.831661 -.332602 类结构相当于因子分析中的因子模型，即每个标准化变量可以表示成全部类成分的线性组合。如：AGE=-0.764387C1-0.543839C2。 Inter-Cluster Correlations Cluster 1 2 1 1.00000 0.47031 2 0.47031 1.00000 No cluster meets the criterion for splitting. 类内相关就是类成分之间的相关系数。此时已达到隐含的停止分裂的临界值，停止分裂。 ① ② ③ Total Proportion Minimum Number Variation of Variation Proportion of Explained Explained Explained Clusters by Clusters by Clusters by a Cluster 1 4.290718 0.4291 0.4291 2 5.654444 0.5654 0.4757 第①列表示分成一类与两类时分别能解释的总方差量；第②列表示分成一类与两类时分别能解释的方差占全部10个变量的总方差的百分比；第③列表示分成一类与两类时由１个类成分能解释的方差占全部10个变量的总方差的最小百分比。 ① ② ③ Maximum Minimum Maximum Number Second R-squared 1-R**2 Ratio of Eigenvalue for a for a Clusters in a Cluster Variable Variable 1 1.666142 0.1079 . 2 0.911631 0.3632 0.7238 第①列为各类中最大的第２特征值；第②列为各类中１个变量与其所在类成分的最小相关系数的平R2；第③列为各类中（1-R2）own／（1-R2） next的最大比值。参见前面关于“R-squared with own cluster 、next cluster”部分输出结果及其解释。 Oblique Centroid Component Cluster Analysis 60 Observations PROPORTION = 0.75 10 Variables MAXEIGEN = 0 Oblique Centroid Component Cluster Analysis R-squared with Own Next 1-R**2 Variable Cluster Closest Ratio Cluster 1 TJ 0.7991 0.2978 0.2861 CK 0.7991 0.3119 0.2920 Cluster 2 XS 1.0000 0.1725 0.0000 Cluster 3 BJ 0.9130 0.4428 0.1561 JJ 0.9130 0.6504 0.2487 Cluster 4 XX 1.0000 0.1622 0.0000 Cluster 5 BS 1.0000 0.5932 0.0000 Cluster 6 TS 1.0000 0.1725 0.0000 Cluster 7 SG 1.0000 0.2022 0.0000 Cluster 8 AGE 1.0000 0.3815 0.0000 No cluster meets the criterion for splitting. 上述主要结果是由第２个过程步输出的。 Oblique Principal Component Cluster Analysis 60 Observations PROPORTION = 1 10 Variables MAXEIGEN = 0 R-squared with Own Next 1-R**2 Variable Cluster Closest Ratio Cluster 1 BJ 0.8166 0.2582 0.2472 JJ 0.9162 0.3359 0.1262 BS 0.8013 0.2143 0.2529 Cluster 2 TJ 0.6381 0.4199 0.6239 XS 0.6774 0.1469 0.3782 TS 0.5469 0.0709 0.4876 Cluster 3 SG 0.7013 0.2547 0.4007 XX 0.7013 0.1067 0.3343 Cluster 4 AGE 0.7792 0.3298 0.3294 CK 0.7792 0.1771 0.2682 这是第３个过程步输出的主要结果。 Oblique Centroid Component Cluster Analysis 60 Observations PROPORTION = 1 10 Variables MAXEIGEN = 0 R-squared with Own Next 1-R**2 Variable Cluster Closest Ratio Cluster 1 SG 0.7013 0.2374 0.3916 XX 0.7013 0.1392 0.3470 Cluster 2 AGE 0.6075 0.5235 0.8238 XS 0.4801 0.1725 0.6283 BS 0.5562 0.5019 0.8909 Cluster 3 TS 1.0000 0.1018 0.0000 Cluster 4 TJ 0.5368 0.3965 0.7676 CK 0.5720 0.2783 0.5931 BJ 0.6357 0.3369 0.5493 JJ 0.7015 0.4689 0.5621 这是第４个过程步输出的主要结果。 [专业结论] 结合专业知识发现：由第３个过程仓类的结果比较合理，即第１类中含BJ（步距）、JJ（步行时双下肢夹角）、BS（步速）这三个与走步有关的变量；第２类中含TJ（图片记忆）、XS（心算时间）、TS（图形顺序记忆）这三个与记忆、计算有关的指标；第３类中含SG（数字广度记忆）、XX（心算位数）这两个与记忆、计算有关的指标；第４类中含AGE（年龄）、CK（穿孔）这两个与视力和协调能力有关的指标。分类的结果将有助于研究者对影响人脑老化本质的认识，为进一步从事这方面的研究提供了一些线索。参考： http://www.1000tj.com/HP/20100126/OTD53149.shtml

首先将你的数据中亏橡导入到SAS软件中（如果数据少可枝晌以在数据步手工录入）；

其次我们在SAS编辑器中输入如下代码（即过程步）：

proc cluster data=cluster method=single ccc pseudo outtree=tree*cluster是数据集名称

var x1-x3

proc tree data=tree horizontal spaces=1

run

剩下的就是对结果的猛空锋分析了

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/yw/12449571.html

SAS聚类分析或回归分析，或模糊评价，需要一个数据，一个程序和运行结果的说明求大神帮助

发表评论

评论列表（0条）