为研究人脑老化的严重程度,有人测定了不同年龄的60名正常男性10项有关辩碰并指标的数据,各
变量的含义如下: AGE为吵仿年龄、TJ为图片记忆、SG为数字广度记忆、TS为图形顺序记忆、XX为心算位数、XS为携迹心算时间、CK为规定时间内穿孔数、BJ为步距、JJ为步行时双下肢夹角、BS步速。试对这些指标作变量聚类分析。 AGE TJ SG TS XX XS CK BJ JJ BS AGE TJ SG TS XX XS CK BJ JJ BS 16 17 9 14 5.14 4 9 54 35.32 3.92 48 20 8 3 5.00 5 12 37 24.70 3.73 18 12 8 14 3.57 5 11 46 30.66 3.30 49 18 8 5 1.87 5 10 34 22.54 4.77 19 11 8 2 11.67 3 12 53 37.01 3.08 50 13 8 4 3.20 5 11 45 33.47 2.78 20 18 9 5 7.04 5 9 47 30.10 3.90 51 16 7 14 3.58 5 2 40 26.27 4.38 21 15 9 6 6.57 5 10 57 37.14 2.72 52 17 8 14 2.86 5 7 34 23.93 5.10 22 19 8 14 3.29 5 11 46 30.66 3.24 53 10 8 14 3.43 3 4 41 26.01 4.04 24 16 9 5 3.50 2 10 43 27.64 4.41 54 11 8 8 6.18 5 2 37 25.45 3.80 25 19 9 6 3.57 1 9 42 26.54 4.49 55 11 8 14 2.15 4 0 42 29.68 2.61 26 17 9 14 3.86 3 9 52 29.24 3.54 56 8 7 9 22.10 1 5 45 29.80 6.67 27 15 8 1 6.00 4 9 42 32.30 4.38 57 12 10 7 4.50 5 8 24 15.95 7.29 28 18 7 14 3.98 5 9 51 33.94 3.03 58 10 6 9 9.50 2 4 43 28.96 3.50 29 20 10 14 1.93 5 8 43 30.79 4.51 59 11 10 12 8.69 0 12 44 31.15 2.89 30 14 10 14 2.93 5 7 45 32.67 4.45 60 12 7 8 8.78 2 8 18 12.92 7.43 31 19 8 10 3.73 5 10 33 19.91 5.71 61 10 5 2 6.35 5 0 15 8.96 11.14 32 14 10 14 3.57 2 12 44 31.92 4.12 62 12 8 7 17.00 5 8 32 21.83 4.71 33 15 9 14 3.36 5 6 42 28.61 5.39 63 14 9 4 9.40 2 12 42 28.96 4.01 34 15 7 14 3.94 5 10 43 30.26 4.31 64 12 9 5 3.00 5 12 30 22.18 5.41 35 17 9 14 2.64 2 11 27 27.79 4.45 66 7 7 3 8.49 5 1 29 20.62 5.67 36 18 9 12 3.23 5 10 38 25.83 4.68 67 15 8 6 3.43 5 6 37 24.65 5.50 37 19 8 7 3.00 5 9 38 25.38 3.73 68 14 5 6 8.00 0 8 40 28.06 4.34 38 16 8 7 4.38 4 11 35 23.34 4.99 69 6 7 2 8.34 2 2 29 17.02 4.69 39 20 8 14 1.43 5 11 46 30.30 3.41 70 13 9 11 94 4 1 38 25.83 3.70 40 17 8 7 2.05 2 12 37 24.56 4.49 71 15 9 14 4.50 5 6 41 28.01 5.06 41 17 9 11 3.70 5 11 35 23.76 4.33 72 10 7 2 3.33 5 7 38 24.80 3.88 42 16 9 8 3.33 5 9 12 32.11 2.63 73 0 7 6 5.77 1 0 31 21.27 5.73 43 20 8 3 2.50 2 10 39 25.90 3.77 74 20 8 8 4.11 5 7 39 27.69 5.60 44 14 9 14 2.57 4 10 43 27.03 3.71 75 12 8 14 8.14 3 4 28 19.23 6.26 45 18 8 2 2.67 5 8 39 27.51 3.94 76 6 7 3 6.75 3 5 24 16.63 7.56 46 20 8 10 2.82 5 10 40 27.06 3.54 78 9 7 4 8.20 2 4 13 9.44 8.91 47 18 9 14 1.93 5 9 43 27.95 5.01 79 13 5 1 9.50 0 6 38 25.53 3.24 [SAS程序]──[D6P5.PRG] DATA abc; PROC VARCLUS CENTROID; INFILE 'a:llhyj.dat'; VAR age tj sg xx xs INPUT age tj sg xx xs ts ck bj jj bs; RUN; ts ck bj jj bs @@; PROC VARCLUS HI MAXC=4; VAR age tj sg xx xs PROC VARCLUS; ts ck bj jj bs; RUN; VAR age tj sg xx xs PROC VARCLUS CENTROID MAXC=4; ts ck bj jj bs; VAR age tj sg xx xs RUN; ts ck bj jj bs; RUN; (程序的第1部分) (程序的第2部分) [程序修改指导] 第1个过程语句中没有任何选择项,其聚类方法为主
成分聚类法;第2个过程语句中用了选择项CENTROID,其聚类方法为重心分量聚类法。这2个过程步最终会聚成多少类,将由软件中隐含的临界值来决定;第3个过程语句中加了HI(要求在不同水平上的聚类保持系统结构,但与无此选则项时的区别并不明显),MAXC=4要求从1类聚到4类,此选择项的最大值为变量的个数。第4个过程语句要求用重心分量法从1类聚到4类。对于一批给定的资料,究竟应聚成几类合适,没有统一的规则。可先将资料聚成各只同的类,然后结合专业知识和各类能解释总
方差的百分比来权衡。 何时需选用重心分量聚类方法呢?当用户想让类分量或成分(Cluster Components)代表标准化变量(未加权的,是软件缺省值)或未标准化变量(若指定用COV,即用协方差矩阵)的均数时,应加CENTROID。 当 *** 作的数据对象是样本相关矩阵(缺省值)时,视各变量的重要性相同;当 *** 作的数据对象是样本协方差矩阵(需在过程语句中加COV)时,使具有较大方差的变量起的作用大些。 [输出结果及其解释] Oblique Principal Component Cluster Analysis 60 Observations PROPORTION = 0 10 Variables MAXEIGEN = 1 Cluster summary for 1 cluster(s) Cluster Variation Proportion Second Cluster Members Variation Explained Explained Eigenvalue 1 10 10.0000 4.29072 0.4291 1.6661 Total variation explained = 4.290718 Proportion = 0.4291 Cluster 1 will be split. 这是用分解法思想进行斜交主成分聚类的第1步,把全部10个变量聚成一类,能解释的方差为4.290718,占总方差10的42.91%,并预告这一类将被分裂。 Cluster summary for 2 cluster(s) Cluster Variation Proportion Second Cluster Members Variation Explained Explained Eigenvalue 1 5 5.00000 3.27601 0.6552 0.8495 2 5 5.00000 2.37844 0.4757 0.9116 Total variation explained = 5.654444 Proportion = 0.5654 1类分裂成2类,各含5个指标,此时能解释的方差为5.65444,占总方差10的56.54%。 R-squared with Own Next 1-R**2 Variable Cluster Closest Ratio Cluster 1 AGE 0.5843 0.2958 0.5903 CK 0.4006 0.1719 0.7238 BJ 0.7414 0.0839 0.2823 JJ 0.8580 0.1320 0.1636 BS 0.6917 0.1106 0.3467 Cluster 2 TJ 0.5593 0.2701 0.6038 SG 0.4595 0.1927 0.6695 XX 0.3632 0.0983 0.7062 XS 0.5864 0.0489 0.4349 TS 0.4100 0.0134 0.5980 这是每个指标与类成分之间相关系数的平,如:指标AGE在第1类中,它与第1类成分(相当于因子分析中的第1公因子)之间相关系数的平是0.5843(称为R-Squared WithOwn Cluster),同理可理解该列中的其他相关系数的含义;第1类中的某个指标与相邻类(此处为第2类)的类成分之间的相关系数的平,称为R-squared with Next closest,如:AGE与第2类成分之间的相关系数的平为0.2958,该值越小,说明分类越合理。最后一列的比值由同一横行的数据求得,如:(1- 0.5843)/(1-0.2958)=0.5903,此值越小,表明分类越合理。从最后一列可看出,很多比值较大,说明这10个变量分成2类是不太合适的。 Standardized Scoring Coefficients Cluster 1 2 AGE -.233329 0.000000 TJ 0.000000 0.314445 SG 0.000000 0.284992 XX 0.000000 0.253402 XS 0.000000 -.321956 TS 0.000000 0.269220 CK 0.193211 0.000000 BJ 0.262837 0.000000 JJ 0.282748 0.000000 BS -.253864 0.000000 这是从标准化变量预测类成分的标准回归系数,若设C1、C2分别为第1和第2类成分, 即: C1=-0.233329AGE+0.193211CK+0.262837BJ+0.282748JJ-0.253864BS C2=0.314445TJ+0.284992SG+0.253402XX-0.321956XS+0.269220TS Cluster Structure Cluster 1 2 AGE -.764387 -.543839 TJ 0.519746 0.747887 SG 0.438921 0.677836 XX 0.313525 0.602701 XS -.221198 -.765752 TS 0.115617 0.640323 CK 0.632961 0.414644 BJ 0.861055 0.289621 JJ 0.926285 0.363380 BS -.831661 -.332602 类结构相当于因子分析中的因子模型,即每个标准化变量可以表示成全部类成分的线性组合。如:AGE=-0.764387C1-0.543839C2。 Inter-Cluster Correlations Cluster 1 2 1 1.00000 0.47031 2 0.47031 1.00000 No cluster meets the criterion for splitting. 类内相关就是类成分之间的相关系数。此时已达到隐含的停止分裂的临界值,停止分裂。 ① ② ③ Total Proportion Minimum Number Variation of Variation Proportion of Explained Explained Explained Clusters by Clusters by Clusters by a Cluster 1 4.290718 0.4291 0.4291 2 5.654444 0.5654 0.4757 第①列表示分成一类与两类时分别能解释的总方差量;第②列表示分成一类与两类时分别能解释的方差占全部10个变量的总方差的百分比;第③列表示分成一类与两类时由1个类成分能解释的方差占全部10个变量的总方差的最小百分比。 ① ② ③ Maximum Minimum Maximum Number Second R-squared 1-R**2 Ratio of Eigenvalue for a for a Clusters in a Cluster Variable Variable 1 1.666142 0.1079 . 2 0.911631 0.3632 0.7238 第①列为各类中最大的第2特征值;第②列为各类中1个变量与其所在类成分的最小相关系数的平R2;第③列为各类中(1-R2)own/(1-R2) next的最大比值。参见前面关于“R-squared with own cluster 、next cluster”部分输出结果及其解释。 Oblique Centroid Component Cluster Analysis 60 Observations PROPORTION = 0.75 10 Variables MAXEIGEN = 0 Oblique Centroid Component Cluster Analysis R-squared with Own Next 1-R**2 Variable Cluster Closest Ratio Cluster 1 TJ 0.7991 0.2978 0.2861 CK 0.7991 0.3119 0.2920 Cluster 2 XS 1.0000 0.1725 0.0000 Cluster 3 BJ 0.9130 0.4428 0.1561 JJ 0.9130 0.6504 0.2487 Cluster 4 XX 1.0000 0.1622 0.0000 Cluster 5 BS 1.0000 0.5932 0.0000 Cluster 6 TS 1.0000 0.1725 0.0000 Cluster 7 SG 1.0000 0.2022 0.0000 Cluster 8 AGE 1.0000 0.3815 0.0000 No cluster meets the criterion for splitting. 上述主要结果是由第2个过程步输出的。 Oblique Principal Component Cluster Analysis 60 Observations PROPORTION = 1 10 Variables MAXEIGEN = 0 R-squared with Own Next 1-R**2 Variable Cluster Closest Ratio Cluster 1 BJ 0.8166 0.2582 0.2472 JJ 0.9162 0.3359 0.1262 BS 0.8013 0.2143 0.2529 Cluster 2 TJ 0.6381 0.4199 0.6239 XS 0.6774 0.1469 0.3782 TS 0.5469 0.0709 0.4876 Cluster 3 SG 0.7013 0.2547 0.4007 XX 0.7013 0.1067 0.3343 Cluster 4 AGE 0.7792 0.3298 0.3294 CK 0.7792 0.1771 0.2682 这是第3个过程步输出的主要结果。 Oblique Centroid Component Cluster Analysis 60 Observations PROPORTION = 1 10 Variables MAXEIGEN = 0 R-squared with Own Next 1-R**2 Variable Cluster Closest Ratio Cluster 1 SG 0.7013 0.2374 0.3916 XX 0.7013 0.1392 0.3470 Cluster 2 AGE 0.6075 0.5235 0.8238 XS 0.4801 0.1725 0.6283 BS 0.5562 0.5019 0.8909 Cluster 3 TS 1.0000 0.1018 0.0000 Cluster 4 TJ 0.5368 0.3965 0.7676 CK 0.5720 0.2783 0.5931 BJ 0.6357 0.3369 0.5493 JJ 0.7015 0.4689 0.5621 这是第4个过程步输出的主要结果。 [专业结论] 结合专业知识发现:由第3个过程仓类的结果比较合理,即第1类中含BJ(步距)、JJ(步行时双下肢夹角)、BS(步速)这三个与走步有关的变量;第2类中含TJ(图片记忆)、XS(心算时间)、TS(图形顺序记忆)这三个与记忆、计算有关的指标;第3类中含SG(数字广度记忆)、XX(心算位数)这两个与记忆、计算有关的指标;第4类中含AGE(年龄)、CK(穿孔)这两个与视力和协调能力有关的指标。分类的结果将有助于研究者对影响人脑老化本质的认识,为进一步从事这方面的研究提供了一些线索。 参考: http://www.1000tj.com/HP/20100126/OTD53149.shtml首先将你的数据中亏橡导入到SAS软件中(如果数据少可枝晌以在数据步手工录入);
其次我们在SAS编辑器中输入如下代码(即过程步):
proc cluster data=cluster method=single ccc pseudo outtree=tree*cluster是数据集名称
var x1-x3
proc tree data=tree horizontal spaces=1
run
剩下的就是对结果的猛空锋分析了
评论列表(0条)