现实中,事物之间的联系是错综复杂的,而事物之间的关系可以看作两类:一类是 函数关系 ,一类是 相关关系 。函数关系指的是变量间 一一对应 的确定关系,相关关系指的是两个变量之间存在的不确定的 数量关系 。
相关分析主要研究相关关系。
在进行相关分析前,最好先绘制 散点图 ,以初步判断变量之间是否存在相关趋势、该趋势是否为直线趋势。
相关分析中最常用的是二元变量的相关分析,即 简单相关分析 ;
三个及三个以上变量之间的关系称为 复相关 ,研究一个因变量和两个自变量之间的关系;
控制一个变量研究其他两个变量之间的关系称为 偏相关 ;
不是通过相关系数,而是通过相似性或距离描述变量之间的关系的方法称为 距离相关分析 。
不同类型的变量数据,应采用不同的相关分析方法。 Pearson相关 适用于数值变量; Spearman相关 和 Kendall's tau-b相关 适用于顺序变量;对于分类变量,一般采用 列联表 的方式进行χ²检验的方法研究其相关性。
Pearson相关系数适用于测度两数值的相关性。数值变量的特点是取值用数字表示,即可以进行运算而计算出差异的大小。则样本相关系数计算公式为:
在实际问题中,样本的相关系数计算具有随机性,因此需要对其进行显著性检验。
在X、Y均服从正态分布,及原假设(ρ=0)为真时,统计量
服从自由度为n-2的T分布。
Spearman相关系数又称 秩相关系数 ,适用于测度两顺序变量(等级、秩次)的相关性。 它对原始变量的分布不做要求 ,属于非参数统计方法。通俗地讲,“顺序变量”就是变量的排序等级,如1-非常不满意,2-满意,3-非常满意等。
由于Spearman相关系数可以套用Pearson相关系数的公式,在此不再重复计算式和统计量公式。值得一提的是,当n>30时,检验统计量也可以近似的用
来计算。
Kendall相关系数有3种形式,它也是测度两顺序变量的相关性。采用的仍是 非参数 的方法,它利用变量值的秩数据,计算 同序对 数目U和 异序对 数目V。
对Kendall相关系数也需要进行显著性检验。如果n≤30,可以直接利用等级相关统计量表,SPSS会自动给出相伴概率值P。如果n>30,检验统计量也可以用近似服从正态分布的Z值计算:
步骤:分析->相关->双变量,选入需要分析的变量,如图:
在“相关系数”框组中,默认的是Pearson相关系数,也可以根据需要选择Spearman相关系数和Kendall's tau-b相关系数。
输出结果:
由此可见,在001的显著性下,交易量和响应时间的相关性显著。一个 表示005的显著性;2个 表示001的显著性。
在很多情况下,当影响某个变量的因素过多时,常假定其中某些因素不变,考察其他因素的影响。
偏相关分析 假定变量之间的关系均为线性关系 ,没有线性关系的变量不能进行偏相关分析。因此在进行偏相关分析之前,可以先通过计算Pearson相关系数来考察线性关系。
步骤:分析->相关->偏相关,选入需要分析的变量和需要控制的变量,如图:
输出结果:
由表可知,在排除了成功率的干扰后,相关系数0650<0899,可见简单相关分析有夸大的成分。交易量和响应时间的相关性属于弱相关。
简单相关分析和偏相关分析都是研究两个变量之间的 线性关系 ,但由于实际问题的复杂性,我们可以通过距离相关分析来考察变量之间是否具有 相似性 ,进而研究相关关系。
距离相关分析一般不单独使用,而是作为聚类分析和因子分析等统计方法的 预分析过程 。
步骤:分析->相关->距离,选入需要分析的所有变量,如图:
此时我们先选用“基于变量间”计算距离,选取相似性,默认为Pearson相关系数。
一般而言,考察变量之间的相似性采用相似性测度;而对于样本之间的相似性采用不相似性测度。
输出结果:
输出结果为3个变量间的相似度矩阵。可以看出交易量和响应时间的相关系数同前计算结果一致。也可以进行变量间的相关程度计算。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)