怎么用spss找出异常值

怎么用spss找出异常值,第1张

怎么用spss找出异常值?我们知道,在一个数据量很少的表格中,检查其中的数据是否有误,可以简单浏览一遍基本都能发现。但是当数据流量非常庞大的时候,仍然人工审核显然不现实。这时候,我们就可以借助spss来处理这些极端值、错误值。
工具原料电脑spss160
方法/步骤分步阅读
1
/9
打开spss软件。
2
/9
为了方便讲解,我们可以自定义输入一组含有错误值的数据,比如大学生的身高。我们知道正常人的身高在3米以内,如果偏高太多,显然就是我们所说的极端值、错误值。
3
/9
上面只是罗列了一个简单的数据组,但在spss中,无论数据的多少,查找极端值、错误值的处理方法都是一样,数据越多越能体现spss的优势。明白这一点之后,在上方的工具栏依次点击“Analyze”(分析)——“Descriptive Statistics”(描述统计)——“Descriptive ”(描述)。
4
/9
选中左侧方框的变量,点击中间的箭头按钮,将变量移动到右边的方框。
5
/9
点击右上角的“options”(选择)按钮,勾选如图所示的选项,分别代表:均值、标准差、最小值、最大值、变量列表。
6
/9
勾选“Save standardized values as variables”(将标准化数据保存为变量),点击“ok”。
7
/9
从生成的统计分析结果表格中,我们可以看到数据组中的极值,即极小值和极大值,其中极小值是135,很明显,这样的身高属于正常值,但是420显然大大超出了大学生的正常身高范围,所以可以认定,这是一个极端值、错误值。
8
/9
当然,仅仅从极小值和极大值来处理数据表中的极端值、错误值是远远不够的,因为有些数据表包含的极端值、错误值往往不止一个。那么这是就要返回到数据窗口,由于经过了上一个步骤的 *** 作,这时候数据表中新生成了一组标准化数据“Z大学生身高cm”。
9
/9
“Z大学生身高cm”实际上是衡量正态分布的一个标准化数据,服从正态分布的数据,应该分布在正负三个标准差以内,这时候,我们就可以通过观察“Z大学生身高cm”变量中,有哪些数字是小于-3或者大于3的,同样指向了“420”这一行,这就是我们要找的极端值、错误值。

在A6单元格贴入以下公式,其他数组依次再往右拉公式即可
=IF(ABS(MAX(A1:A5)-MEDIAN(A1:A5))>ABS(MIN(A1:A5)-MEDIAN(A1:A5)),MAX(A1:A5),MIN(A1:A5))

SPSS处理缺失值步骤如下:

1、第一步,打开spss系统,在菜单栏中依次选择“分析”|“缺失值分析”命令,如下图。

2、第二步,进行相应的设置,设置主要包括以下几个方面的设置:1)“定量变量”列表框;2)“分类变量”列表框;3)“个案标签”;4)使用所有变量按钮。

3、第三步,设置模式,单击”模式“按钮,d出模式对话框,用来设置显示输出表格中的缺失数据模式和范围。设置描述,单击”描述“按钮,d出描述对话框,在此设置要显示的缺失值描述统计变量。

4、第四步,设置完成之后,单击”确定“,输出结果。

以上就是SPSS处理缺失值的方法。

当您在SPSS中使用替换文本功能时,如果要替换的文本与变量的格式或类型不匹配,就会出现“格式或类型不匹配”的错误。这通常是因为您尝试将一个不同类型的值或格式替换为另一个变量的格式或类型。
例如,如果您有一个字符串类型的变量,例如“性别”,并且您尝试将其替换为数字类型的值“1”或“2”,则会发生此错误。同样,如果您尝试将一个包含字母的变量替换为数字,则也会出现此错误。
要解决此问题,您可以采取以下步骤:
确保您要替换的文本与目标变量的格式或类型匹配。例如,如果目标变量是字符串,则要替换的文本也应该是字符串。
如果要将字符串转换为数字或其他格式,请先将其转换为相应的格式或类型,然后再进行替换。
在替换文本之前,可以使用“变量视图”或“数据视图”中的“转换数据类型”功能,将变量类型更改为要替换的文本类型。
确认要替换的文本是否正确,并且要替换的变量和值是否正确。
如果上述步骤不能解决问题,您可以尝试重新构建数据集或联系SPSS技术支持获取更多帮助。

没什么好办法,只能做散点图,看哪个点在大家都拟合的范围外特别离谱,也就是outlier的点,你把鼠标放点上就会显示那个个体的名字,或者根据横轴和竖轴是值来排除,比如只有一个特别两三个点在图上看起来离别的特别远,你发现正好都是x大于100的,你就去给你的数据排序下,把大于100的都删了

异常值处理的常用方法:直接将该条观测删除在SPSS软件里有2种不同的删除方法,整条删除和成对删除。

Gn——格拉布斯检验统计量:

确定检出水平α,查表(见GB4883)得出对应n,α的格拉布斯检验临界值G1-α(n)。

当Gn>G1-α(n),则判断Xn为异常值,否则无异常值。

给出剔除水平α’的G1-α’(n),当当Gn>G1-α’(n)时,Xn为高度异常值,应剔除。

测区混凝土强度标准差:

取检出水平α为5%,剔除水平α’为1%,按双侧情形检验,从附表中查得检出水平α对应格拉布斯检验临界值G0975,剔除水平α’对应格拉布斯检验临界值G0995。

若Gn>Gn’,且Gn>G0975,则判断fn为异常值,否则,判断无异常值;

若Gn>Gn’,且Gn>G0995,则判断fn为高度异常值,可考虑剔除;

若Gn’>Gn,且Gn’>G0975,则判断f1为异常值,否则,判断无异常值;

若Gn’>Gn,且Gn’>G0995,则判断f1为高度异常值,可考虑剔除。

百度百科-异常值

介于近来太多人问我SPSS,特别做了以下整理(悄悄地告诉你,就是我不想一次次现场教学了),只涉及最基础的SPSS分析,望有所帮助。

1、安装

链接: >

或者找我要u盘。

另附教程,链接: >   提取码:6xds

安装完成后,将crackrar解压,把文件内lservrc移动到SPSS安装目录,(即用替换相关文件的方式来破解程序),完成后就可以开始SPSS之旅了。

2、数据导入

先把实验数据转换到表格。

以txt文本导入为例,excel内部点打开,找到你要的txt所在文件夹,将文件类型改成所有文件,打开,根据txt内容把各列分割开即可。

接着在excel上进行数据整理,将因变量列成一列,把不同自变量分开。

对数据进行一定筛选,删除异常值。

将所有的汉字替换为数字,如将男替换为1,将不同处理也用1234表述。

打开SPSS,文件-导入数据-excel。

注意,打开excel后,在工作表行选中你要的sheet,一般默认sheet1。

3、数据探索

对数据进行描述性统计,以求得数据的基础信息。

以探索为例。

分析-描述统计-探索,在图选项框上“含检验的正态图”做正态检验,(当然,正态检验可以直接用K-S检验,具体 *** 作为分析-非参数检验-旧对话框-单样本K-S),以判断使用何种方法做差异检验,如显著性<005,则代表不成正态分布,使用非参数检验;反之,使用参数检验。观察Q-Q图,若数据整体呈直线,但因为首尾部分参差不齐,可以具体分析形成原因,再按比例做数据筛选(可以回到分析-描述统计-频率-统计观察),使得数据呈现正态分布。

4、数据分析

在分析之前,最重要的是提一个好问题,即弄清你要研究什么?

41、数据正态分布,参数检验(分析-比较平均值)

以下举例数据可能存在问题,望忽略,看大致步骤。

411、单样本t检验

探讨的是x是否来源于总体,即x和正常值是否存在差异。

举例,如图,被试1的反应时间是否异于常人?那么这个时候就可以用单样本t检验。

点击分析-比较平均值-单样本t检验

如果已知正常人的反应时间平均值为700,那么我们就在检测值上输入700,点确定,SPSS就会自动计算并分析700。

再看sig(双尾)判断显著性水平,如果<005,则说明存在差异,即被试1不是普通人,反之,被试1很正常。

注:就是n>30,它也依旧可以用t检验,我们所说的z检验只是特殊的t检验而已。

412、配对样本t检验

探讨的是对同一被试/相匹配的一对被试经处理后是否相同,比如说想探讨你吃药前和吃药后,是不是一样疯癫。

举例。

点击分析-比较平均值-成对样本t检验

具体分析同上

413、独立样本t检验

使用前,注意将数据各个变量分别整理成一列,如性别一列,职业一列,成绩一列。

探讨的是俩样本间是否存在差异。比如男女间在x上是否有差异,南北方在x上是否有差异。敲重点,只能是两样本,如果性别除了男女还多出个中性,就要用单因素方差分析了,因为已经是三个独立样本了。

举例,男女在反应时上是否存在差异呢?

点击分析-比较平均值-独立样本t检验,得到下图。

在莱文方差等同性检验中,判断方差是否齐性,看对应显著性,为0016<005,即说明不齐性。这个时候我们就要看第二行数据,即不假定齐方差行。如果>,则说明齐方差,就按照等方差来。再看sig(双尾)判断显著性水平,如果<005,则说明存在差异,即男女在反应时上有所不同。

414、单因素方差分析

探讨一个自变量(学历)的不同水平(大一、大二、大三)对因变量是否有影响。

举例,不同刺激类型(1、2、3、4)在反应时上是否有差异?

点击分析-比较平均值-单因素ANOVA检验,

看显著性,同上,发现有差异。那问题来了,具体是怎样的差异?进行多重比较,即看下一个表格,关注显著性一列,找<005的值,对应纵横列,可得,1-2;2-3有差异。

注:如果方差分析得到的显著性>005,就说明自变量不影响因变量就没有必要看多重比较了。

415、多因素方差分析

可是我的研究,不只是一个变量在变啊,我想看多个变量对因变量有什么影响,怎么办?一个个做单因素方差分析吗?但如果这些变量互相之间影响怎么办?

这就是多因素的好处,它探讨的是多自变量(学历、性别……)对因变量是否有影响。

举例,男女和刺激类型怎样影响反应时间?

点击分析-一般线性模型-单变量

得到图,然后看显著性,发现只有刺激类型项有差异,且刺激类型和性别无交互作用(刺激类型男女项0363>005,即性别不会影响到刺激类型的效应)。具体再看多重比较,同上。

42非正态分布,非参数检验

具体和41类似,点击分析-非参数检验-旧对话框

两个独立样本检验类似于的独立样本t检验,k个独立样本检验类似单因素方差分析

两个相关样本检验类似于的配对样本t检验,k个相关样本检验类似于多次处理同一样本,看不同处理的差异。

5、以上只是非常入门的教程,笔者也只是初学者,水平有限,抖胆整理,如有错误,望指出。

最后提一嘴,重要的不是SPSS这个工具,而是统计。


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/yw/12956300.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-29
下一篇 2023-05-29

发表评论

登录后才能评论

评论列表(0条)

保存