spss 怎么设置缺失值?

spss 怎么设置缺失值?,第1张

和大多数应用软件相同,SPSS中数据文件的管理功能基本上都集中在了File菜单上,该菜单的组织结构和WORD等也极为相似,因此这里我们只介绍比较有特色的几个菜单项。
SPSS 100有三个主要窗口界面:数据管理窗口、程序编辑窗口和结果浏览窗口;另有两个不常用的窗口:结果草稿浏览窗口和VBs脚本语言编辑窗口。他们共享许多菜单项,如File菜单就大部分相同,这里介绍的许多内容在五个窗口中都是通用的。
211 新建数据文件
如果你正从头开始进行一个新的课题,刚刚把数据收集上来,要做统计分析,自然需要新建一个数据库,然后将所有的数据从纸上请到计算机里。在SPSS中,新建一个数据库容易的不得了--已经到了什么都不用做的地步!是这样,当你进入SPSS系统时,系统就已经生成了一个空数据文件,即你看到的空白的数据管理界面。你只要按自己的需要定义变量,输入数据然后存盘就是了(这些 *** 作马上会讲到)。
212打开其他格式的数据文件
凡是做过数据输入工作的人都知道:这活又费眼睛又累人,出错太多了还要挨批评,非常影响个人的光辉形象。算了,还是在有限的经费里划几百美元出来雇个打字吧(怎么用美元?因为我请了个老外!)。可是非常不幸,该同志只会用EXCEL 2000(又是一个被微软成功洗脑的家伙),数据现已输好,怎么转成SPSS数据文件呢?没关系,SPSS提供了以下几种方法来打开其他格式的数据文件。
2121 直接打开
SPSS现在可以直接读入许多格式的数据文件,其中就包括EXCEL各个版本的数据文件。选择菜单File==>Open==>Data或直接单击快捷工具栏上的“”按钮,系统就会d出Open File对话框,单击“文件类型”列表框,在里面能看到直接打开的数据文件格式,分别是:
SPSS(sav) SPSS数据文件(60~100版)
SPSS/PC+(sys) SPSS 40版数据文件
Systat(syd) syd格式的Systat数据文件
Systat(sys) sys格式的Systat数据文件
SPSS portable(por) SPSS便携格式的数据文件
EXCEL(xls) EXCEL数据文件(从50版~2000版)
Lotus(w) Lotus数据文件
SYLK(slk) SYLK数据文件
dBase(dbf) dBase系列数据文件,(从dBase II~IV)
Text(txt) 纯文本格式的数据文件
data(dat) 纯文本格式的数据文件
选择所需的文件类型,然后选中需要打开的文件,SPSS就会按你的要求打开你要使用的数据文件,并自动转换为数据SPSS格式。
也许有视力好的朋友会注意到右下方除了“打开”和“取消”两个按钮外,中间还有一个“Paste”按钮,该按钮在SPSS的大多数对话框中都存在,是用于自动生成SPSS程序的,我们以后会专门讲解该问题。
2122 使用数据库查询打开
SPSS可以直接打开许多类型的数据文件,但这并不是说它可以打开所有类型的数据文件(废话),比如FoxPro 30以上版本的dbf文件就不能直接打开(有兴趣的话你可以试试)。为此,SPSS还提供了另一个适用范围更广、但使用上较为专业的数据接口--数据库查询。
实际上,SPSS在这里使用的是一种叫ODBC(Open Database Capture)的数据接口,该接口被大多数数据库软件和办公软件(如MS Office)支持,通过它,应用程序可以直接访问以结构化查询语言(SQL)做为数据访问标准的数据库管理系统。
由于SPSS 100可以直接打开EXCEL所有系列的数据文件,因此数据库查询接口的用处不是很大。但是,在90及以前的版本中,该查询仍是直接打开EXCEL 95、97及2000数据文件的唯一办法。
ODBC数据引擎是独立与各种应用软件,直接安装到Windows系统中的,因此你所用的系统中ODBC所支持的数据类型取决于所安装的ODBC引擎的情况。还好,大多数支持该接口的软件都会在安装光盘上附送该引擎的安装文件(如MS Office)。不过有一点要提醒大家,许多机器的OBDC数据引擎安装有问题(尤其是D版),在SPSS中使用它往往要死机。
选择菜单File==>Open Database==>New Query,系统会d出数据库向导的第一个窗口,其中会列出你使用的机器上已安装的所有数据库驱动程序,选中所需的数据源,然后单击下一步,向导会一步一步的提示你如何做,直至将数据读入SPSS。
我原来准备举一个具体例子,但后来发现不同版本的ODBC引擎所d出的对话框并不相同!不仅如此,不同的数据驱动程序其对话框也各不相同!比如说,有的需要你的LoginID和Password,有的又不需要,因此我这里就不再讲了。由于它使用上太专业(尤其在100版中,90版还好些),如果确实要用,请找一个对数据库接口比较熟的人来帮你。
2123 使用文本导入向导读入文本文件
选择菜单File==>Read Text Data,系统就会d出Open File对话框,对!和前面的情况完全一样,只是文件类型自动跳到了Text (txt)。实际上,该功能在SPSS中已被整合到了Open File对话框中之所以在菜单上保留该条目有两个原因:1 读入纯文本的情况非常普遍,放在这里更加醒目;2 为了和SPSS老版本的使用上保持兼容。
例21 现有一数据文件以纯文本的形式存为“c:\Li2_1txt”,且第一行为变量名,请将其读入SPSS。
解:在Open File对话框选中相应的文件名并单击“确定”,系统会自动启动文本导入向导对话框如下:
在SPSS 100中,该向导并没有重新设计,因此仍然有问题被截断无法显示完的情况出现。
可以看到该向导共分6步,这是第一步。中部为一对单选按钮,问题为“你的文本文件和预定义格式相一致吗?”,下方为按预定义格式读入的数据文件的预览。显然,SPSS的预定义格式并没有正确识别该文件。因此选择“No”并单击“下一步”,系统d出向导的下一个对话框如下:
最上方的问题是“你的变量是如何排列的?”,下面的选项分别为Delimite(用某种字符区分)和Fixed Width(固定宽度),一般都是Delimite,第二个问题是“变量名包括在文件最前面了吗?”,我们当然选“Yes”,单击“下一步”,系统d出第三个对话框:
最上方的句子意为“第一条记录从第几行开始?”,右侧可以输入行数。由于我们所用的数据 第一行为变量名,因此这里输入2。下面的问题是“你的记录是怎样存储在文件中的?”。可以是“每一行代表一条记录”,或者“每个变量代表一条记录”,数据一般都是第一种情况。下一个问题是“你想导入多少条记录?”,可以是“所有记录”、“前条”或“随机导入%的记录”。一般也选前者。单击“下一步”,第四个对话框如下:
我这里写的非常详细,但实际使用中你可以不管大多数问题,因为SPSS一般都能自动正确设置。
最上方的问题为“变量间用的是哪种分隔符?”,可选的有Tab键、空格、逗号、分号或自行定义的其他符号。本数据采用的是空格,可见系统已经自动识别并选择了空格,而下方的数据预览窗口显示出了正确的数据读入情况。单击“下一步”,第五个对话框如下:
上方的提示为“定义在数据预览窗口中所选择的变量。”。顾名思义,在这个对话框中你可以在数据预览窗口中选择某一列变量,然后更改其变量名和类型。当然,在这里我们不用这样做,直接单击“下一步”,系统d出文本导入向导的最后一个对话框如下:
最上面的问题为“你愿意保存这次的文件(读入)格式设置以备下次使用吗?”,第二个问题为“你是否愿意将以上 *** 作粘贴为SPSS语句?”,一般这两个问题我们都可以不管。单击“完成”,系统最终成功的读入了Li2_1txt。
213 保存数据文件
在对数据做了修改后,保存数据文件是必不可少的工作之一。选择菜单File==>Save,如果数据文件曾经存储过,则系统会自动按原文件名保存数据;否则,就会d出和选择Save as 菜单时相同的Save as对话框。里面可以保存的数据类型和可以打开的几乎一样多,选择合适的类型,确定就是了。
Save命令的快捷键为^S,如果你曾经领教过Windows死机的巨大潜力,那么你一定会同意习惯性的随手按^S至少不能算是一个坏习惯。
如果你准备将数据存为SPSS以外的其他类型,要注意有些设置可能会丢失,如标签和缺失值等。尤其是缺失值,如果想存的数据格式不

可使用 Select Cases (选择个案) 过程,筛选出所需的个案。
Data > Select Cases
选择 if condition is satisfied > if,输入条件
选择 Unselected Cases Are:Delete (删除)
上述 *** 作不建议在原数据文件中 *** 作,造成原始数据的丢失。

对于数据中出现的缺失值、离群值和极值,提供以下方法:
1、这些异常值可以全部删除,只留下完整、正常的数据;
2、对于缺失值,可以使用已有数据的平均值代替,或者用NULL等符号表示
3、对于离群值,要看分析内容。如果分析目的是监测异常为主,则重点考虑此类离群值,可能存在漏税、黑客攻击、赖账等问题。如果分析群体共性问题,则可以删除;
4、对于极值,可要考虑其范围;因为极值可能是准确的点,也有可能是异常点;

缺失值(missing data)大致上可分为三种型态,MNAR (missing not at random)指缺失值不是随机的,有可能是问卷的设计,比如说,年收入大于十万请回答A题,小于十万请回答B题,这类的缺失是设计上的,不能称作随机缺失另一种叫MAR(missing at random),指缺失和前面的回答有某些程度的相关,这类的缺失很难界定或测试,第三种叫MCAR(missing completely at random),这种就是称作随机的缺失,这种缺失和其它的数据完全是独立的第三种缺失相对的比较容易处理如果样本够大的话,把有缺失的样本完全去除,这种方法叫作listwise deletion如果能够确信样本的缺失值是MCAR,你又没有足够的样本的话,可用填补的方法(imputation)通常可填上平均值,或者回归的预测值,这两种方法都有它的缺点SPSS有个MISSING DATA MODULE,就是用EM(expectation and maximization)的填补,它的方法是把有同样缺失的样本放在同一组,计算它的covariance matrix,然後再跟据每组的样本数来较正它对整个样本的权重(weight),从这里再重新填补每个缺失值这重方法算是现在比较精确的缺失值填补的方法


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/yw/10431064.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-08
下一篇 2023-05-08

发表评论

登录后才能评论

评论列表(0条)

保存