列联表又称交互分类表,所谓交互分类,是指同时依据两个变量的值,将所研究的个案分类。交互分类的目的是将两变量分组,然后比较各组的分布状况,以寻找变量间的关系。
这里是按两个变量交叉分类的,该列联表称为两维列联表,若按3个变量交叉分类,所得的列联表称为3维列联表,依次类推。3维及以上的列联表通常称为“多维列联表”或“高维列联表”,而一维列联表就是频数分布表。
列联表的结构
二维列联表
r * c 列联表
观察值的分布
百分比分布
期望频数的分布
假设检验
独立性检验
假设观察频数与期望频数没有差别,而统计量χ2值表示二者间的偏离程度。
相关系数
ψ相关系数
皮尔逊定义的列联系数
V相关系数
Fisher精确检验
卡方统计量是近似的,而Fisher精确检验使用的是超几何分布。
相对危险度(Relative Risk, RR)
参考下面的SPSS实例
优势比(Odds Ratio, OR)
参考下面的SPSS实例
Kappa一致性检验
在数据分析中,比较两种预测方法预测结果的一致性用到Kappa检验。
配对χ2检验
通过Kappa检验,解决了两种测量间究竟有无关联的问题,但是通过列联表的观察,发现两位顾问的评价是否不太一致,这种假设又如何来加以分析呢?
McNemar配对χ2检验 就是经典的配对检验,专门用于解决这类问题。
分层χ2检验
分层χ2检验是把研究对象分解成不同层次,按各层对象来进行行变量与列变量的独立性研究。Statistics中Cochran’s and Mantel-Haenszel statistics会自动给出结果。
分层χ2检验是一种很好的控制其他因素的方法,使分析者能得到更准确的结果。如果数据量足够大 ,还可以引入更多的分层因素加以控制。 但是,和SAS中的CMH χ2不同,SPSS提供的CMH χ2检验只能进行二分类变量的检验,而不能进行多分类变量的检验。
检验比较
χ2检验
假设观察频数与期望频数没有差别,而统计量χ2值表示二者间的偏离程度。
卡方检验方法的适用条件
关联程度的度量
χ2检验从定性的角度分析是否存在相关行,而各种关联指标(相对危险度RR与优势比OR)从定量的角度分析相关的程度如何。
Kappa一致性检验与配对χ2检验
Kappa一致性检验对两种方法结果的一致程度进行评价,而配对χ2检验则用于分析两种分类方法的分类结果是否有差异。
分层χ2检验
分层χ2检验是把研究对象分解成不同层次,按各层对象来进行行变量与列变量的独立性研究。Statistics中Cochran’s and Mantel-Haenszel statistics会自动给出结果。
SPSS分析
菜单
Analyze ->Descriptive Statistics ->Crosstabs
实例一:卡方检验和风险评估
数据集(site.sav)
某公司实行数据库营销,其杂志销售部每个月向数据库中的人们发送征订邮件,但是回应率极低。他们希望找到一种好的方法来定位潜在的客户,只向这些客户发放邮件,从而节省人力物力。数据库中的资料包括:个人一般信息(年龄、性别、婚姻状况、收入、受教育水平及是否退休等),个人行为特征(主要交通工具、有无手机、呼机、电视、CD及是否订阅报纸)。另外,在发送邮件后,还有一个变量也加入到了数据库中:是否对邮件进行回应,即是否在邮件的提示性进行杂志购买。经研究发现,报纸订阅与邮件发送有相关性。该部门经理想了解报纸订阅者回应邮件的概率是非订阅者的几倍。
参数设置
统计量
结果分析
交叉制表
列联表分析表明,并没有太多人对杂志的邮件做出回应,但是其中订阅人占了较大比例。
卡方检验
p值为0.000,故认为订阅报纸与邮件回应是相关的。那么报纸订阅者的回应概率是未订阅者的多少倍呢?通过计算RR来解决。
风险估计
对于报纸订阅者而言,邮件响应的相对危险度是其回应概率与非报纸订阅者的回应概率的比值,其估计值是(380/2768) / (299/3632) = 13.7% / 8.2%=1.668,表明报纸订阅者对邮件的响应概率是非报纸订阅者的1.668倍。 或者说报纸订阅者对邮件的无响应的概率是非报纸订阅者的0.94倍。
而优势比即一个事件的Odds Ratio是它发生的概率除以不发生的概率
实例二:Kappa一致性检验和配对卡方检验
数据集(site.sav)
某公司期望扩展业务,增开几家分店,但对开店地址不太确定。于是选了20个地址,请两位资深顾问分别对20个地址作了一个评价,把它们评为好、中、差三个等级,以便确定应对哪些地址进行更进一步调查,那么这两位资深顾问的评价结果是否一致。
参数设置
统计量
结果分析
交叉制表
Kappa一致性检验
Kappa检验的原假设:Kappa=0,即两者完全无关。结果显示Kappa=0.478,P<0.05,拒绝原假设,认为两位顾问的评价结果存在一致性。
配对卡方检验
Kappa一致性检验对两种方法结果的一致程度进行评价,而配对χ2检验则用于分析两种分类方法的分类结果是否有差异。
此处原假设:两顾问的评价结果无差别,而p=0.072>0.05,故接受原假设,认为基本上相同
实例三:分层卡方检验
数据集(cmh.sav)
某零售连锁店对3家分店的客户满意度进行了调查,数据见cmh.sav,其中一项指标是在购物时是否经常向店员寻求帮助,现希望分析寻求帮助与性别有无联系。
统计结果
未分层的卡方检验
将gender和contact分别作为行变量和列变量,并做χ2检验,p<0.05,认为两者间有联系。
因为每家分店的结果可能不一样,上面的卡方检验收到分店因素的影响可能不准确,需要根据分店进行分层统计。
但是分层因素在几个组之间的分布不均,既可能削弱了原本存在的行变量与列变量间的关系,也可能使得原本不存在关系的两个变量关系呈现统计学显著性。
按分店分层卡方检验
可以看到分店的卡方检验并无显著性(p >0.05),说明每个分店的寻求帮助与性别之间没有强关联。
但是,由于分层后样本量大大减小,这究竟是因为检验效能不足导致的无差异,还是真的无差异?
为此可以使用Cochran’s and Mantel-Haenszel χ2检验来分析。这种方法可以在考虑了分层因素的影响后给出检验结果。
Cochran’s and Mantel-Haenszel χ2检验
首先给出的是层间差异的检验,即考察不同层间gender与contact的联系是否相同。
原假设H0: 分店之间的联系是相同的。
p = 0.638说明,在不同分店层间, gender与contact的联系是相同的。
调整了分层因素作用后的综合OR值=0.636,即去除了不同分店的混杂效应后,和女性相比,男性顾客寻求帮助的优势比为0.636,或者说更不容易寻求帮助。
http://www.cnblogs.com/cm186man/archive/2008/03/10/1098896.htmlCHM”格式帮助文件制作软件Far使用
制作CHM格式的工具有很多,Far是其中非常优秀的一款,而且已经有了比较好的汉化版本,因此我们选择用它来制作CHM格式文档。
1、默认情况下,启动Far时,系统会自动对我们机器的软件环境做一个检查,以决定能够支持的即将输出的文档格式。
2、启动完成后,单击工具栏上方的“添加Web”(Add all Web files found in a selected folder and its sub folders)按钮来建立一个文件列表。在d出的对话框中选择包含页面文件和图片文件的文件夹,单击“OK”按钮(图片和页面文件最好存放在同一文件夹下面),此时出现一个对话框,告诉你当前文件夹下面的文件总数和HTML文件数。并询问是否只加入HTML文件,如果你的页面文件未包含图片和其他多媒体文件,请选择“Yes”,否则选择“No”。
此时所选文件夹下面的文件应该出现在窗口显示区。单击“保存列表”按钮即可将此列表保存在磁盘上。需要说明的是,这个“添加Web”的过程支持拖放式 *** 作,我们随时可以按下“F4”功能键打开资源管理器,找到需要添加的文件所在的文件夹,直接用鼠标拖动到该窗口显示区来完成这项 *** 作。
图1
3、准备好了文件列表,我们就可以正式开始制作CHM文件了。单击工具栏中的“快递(HTML Help Express)”按钮,d出如图1所示的对话框,这里我们只需设置好目标文件的位置及文件名、帮助窗口的标题,选择一个文件作为首页面即可。注意一点,帮助窗口的标题也就是我们在最后的成品CHM文件中看到的标题文字,应该反映整个CHM文件的主题,大家一定要设置好。软件一般能够根据所添加的文件夹的名字来进行设置,如果不满意,可以自由更改。
4、设置好上面几个参数后,必须要先将文件预编译一遍才可以设置文档的界面参数。单击图1中的“创建帮助(Creat help)”按钮,会d出一个确认对话框,选择“是”则用Far文件列表创建帮助,如选“否”,则自动搜索选择目录中的HTML文件来创建。接下来软件会自动编译文件,最后在d出的窗口中报告编译信息。
5、点击“关闭”,这时我们可以看一看我们自己的成果了!单击“查看帮助(View help)”按钮即可。如果你对做好的CHM帮助文档的形式或内容不太满意,比如窗口的类型、窗口中工具栏中显示的工具的数量甚至是遗漏的部分文件等等,怎么办?细心的读者朋友可能已经注意到了,图1的右下角还有一个“高级编辑(Advanced Edit)”按钮,接下来的工作我们几乎都要通过这里的功能来设置。
图2
6、单击“高级编辑(A)”按钮,d出“HH方案编辑器”窗口,点选左边树状选项中的“面板”选项,如图2。在这里,从导航和工具栏面板的宽度、位置,到设置它们的自动隐藏,初始时是否关闭等,你都可以根据自己的喜好进行自由的设置。下面我们看看如何改变文档外观的设置。
7、单击窗口左边的“工具栏(Toolbar)”(“面板”的下方)。此时右边刷新选项中左下方的诸复选框就是定制窗口工具栏中显示的工具的数量的。另外还有如“Jump x(跳转到x页面)”、“Search(搜索)”选项,需要者可以勾选相应选项并进行相应设置。
8、如果你一开始没有规划好帮助文档的内容,没关系,现在还可以向列表中添加文件,甚至是将另外一个CHM帮助文件合并过来都可以。单击窗口左边选项中的“[Files]”,再单击右上角的“选项”按钮,怎么添加文件应该不用我说了吧。呵呵!也许你可以做更多的设置修改。
9、怎样把自己做的几个CHM合并到一起呢?单击左边的“[Merge Files]”,同样再单击“选项”按钮。
10、OK,选项我们都设置完了,保存后,再次回到图1窗口中点击“创建帮助”再重新创建一次即可。
在这里我们只是给大家介绍了如何进行CHM格式帮助的简易制作过程,其实Far还有很多很好的功能,大家可以自己试试。
卡方检验最初由统计天王Karl Pearson于1900年提出,是三大抽样分布的检验里历史最悠久的。本文从以下几点谈一谈卡方检验的用途(其中第二点算是第一点的补充):Pearson's chi squared test(Pearson卡方检验)
Yates's correction for continuity(耶茨的连续性修正)
Fisher's exact test(Fisher确切概率法)
McNemar's test(McNemar检验)
Cochran–Mantel–Haenszel test(CMH检验)
Chi-square goodness of fit test(卡方拟合优度检验)
卡方检验之R和SAS的实现:https://zhuanlan.zhihu.com/p/140449013
1.Pearson's chi squared test(Pearson卡方检验)
由著名统计学家Karl Pearson提出,广泛应用于分类变量(categorical data)的独立性检验中,也可用于分类变量的比较检验中。这两种检验都需要用到R×C列联表(R×C contingency table),其中R表示行(Row),C表示列(Column)。本文只讨论行列变量都是无序变量的情形,最简单的情形是行与列都是二分类无序变量,这样的数据也称为四格表资料。
对于分类变量的比较检验,如下例,某种癌症化疗只有两种疗法:单纯化疗和复合化疗,且没有顺序;其疗效只有缓解和未缓解两类,且没有顺序,现要根据样本数据检验这两种化疗疗效有无差异:
\begin{array}{c|c}\end{array}\begin{array}{c|c}\text{疗法\疗效}&\text{缓解}&\text{未缓解}&\text{总和}\\\hline\text{单纯化疗}&a&b&a+b\\\hline \text{复合化疗}&c&d&c+d\\\hline\text{总和}&a+c&b+d&n\end{array}
对于分类变量的独立性检验,如下例,从某总体中经过简单随机抽样获得的频数数据,性别只分男女两类,且没有顺序;研究色盲问题时只有色盲和正常两类,也没有顺序,现要根据样本数据检验色盲与性别是否独立(也即色盲与性别有无关系):
\begin{array}{c|c}\text{性别\视觉}&\text{正常}&\text{色盲}&\text{总和}\\\hline\text{男}&a&b&a+b\\\hline \text{女}&c&d&c+d\\\hline\text{总和}&a+c&b+d&n\end{array}
一般来说,利用Pearson's chi squared test对R×C列联表进行检验的理论上的要求:
样本来自简单随机抽样。
各个格子是相互独立的。
样本量应尽可能大。总观察数应不小于40,且每个格子的频数应大于等于5(否则应考虑其他的检验方法,后面会讲到)。
依据样本数据计算出的理论频数应不小于5(关于什么是理论频数,马上就会讲到)
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)