如何利用spss统计软件进行回归模型的建立和分析

如何利用spss统计软件进行回归模型的建立和分析,第1张

多元线性回归
1打开数据,依次点击:analyse--regression,打开多元线性回归对话框。
2将因变量和自变量放入格子的列表里,上面的是因变量,下面的是自变量。
3设置回归方法,这里选择最简单的方法:enter,它指的是将所有的变量一次纳入到方程。其他方法都是逐步进入的方法。
4等级资料,连续资料不需要设置虚拟变量。多分类变量需要设置虚拟变量。
虚拟变量ABCD四类,以a为参考,那么解释就是b相对于a有无影响,c相对于a有无影响,d相对于a有无影响。
5选项里面至少选择95%CI。
点击ok。
统计专业研究生工作室原创,请勿复杂粘贴

生存分析最早可追溯至19世纪的死亡寿命表,但现代的生存分析则开始于20世纪30年代工业科学中的相关应用。第二次世界大战极大地提高了人们对武器装备可靠性的研究兴趣,这一研究兴趣延续到战后对武器装备及商品的可靠性研究。此时生存分析的大多数研究工作都集中在参数模型,直至20世纪60~70年代,随着医学研究中大量临床试验的出现,对于生存分析的研究开始转向非参数统计方法。现在,生存分析方法在各个领域得到了广泛的应用,而这一方法本身也得到了飞速发展。
生存分析广泛应用于生物医学、工业、社会科学、商业等领域,如肿瘤患者经过治疗后生存的时间、电子设备的寿命、罪犯假释的时间、婚姻的持续时间、保险人的索赔等。这类问题的数据特点是在研究期结束时,所要研究的事件还没有发生,或过早终止,使得要收集的数据发生缺失,这样的数据即称为生存数据。生存分析就是要处理、分析生存数据。
二、理论思想
我们前面所学习的方法,只关注研究结果与影响因素,并没有关注结局发生的时间,而时间是一个绕不开的因素,当我们将研究结局与结局发生的时间同时进行考虑时,就采用生存分析方法。
生存分析的一些基本概念:
生存时间:指从某个起始事件开始,到出现我们想要得到的终点事件发生所经历的时间,也称为失效时间。生存时间具有的特点:分布类型不确定,一般表现为正偏态分布;数据中常含有删失数据。SPSS中通常把完全数据的示性函数取值为0。
完全数据:指从事件开始到事件结束,观察对象一直都处在观察范围内,我们得到了事件从开始到结束的准确时间。
删失数据:指在研究分析过程中由于某些原因,未能得到所研究个体的准确时间,这个数据就是删失数据,又称为不完全数据。产生删失数据的原因有很多:在随访研究中大多是由于失访所造成的;在动物实验研究中大多由于观察时间已到,不能继续下去所造成的。SPSS中通常把删失数据的示性函数取值为1。
截尾数据:截尾数据和删失数据一样,提供的也是不完整信息,但与删失数据稍有不同的是它提供的是与时间有关的条件信息。SPSS软件只考虑对完全数据和删失数据的分析,对截尾数据不提供专门的分析方法。
生存概率:表示某单位时段开始时,存活的个体到该时段结束时仍存活的可能性。计算公式为:生存概率=活满某时段的人数/该时段期初观察人数=1-死亡概率。
生存函数:指生存函数指个体生存时间T大于等于t的概率,又称为累积生存概率,或生存曲线。S(t)=P(T>t)=生存时间大于等于t的病人数/随访开始的病人总数。S(t)为单调不增函数,S(0)为1,S(∞)为0。
半数生存时间:指50%的个体存活且有50%的个体死亡的时间,又称为中位生存时间。因为生存时间的分布常为偏态分布,故应用半数生存时间较平均生存时间更加严谨。
风险函数:指在生存过程中,t时刻存活的个体在t时刻的瞬时死亡率,又称为危险率函数、瞬时死亡率、死亡率等。一般用h(t)表示。h(t)=死于区间(t,t+∆t)的病人数/在t时刻尚存的病人数×∆t。
按照使用参数与否,生存分析的方法可以分为以下3种。
参数方法,数据必须满足相应的分布。常用的参数模型有:指数分布模型、Weibull分布模型、对数正态分布模型、对数Logistic分布模型、Gamma分布模型。
半参数方法,是目前比较流行的生存分析方法,相比而言,半参数方法比参数方法灵活,比非参数方法更易于解释分析结果。常用的半参数模型主要为Cox模型。
非参数方法,当被研究事件没有很好的参数模型可以拟合时,通常可以采用非参数方法进行生存分析。常用的非参数模型包括生命表分析和Kalpan-Meier方法。
目前生存分析最常用的方法即寿命表法、Kaplan-Meier法和COX回归法。
三、建立模型
寿命表分析的思路:
生命表反映的是一代人在整个生命历程中的死亡过程,即在某个特定的年龄段内有多少人死亡,通过计算可以得知人群在该时点的死亡概率为多少、预期寿命为多少等。
生命表的基本思想是将整个观测时间划分为很多小的时间段,对于每个时间段,计算所有活到某时间段起点的病例在该时间段内死亡(出现结局)的概率。
因此,当资料是按照固定的时间间隔收集(如一个月随访一次)时,随访结果只有该年或该月期间的若干观察人数、发生失效事件人数(出现预期观察结果的人数)和截尾人数(删失人数),每位患者的确切生存时间无法知道,就需要构造生命表进行分析。
生命表用于大样本,并且对生存时间的分布不限,是目前广泛应用的一种非参数分析方法。。
寿命表分析案例:
题目:下表数据文件记录了某保险公司各部门员工的在职情况,统计的部门有承保部、理赔部、人事部和理财部4个部门,其中“部门”变量中用数字1~4分别表示承保部、理赔部、人事部和理财部,“是否在职”变量中用1表示在职,0表示不在职,接下来本书将利用寿命表过程得出各个部门员工的“生存”(在职)情况。
一、数据输入
二、 *** 作步骤
1、进入SPSS,打开相关数据文件,选择“分析”|“生存分析”|“寿命表”命令2、从源变量列表框中选择“工作时间”变量,“时间”列表框中,然后设置时间区间的“0到(H)”值为60,“按(Y)”为3。
3、从源变量列表框中选择“是否在职”变量,选入“状态”列表框中,然后单击“定义事件”按钮,d出“寿命表:为状态变量定义事件”对话框。由于数据文件中用1表示事件发生,所以选中“单值”单选按钮,并在其后面的文本框中输入1,将取值为0的观测作为截断观测,单击“继续”按钮。
4、从源变量列表框中选择“部门”变量,选入“因子”列表框中,然后单击“定义范围”按钮,d出“寿命表:定义因子范围”对话框,在“最小值”文本框中输入1,在“最大值”文本框中输入4,单击“继续”按钮。
5、单击“选项”按钮,d出“寿命表:选项”对话框,选中“寿命表”和“生存分析”复选框,“比较第一个因子的级别”选项组采用默认设置。
6、其余设置采用系统默认值即可。单击“确定”按钮,等待输出结果。
四、结果分析
1、寿命表给出了员工在职年限寿命表输出结果(部分截选图)。该寿命表给出了4个部门对应时间内的在职和不在职员工数,并计算出员工在职比率等统计量。
2、生存分析时间中位数下表给出了4个部门员工的生存时间中位数,即生存率等于50%时,生存时间的平均水平。很明显,由图可知,该保险公司4个部门的员工有50%的员工在职时间超过60个月。
3、累计生存函数给出了4个部门员工是否在职累计生存函数图,它是对生命表的图形展示。由图可以清楚地看到,承保部和理财部两个部门员工累计生存率下降最快,理赔部员工累计生存率下降速度低于人事部员工。


欢迎分享,转载请注明来源:内存溢出

原文地址: https://outofmemory.cn/yw/12913559.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-28
下一篇 2023-05-28

发表评论

登录后才能评论

评论列表(0条)

保存