如何获得P值logistic回归的火花mllib使用Java_软件运维

Logistic回归主要分为三类，一种是因变量为二分类得logistic回归，这种回归叫做二项logistic回归，一种是因变量为无序多分类得logistic回归，比如倾向于选择哪种产品，这种回归叫做多项logistic回归。还有一种是因变量为有序多分类的logistic回归，比如病重的程度是高，中，低呀等等，这种回归也叫累积logistic回归，或者序次logistic回归。

二值logistic回归：

选择分析——回归——二元logistic，打开主面板，因变量勾选你的二分类变量，这个衡谈没有什么疑问，然后看下边写着一个协变量。有没有很奇怪什么叫做协变量？在二元logistic回归里边可以认为协变量类似于自变量，或者就是自变量。把你的自变量选到协变量的框框里边。

细心的朋友会发现，在指向协变量的那个箭头下边，还有一个小小的按钮，标着a*b，这个按钮的作用是用来选择交互项的。我们知道，有时候两个变量合在一起会产生新的效应，比如年龄和结婚次数综合在一起，会对健康程度有一个新的影响，这时候，我们就认为两者有交互效应。那么我们为了模型的准确，就把这个交互效应也选到模型里去。我们在右边的那个框框里选择变量a，按住ctrl，在选择变量b，那么我们就同时选住这两个变量了，然后点那个a*b的按钮，这样，一个新的名字很长的变量就出现在协变量的框框里了，就是我们的交互作用的变量。

然后在下边有一个方法的下拉菜单。默认的是进入，就是强迫所有选择的变量都进入到模型里边。除去进入法以外，还有三种向前法，三种向后法。一般默认进入就可以了，如果做出来的模型有变量的p值不合格，就用其他方法在做。再下边的选择变量则是用来选择你的个案的。一般也不用管它。

选好主面板以后，单击分类（右上角），打开分类对话框。在这个对话框里历拦困边，左边的协变量的框框里边有你选好的自变量，右边写着分类协变量的框框则是空白的。你要把协变量里边的字符型变量和分类变量选到分类协变量里边去（系统会自动生成哑变量来方便分析，什么事哑变量具体参照前文）。这里的字符型变量指的是用值标签标注过得变量，不然光文字，系统也没法给你分析啊。选好以后，分类协变量下边还有一个更改对比的框框，我们知道，对于分类变量，spss需要有一个参照，每个分类都通过和这个参照进行比较来得到结果，更改对比这个框框就是用来选择参照的。默认的对肢念比是指示符，也就是每个分类都和总体进行比较，除了指示符以外还有简单，差值等。这个框框不是很重要，默认就可以了。

用Logistic

回归模型时的代码举例

logistic回归模型，主要是用来对多因素影响的事件进行概率预测，它是普通多元线性回归模型的进一步扩展，logistic模型是非线性模型。比如说我们曾经做过的土地利用评价，就分别用多元线性回归模型和Logistic模型进行试验。影响耕地的因素假设有高程、土壤类型、当地人口数量和GDP总量，把上述四种因素作为自变量，某块地是否为耕地的概率为P，即应变量。然后根据已经有的样本数据，求出logistic模型的系数，一般用最大似然法结合牛顿—拉斐逊法解系数，求出F(P)=G(高程，土壤，人口，GDP）的一个回归函数，即Logistic模型，然后把全地区的数据代入上式，求出每个地方是否为亏含耕地的概率，用来对土地利用的评价提供科学的依据。希望我的答案能让你满意，我以前就是做这方面研究的。

春满人间百花斗晌吐空空锋艳

福临小院四季常安

欢度春节

① 对每一个变量进行量化，并进行单因素分析

② 数据的离散化，对于连续性变量在分键拦巧析过程中常常需要进行离散变成等级资料。可采用的方法有依据经验进行离散，或是按照四分、五分位数法来确定等级，也可采用聚类方法将计量资料聚为二类或多类，变为离散变量。扩展资料

③ 对性质相近的一些自变量进行部分多因素分析，并探讨各自变量(等级变量，数值变量)纳入模型时的适宜尺度，及对自变量进行必要的变量变稿键换

④ 在单变量分析和相关自变量分析的.基础上，对 P ≤α(常取 0.2，0.15 或 0.3)的变量，以及专业上认为重要的变量进行多因素的逐步筛选模型程序每拟合一个模型将给出多个指标值，供用户判断模型优劣和筛选变量。可以采用双向筛选技术：a 进入变量的筛选用 score 统计量或 G 统计量或 LRS(似然比统计量)，用户确定 P 值临界值如：0.05、0.1 或 0.2，选择统计量显著且最大的变量进入模型b 剔除变量的选择用 Z 统计量 (Wald 统计量)，用户确定其 P 值显著性水平，当变量不显者，从模型中予以剔除。这样，选入和剔除反复循环，直至无变量选入，也无变量删除为止，选入或剔除的显著界值的确定要依具体的问题和变量的多寡而定，一般地，当纳入模型的变量偏多，可提高选入界值或降低剔除标准，反之，则降低选入界值、提高删除标准。但筛选标准的不同会影响分析结果，这在与他人结果比较时应当注意。

⑤ 在多因素筛选模型的基础上，考虑有无必要纳入变量的衡早交互作用项两变量间的交互作用为一级交互作用，可推广到二级或多级交互作用，但在实际应用中，各变量最好相互独立 (也是模型本身的要求)，不必研究交互作用，最多是研究少量的一级交互作用。

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/yw/12274786.html

如何获得P值logistic回归的火花mllib使用Java

发表评论

评论列表（0条）