第二步,除了chi-square test和IV值还有变量相关性。相关性太严重会违背独立假设,当然做预测的话违背可以原谅。但变量太多的时候共线性严重可能导致软件报错进行不下去(猜题主用的SAS)。此外business sense常常起决定性作用。比如客户关系管理中,如果模型显示年龄贡献度很低,一般还是会把它放进去。
第三步,检验的参数。
1) c统计量,ROC曲线以下的面积,也叫AUC(area under curve)。在应用较成熟的领域比如xyk评分行业有稍微形成共识——大于或等于0.75——认为行为评分模型是可靠的。但针对marketing等其他领域的数据,这个阈值可以商榷。
2) Gini系数,可以同c统计量转化,G=2c-1。
3) 提升图(lift chart/gain table),其他名词累积提升图/洛仑兹曲线/收益曲线说的几乎同一种东西。通过和随机选择的效果比较模型好坏,随机就是不用模型。如果对目标数据已经建好了一小撮模型,可以画不同模型的提升效果来比较选最佳。
4) ks,响应变量0-1的曲线对比,二者之差画条线就是ks曲线。它的意义是模型把0和1区分开的能力。又比如marketing,前25%的人是预测的响应客户群,对这一群体进行精准营销既有效果又省成本。20~40参考一下就行。
最后,模型和参数实际意义还是要想想吧。很多人觉得logistic regression太简单,却连解释都不做,只一味看参数。看看出来的odds ratio和probability。
我们在学习机器学习的时候自然会涉及到很多算法,而这些算法都是能够帮助我们处理更多的问题。其中,逻辑回归是机器学习中一个常见的算法,在这篇文章中我们给大家介绍一下关于逻辑回归的优缺点,大家有兴趣的一定要好好阅读哟。首先我们给大家介绍一下逻辑回归的相关知识,逻辑回归的英文就是Logistic Regression。一般来说,逻辑回归属于判别式模型,同时伴有很多模型正则化的方法,具体有L0, L1,L2,etc等等,当然我们没有必要像在用朴素贝叶斯那样担心我的特征是否相关。这种算法与决策树、SVM相比,我们还会得到一个不错的概率解释,当然,我们还可以轻松地利用新数据来更新模型,比如说使用在线梯度下降算法-online gradient descent。如果我们需要一个概率架构,比如说,简单地调节分类阈值,指明不确定性,或者是要获得置信区间,或者我们希望以后将更多的训练数据快速整合到模型中去,我们可以使用这个这个算法。
那么逻辑回归算法的优点是什么呢?其实逻辑回归的优点具体体现在5点,第一就是实现简单,广泛的应用于工业问题上。第二就是分类时计算量非常小,速度很快,存储资源低。第三就是便利的观测样本概率分数。第四就是对逻辑回归而言,多重共线性并不是问题,它可以结合L2正则化来解决该问题。第五就是计算代价不高,易于理解和实现。
当然,逻辑回归的缺点也是十分明显的,同样,具体体现在五点,第一就是当特征空间很大时,逻辑回归的性能不是很好。第二就是容易欠拟合,一般准确度不太高。第三就是不能很好地处理大量多类特征或变量。第四个缺点就是只能处理两分类问题,且必须线性可分。第五个缺点就是对于非线性特征,需要进行转换。
那么逻辑回归应用领域都有哪些呢?逻辑回归的应用领域还是比较广泛的,比如说逻辑回归可以用于二分类领域,可以得出概率值,适用于根据分类概率排名的领域,如搜索排名等、逻辑回归的扩展softmax可以应用于多分类领域,如手写字识别等。当然,在信用评估也有逻辑回归的使用,同时逻辑回归可以测量市场营销的成功度。当然,也可以预测某个产品的收益。最后一个功能比较有意思,那就是可以预定特定的某天是否会发生地震。
我们在这篇文章中给大家介绍了关于机器学习中逻辑回归算法的相关知识,从中我们具体为大家介绍了逻辑回归算法的优缺点以及应用领域。相信大家能够通过这篇文章能够更好的理解逻辑回归算法。
都可以做预测,但它们之间不存在包含关系。逻辑回归用在二值预测,比如预测一个客户是否会流失,只有0-不流失,1-流失;线性回归用来进行连续值预测,比如预测投入一定的营销费用时会带来多少收益。欢迎分享,转载请注明来源:内存溢出
评论列表(0条)