快速分箱方法

快速分箱方法,第1张

2018.08.02

R语言中有smbining可以进行最优分箱,python中分箱如果既要考虑箱体个数,分箱后信息量大小,也要考虑单调性等其他因素。

这里给出一种简单的通过IV值来选择如果分箱的方法

下面是按照分位数来分的,还可以按照卡房分箱,决策树分箱等。

参照toad(由厚本金融开发的较标准的评分卡开发开源包)的分箱方式。

分箱处理三种方法:不一致;重复;含噪声;维度高。

RFM分箱化的方法有2种,嵌套和独立。两种方法的区别是,同等等分的重要性是不同的。举例说明,A和B购物次数相同,但A最近一次是在本月5号购物的,B在本月1号购物。

采取嵌套的方法,B的F得分可能是0.2*5=1分;独立时,B的F得分可能是1.0*5=5分(下图中的最后一行)。一句话,嵌套时F得分的重要性会受到因子R时间的影响,而独立时不受影响。可以参考下图来理解。

分别用三种不同的分箱法求出平滑存储数据的值:

按箱平均值求得平滑数据值:箱1: 8,8,8,平均值是8,这样该箱中的每一个值被替换为8。

按箱中值求得平滑数据值:箱2: 18,18,18 ,可以使用按箱中值平滑,此时,箱中的每一个值被箱中的中值替换。

按箱边界值求得平滑数据值: 箱3:25,25,67,箱中的最大和最小值被视为箱边界。箱中的每一个值都被最近的边界值替换。

通过不同分箱方法求解的平滑数据值,就是同一箱中3个数的存储数据的值。

清洗数据有三个方法,分别是分箱法、聚类法、回归法。

1、分箱法

是一个经常使用到方法,所谓的分箱法,就是将需要处理的数据根据一定的规则放进箱子里,然后进行测试每一个箱子里的数据,并根据数据中的各个箱子的实际情况进行采取方法处理数据。

2、回归法

回归法就是利用了函数的数据进行绘制图像,然后对图像进行光滑处理。回归法有两种,一种是单线性回归,一种是多线性回归。单线性回归就是找出两个属性的最佳直线,能够从一个属性预测另一个属性。多线性回归就是找到很多个属性,从而将数据拟合到一个多维面,这样就能够消除噪声。

3、聚类法

聚类法的工作流程是比较简单的,但是 *** 作起来确实复杂的,所谓聚类法就是将抽象的对象进行集合分组,成为不同的集合,找到在集合意外的孤点,这些孤点就是噪声。这样就能够直接发现噪点,然后进行清除即可。

扩展资料:

数据清洗从名字上也看的出就是把“脏”的“洗掉”,指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。

因为数据仓库中的数据是面向某一主题的数据的集合,这些数据从多个业务系统中抽取而来而且包含历史数据,这样就避免不了有的数据是错误数据、有的数据相互之间有冲突,这些错误的或有冲突的数据显然是我们不想要的,称为“脏数据”。

我们要按照一定的规则把“脏数据”“洗掉”,这就是数据清洗。而数据清洗的任务是过滤那些不符合要求的数据,将过滤的结果交给业务主管部门,确认是否过滤掉还是由业务单位修正之后再进行抽取。

不符合要求的数据主要是有不完整的数据、错误的数据、重复的数据三大类。数据清洗是与问卷审核不同,录入后的数据清理一般是由计算机而不是人工完成 。

参考资料来源:百度百科-数据清洗


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/yw/11842731.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-19
下一篇 2023-05-19

发表评论

登录后才能评论

评论列表(0条)

保存