小微数字风控必学-冷启动开发风险评分(含实 *** )

小微数字风控必学-冷启动开发风险评分(含实 *** ),第1张

小微数字风控必学-冷启动开发风险评分(含实 *** )

新产品上线,往往只能使用规则进行审批与授信。能不能拦住风险是一回事,老板报以不信任的目光更使得风控从业人员倍受挫折。我们提供一个迁移学习风险评分开发方案,尝试在冷启动阶段就完成风险评分的开发。

假定某家金融机构已有成熟贷款产品XFD,打算向市场投放面向小微企业主的新产品XWD。建模人员通过数据分析发现,已有借款客户里面,只有27.2%的客户是小微企业主,基于少量目标样本开发的模型可能不适用。

产品A数据样本:

开发过程如下:
1)为了让模型兼顾效果和稳定性,考虑把非小微企业主的样本加入是一个不错的选择。但是非小微企业主和小微企业主客户画像有很大差异,例如公积金、社保等信息无法作为小微企业主风险区分的显著特征。所以,在开发模型之前,需要先对非小微企业主的样本进行修剪,把特征和小微企业主“类似”的样本加入到建模当中。
2) 首先进行数据清洗,观察到数据有部分字符型变量,我们可以根据业务经验进行特征转换。例如身份z前4位分别是客户户籍所在地省份和城市,我们可以使用当前工作地进行加工,衍生“户籍和工作地是否一致“等衍生变量。


3)其次,我们使用IV值作为标准进行数据清洗,并整理成WOE值输出。

4)到这里我们开始进行样本修正。修正的方法首先是从业务出发制定硬策略把不符合要求的样本剔除。
例如:
1、剔除职业为公务员、教师、都市白领;
2、剔除存量已通过审批但未借款的客户;
3、剔除公积金有正常缴纳客户等。其次可以使用非监督的方法把非小微企业主中具有与小微企业主特征相同分布的客户找出来;

实 *** 代码如下:

【备注:上述代码省略数据清洗部分】

5) 从上述代码可以看到,使用K-MEANS的分类方法归纳了4个类别,其中小微企业主客户样本(即数据集 loanProduct为3)在类别0占比最大。我们把类别0里面非小微企业主客户样本放到建模样本中训练。

实 *** 代码如下:

6)这时候样本经过专家经验和数据分布归纳方法,我们把“更像”非小微企业主的样本“整合到建模样本中后,使用常规方法开发出来的模型。另外,上述问题也可以使用TrAdaBoost等迁移学习的方法解决,从实 *** 看,效果没有使用上述方法得到的模型符合业务逻辑,有需要深入了解的同学可以在知识星球提问。
另外关于本文进一步的实 *** 内容,更有相关的数据集提供给大家练习,相应的实 *** 代码也可以同步到星球学习。

详细的数据可以到星球进行下载学习:

更多详细内容,可关注:

~原创文章

end

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zaji/5700696.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-12-17
下一篇 2022-12-17

发表评论

登录后才能评论

评论列表(0条)

保存