用户画像是建立在一系列真实数据之上的目标用户模型,通过调查、数据采集等一系列手段采取用户信息,了解用户,并根据他们的目标、行为和观点,将他们区分为不同的类型,抽取出每种类型的特征,形成不同的群体。简单来说,用户画像就是根据用户社会属性、生活习惯和消费行为等信息而抽象出的一个标签化的用户模型。构建用户画像的核心的工作,是给用户贴“标签”,标签是通过对用户信息分析而来的高度精炼的特征标识。在大数据时代,用户画像已经成为用户分析和用户研究的最为重要的方法之一,我们需要特别注意的是用户画像要建立在真实的数据之上,同时,用户画像也处在不断的修正和变化中,总之,用户画像是在客户营销、产品设计、风险管理等的过程
用户画像涵盖数据的全生命周期,主要包括数据采集、数据清洗、数据标准化、用户建模、标签挖掘、标签验证、可视化等几大步骤。
数据采集
数据收集的方式方法,对数据的有效性影响很大,线上一般采用“监控、跟踪”,线下一般采用用户调研等,很多公司都有自己的CRM系统,或者有智能采集系统日志的工具,常用的采集方式包括API、SDK和传感器采集等,当然也可以通过想挖掘什么特征来反推需要的数据源。
数据清洗
原始数据因为存在“脏数据”,主要为缺失值、异常值、错误值等,为了避免“垃圾进垃圾出”的问题,保证后期数据分析和数据挖掘的准确性,避免对决策造成误导,必须对数据进行清洗等预处理。
数据标准化
用户画像的建立需要整合多元数据,如一个用户的信息可能分布在企业人事、财务等多个系统,互联网的用户也可用使用PC、手机、IPAD等多个设备,用为QQ、微信、陌陌等过个社交账号,要建立用户画像,需要整合这些数据,就必须通过建立统一的数据标准,整合多个身份ID及其信息。
用户建模
通过逻辑回归、时间序列等预测算法,SVM、贝叶斯等分类、聚类算法、LDA等文本挖掘方法以及欧式距离、余弦相似度等定义人群的用户画像。
标签挖掘
用户标签按照不同的粒度,可以分为一级标签、二级标签、三级标签等。根据专业经验和模型找出用户标签,通过大数据平台进行标签的加工和计算。
标签验证
通过样本外验证或后续实践案例不断验证标签挖掘结果的正确性,对偏离预期的标签要及时修正,保证标签对应的处理结果跟预期大体相符。
数据可视化
通过报表、图表、SNA等视觉呈现群体或个人的用户画像,达到清晰直观的效果。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)