本文主要包含以下几个部分
互联网大数据时代,消费者的一切行为都是“可视化”。
企业聚焦于怎样 利用大数据 来精准营销。于是“用户画像”
概念也就应运而生。
1.数据真实
用户画像必须建立在真实的数据之上。比如你的理财产品的注册用户有很多垃圾用户,都不怎么投资,做用户画像的时候就要把这部分人清洗掉。
2.标签化 (标签要言简意赅:易理解、短)
按产品需要,给不同的 用户特征 贴上合适的标签。如地域标签“北京”等等。
3.低交叉率 (完整性、独立性)
4.优先级(多个用户画像需要进行优先级排序)
一个产品的用户画像 不能超过三个 ,当有多个用户画像时,需要考虑优先级,否则产品设计时会无所适从。
5.不断修正
刚开始做产品可以通过 调研+竞品分析 的方式猜测用户是什么样的人群,实际做出来可能有点偏差,然后修正,当产品数据更丰富的时候,可能用户画像又需要修正。
用户画像就是用户信息标签化,所以我们可以通过以下步骤进行用户画像。
1.数据挖掘
以电商为例,为了抓取用户的 人口属性 和 行为轨迹 ,先预设用户购物时的可能行为。包括访问首页、注册登录、搜索商品、浏览商品、价格对比、加入购物车、收藏商品、提交订单、支付订单、使用优惠券、查看订单详情、取消订单、商品评价等。
2.筛选标签
根据用户画像的目的,筛选静态标签、动态标签。
静态标签主要从用户 基本信息 进行用户划分。静态属性是用户画像建立的基础。如性别、年龄、学历、角色、收入、地域、婚否、性格等。
动态标签指用户在互联网环境下的 上网行为 。如访问行为(搜索、注册、登录)社交行为(邀请、添加、取关好友、加入群、新建群)信息发布行为(添加、发布、删除、留言、分享)等。动态标签能更好的记录用户日常的上网偏好。
3.数据建模
数据建模就是给用户的行为标签 赋予权重 。
用户的行为,我们可以用4W表示:Who、When、Where、What。谁在什么时候在哪里做了什么。
数据建模实例: 华为用户
A用户今天在华为官网购买了华为手机
B用户7天前在京东浏览了华为手机
先说说“用户画像”这个词,它对应的英文有两个:Personas 和 User Profile。Personas 属于交互设计领域的概念,不在本文讨论范围内,请出门右转去找交互设计师们聊,留下来的人,我们聊聊 User Profile 这种用户画像。
User Profile 原本用于营销领域。营销人员需要对营销的客户有更精准的认识,从而能够更有针对性地对客户和市场制定营销方案。
这个理念本身没有错,但是有一个问题:传统营销领域,是以市场销售人员为第一人称视角去看待客户的,也就是用户画像为营销人员服务。
在这种用途下谈论的用户画像,和我们即将在推荐系统领域谈论的相差有点大;但是很遗憾,今天在媒体上看到的大多数“用户画像”案例分享,都停留在这个意思上。
比如最常见的用户画像出现在高大上的 PPT 上:用标签云的方式绘制一个人的形状,或者在一个人物形象旁边列出若干人口统计学属性,以此来表达“用户画像”这个概念。
看上去非常酷炫,但是我得悄悄告诉你一个赤裸裸的真相:越酷炫的用户画像越没什么用。
既然是给机器看的,那么画像是不是酷炫、是不是像、维度是不是人类可读,都不重要。那它到底是个什么样子呢?先别急,听我慢慢讲。
一个推荐系统来到这个世界上,它只有一个使命,就是要在用户(User)和物品(Item)之间建立连接。
一般方式就是,对用户和物品之间的匹配评分,也就是预测用户评分或者偏好。推荐系统在对匹配评分前,则首先就要将用户和物品都向量化,这样才能进行计算。
而根据推荐算法不同,向量化的方式也不同,最终对匹配评分的做法也不同,在后面讲到具体推荐算法时你会看到这一点。
用户向量化后的结果,就是 User Profile,俗称“用户画像”。所以, 用户画像不是推荐系统的目的,而是在构建推荐系统的过程中产生的一个关键环节的副产品。
另外,通常大型推荐系统一般都分为召回和排序两个阶段,这个在后面我会专门讲到。
因为全量物品通常数量非常大,无法为一个用户(User)逐一计算每一个物品(Item)的评分,这时候就需要一个召回阶段,其实就是预先筛选一部分物品(Item),从而降低计算量,用户画像除了用于最终匹配评分,还要用在召回。所以,构建用户画像就要以这两个阶段为目的。
举个例子,我想去吃点夜宵,楼下有五家大排档,那么从推荐系统的思路来看,我怎么选择呢?
首先就是将五家大排档向量化,我暂定向量的维度有:
现在每一个大排档都有一个向量,我自己也要有一个对应的向量,就是你有多看中这三个元素:
这样一来就可以对五家大排档做匹配打分了,你很容易得出哪家大排档最适合。
假如我的向量是:
价格: 3 种类: 5 味道: 5
这就是一个大排档推荐系统的简单用户画像了,是不是很简单!
这里可以简单计算一下:每一个因素相乘后再相加,就得到每一个大排档的评分了。
接下来我来围绕这个大排档推荐系统的用户画像,看看建立用户画像的关键因素: 第一个是维度,第二个是量化。
首先我先来说说“维度”。
看前面这个例子,我定下来的几个维度:价格、种类、味道。这几个维度有三个特点:
当我们去给每一个大排档计算评分时,想象你是一台计算机,你读取了用户画像的“价格”取值为 3,再去取出一个大排档的“价格”评分,两者相乘,用户画像的维度“价格”和大排档的“价格”天然匹配上了。
因为是同一个名字;但是计算机很傻,你把大排档的这个维度换成“价钱”,它就不知道该如何是好了。
另一方面,对这三个维度,把两边同时换成 1、 2、3 或者 a、b、c 都是可以的,也不影响计算结果,计算机依然能够匹配上;所以用户画像的维度不一定需要人类能够理解,只要计算机能把两边对应上就可以了。
假如是根据用户的阅读历史挖掘阅读兴趣标签,那么我们无法提前知道用户有哪些标签,也就不能确定用户画像有哪些维度,所以第二点也不是必须的。
因为这一点也不是必须的,用户画像的维度个数可以不用确定。理论上来说维度越多,画像越精细,但带来的计算代价也是很大的,需要权衡。
虽然这里以标签作为例子,但是你要注意,用户画像是向量化结果,而不是标签化。标签化只是向量化的一种,因为向量的维度不一定需要人理解。
我们这里的量化都是主观的,而在实际生产系统上,用户画像每个维度的量化,应该交给机器,而且以目标为导向,以推荐效果好坏来反向优化出用户画像才有意义,像这里这个简单的例子,没有去管推荐效果而先行主观量化了每一个维度,是大忌。
所以用户画像的量化是和第三个关键元素“效果”息息相关的。前面已经说过,不要为了用户画像而用户画像,它只是推荐系统的一个副产品,所以要根据使用效果(排序好坏、召回覆盖等指标)来指导用户画像的量化。
再来整体说说怎么构建用户画像,按照对用户向量化的手段来分,用户画像构建方法分成三类:
直接使用原始数据作为用户画像的内容,如注册资料等人口统计学信息,或者购买历史,阅读历史等,除了数据清洗等工作,数据本身并没有做任何抽象和归纳。这就跟查户口一样,没什么技术含量,但通常对于用户冷启动等场景非常有用。
方法就是堆积历史数据,做统计工作,这是最常见的用户画像数据,常见的兴趣标签,就是这一类,就是从历史行为数据中去挖掘出标签,然后在标签维度上做数据统计,用统计结果作为量化结果。这一类数据贡献了常见的酷炫用户画像。
就是用机器学习方法,学习出人类无法直观理解的稠密向量,也最不被非技术人员重视,但实际上在推荐系统中承担的作用非常大。
比如使用潜语义模型构建用户阅读兴趣,或者使用矩阵分解得到的隐因子,或者使用深度学习模型学习用户的 Embedding 向量。这一类用户画像数据因为通常是不可解释,不能直接被人看懂。
我会在后面专门讲解这些技术手段,以及它们在推荐系统中的实际使用。
现在总结一下今天的内容:
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)