因为全球数据量的激增,企业会从多终端、全渠道采集到的表现形式多种多样的数据,与人有关的实体数据最少有三种类型:①业务账号信息;②PC端cookie、无线设备标志;③身份属性信息。
每天都有大量实体数据产生且分布在不同的业务单元中,这些数据天然就有被孤立的可能性。且不同业务单元出于自身发展需求来看,不同团队肯定是出于自身需求建设自有数据体系。但全局上便形成了数据孤岛。
OneEntity方法论用来打破数据孤岛,进行数据融合。
OneEntity统一实体我们将若干个实体归拢到一起并命名为OneEntity。归拢虽然有据可依,但是不可能与现实世界一模一样,因此只可能是“无限逼近”。在此过程中,根据实体归拢的效果及能够贴上“特定标签”,OneEntity在理论上可以分为一般质量OneEntity、高质量OneEntity、高价值OneEntity。
高质量OneEntity就是可以贴上特定标签的OneEntity,一般质量OneEntity则是无法贴上特定标签的OneEntity,而高价值OneEntity则是在高价值OneEntity上提出更多要求,不仅能用标签来精准刻画,还要可精准触达。
不管在什么场景里,高价值OneEntity是所有人追求的,而怎么在海量数据中发现高价值OneEntity,很多技术人员都在做这样的探索。
GProfile全域标签获取数据后,我们对数据进行“贴标签”。假设归拢前是1000亿条与“人”相关的实体,如果归拢为50个OneEntity,那么平均每个OneEntity有20条数据,如果归拢到10亿个OneEntity,每个OneEntity就有100条数据,100条数据刻画的OneEntity和20条数据刻画的OneEntity,效果孰强孰弱是很明显的。
GRelation全域关系当OneEntity刻画到足够程度,如果是“人”的OneEntity,则可以找出他的亲属、朋友、校友等等;如果是“商品”的OneEntity,则可以找到他的上下游等等。
GBehavior全域行为在现实世界中不可能实现通过一个实体了解这个实体的行为明细。而在融通数据世界里,就有望实现以OneEntity为核心将实体和行为全部串联起来。这样就可以支撑标签画像、任务关系刻画。
而这样通过建设OneEntity实体,串联实体行为形成“以用为本”的OneEntity体系,包含OneEntity、GProfile、GRelation、GBehavior。
通过一个人的简历来分析,一份简历通常会包含如下几个部分:
姓名、邮箱、地址等。这些是人们在现实世界中的唯一标志,就像OneEntity代表着人在大数据世界中的唯一标志。籍贯、年龄、政治面貌、宗教信仰等。这些是人们在现实生活中的一系列标签画像,就像GProfile代表着人们在大数据世界里的标签画像。天生或后天产生的一系列关系,如父母、子女、夫妻等,就像GRelation代表着人们在大数据世界里的各种关系。从小到大的履历。比如学籍情况、工作经历,这些是人们在现实生活中的行为轨迹,就像GBehavior代表着人们在大数据世界里的各种行为轨迹。 GProfile
在实现OneEntity体系中,如何为OneEntity贴上标签是当前最重要和最常见的问题,他对于OneEntity分级有重要意义。
GProfile将“人”的立体刻画划分为“人的核心属性”和“人的向往和需求”两大部分,具体包括四大类。
人的核心属性分为自然属性和社会属性。
自然属性是指人的肉体存在及其特征,是人出生后自然存在的,且不会出现较大的改变。社会属性是指人的实践活动基础上产生的一切社会关系的总和。人一旦进入社会就会产生社会属性。
人的向往与需求分为兴趣偏好和行业消费偏好。
兴趣偏好是人对非物化对象的内在心理向往与外在行为表达。是发自内心的兴趣或偏好。行业消费偏好则是人对物化对象与外在行业表达,与物质世界有千丝万缕的关系。
在四类标签的基础上,可以尝试根据不同业务进一步细分为二级分类和三级分类。这样对标签进行分类,管理,并提供服务时,标签分类的合理性和易用性方面面临的挑战越来越少。
除了更好的管理和使用标签,如何高效的萃取标签也是关键。标签的萃取工作至少包括:数据收集、数据清洗、降噪;反复试用并确认最佳算法及模型;为模型选择计算因子并分配权重;最后输出标签质量评估报告。
这样的过程及其损耗高端人力,且周期漫长。
以OneEntity体系为核心,将OneEntity相关的实体及其行为全部串联起来,与存量标签一起作为数据源。将萃取标签逻辑沉淀为两种,分别对应“偏好类标签”和“分类预测类标签”的工具型产品的生产过程中,其中包含确认计算因子以及权重等业务规则、选择数据样本、选择算法和模型等。沉淀质量评估报告和生产检测、上线等管理流程。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)