OneEntity方法论-概述

OneEntity方法论-概述,第1张

OneEntity方法论-概述 oneEntity OneEntity概述

因为全球数据量的激增,企业会从多终端、全渠道采集到的表现形式多种多样的数据,与人有关的实体数据最少有三种类型:①业务账号信息;②PC端cookie、无线设备标志;③身份属性信息。

每天都有大量实体数据产生且分布在不同的业务单元中,这些数据天然就有被孤立的可能性。且不同业务单元出于自身发展需求来看,不同团队肯定是出于自身需求建设自有数据体系。但全局上便形成了数据孤岛。

OneEntity方法论用来打破数据孤岛,进行数据融合。

OneEntity统一实体

我们将若干个实体归拢到一起并命名为OneEntity。归拢虽然有据可依,但是不可能与现实世界一模一样,因此只可能是“无限逼近”。在此过程中,根据实体归拢的效果及能够贴上“特定标签”,OneEntity在理论上可以分为一般质量OneEntity、高质量OneEntity、高价值OneEntity。

高质量OneEntity就是可以贴上特定标签的OneEntity,一般质量OneEntity则是无法贴上特定标签的OneEntity,而高价值OneEntity则是在高价值OneEntity上提出更多要求,不仅能用标签来精准刻画,还要可精准触达。

不管在什么场景里,高价值OneEntity是所有人追求的,而怎么在海量数据中发现高价值OneEntity,很多技术人员都在做这样的探索。

GProfile全域标签

获取数据后,我们对数据进行“贴标签”。假设归拢前是1000亿条与“人”相关的实体,如果归拢为50个OneEntity,那么平均每个OneEntity有20条数据,如果归拢到10亿个OneEntity,每个OneEntity就有100条数据,100条数据刻画的OneEntity和20条数据刻画的OneEntity,效果孰强孰弱是很明显的。

GRelation全域关系

当OneEntity刻画到足够程度,如果是“人”的OneEntity,则可以找出他的亲属、朋友、校友等等;如果是“商品”的OneEntity,则可以找到他的上下游等等。

GBehavior全域行为

在现实世界中不可能实现通过一个实体了解这个实体的行为明细。而在融通数据世界里,就有望实现以OneEntity为核心将实体和行为全部串联起来。这样就可以支撑标签画像、任务关系刻画。

而这样通过建设OneEntity实体,串联实体行为形成“以用为本”的OneEntity体系,包含OneEntity、GProfile、GRelation、GBehavior。

通过一个人的简历来分析,一份简历通常会包含如下几个部分:

姓名、邮箱、地址等。这些是人们在现实世界中的唯一标志,就像OneEntity代表着人在大数据世界中的唯一标志。籍贯、年龄、政治面貌、宗教信仰等。这些是人们在现实生活中的一系列标签画像,就像GProfile代表着人们在大数据世界里的标签画像。天生或后天产生的一系列关系,如父母、子女、夫妻等,就像GRelation代表着人们在大数据世界里的各种关系。从小到大的履历。比如学籍情况、工作经历,这些是人们在现实生活中的行为轨迹,就像GBehavior代表着人们在大数据世界里的各种行为轨迹。 GProfile

在实现OneEntity体系中,如何为OneEntity贴上标签是当前最重要和最常见的问题,他对于OneEntity分级有重要意义。

GProfile将“人”的立体刻画划分为“人的核心属性”和“人的向往和需求”两大部分,具体包括四大类。

人的核心属性分为自然属性和社会属性。

自然属性是指人的肉体存在及其特征,是人出生后自然存在的,且不会出现较大的改变。社会属性是指人的实践活动基础上产生的一切社会关系的总和。人一旦进入社会就会产生社会属性。

人的向往与需求分为兴趣偏好和行业消费偏好。

兴趣偏好是人对非物化对象的内在心理向往与外在行为表达。是发自内心的兴趣或偏好。行业消费偏好则是人对物化对象与外在行业表达,与物质世界有千丝万缕的关系。

在四类标签的基础上,可以尝试根据不同业务进一步细分为二级分类和三级分类。这样对标签进行分类,管理,并提供服务时,标签分类的合理性和易用性方面面临的挑战越来越少。

除了更好的管理和使用标签,如何高效的萃取标签也是关键。标签的萃取工作至少包括:数据收集、数据清洗、降噪;反复试用并确认最佳算法及模型;为模型选择计算因子并分配权重;最后输出标签质量评估报告。

这样的过程及其损耗高端人力,且周期漫长。

以OneEntity体系为核心,将OneEntity相关的实体及其行为全部串联起来,与存量标签一起作为数据源。将萃取标签逻辑沉淀为两种,分别对应“偏好类标签”和“分类预测类标签”的工具型产品的生产过程中,其中包含确认计算因子以及权重等业务规则、选择数据样本、选择算法和模型等。沉淀质量评估报告和生产检测、上线等管理流程。

欢迎分享,转载请注明来源:内存溢出

原文地址: https://outofmemory.cn/zaji/5709412.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-12-18
下一篇 2022-12-17

发表评论

登录后才能评论

评论列表(0条)

保存