知识图谱是什么?有哪些应用价值

知识图谱是什么?有哪些应用价值,第1张

知识图谱 (Knowledge Graph) 是当前的研究热点。自从2012年Google推出自己第一版知识图谱以来,它在学术界和工业界掀起了一股热潮。各大互联网企业在之后的短短一年内纷纷推出了自己的知识图谱产品以作为回应。比如在国内,互联网巨头百度和搜狗分别推出”知心“和”知立方”来改进其搜索质量。那么与这些传统的互联网公司相比,对处于当今风口浪尖上的行业 - 互联网金融, 知识图谱可以有哪方面的应用呢?

目录

1. 什么是知识图谱?

2. 知识图谱的表示

3. 知识图谱的存储

4. 应用

5. 挑战

6. 结语

1. 什么是知识图谱?

知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。

知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。

另外,对于稍微复杂的搜索语句比如 ”Who is the wife of Bill Gates“,Google能准确返回他的妻子Melinda Gates。这就说明搜索引擎通过知识图谱真正理解了用户的意图。

上面提到的知识图谱都是属于比较宽泛的范畴,在通用领域里解决搜索引擎优化和问答系统(Question-Answering)等方面的问题。接下来我们看一下特定领域里的 (Domain-Specific) 知识图谱表示方式和应用,这也是工业界比较关心的话题。

2. 知识图谱的表示

假设我们用知识图谱来描述一个事实(Fact) - “张三是李四的父亲”。这里的实体是张三和李四,关系是“父亲”(is_father_of)。当然,张三和李四也可能会跟其他人存在着某种类型的关系(暂时不考虑)。当我们把电话号码也作为节点加入到知识图谱以后(电话号码也是实体),人和电话之间也可以定义一种关系叫 has_phone,就是说某个电话号码是属于某个人。下面的图就展示了这两种不同的关系。

另外,我们可以把时间作为属性(Property)添加到 has_phone 关系里来表示开通电话号码的时间。这种属性不仅可以加到关系里,还可以加到实体当中,当我们把所有这些信息作为关系或者实体的属性添加后,所得到的图谱称之为属性图 (Property Graph)。属性图和传统的RDF格式都可以作为知识图谱的表示和存储方式,但二者还是有区别的,这将在后面章节做简单说明。

3. 知识图谱的存储

知识图谱是基于图的数据结构,它的存储方式主要有两种形式:RDF存储格式和图数据库(Graph Database)。至于它们有哪些区别,请参考【1】。下面的曲线表示各种数据存储类型在最近几年的发展情况。从这里我们可以明显地看到基于图的存储方式在整个数据库存储领域的飞速发展。这幅曲线图来源于 Graph DBMS increased their popularity by 500% within the last 2 years

下面的列表表示的是目前比较流行的基于图存储的数据库排名。从这个排名中可以看出neo4j在整个图存储领域里占据着NO.1的地位,而且在RDF领域里Jena还是目前为止最为流行的存储框架。这部分数据来源于 DB-Engines Ranking

当然,如果需要设计的知识图谱非常简单,而且查询也不会涉及到1度以上的关联查询,我们也可以选择用关系型数据存储格式来保存知识图谱。但对那些稍微复杂的关系网络(现实生活中的实体和关系普遍都比较复杂),知识图谱的优点还是非常明显的。首先,在关联查询的效率上会比传统的存储方式有显著的提高。当我们涉及到2,3度的关联查询,基于知识图谱的查询效率会高出几千倍甚至几百万倍。其次,基于图的存储在设计上会非常灵活,一般只需要局部的改动即可。比如我们有一个新的数据源,我们只需要在已有的图谱上插入就可以。于此相反,关系型存储方式灵活性方面比较差,它所有的Schema都是提前定义好的,如果后续要改变,它的代价是非常高的。最后,把实体和关系存储在图数据结构是一种符合整个故事逻辑的最好的方式。

4. 应用

在本文中,我们主要讨论知识图谱在互联网金融行业中的应用。当然,很多应用场景和想法都可以延伸到其他的各行各业。这里提到的应用场景只是冰山一角, 在很多其他的应用上,知识图谱仍然可以发挥它潜在的价值, 我们在后续的文章中会继续讨论。

反欺诈

反欺诈是风控中非常重要的一道环节。基于大数据的反欺诈的难点在于如何把不同来源的数据(结构化,非结构)整合在一起,并构建反欺诈引擎,从而有效地识别出欺诈案件(比如身份造假,团体欺诈,代办包装等)。而且不少欺诈案件会涉及到复杂的关系网络,这也给欺诈审核带来了新的挑战。 知识图谱,作为关系的直接表示方式,可以很好地解决这两个问题。 首先,知识图谱提供非常便捷的方式来添加新的数据源,这一点在前面提到过。其次,知识图谱本身就是用来表示关系的,这种直观的表示方法可以帮助我们更有效地分析复杂关系中存在的特定的潜在风险。

反欺诈的核心是人,首先需要把与借款人相关的所有的数据源打通,并构建包含多数据源的知识图谱,从而整合成为一台机器可以理解的结构化的知识。在这里,我们不仅可以整合借款人的基本信息(比如申请时填写的信息),还可以把借款人的消费记录、行为记录、网上的浏览记录等整合到整个知识图谱里,从而进行分析和预测。这里的一个难点是很多的数据都是从网络上获取的非结构化数据,需要利用机器学习、自然语言处理技术把这些数据变成结构化的数据。

不一致性验证

不一致性验证可以用来判断一个借款人的欺诈风险,这个跟交叉验证类似。比如借款人张三和借款人李四填写的是同一个公司电话,但张三填写的公司和李四填写的公司完全不一样,这就成了一个风险点,需要审核人员格外的注意。

再比如,借款人说跟张三是朋友关系,跟李四是父子关系。当我们试图把借款人的信息添加到知识图谱里的时候,“一致性验证”引擎会触发。引擎首先会去读取张三和李四的关系,从而去验证这个“三角关系”是否正确。很显然,朋友的朋友不是父子关系,所以存在着明显的不一致性。

不一致性验证涉及到知识的推理。通俗地讲,知识的推理可以理解成“链接预测”,也就是从已有的关系图谱里推导出新的关系或链接。 比如在上面的例子,假设张三和李四是朋友关系,而且张三和借款人也是朋友关系,那我们可以推理出借款人和李四也是朋友关系。

组团欺诈

相比虚假身份的识别,组团欺诈的挖掘难度更大。这种组织在非常复杂的关系网络里隐藏着,不容易被发现。当我们只有把其中隐含的关系网络梳理清楚,才有可能去分析并发现其中潜在的风险。知识图谱,作为天然的关系网络的分析工具,可以帮助我们更容易地去识别这种潜在的风险。举一个简单的例子,有些组团欺诈的成员会用虚假的身份去申请贷款,但部分信息是共享的。下面的图大概说明了这种情形。从图中可以看出张三、李四和王五之间没有直接的关系,但通过关系网络我们很容易看出这三者之间都共享着某一部分信息,这就让我们马上联想到欺诈风险。虽然组团欺诈的形式众多,但有一点值得肯定的是知识图谱一定会比其他任何的工具提供更佳便捷的分析手段。

异常分析(Anomaly Detection)

异常分析是数据挖掘研究领域里比较重要的课题。我们可以把它简单理解成从给定的数据中找出“异常”点。在我们的应用中,这些”异常“点可能会关联到欺诈。既然知识图谱可以看做是一个图 (Graph),知识图谱的异常分析也大都是基于图的结构。由于知识图谱里的实体类型、关系类型不同,异常分析也需要把这些额外的信息考虑进去。大多数基于图的异常分析的计算量比较大,可以选择做离线计算。在我们的应用框架中,可以把异常分析分为两大类: 静态分析和动态分析,后面会逐一讲到。

- 静态分析

所谓的静态分析指的是,给定一个图形结构和某个时间点,从中去发现一些异常点(比如有异常的子图)。下图中我们可以很清楚地看到其中五个点的相互紧密度非常强,可能是一个欺诈组织。所以针对这些异常的结构,我们可以做出进一步的分析。

- 动态分析

所谓的动态分析指的是分析其结构随时间变化的趋势。我们的假设是,在短时间内知识图谱结构的变化不会太大,如果它的变化很大,就说明可能存在异常,需要进一步的关注。分析结构随时间的变化会涉及到时序分析技术和图相似性计算技术。有兴趣的读者可以去参考这方面的资料【2】。

失联客户管理

除了贷前的风险控制,知识图谱也可以在贷后发挥其强大的作用。比如在贷后失联客户管理的问题上,知识图谱可以帮助我们挖掘出更多潜在的新的联系人,从而提高催收的成功率。

现实中,不少借款人在借款成功后出现不还款现象,而且玩“捉迷藏”,联系不上本人。即便试图去联系借款人曾经提供过的其他联系人,但还是没有办法联系到本人。这就进入了所谓的“失联”状态,使得催收人员也无从下手。那接下来的问题是,在失联的情况下,我们有没有办法去挖掘跟借款人有关系的新的联系人? 而且这部分人群并没有以关联联系人的身份出现在我们的知识图谱里。如果我们能够挖掘出更多潜在的新的联系人,就会大大地提高催收成功率。举个例子,在下面的关系图中,借款人跟李四有直接的关系,但我们却联系不上李四。那有没有可能通过2度关系的分析,预测并判断哪些李四的联系人可能会认识借款人。这就涉及到图谱结构的分析。

智能搜索及可视化展示

基于知识图谱,我们也可以提供智能搜索和数据可视化的服务。智能搜索的功能类似于知识图谱在Google, Baidu上的应用。也就是说,对于每一个搜索的关键词,我们可以通过知识图谱来返回更丰富,更全面的信息。比如搜索一个人的身份z号,我们的智能搜索引擎可以返回与这个人相关的所有历史借款记录、联系人信息、行为特征和每一个实体的标签(比如黑名单,同业等)。另外,可视化的好处不言而喻,通过可视化把复杂的信息以非常直观的方式呈现出来, 使得我们对隐藏信息的来龙去脉一目了然。

精准营销

“A knowledge graph allows you to take core information about your customer—their name, where they reside, how to contact them—and relate it to who else they know, how they interact on the web, and more”-- Michele Goetz, a Principal Analyst at Forrester Research

一个聪明的企业可以比它的竞争对手以更为有效的方式去挖掘其潜在的客户。在互联网时代,营销手段多种多样,但不管有多少种方式,都离不开一个核心 - 分析用户和理解用户。知识图谱可以结合多种数据源去分析实体之间的关系,从而对用户的行为有更好的理解。比如一个公司的市场经理用知识图谱来分析用户之间的关系,去发现一个组织的共同喜好,从而可以有针对性的对某一类人群制定营销策略。只有我们能更好的、更深入的(Deep understanding)理解用户的需求,我们才能更好地去做营销。

5. 挑战

知识图谱在工业界还没有形成大规模的应用。即便有部分企业试图往这个方向发展,但很多仍处于调研阶段。主要的原因是很多企业对知识图谱并不了解,或者理解不深。但有一点可以肯定的是,知识图谱在未来几年内必将成为工业界的热门工具,这也是从目前的趋势中很容易预测到的。当然,知识图谱毕竟是一个比较新的工具,所以在实际应用中一定会涉及到或多或少的挑战。

数据的噪声

首先,数据中存在着很多的噪声。即便是已经存在库里的数据,我们也不能保证它有100%的准确性。在这里主要从两个方面说起。第一,目前积累的数据本身有错误,所以这部分错误数据需要纠正。 最简单的纠正办法就是做离线的不一致性验证,这点在前面提过。第二, 数据的冗余。比如借款人张三填写公司名字为”普惠“,借款人李四填写的名字为”普惠金融“,借款人王五则填写成”普惠金融信息服务有限公司“。虽然这三个人都隶属于一家公司,但由于他们填写的名字不同,计算机则会认为他们三个是来自不同的公司。那接下来的问题是,怎么从海量的数据中找出这些存在歧义的名字并将它们合并成一个名字? 这就涉及到自然语言处理中的”消歧分析”技术。

非结构化数据处理能力

在大数据时代,很多数据都是未经处理过的非结构化数据,比如文本、图片、音频、视频等。特别在互联网金融行业里,我们往往会面对大量的文本数据。怎么从这些非结构化数据里提取出有价值的信息是一件非常有挑战性的任务,这对掌握的机器学习,数据挖掘,自然语言处理能力提出了更高的门槛。

知识推理

推理能力是人类智能的重要特征,使得我们可以从已有的知识中发现隐含的知识, 一般的推理往往需要一些规则的支持【3】。例如“朋友”的“朋友”,可以推理出“朋友”关系,“父亲”的“父亲”可以推理出“祖父”的关系。再比如张三的朋友很多也是李四的朋友,那我们可以推测张三和李四也很有可能是朋友关系。当然,这里会涉及到概率的问题。当信息量特别多的时候,怎么把这些信息(side information)有效地与推理算法结合在一起才是最关键的。常用的推理算法包括基于逻辑(Logic) 的推理和基于分布式表示方法(Distributed Representation)的推理。随着深度学习在人工智能领域的地位变得越来越重要,基于分布式表示方法的推理也成为目前研究的热点。如果有兴趣可以参考一下这方面目前的工作进展【4,5,6,7】。

大数据、小样本、构建有效的生态闭环是关键

虽然现在能获取的数据量非常庞大,我们仍然面临着小样本问题,也就是样本数量少。假设我们需要搭建一个基于机器学习的反欺诈评分系统,我们首先需要一些欺诈样本。但实际上,我们能拿到的欺诈样本数量不多,即便有几百万个贷款申请,最后被我们标记为欺诈的样本很可能也就几万个而已。这对机器学习的建模提出了更高的挑战。每一个欺诈样本我们都是以很高昂的“代价”得到的。随着时间的推移,我们必然会收集到更多的样本,但样本的增长空间还是有局限的。这有区别于传统的机器学习系统,比如图像识别,不难拿到好几十万甚至几百万的样本。

在这种小样本条件下,构建有效的生态闭环尤其的重要。所谓的生态闭环,指的是构建有效的自反馈系统使其能够实时地反馈给我们的模型,并使得模型不断地自优化从而提升准确率。为了搭建这种自学习系统,我们不仅要完善已有的数据流系统,而且要深入到各个业务线,并对相应的流程进行优化。这也是整个反欺诈环节必要的过程,我们要知道整个过程都充满着博弈。所以我们需要不断地通过反馈信号来调整我们的策略。

6. 结语

知识图谱在学术界和工业界受到越来越多的关注。除了本文中所提到的应用,知识图谱还可以应用在权限管理,人力资源管理等不同的领域。在后续的文章中会详细地讲到这方面的应用。

参考文献

【1】De Abreu, D., Flores, A., Palma, G., Pestana, V., Pinero, J., Queipo, J., ... &Vidal, M. E. (2013). Choosing Between Graph Databases and RDF Engines for Consuming and Mining Linked Data. In COLD.

【2】User Behavior Tutorial

【3】刘知远 知识图谱——机器大脑中的知识库 第二章 知识图谱——机器大脑中的知识库

【4】Nickel, M., Murphy, K., Tresp, V., &Gabrilovich, E. A Review of Relational Machine Learning for Knowledge Graphs.

【5】Socher, R., Chen, D., Manning, C. D., &Ng, A. (2013). Reasoning with neural tensor networks for knowledge base completion. In Advances in Neural Information Processing Systems (pp. 926-934).

【6】Bordes, A., Usunier, N., Garcia-Duran, A., Weston, J., &Yakhnenko, O. (2013). Translating embeddings for modeling multi-relational data. In Advances in Neural Information Processing Systems (pp. 2787-2795).

【7】Jenatton, R., Roux, N. L., Bordes, A., &Obozinski, G. R. (2012). A latent factor model for highly multi-relational data. In Advances in Neural Information Processing Systems(pp. 3167-3175).

自2020年起,中国商务广告协会数字营销专业委员会、虎啸奖组委会秒针营销科学院三方合作陆续发布了,受到行业各方的关注与热议。

为帮助广大营销从业者更清晰的了解各产业的核心能力、现状及未来趋势,我们以双周为周期,推出《数字营销产业分析》专栏,聚焦《中国数字营销生态图(2021版)》三大板块深度分析十六大赛道,为您解读各产业赛道的核心能力、现状及未来趋势,助力企业营销数字化战略布局

数字营销产业分析专栏第四篇,聚焦《中国数字营销生态图(2021版)》“数据和工具”版块的“营销数据”。

如果说创意是营销的灵魂,那么数据就是营销的血液,生命之源。

但我们口中的大数据也并不是数据量越大越好,数据本身其实是一种负担,需要花钱买空间进行存储,需要持续维护,需要进行数据挖掘。所以真正的大数据有几个基本特征:

一、数据量大,不是普通电脑能打开的数据;

二、 纬度丰富,单一维度并不能称为大数据;

三、 快速计算和调用,能在短时间内进行计算和调用,而不需要跑一年半载;

四、准确性高,很多数据在采集时很混乱,计算的时候也很随意,造成准确性过低,失去了数据的意义;

五、要有“价值”。

今天我们就来探讨一下营销领域有哪些对我们更有价值的数据,以及我们该如何利用这些数据。

我们从营销触点中能采集到的数据类型很多,会涉及到不同技术和渠道。(如下图)

这些数据如果按照采集难易度和销售相关度来看,是企业能收集的数据中技术最简单,成本最低,数据量最大的数据。(如下图)

在使用这么多纷繁的数据之前,我们一定要对数据的使用权有个整体的概念和分类。对于营销数据来说,整体行业内可以将其分为第一方、第二方和第三方数据。另一个维度,也可以把它分为公域和私域数据。

产供销过程中所产生的数据都属于第一方数据。其中营销常用的第一方数据来源有以下几种:

01

CRM

即客户关系管理系统产生的数据,用于记录已经购买产品,或者表达了采购意向的消费者的信息。

02

SCRM

SCRM可以被视作是CRM的一种延展,主要是基于社交系统,比如微信生态等所构建的一套客户管理体系。很多广告主把CRM直接构建在微信公众号上,消费者可以在公众号上实现浏览历史采购记录、会员积分、换取优惠券等。

03

CDP

集成数据采集、数据打通、统一ID体系化、分析发掘等功能的数据平台。会二次加工数据,使数据能快速地被业务方使用起来。

04

用户忠诚度平台

会员管理体系,往往也被视为CRM的进阶版。

05

业务运营数据

业务运营过程中所产生的数据,如银行的刷卡数据等。随着我们对非结构化数据和半结构化数据的采集和处理能力的提升,与消费者运营中的会话数据可以被我们大量的采集和分析,比如文字和音频的对话记录,通过智能识别和加密技术之后,可以进行大量的分析。

第一方数据和私域数据的差别

我们可以简单的理解私域数据是第一方数据的子集,主要针对“人”相关的数据。在某种程度上,企业能拿到的“人”相关的数据,即使不在自己的系统上产生,也可以看作是私域数据,比如在自己的抖音、小红书、电商账号下的数据。也不是所有“人”相关的数据都被视为私域数据,我们通常只把企业与人交互的数据看作是私域数据。

私域数据的重要性

01

高潜力

私域数据是企业与消费者交互的数据,无论是现有消费者还是潜在消费者,互动本身就代表着活跃性很高,可以实现更多的转化和二次营销;

02

公私域结合

媒体巨头们的私域体系部分是可以与公域数据打通关联的,以实现规模获客、精细跟进和二次转化;

03

安全

随着《个人信息保护法》的推进,公域数据的使用会越来越谨慎。每一个私域体系都是相对独立的,私域数据在一定范围内可以保护消费者的数据在不出站的情况下被充分利用。

如果整体来看第一、二、三方数据,第一方数据通常更贴近企业的生意,但第一方数据的质量非常有限、数据宽度不够(数量)、数据厚度不足(字段保有率)、数据刷新速度不够(更新频率)。为了得到更好的数据模型结果,通常需要依赖外部数据。

第二方数据通常是跟自己企业相关,但自己没有能力或者无权采集,需要委托或依托其他方采集或提供,跟本企业相关的数据只提供给本企业使用。

例如,微信体系内的账号运营数据,电商上的运营数据,借助第三方采集的监测数据等。

可以公开获取或交易的数据。跟营销相关的,比如行业报告、第三方DMP平台、外部数据提供商、数据交易平台、数据交易区块链等。

体现的的是数字营销的实时性。不是所有的东西都需要实时呈现。全场景下的四个动态是为了满足程序化购买的需求而产生的。

案例一:

集团内动态预算动态分配

01

背景

超大型客户的采购通常是集中采购,并且企业存在多品牌多目标人群的问题。在程序化购买的环境中如何把采购的量科学的分配给同期的不同品牌,如何区分人群和标签的优先级成为一个挑战。需要找到一个科学、合理、动态的方式及时对集团内的流量进行分配管理。

02

策略

利用Ad Serving技术实现流量动态分配

确认多品牌策略关系

分析标签获取难易度、客户价值、标签准确性等,进行优先推荐。比如母婴人群,客户价值高,判断准确度高,获取难度大,所以优先于其他标签,进行相应品牌展示。

当以reach为目标时,超频的部分会有别的品牌接替

(示例:品牌策略)

03

效果

整体流量效率提升15-30%

案例二:“量身定做”的

精细化用户触达,动态人群沟通

01

背景

某汽车品牌新车上市阶段,希望扩大新用户认知,让更多核心消费者了解并对产品产生兴趣。

02

解决方案

分阶段结合人群+创意素材的实时动态调优级素材轮替

针对潜在兴趣人群的实时投放重定向

03

项目结果

案例三:

量身全网内容动态管理

01

背景

作为高端工业品,汽车品牌对于产品销售影响深远,某车企实践中发现,车企消费者—尤其是作为购车增长主力的年轻一代—对品牌与营销内容并没有清晰的认知:车企不了解其内容创意本身是否符合目标消费者偏好;车企不知该内容是否被精准投放给了目标消费者。

02

解决方案

提供了一套工作体系(全数据运营+全流程智能)以及两个管理平台(社交内容分析平台+内容管理平台),以实现内容管理和匹配的优化:

首先进行内容的数据治理,建立管理内容的基础;

有了基础,持续探索和挖掘,通过洞察分析与预测分析,解决内容与客户偏好匹配的问题;

最后通过内容生成和推荐实现内容管理的流程智能,有助于实现运营闭环。

基于用户信息,在受访页面(官网/媒体)展示动态生成的创意内容

03

结果

通过项目实施,该车企实现多触点的精细运营,大幅提升消费者体验与客户忠诚度,具体体现在:

通过社交网络舆情洞察分析,实时对车企品牌形象进行监测,整体净好感度上升;

针对不同消费者,实现某车型官网创意的千人千面的营销方案后,通过A/B测试估算该车型的留资数量大幅提升40%左右。

我们所说的数字化通常是把流程中的各个点以数据的形式呈现和收集。在这个过程中也伴随着内外数据的打通,智能的决策。一些头部的广告主已经建立了一方的BTD(Brand Trading Deck),并根据自己的流程将所有的上传和下达环节打通。实现从计划、下单、评估的全流程在线。并且通过历史数据和模型的运用,可以进行智能的分配,决策和预测。

案例一:AI辅助决策,

智能分配媒介预算

01

背景

客户有大量的数据散落在不同的代理和供应商手里,缺乏统一管理; 流程里涉及的内外部门众多,缺少权限管控的能力; 历史排期修改版本多,无法复盘决策; 缺乏监督管理,透明度不够; 缺少科学的决策依据,凭借个人经验无法满足日益复杂的媒介变化。

02

应对

全流程在线,对接各个环节的API做到统一系统,统一视图;

权限管理系统重新梳理;

对接媒体库存系统,客户自己的历史数据导入,制作可落地的模型;

API+Email的方式混合实现策略自动下发;

经验决策与模型决策并存分配线上线下预算。

03

结果

完成了媒介资产的数据化;

建立了可回溯的透明决策流程机制;

媒介整体成本降低5%(本身价格已经是行业最具竞争力的);

媒介运营周期缩短了70%。

全流程智能是对数据的深度挖掘,通过算法和模型实现数据价值的最大化。它可以在营销闭环的各个环节发挥价值。

在策略优化阶段,可以基于知识图谱进行探索式的洞察挖掘;在事前分析阶段,可以通过对过往数据的分析,对营销目标进行预测;在投放阶段根据对人群的智能判定推送最合适的内容,并且可以持续的优化。其中智能探索是一个比较新的领域,也是未来可能影响整个咨询和营销行业技术。

知识图谱(Knowledge Graph)本身是一种结构化的语意知识库,用符号形式描述物理世界中的概念和相互关系。基本的组成单位是“实体-关系-实体”三元组。在营销领域有几个使用方向。比如探索式主动推荐。我们传统的搜索都是被动的关联,比如你搜手机,那么出来的结果是各种手机或者手机壳。而探索式推荐是分析了各种信息之间的相关性和关系强弱之后,主动的探索最佳答案。

营销本身也是一种探索创新的过程,如果机器可以通过大数据给出更准确的关联结果,那么对于广告和咨询行业将会带来一场革命。曾经(于2022年2月19日停止服务)有一个基于知识图谱技术的检索网站叫Magi(如图)。

它的出现让百度为之恐慌,主动的探索式推荐方式,对人、事、物、概念进行了重新的关联,颠覆了百度的付费排名和关联度排名的模式。除了探索式推荐,我们还看到一些利用知识图谱技术的营销应用,比如通过社交网络发现消费者需求从而转换成新产品的研发。自动的生成文字创意,自动的分析消费者意图等等。

案例一:

利用知识图谱分析客户需求

知识图谱直接在营销中的应用可以帮我们探索消费者的潜在需求,更好的匹配相应的沟通和产品。比如下图,利用消费者各个触点行为探索消费可能性和可能消费的产品类型。

案例二:智能预测,

通过模型算法对CTR进行预测优化

案例三:

市场预算分配模型

案例四:美妆客户通过,

Lookalike模型提升销售转化

(美妆客户运用Lookalike模型后效果的提升)

案例五:

汽车客户对潜在人群进行智能优化

01

背景

该车企日常投放体量较大,在程序化投放的过程中已通过不同渠道触达了大部分网民。 其中不乏潜在意向人群,但是无法精准的识别他们并再次触达。

02

目标

整合多方数据,构建一套ID评分模型,从而区别不同的潜在人群,提升留资效率。

03

方法

第一步,收集所有被广告触达过的人群设备ID,筛选出其中已经留资的(未来可以用车主APP等渠道的数据),作为正样本进行训练;

第二步,通过模型学习识别出这些人群的媒体接触习惯,比如爱上哪个网站,一般看几次后转化。品牌网站行为,比如一般会看多少页,停留多久以后的人群,留资意愿比较强。匹配外部的兴趣标签,看哪些兴趣爱好的人更有倾向;

第三步,将人群进行区分,进行差异化沟通,低质量的人群避开,高质量的人群高频次跟进。

04

结果

高倾向人群的效率比对照组高了28倍。

这个部分看的是企业构建自己数据平台的能力。对于业务和营销部门来讲,自身一般不是技术出身,对于这种数据平台来说都存在着选择障碍。我们给大家提供一套分类和选择的方式供大家做参考。

数据平台的选择

对于很多企业来说,选择搭建什么样的数据平台直接决定着项目甚至整个公司战略的成败。我们可以简单的总结为三种技术四种模式。这三种技术就是DMP、CDP、数据中台(数据湖)。我们先用下图从三个角度把大家最容易混淆的三种技术平台做一个简单的区分。除了最容易理解的功能维度和数据维度外,应用场景也是非常重要的。它影响着这个平台所需要的时效性,数据的准确性等,差距非常大。

什么部门适合牵头

做相应的平台

Data Lake或者数据中台,更适合做整体的公司数字化转型,而DMP和CDP更适合营销和业务部门使用。

什么类型的行业和阶段适合

做相应的数据平台

了解了应用场景,还要看客户自身所处的行业特征和阶段。

四种模式的选择

选完了三种技术,我们要看在落地时用什么样的模式。 这里要考虑的因素有公司 现有技术平台的情况、公司的期待、公司的技术政策、公司的预算、相应的人才储备等。

我们提供三种建设思路供大家做参考:

数据平台面临的挑战

01

ID无法打通造成数据中台的数据孤岛

ID无法打通是今天大数据平台面临的最大挑战之一。 造成的原因有几大类,一方面是技术原因。 多源异构数据之间难以相互打通识别。 另一方面是政策原因,比如国家禁止隐私数据之间的相互转译打通,比较典型是手机号和设备ID。 各大平台和客户内部也都有各自的政策数据不能随便。 还有一个是流程组织的问题。 各部门协作不好,各自为政,重复造轮子,数据不统一。 还有流程缺失,数据采集时没有设计好的握手机制导致数据割裂。

02

ROI陷阱,不合理的预期

一方数据平台的搭建是营销精细化运营的一个标志。 初期无法像粗放式营销那样快速收到回报。 而是需要用产品经理的思维来构建一方的数据平台。 它不仅仅是头疼医头,脚疼医脚的一个工具,更多的是面向未来所构建的数据壁垒,因此它要具备整体的规划,要有足够的时间做前期的设计,并逐步实现它的价值。 很多项目往往牺牲在期望过高上。 因此我们要看到ROI的拐点效应,用合理的预期来对待数据平台的成长。

03

人才资源跟不上

一方营销数据平台是一个,业务和技术都需要有所了解的领域。 大部分的甲方IT部门还是扮演一个支持者的角色 ,无论从业务需求的理解还是人员的水平和数量上都有严重的不足。 优秀年轻的技术人员大都被互联网大厂高薪挖走了,造成有系统没人维护和使用的尴尬场景,最后只能选择 SAAS模式或者依赖供应商。

今天中国的营销数据,处在一个徘徊的路口,《个人隐私保护法》使数据采集、传输和存储都遇到挑战,各家都在摸索政策的边界和技术上的突破,比如联邦学习,CDP等。当外部数据使用变得更加谨慎时,一方数据的利用率就会成为一个壁垒。

同时,未来需要有政府背景的组织牵头,制定出能满足国家要求的新标准,从而推动数据行业向着成熟合规的方向发展。

当期及往期报告

出品 | 课题组

编排 | 何雨晴

责任编辑 | 刘照龙

值班主编 | 王林娜

助力企业营销数字化转型升级

我们拥有

200+头部数字营销行业资源

500+一线实战专家

10000+优秀获奖案例

如有营销数字化咨询需求

可联系姜女士

电话:13851790129

邮箱:hx005@hooxiao.com

专题策划: | | | | | | | | | | 丨丨丨丨丨丨丨丨丨丨丨丨丨丨丨丨丨丨丨丨丨丨丨丨丨 | | |

新消费专访: 丨 丨 丨 丨 丨 丨 丨 丨 丨 丨 丨 丨 丨 丨 丨 丨 丨 丨 丨 丨 丨 丨 丨 丨 丨 丨 丨 丨 丨 丨 丨 丨 丨 丨 丨 丨 丨 | | | | 丨 | | | | | |

品牌专访: 丨 丨 丨 丨 丨 丨 丨 丨 丨 丨 丨 丨 丨 丨 丨 丨 丨 丨 丨 丨 丨 丨 丨 丨 丨 丨 丨 丨 丨 丨 丨 丨 丨 丨 丨 丨 丨 丨 丨 丨 丨 丨 丨 丨 丨 丨 丨 丨 丨 丨 | | | | | | | | |

想加入更多优质社群

请扫下方二维码添加啸啸微信

2022年《国际品牌观察-数字营销》

5月新刊已上线!

Transwarp StellarDB是自主研发的分布式图数据库,兼容openCypher查询语言,提供海量图数据的存储和分析能力,支持原生图存储结构,支持万亿边PB级数据存储。同时,StellarDB具备毫秒级点边查询能力,10+层的深度链路分析能力,提供近40种的图分析算法,具备数据2D和3D展示能力。星环科技StellarDB在金融、政府和社交网络等领域应用,并且在某地电信关系图谱场景实现了万亿边规模的存储和稳定运行,真正意义上将万亿级图数据库能力应用落地。

图数据库典型应用场景:

知识图谱:

于图数据库而言,知识图谱是图数据库关联最为紧密、应用范围最广的应用场景。知识图谱对海量信息进行智能化处理,形成大规模的知识库并进而支撑业务应用。

知识图谱中图数据库具有存储和查询两方面的技术优势:存储方面:图数据库提供了灵活的设计模式;查询方面:图数据库提供了高效的关联查询

作为图数据库的底层应用,知识图谱可为多种行业提供服务,具体应用场景例如电商、金融、法律、医疗、智能家居等多个领域的决策系统、推荐系统、智能问答等。

风险合规知识图谱:风险是金融的命脉,也是国家监管科技的主干。金融监管+风险合规的知识图谱是星环科技最早开始投入建设和技术研发的方向。面向超大规模图网络,星环科技率先发布了支持空间3D的图展示,避免了二维图的展示对于超过万节点的图无法清晰体现的弊端;同时结合反洗钱网络图谱利用属性图中节点带有地理定位属性,构建了跨境可疑资金转正图网络,对于可疑跨境交易一目了然。

精准营销类知识图谱:大型金融机构可能存在上千万家的B端或者C端用户,如何实现针对不同用户的精准营销?在营销知识图谱方面,星环科技面向银行开发了对公知识图谱的技术,实现了在营销端沉淀业务知识,充分发挥图谱价值,帮助银行实现诸如疫情期间小微企业信贷精准投放等应用。

投资研究类支持图谱:在金融和资本市场,最重要的金融业务就是投资,利用知识图谱刻画人类研究成果,进行知识图谱化表达和构建,也是多家券商和基金公司在探索金融科技赋能投资收益效果的发展路线图。在投资知识图谱方面,星环科技通过全栈能力,深度融合NLP+知识图谱技术,通过知识表示学习等领先的知识图谱技术,实现智能投研知识图谱,赋能投资研究场景应用。

金融领域

在金融领域,图数据库通过利用多维交叉关联信息可以深度刻画交易行为,可以有效识别规模化、隐蔽性的欺诈网络,结合机器学习、聚类分析、风险传播等相关算法,可以实时计算用户的风险评分,在风险行为发生前预先识别,有效帮助金融机构提升效率、降低风险。

反欺诈:通过账户、交易、电话、IP地址、地理位置等关键实体信息的关联关系,对风险暴露人的N层图挖掘,帮助筛选疑似欺诈人员,达到预防目的。

反欺诈信贷担保圈:中小企业通过关联企业、产业链上下游客户、关系人等相互担保,形成关系复杂的“担保网”,信贷担保圈的挖掘对企业贷款风险的识别与防范有重要意义。

股权穿透:通常是由高管、企业及关联公司构成的复杂网络,以股权为纽带,向上穿透到目标企业最终实际控制人,向下穿透到该企业任意层股权投资的所有企业及其股东。

图数据库更多应用场景

金融领域 :冒名贷款、银行零售知识图谱、银行对公知识图谱、资金流向分析、企业关联图谱、事件传递图谱、个人信贷反欺诈、反洗钱知识图谱等

政企领域 :物联网、智慧城市、道路规划、智能交通、轨迹分析、疫情防控、寄递关系画像等

电信领域:深度经营分析、防骚扰、电信诈骗防范、运营商经营分析等

零售领域 :智能推荐、精准营销、供应链管理、货物推荐、浏览轨迹分析等

社交领域 :社区发现、好友推荐、兴趣用户推荐、舆论跟踪等

工业领域 :电网分析、供应链管理、设备管理、物流分析等

医疗领域 :智能诊断、电子病历、医保&保险分析等


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zz/8383196.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-04-15
下一篇 2023-04-15

发表评论

登录后才能评论

评论列表(0条)

保存