新一代HTAP数据库崛起,MySQL生态的最佳归宿?

新一代HTAP数据库崛起,MySQL生态的最佳归宿?,第1张

俗话说,天下大势,合久必分、分久必合。

数据库领域同样如此。过去五十余年,数据库经历OLTP和OLAP两种需求漫长的融合-分离-再融合的过程。究其原因,数据库的发展始终与用户场景需求变迁紧密相关。如今,随着云计算和大数据的兴起,业务场景正在经历前所未有的变革,数据库领域也掀起了一股HTAP浪潮。

Gartner在多次报告中强调,HTAP是数据库领域最重要的发展趋势之一,也是用户数字化转型中重要的数据平台。业界甚至认为,HTAP的兴起代表着数据库大融合时代的开启。

那么,为什么数据库大厂和云服务巨头们均纷纷押宝HTAP?开源+多云为何是HTAP普及的助推剂?面对新一代HTAP数据的崛起,多年积累形成的MySQL生态终于找到最佳归宿?

放在几年前,HTAP可能还会被认为是数据库领域的小众产品,是否成气候还有待观察。

而随着数据资源、数据消费习惯和数据驱动型场景发生巨大变化,用户需求与传统数据库之间的供需矛盾日渐突出,使得HTAP这种具备“同时支持OLTP和OLAP、创新计算存储框架、去ETL”等特征的新时代数据库成为不可阻挡的趋势。

如今,几乎所有数据库大厂和云服务巨头都在布局HTAP。例如,OceanBase去年推出的 3.0版本中就正式宣布向HTAP数据库进军;今年5月,Google Cloud发布HTAP云端数据库AlloyDB,为PG用户提供了HTAP数据库服务;再加上Oracle MySQL Heatwave,甚至连SnowFlake也发布Unistore来“蹭”HTAP的热点。

如果细数近一年以来的HTAP新品,会发现几乎全部都建立在云端之上。新一代HTAP+云正在成为数据库市场重要的潮流。例如,PingCAP近日发布的TiDB 6.0,也是与云端紧密联系的新一代HTAP数据库。

事实上,PingCAP是HTAP数据库领域非常重要的一个引领者。早在TiDB 3.0起,PingCAP就正式转向HTAP,从OLTP主引擎+OLAP辅助能力,到OLTP引擎+外接分析引擎,再到OLTP引擎+融合分析引擎,PingCAP在HTAP领域稳打稳扎,一个版本上一个台阶。

如今,随着TiDB 6.0的发布,针对HTAP进行了更多成熟性改进,TPC-C 性能也较 5.0 版本提升达到 76.32%,TiDB 6.0还增强了多个企业级特性,以更好适合云时代用户对于HTAP数据库的需求。

固然,有人质疑当前HTAP是新瓶装旧酒,并无太多新意。但业界普遍形成共识:新一代HTAP与过去完全不同,开源+云孕育而出,很多都有AI加持,而且是为数据敏捷而生,拥有过去前所未有的创新活力与迭代速度,并逐渐形成数据库技术变革的新潮流。

PingCAP CTO 黄东旭也直言:“TiDB近年来的快速进化与迭代,得益于开源和云的助力。”

HTAP之所受到用户青睐,某种程度是因为用户对于数据敏捷性的极度渴求。

“在数字化时代,客户最为在乎的是如何快速走向市场。这需要数据敏捷性,而HTAP恰恰是数据敏捷的核心能力。”黄东旭如是说。

最近几年,“海量、实时、在线”的需求越来越广泛,大量采用 MySQL 和 PostgreSQL 开源数据库的新一代企业需要提升对于热数据的实时在线分析能力,这类需求遍布几乎所有的互联网企业以及从事线上业务的数字化转型企业。对于新鲜数据的实时分析能力直接决定了这些业务的生死存亡,传统的 OLTP+OLAP+ETL 的数据架构已经严重阻碍了消费者体验,这种诉求催生了 HTAP 的技术变革。

而真正帮助HTAP与用户需求完成对接的则是开源+云。众所周知,开源近年来在数据库领域的流行和影响力与日俱增,DB-Engines数据显示,全球383款数据库中开源数据库占据51.7%,六款开源数据库进入到前十,开源正在成为像HTAP这种新时代数据库的创新源泉。

以PingCAP的TiDB为例,其产品研发体系建立在开源体系和开源社区的基础上,实现了一年一个大版本、一个月一个小版本的迭代速度。黄东旭透露道:“开源是TiDB的第一个增长引擎,通过开源体系,开发者、贡献者、布道者和用户能够很好串联起来,形成飞轮效应,让产品能够走向加速迭代和创新的正向循环。”

据悉,TiDB每年会有超过 40% 的代码更新,而这些代码有很大一部分由外部贡献者所共享。TiDB开源项目一直在全球和中国开源项目活跃度中名列前茅。

如果说开源改变了HTAP产品的开发模式和迭代速度,那么云则能够为HTAP产品提供用户最为直接的需求反馈。众所周知,云数据库一改以往传统数据库部署、运维、扩展等难题,以云服务的方式让数据库使用更加简单;更加关键的是,随着云计算的普及,云上用户群体持续增加,来自云上用户群体的需求反馈无时无刻都在发生,对于数据库产品的进化与迭代至关重要。

“真正的产品迭代是如何缩短用户问题/需求的反馈时间。云无疑为数据库等基础软件提供了这样的价值,让产品可以更好地迭代。”黄东旭如是说。以TiDB为例,自去年五月全托管的数据库即服务(DBaaS)产品 TiDB Cloud 公测版发布以来,已经陆续登陆亚马逊云 科技 、谷歌云等全球知名云服务商的Marketplace,并在今年5月份正式全球商用;今年 6 月与阿里云合作上线阿里云云市场,成为为数不多的跨全球三朵云的数据库服务。

在众多数据库产品之中,MySQL凭借着开源、免费、适合互联网场景等优势,常年位居全球最受欢迎数据库的前三。根据Slintel网站的统计数据,在全球关系型数据库市场中,MySQL市场份额最高,达到43.04%。

过去二十年里,开源MySQL数据库对于各行各业影响至深,捕获了来自互联网、金融、零售、交通等多个行业用户的心,堪称“万人迷”。例如,在中国就有超过9成的金融机构都应用了MySQL数据库。

但任何数据库潮流都是“需求变化+技术变革+架构创新”融合的产物,MySQL是如此,HTAP亦不例外。如今,场景的数据规模、业务并发量、处理速度要求跟以往相比早已不是一个数量级。此时,MySQL数据库的局限性愈发突出,扩展性很难满足用户需求,想继续获得增长的企业不得不使用分库分表方案,但这又会造成数据架构的复杂性。

新一代HTAP数据库无需分库分表,且具备实时海量规模的OLTP和实时数据分析能力,还拥有极为出色的扩展性,与很多业务场景的海量交易实时数据展现、平稳运行的需求高度契合,HTAP凭借技术架构优势崛起已成必然。

“用户需求侧最大的变化就是很多用户需要借助热数据实现运营级别的实时分析,获得实时洞察以支持决策,这极大推动了新一代HTAP数据库的需求。”PingCAP副总裁刘松补充道。

虽然MySQL已经增加列存引擎Heatwave来获得HTAP能力,但主要解决规模化查询的问题,系统本身架构并未产生革命性变化,扩展能力、OLTP吞吐量依然有着很大局限。“智能新能源 汽车 跟传统燃油车在外表看几乎没区别。数据库也类似,像TiDB这种新一代HTAP数据库,从架构设计、应对场景和使用体验等角度,都与传统数据库有着极大的区别。”刘松形象比喻道。

事实上,与过去SAP HANA这种小众、昂贵的HTAP不同,新一代HTAP拥有极强的兼容性,像Google Cloud、PingCAP这些数据库厂商都借助新一代HTAP架构为采用 MySQL或者PG开源数据库的企业拓展 OLTP和OLAP的能力范围。

例如,Google Cloud发布的HTAP云端数据库AlloyDB,为单机版PG生态用户提供了最好选择,TiDB则成为MySQL生态的最佳归宿。PingCAP大量用户中有很多TiDB与MySQL混合部署的成功案例;得益于 TiDB 的开放性,TiDB 也可通过和其他数据服务产品“混搭”形成新的数据服务解决方案, 如通过同样是开源的大数据计算引擎 Flink 混搭形成实时数仓解决方案,扩展 HTAP 数据库的能力边界。

黄东旭则直言,HTAP数据库除了产品、技术之外,尤为需要关心用户体验,“HTAP应该让用户觉得好用,屏蔽掉数据库的复杂性。”据悉,PingCAP是2022 Gartner Peer Insights“Voice of the Customer” 云数据库领域唯一入选的中国数据库公司,客户总体评分达到 4.7 分(满分 5 分),在所有入选企业中位列第一。在参与Gartner Peer Insights评分的PingCAP用户中,像互联网、金融等重点行业用户均高度认可HTAP现代数据库理念。

总体来看,今年是HTAP的大年,各大厂商纷纷在市场中上新。随着新一代HTAP数据库产品的增多,整个市场对于HTAP数据库理念和产品的接受与采用将会提速。而随着新一代HTAP数据库持续完善,让广大MySQL生态用户群真正看到了大数据时代一条绝佳的迁移路径。

项目介绍 :使用 Kaggle 的 E-Commerce 数据集。 该数据集基于一个英国礼品电商公司 13 个月的真实交易数据。通过用户消费行为分析, 建立 RFM 模型进行用户分层, 针对性维护高价值用户, 实现精细化用户运营管理。

负责内容 : 1. 使用 SQL 语法 select/alter/update/create 等对数据集进行清洗加工,实现缺失值、异常值和重复值处理,日期格式转换与清洗后数据新表建立。

本项目基于一个英国电商公司从2010年12月1日到2011年12月9日的真实交易数据集。该电商主要销售的商品是各类礼品, 主要客户是来自不同国家的的分销商。本文主要使用SQL语法分析月度消费趋势、个体消费情况、RFM用户分层、用户生命周期、计算复购率与回购率等关键指标,并使用Power BI实现数据可视化。希望从数据中更深入的了解用户消费行为,为商家运营提供洞察。

利用数据探索用户消费趋势,为商家制定营销策略提供分析及建议,并利用RFM模型实现客户精细化管理。

这部分主要包括无关字段的删除,缺失值检查,异常值检查、重复值检查与日期格式统一。

处理完成后共有532621条数据。

接着看下数据是否有缺失值。

上图说明客户编号存在134697条缺失,需与业务确认缺失原因,由于本次分析已客户为主体,故缺失客户编码的数据删除。

清洗后数据共397924条。

其中产品数量和订单时间无异常,但产品单价存在为0的异常值,这类商品可能是赠品,不应该算入用户主动消费行为中,故删除。

清洗后数据共397884条。

最终清洗后数据共392690条。

将订单时间列字符串转化为统一的sql日期格式,方便使用日期函数进行 *** 作。

预处理完成如下:

上图可知,消费金额从2010年12月到2011年8月比较稳定,呈波动上升趋势;2011年8月开始明显上升,在11月达到最高值约110+万,12月却迅速回落。

上图可知,产品消费数量在2011年8月之前沿平均约35万件的位置来回波动,从8月开始上升,在11月达到峰值约67万件,12月回落至不到30万件的位置。

上图可知,消费次数总体大于消费人数,走势基本相同。2011年8月前月均消费约1200次,月均消费人数约900人。在8月两变量开始提升后,到11月均达到峰值,消费次数约为2600,消费人数约为1600。

上图可知,人均消费金额总体大于订单均价,走势基本相同。2011年1月两者均出现小高峰,可能与活动有关。2011年2月到2011年9月较平稳,分别约为450和650元。两变量峰值均出现在2011年12月,分别约为850和670元。

上图可知,超过90%的用户来自英国,且贡献近82%的销售金额。值得一提的是,查看原始数据发现,荷兰和爱尔兰用户数仅有12个,但消费金额却排名第二和三,占有6%。说明荷兰和爱尔兰存在采购量极大的大客户需重点关注。另外,有9个国家只有1个客户,建议衡量投入产出比,适当放弃一些地区,集中优势在英国。进一步看下各国家人均订单量和人均消费量。

上图可知,人均消费量TOP5分别来自爱尔兰、荷兰、新加坡、澳大利亚和瑞典。说明这些地区大客户较多,而英国小客户较多。

去除几个极大值后,我们发现,用户消费金额集中在0~500元,有约1750名用户,占比约40%。

上图中横坐标表示累计用户数量,纵坐标表示累计消费金额百分比。分析可知,50%的用户仅贡献约10%的消费金额,80%的用户贡献约25%的消费金额,也就是说存在20%高价值客户贡献约75%的金额,基本符合消费二八定律。集中精力拓展与这20%高价值客户的合作,比分散精力对所有客户更值得。排名4000以后的300余名用户(不到10%)则贡献了约60%的消费金额,这部分是最需要维系的大客户。

上图可知,用户首购时间最多集中在2010年12月上半月,每日均值大于50人;从2011年1月开始首购人数保持平稳,每日均值约为15人。可能10年12月份因该电商新成立在引流期有优惠引入了大量新用户,但之后新用户流入减少。后续新用户能维持在一定水平,是运营平稳的表现。

上图可知,从2010年12月到2011年9月用户最后一次购买稳定集中在15人左右;而从9月开始大幅上升,12月最高值达到100+人。时间越长,流失部分用户也是比较正常的情况。在新用户大量增加的前期没有大量流失,且大量用户最后一次购买集中在最后的统计日期,说明大多数用户近三个月有购买记录,仍处于活跃购买状态,并没有在引入后快速流失,是比较理想的。

上图可知,从2010年12月开始至2011年6月,新用户占比持续下降,用户流失风险高;直到2011年7月有所回升,可与业务人员确认原因,7月至12月趋于稳定,基本维持在25%左右。

RFM模型包含三个关键维度,最近一次消费 (Recency)、消费频率(Frequency)和消费金额 (Monetary)。使用这三个维度对用户进行分类,可以将用户分为2x2x2=8种类型,之后根据每类用户的消费特征进行精细化运营。

接下来依次求R值、F值、M值。

给RFM模型打分的方法大概有两种,1. 选取分位数打分。 2. 依据行业和业务经验设定阈值。这里选择分位数法,由于SQL不方便进行RFM打分分层,这里使用python计算分位数。

通过pd.cut方法,将用户分层并打上标签,这里我用的分层方法是python中的quantile函数。

将R、F、M分别打分(分层)。

接下来,求出R、F、M的均值,以均值为界,将每个变量分为高低两维度(大于等于均值取1,小于均值取0)。

生成用户分层表

上图分析发现,所有客户中重要价值客户最多,占总数的35.73%;总体来说是一个不错的情况,因为这类型客户的价值最高,应努力提高该类型客户的满意度,增加留存量。其次是流失客户21.99%,新到客户14.91%,重要挽留客户8.78%,重要发展客户7.98%和重要唤回客户7.51%。另外,不难看出在近一年的交易中,有21.99%是处于流失边缘的客户。为什么会流失?哪些地区的流失情况比较严重?流失的客户都有哪些特点?都是需要引起注意的问题。

上图可见,贡献最高金额和订单数的是重要价值客户,金额690万,订单数1550个远超其他客户。重要唤回客户贡献金额位列第二,为60万,这类客户是高频次和高金额的用户,将其恢复购买可以带来可观的收益,流失原因需要结合业务情况和订单进一步研究。

流失客户和新到客户呈现高订单数低消费金额的情况,说明新客户很多是被优惠活动引入,而流失用户可能包含一些羊毛用户。

条形图按消费人数正向排序,总体来看,重要价值客户都保持在四分之一到二分之一的比例,活跃客户群较稳定,维系此类客户可以提供VIP待遇,提升用户满意度。

英国本土要注意流失客户数量较多,对于该国策略可以采取保持重要价值客户,并找到客户流失原因,减少重要挽回向流失用户转化。对于德国来说重要挽留客户第二多,挽留客户有较高流失风险,要主动联系用户并明确流失原因,再次激活用户购物。同时加大新客户引入。法国情况基本与英国本土相同。

· 重要价值客户(111)目标是让其一直留存下来,可以提供专项客服,个性化增值服务等。

· 重要唤回客户(011)目标是唤回近期消费,可以推出活动,精准提供所需资源,推送消息召回等。

· 重要发展客户(101)目标提高消费频次,可以推荐其他产品,提供积分计划或每日任务等。

· 重要挽留客户(001)目标是让其回归再次消费并了解其不继续购买的原因,可以使用电话或短信等联系,调查原因,弥补不足。

· 新到客户(100)目标是提高其消费兴趣,可以通过活动营销,提供社群互动,砍价等策略留住用户。

· 一般客户(010)属于容易流失的群体,一般维持。可以使用赠送优惠券、推动活动信息等方法与客户重新联系。

· 潜力客户(110)目标挖掘其消费潜力,可以多推荐价值更高且用户喜好的产品。

· 流失客户(000)较大概率不是目标客户,可以选择性放弃。

用户生命周期分布受一次性购买用户(用户生命周期0天)影响比较严重,故排除一次性购买用户(共有1548名,占36%)重作图。

总体上用户平均生命周期131天,中位数93天。最大值为373天,最小值0天。

复购率:单位时间内购买次数大于1的人数与当月总购买人数比值。

回购率:单位时间内曾购买用户在下一单位时间内再次购买的人数与单位时间内曾购买用户比值。

(这里由于2011年12月的数据仅有9天,考虑到可能影响整体结果,故不包括12月的复购率与2011年11月和12月的回购率)

上图可知,月度复购率均值为23%,根据《精益数据分析》中的理论,目前此电商处于用户混合模式,在新用户转化和老用户留存、复购上的应该做到平均分配精力和资源。前期复购率较低可能因为初创推广期大量新用户涌入,造成分母被持续扩大。

上图所知,平均次月回购率达到了39%,总体维持在一个不错的水平。该电商复购率与回购率越高,反映消费者对品牌的忠诚度就越高。

消费金额及数量 :从2010年12月到2011年8月比较稳定,呈波动上升趋势。2011年8月开始明显上升,在11月达到最高值,12月迅速回落。

消费次数及人数 :消费次数总体大于消费人数,走势基本相同。2011年8月前月均消费约1200次,月均消费人数约900人。在8月两变量开始提升后,到11月均达到峰值,消费次数约为2600,消费人数约为1600。

地域分析 :发现超过90%的用户来自英国,且贡献近82%的销售金额。但荷兰和爱尔兰存在采购量极大的大客户需重点关注。有9个国家只有1个客户,建议衡量投入产出比,适当放弃。

累计消费金额分析 :累计金额曲线发现20%高价值客户贡献约75%的金额,基本符合消费二八定律。集中精力拓展与这20%高价值客户的合作,比分散精力对所有客户更值得。

首购与末购分析 :用户首购时间最多集中在2010年12月上半月,每日均值大于50人;从2011年1月开始首购人数保持平稳,每日均值约为15人。从2010年12月到2011年9月用户最后一次购买稳定集中在15人左右;而从9月开始大幅上升,12月最高值达到100+人。

新老用户分析 :从2010年12月开始至2011年6月,新用户占比持续下降,用户流失风险高;直到2011年7月有所回升,7月至12月趋于稳定,基本维持在25%左右。

单量、金额与人数分析 :8种客户中,重要价值客户订单量、消费金额和人数均位列榜首;而重要唤回客户的消费金额排第二位,但订单量和人数均较落后;流失客户人数和订单量排第二,但消费金额仅排第五。

地域分析 :总体来看,重要价值客户都保持在四分之一到二分之一的比例,活跃客户群较稳定。英国本土要注意流失客户数量较多,对于该国策略可以采取保持重要价值客户,并找到客户流失原因,减少重要挽回向流失用户转化。对于德国来说重要挽留客户第二多,挽留客户有较高流失风险,要主动联系用户并明确流失原因,再次激活用户购物。同时加大新客户引入。法国情况基本与英国本土相同。

营销策略

· 重要价值客户(111)目标是让其一直留存下来,可以提供专项客服,个性化增值服务等。

· 重要唤回客户(011)目标是唤回近期消费,可以主动联系召回(推送、邮件、公众号等),给予优惠券等。

· 重要发展客户(101)目标提高消费频次,可以推荐其他产品,提供积分计划或每日任务等。

· 重要挽留客户(001)目标是让其回归再次消费并了解其不继续购买的原因,可以使用电话或短信等联系,调查原因,弥补不足。

· 新到客户(100)目标是提高其消费兴趣,可以通过活动营销,提供社群互动,砍价等策略留住用户。

· 一般客户(010)属于容易流失的群体,一般维持。可以使用赠送优惠券、推动活动信息等方法与客户重新联系。

· 潜力客户(110)目标挖掘其消费潜力,可以多推荐价值更高且用户喜好的产品。

· 流失客户(000)较大概率不是目标客户,可以选择性放弃。

一次性购买用户占36%,排除这部分影响后,用户平均生命周期131天,中位数93天。最大值为373天,最小值0天。

复购率 :平均月度复购率为23%,根据《精益数据分析》中的理论,目前此电商处于用户混合模式,在新用户转化和老用户留存、复购上的应该做到平均分配精力和资源。前期复购率较低可能因为初创推广期大量新用户涌入,造成分母被持续扩大。

回购率 :平均次月回购率达到39%,总体维持在一个不错的水平。该电商复购率与回购率越高,反映消费者对品牌的忠诚度就越高。


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zaji/7387791.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-04-05
下一篇 2023-04-05

发表评论

登录后才能评论

评论列表(0条)

保存