对话阿里云李飞飞：关于云原生数据库的五大预判_随笔

作者：王慧贤

数据存储、数据分析、数据安全......如今，围绕“数据”的话题越来越多，离人们的生活也越来越近。

从陌生到熟悉，数据不仅“出圈”，甚至已然站在了C位。去年，中央发布的《关于构建更加完善的要素市场化配置体制机制的意见》中明确表示，继土地、劳动力、资本、技术后，数据成为第五大生产要素。

步入信息化时代后，数据库、 *** 作系统与中间件作为计算机最基础的三大软件，支撑着企业的正常运行。

当数据成为生产要素后，必然会迎来爆发式增长，企业的数据存储和处理需求将进一步释放。更重要的是，疫情加快了数字化转型的脚步，更加速了企业的上云速度。

从信息化到数字化，时代的变革，总会带来商业世界的变化。如何在云原生架构下使用数据库，成为企业的痛点和云厂商的机会，亚马逊AWS的CTO Werner Vogels曾多次强调：“数据库是云计算的终极之战。”

在数智化时代，云原生到底意味着什么？云原生数据库和传统数据库相比，核心优势是什么？是否把数据库搬上云就是云原生？基于这些问题，雷锋网与阿里巴巴集团副总裁、阿里云数据库产品事业部负责人李飞飞展开一场对话。

国产云原生数据库，摆脱「切肤之痛」

如今，数据库的商业世界，因为云的出现与发展，分成了两大派系。

一派是以Oracle为代表的传统商用数据库，一派是以国外AWS、国内阿里云为代表的云原生数据库，去“IOE革命”下的产物。

其实，早期较为火热的数据库种类有三种，层次式数据库、网络式数据库和关系型数据库。

在《浪潮之巅》一书中，作者吴军写下了这样的观点：“Oracle 的兴起很大程度上靠的是它最早看到关系型数据库的市场前景，并且在商业模式上优于 IBM。”

因此，在云原生数据库“入世”之前，数据库的天下一直是Oracle的，国内大部分互联网公司都不得不采用Oracle+IBM小型机+EMC的模式来维持正常运营。

高昂的费用，使得对于数据库需求较大的互联网巨头“忍无可忍”。

2009年，阿里巴巴的Oracle RAC 集群节点数达到了创记录的20个。可由于Oracle并没有d性扩展的功能，只能按照峰值流量购买小型机和数据库，导致阿里将业务上涨带来的大部分利润，都支付给了Oracle。

第二年，阿里便开始走上了去“IOE”之路，根据开源MySQL搭建了AliSQL，并顺利经过了淘宝双11的考验，国产云原生数据库算是正式摆脱了“切肤之痛”，逐渐受到市场的真正认可。

另一边，国外的AWS在2015年公布了基于云计算的自研数据库Amazon Aurora。Aurora是一个关系型数据库，可以跨3个可用区域复制6份数据，其最大的特性就是高性能和高可用性。

云计算巨头的入局，让云原生数据库在国内外一步步成为主流。据Gartner预测，到了2021年，云数据库在整个数据库市场中的占比将首次达到50%，到2023年，75%的数据库都要跑在云平台之上。

关于云原生数据库，随着逐步的出圈，也让人们关心的焦点从“是啥？”转变为“还能解决哪些问题？”

但云原生数据库存在着数据孤岛的问题，无法打通多个数据系统的情况下，企业在数据加工和数据管理上就会“压力较大”，甚至在数据安全方面还存在隐患。

传统数据仓库一般基于T+1数据集成构建离线数仓，以支撑企业各项分析与服务。传统方案不但会影响线上业务稳定性，且难以支持企业的实时需求。

因此，在李飞飞看来，云原生数据库已经走到2.0阶段。这个阶段要解决的问题，就是上述存在的痛点。

9月26日，在阿里云数据库创新上云峰会上，阿里云发布了首个一站式敏捷数据仓库解决方案。该方案结合一站式数据管理平台DMS及云原生数据仓库AnalyticDB（简称：ADB），实现了库仓一体的技术架构，提供在线数据实时入仓、T+1周期性快照、按需建仓等能力，数据延时低至秒级，持续赋能业务在线化，使企业的在线数据可以释放出更大的价值。

相较于传统方案，阿里云一站式敏捷数据仓库解决方案有4大核心优势：

1、对业务侧影响小，不会因为数据汇聚集中和实时加工影响业务侧正常运行，CPU、内存占用低于5%；

2、事务顺序和数据准确性有保障，且处理链路短，支持在线数据实时处理落仓，效率更高。数据传输效率100m/s，数据延时在10秒内；

3、支持复杂实时数据加工、计算逻辑；

4、低代码 *** 作，能够大大降低实时数仓的构建难度，提升构建效率的同时，支撑企业数字化转型过程中的各类实时场景。

除了实时统计分析场景外，企业为满足周期性数据分析需求，需建设周期性全量快照。

传统数仓的周期性全量集成方案会对生产业务造成稳定性影响、全量集成时效性差、且无法满足客户针对任意时间点进行数据回溯的业务诉求。

针对T+1周期性集成场景，一站式敏捷数据仓库解决方案支持基于拉链表的T+1全量数据快照，用户通过简单几个步骤，即可按需生成各种周期的全量或增量快照。

此外，业务还可按需进行任意时间点的数据回溯，以快速解决数据异常问题。

谈起未来数据库的发展趋势，李飞飞提到以下五点：

1、云原生+分布式一定是数据库的标配，分布式已经是必选项。分布式数据库由多个相互连接的数据库组合而成，面向用户则是以单个数据库的形态出现。云原生分布式数据库具备易用性、高扩展性、快速迭代、节约成本等特征，从资源池化到d性扩展，再到智能运维，再到离在线一体化，解决企业用户的核心诉求。

2、AI for DB（database，指数据库）和 DB for AI 将是主流趋势。用AI将数据库运维管控智能化，尤其在云原生+分布式这个前提下更重要，因为数据库不仅是内核的能力d性高可用、可拓展性，更重要的是部署后应用和运维的复杂度要大大降低。在数据库里，面对越来越多非结构化的数据，分析能力十分重要。

3、数据的安全可信，在今天这个大环境下变得愈发重要，如何确保整个数据库系统，在处理数据全链路过程中提供加密能力、多方安全计算能力、隐私保护的能力，也是很重要的趋势。

4、多模数据处理能力将越来越重要。比如，新型数据库多模态的处理能力，在新能源汽车企业打标签、智能电池化预测等应用场景中，将发挥越来越重要的作用。

5、一份数据，多个数据处理引擎：实现仓库一体、仓库联动、仓库打通，数据之间无缝流转。

以上判断，也从侧面反映出阿里云数据库的走向，这点毋庸置疑。但除此之外，业界最关心的，还有开源。

近半年，国内很多厂商相继提出开源战略，背后缘由显而易见，为了打造生态。就在今年的阿里云峰会上，阿里云智能总裁、达摩院院长张建锋（花名行癫）将2021年阿里云的发展关键词归纳为：做好服务、做深基础、做厚中台、做强生态。

做好服务与生态，成为如今厂商们不约而同的目标，而开源，就是最好的选择。

当雷锋网问到：“未来，阿里云数据库会不会把所有能力都开源？”这一问题时，李飞飞给到的回答是：“不会。”

之所以有这样的回答，是因为对于开源，他有着一些判断和看法。

李飞飞表示，这些部分，本就是阿里云数据库的商业化版本。

事实上，业界大多数的数据库厂商都不会针对自身的核心能力开源，如TiDB的核心管控组件、TiFlash。

与像MongoDB,、Cassandra、CouchDB这些以开源起家的数据库厂商不同，开源只是阿里云数据库的战略，不是阿里云数据库的命脉。

前几年，有业内人士表示，在面向开源时，国产数据库首先需要解决信任以及开源知识产权等问题。“开源会让厂商更加认真思考版权还有专利的问题，事实上，选择开源后，对于数据库厂商提出了更高的要求。”

李飞飞认为，开源只是一种选择，数据库开源成功并不代表着商业化就能够成功，不开源也不能代表厂商不先进。

更准确的说，开源只是一种有效手段。

最终，阿里云数据库希望客户能够通过开源版本把阿里云数据库产品技术快速用起来，并能够参与到技术产品的迭代过程中，在一些高阶能力上，借鉴团队专业能力和阿里云的服务能力，成为良好的商业合作伙伴，这是李飞飞以及阿里云数据库对于开源的一些基本思考。雷锋网雷锋网雷锋网

天猫订单

本数据集共收集了发生在一个月内的28010条数据(2020-02-01到2020-02-29)，包含以下：

['订单编号', '总金额', '买家实际支付金额', '收货地址', '订单创建时间', '订单付款时间 ', '退款金额']

7个字段说明：

订单编号：订单编号

总金额：订单总金额

买家实际支付金额：总金额 - 退款金额（在已付款的情况下）。金额为0（在未付款的情况下）

收货地址：各个省份

订单创建时间：下单时间

订单付款时间：付款时间

退款金额：付款后申请退款的金额。如无付过款，退款金额为0

二、数据处理

1.查看是否存在重复数据

由执行结果看出，不存在重复值，因此无需删除重复值

2.查看是否存在空值

只有订单付款时间存在空值，订单创建后不一定付款，因此合理，数据不需要对空值进行处理。

三、数据分析

1.查看哪些地区的人购买订单最多

根据统计结果发现，上海、广东、江苏、浙江、北京的购买订单在前五名，且占全部订单的43%

tableau图表展示各个省份的订单量，颜色越深，则订单量越多。几个重点省市的订单量较多，建议可以向这些重点城市的周边省市发展客户，这些省市的购买量可能已达饱和，但是其他城市仍然存在需求量。

2.查看这一个月中每一天的下单量，发现月末的下单量最多

查看这一天中哪天的放弃付款率最高，发现月中的放弃付款率最高。

tableau展示这个月每一天的创建订单量与付款量，月末的订单量显著提升。推测2020年2月初正处于复工阶段，因此下单量较低。

查看在一天之中，哪个时间段的下单量最多，总体来说，晚上处于下单高峰期

查看一天24小时内，各个时间段的提交订单量和支付订单量，发现早上放弃付款的概率稍微高一点，但是一天之内的放弃付款率几乎相同。

tableau展示各个时间的创建订单量和付款订单量，符合人们晚上比较空闲，尤其是睡前更有空挑选需要购买的东西。根据用户下单高峰时间，建议商家可以在早上10点，下午2-4点，晚上8-10点之间进行营销活动。

3.计算转化率

由结果可知，创建订单为100%，支付订单为85.99%，订单成交为67.67%，订单全额支付成交为65.84%。从转化率来看，客户退款比例较大。

tableau图表展示漏斗图。由于天猫有七天无理由退换货的政策，因此难免会存在退货退款的现象，很多用户会抱着试试看的心态购买后确认是否合适，然后会进行相应的 *** 作，因此建议商家重点关注老客户，黏性高的老客户相对于抱着试试看心态的退货概率更低。另外，可以及时联系新客户接收反馈。另外，建议商家图片描述，商品描述信息尽量齐全并且与商品实际描述一致，退货带来的成本可能会比商品不卖出的成本更高。

4.销售额在一个月中，也是月末销售额较高，基本与订单量走势一致

查看每天订单的退款/付款率，发现月初的退款率较高，推测与月初处于复工阶段，客户没有及时收到商品就退款了。

tableau展示这一个月中每天的退款率。

查看各个地区的退货率，与销售量并不一致，湖北和新疆的退款率很高，推测与疫情有关。

tableau展示各个地区的退款率。

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/zaji/7602266.html

对话阿里云李飞飞：关于云原生数据库的五大预判

发表评论

评论列表（0条）