五大数据库理念，读懂亚马逊云科技的数据库布局_sql

1970 年，关系型数据库之父 E.F.Codd 发表《用于大型共享数据库的关系数据模型》论文，正式拉开数据库技术发展序幕。以 Oracle、DB2、SQL Server 为代表的三大商业数据库产品独占鳌头，随后涌现出 MySQL、PostgreSQL 等为代表的开源数据库，和以 Amazon RDS 等为代表的云数据库，拉开百花齐放的数据库新序幕。

我们知道，云计算十年为产业转型升级提供了历史性契机，但变革仍在进行，随着云计算的普及，数据库市场发生根本性改变，云厂商打破传统商业数据库的堡垒，成为数据库领域全新力量。其中以连续六年入选 Gartner 领导者象限的亚马逊云科技为代表，我们一起探讨：为什么亚马逊云科技能始终保持其创新性？纵观云原生时代下，亚马逊云科技数据库未来还有哪些更多的可能性？

01 面对四大数据库发展趋势，亚马逊云科技打造五大数据库理念

后疫情时代下，加速了不少行业的业务在线化和数字化运营，企业对数据价值挖掘的需求越发强烈，亚马逊云科技大中华区产品部总经理顾凡详细介绍其中四大趋势：

一是伴随互联网、移动互联网的发展，电商、视频、社交、出行等新应用场景的兴起，不仅数据量大，对数据实时性要求极高，传统关系型数据库无法满足需求，因此驱动云原生数据库的出现。

二是开源数据库的广泛应用。

三是应用程序现代化对数据库提出更高要求，期待数据库拥有更高的性能、可扩展性、可用性以及降低成本，让开发人员专注于核心业务的应用开发，不用关注和核心业务无关的代码。

四是软件架构历经 PC、互联网、移动互联网，再到如今的万物互联时代，其中的迭代和转型正在驱动数据库选型的变化。

在此四大趋势下，伴随企业的业务量越来越大、越来越复杂，对数据库的要求越来越高。亚马逊云科技洞察客户需求，在打造云上数据库产品时提出五大理念：

一是专库专用，极致性能；二是无服务器，敏捷创新；第三是全球架构，一键部署；第四是平滑迁移，加速上云；第五是 AI 赋能，深度集成。

02 历经真实锤炼，五大数据库理念，持续赋能企业数智转型

顾凡表示，随着数据爆炸式增长，微服务架构与 DevOps 愈发流行的今天，一个数据库打天下的时代已然过去。我们需要在不同的应用场景下，针对不同的数据类型和不同的数据访问特点，为开发者和企业提供专门构建的工具。

所以亚马逊云科技提出 第一个核心数据库理念：专库专用 。在此理念下，推出针对关系数据、键值数据、文档数据、内存数据、图数据、时许数据、分类账数据、宽列等专门构建数据库的产品家族。

这些数据库产品均经历过亚马逊内部核心业务的真实锤炼，成绩斐然：

亚马逊电商当年是 Oracle 的客户之一，随着亚马逊电商的应用重构和业务体量发展，亚马逊电商决定将业务迁移到亚马逊云科技里。100 多个团队参与这庞大的迁移工作中，将亚马逊电商采购、目录管理、订单执行、广告、财务系统、钱包、视频流等关键系统全部从 Oracle 迁出来。2019 年，亚马逊将存储近 7500 个Oracle 数据库中的 75 PB 内部数据迁移到多项亚马逊云科技的数据库服务中，包括 Amazon DynamoDB、Amazon Aurora、Amazon ElastiCache，于是亚马逊电商成为亚马逊云科技在全球的“第一大客户”。

从 Oracle 切换到亚马逊云科技后，亚马逊电商节省了 60% 成本，面向消费者端的应用程序延迟降低 40%，数据库管理支出减少 70%。

以被誉为“亚马逊云科技历史上用户数量增速最快的云服务”Amazon Aurora 为例，其拥有科媲美高端商业数据库的速度和可用性，还拥有开源数据库的简单性与成本效益，Amazon Aurora 让客户满足“鱼和熊掌兼得”需求。

据顾凡介绍，Amazon Aurora 可提供 5 倍于标准 MySQL 性能，3 倍于 PostgreSQL 吞吐量。同时提供高可用，可用区（AZ）+1的高可用，Global Databases 可完成跨区域灾备。可扩展到 15 个只读副本，成本只有商业数据库的 1/10。

医药企业九州通为药厂、供应商，搭建药厂、供应商、消费者提供供应链链条。其 B2B 系统的业务特点是读多写少，受促销活动、工作时间等影响，经常会出现波峰波谷落差较大的情况，读写比例在 7：2 或者 8：3。九州通采用 Amazon Aurora 后实现读写分离和按需扩展，整体数据库性能提升 5 倍，TCO 降低 50%。实现了跨可用区部署、负载均衡、自动故障转移、精细监控、按需自动伸缩等。

据权威机构预测，到 2022 年，75% 数据库将被部署或迁移至云平台。在这个过程中，亚马逊云科技是如何通过技术来帮助客户加速应用上云的？这离不开除了上述的“专库专用”外，以下四大理念：

第二个理念是无服务器、敏捷创新。 亚马逊云科技大中华区产品部数据类产品高级经理王晓野表示，企业业务总有波峰波谷之时，如何按照企业 80-90% 的业务峰值来规划数据库的存储容量和计算资源的话，将给应用带来一定的业务连续性的妥协和挑战。因此大多数企业都是按照峰值留有余地来选择数据库的计算资源，这将造成成本上的浪费。而 Serverless 数据库服务可完成无差别的繁复工作和自动化扩展。

Amazon DynamoDB 是亚马逊云科技自研 Serverless 数据库，其诞生最早可追溯到 2004 年，当时亚马逊电商作为 Oracle 的客户，尽管对于关系型数据库在零售场景的需求并不频繁，70% 均是键值类 *** 作，此时倒逼亚马逊电商思考：为什么要把关系型数据库这么重得使用？我们可以设计一款支持读写、可横向扩展的分布式数据库吗？后来的故事大家都知道了，这款数据库就是 Amazon DynamoDB，并在 2007 年发表论文，掀起业界 NoSQL 分布式数据库技术创新大潮。

Amazon DynamoDB 可为大规模应用提供支持，支撑亚马逊自身多个高流量网站和系统，如亚马逊电商网站、亚马逊全球 442 个物流中心等。在亚马逊电商一年一度 Prime Day，光是针对DynamoDB API 的调用达到数万亿次，最高峰值请求达到每秒 8920 万次。由此可见，DynamoDB 拥有高吞吐、扩展性、一致性、可预测响应延迟、高可用等优势。

智能可穿戴设备厂商华米科技，在全球 70 多个国家拥有近 1 亿用户。仅 2020 年上半年，其手表出货量超 174 万台，截止到 2021 年 2 月，华米科技的可穿戴设备累计记录步数是 151 万步，累计记录的睡眠时间是 128 亿个夜晚，记录心率总时长达 1208 亿个小时。如此庞大的数据同时必须保证极高的安全性和低延迟相应，如何保证稳定性是巨大的挑战。

DynamoDB 帮助华米科技在任何规模下都能提供延迟不超过 10 毫秒的一致响应时间。华米科技健康云的 P0 和 P1 级别故障减少了约 30%，总体服务可用性提升了 0.25%，系统可用性指标达到 99.99%，为华为科技全球化扩展提供了有力的支撑。

最新无服务数据库产品是 Amazon Aurora Serverless V2 提供瞬间扩展能力，真正把扩展能力发挥到极致，在不到一秒的时间内，将几百个事务扩展到数十万的级别。同时在扩展时每一次调整的增量都是非常精细化的去管理，如果按照峰值来规划数据库资源，可实现大概90%的成本节省。目前 Amazon Aurora Serverless V2 在全球实现预览。

第三个理念是全球架构、一键部署。 在全球化的今天，如何支撑全球客户的业务扩展连续性、一致性、以最低延迟带给到终端客户上，对数据库提出新的挑战。

亚马逊云科技提供 Amazon Aurora 关系型数据库Global Database、Amazon DynamoDB、Amazon ElastiCache 内存数据库、Amazon DocumentDB 文档数据库都能利用亚马逊云科技的骨干网络提供比互联网更稳定的网络支撑，以一键部署的方式，帮助客户实现几千公里跨区域数据库灾备，故障恢复大概能在一分钟之内完成，同时跨区域的数据复制延迟通常小于一秒。

第四个理念是平滑迁移、加速上云。 目前，450000+ 数据库通过亚马逊云科技数据库迁移服务迁移到亚马逊云科技中，这个数字每年都在不断增长。亚马逊云科技提供 Amazon DMS、Amazon Database Migration Service 等工具让开发者和企业进行自助式云迁移。另外，对于迁移过程中可能会需要的支持，可通过专业服务团队和合作伙伴网络成员，为客户提供专业支持，还通过 Database Freedom 项目帮助客户降低他们的顾虑。

今年 11 月，最新产品 Babelfish for Amazon Aurora PostgreSQL 在全球和中国两个区域正式可用，可加速企业上云的迁移，实现让企业可以利用原有的技术栈、原有的 SQL Server T-SQL的人员可以利用到云数据库进行创新。

第五个理念是 AI赋能，深度集成。 我们观察到，ML 技术赋能数据库开发者，开发者无需具备机器学习专业知识，就可进行机器学习 *** 作。在此潮流下，亚马逊云科技推出 Amazon Neptune，借由 Deep Graph Library 和 Amazon SageMaker 驱动图神经网络。

今年 8 月，Neptune ML 在中国正式可用，允许数据工程师不需要掌握机器学习的技能直接从图数据库里导出数据、转换格式、训练模型并发布，用 gremlin 语句调用训练成的模型在数据库里实现推理，进行欺诈检测，推荐物品。

目前，亚马逊云科技加速在中国区域服务落地，2021年至今新发布 60 多个数据库服务与功能。亚马逊云科技正是通过上述五大数据库理念，打造丰富的数据库产品家族，在全球智能化发展趋势下，为企业提供更快更好的数智服务，释放数据价值，并连续六年入选 Gartner 领导者象限，得到业界和客户的深度认可。

常见的非关系型数据库有：1、mongodb；2、cassandra；3、redis；4、hbase；5、neo4j。其中mongodb是非常著名的NoSQL数据库，它是一个面向文档的开源数据库。

常见的几种非关系型数据库：

1、MongoDB

MongoDB是最著名的NoSQL数据库。它是一个面向文档的开源数据库。MongoDB是一个可伸缩和可访问的数据库。它在c++中。MongoDB同样可以用作文件系统。在MongoDB中，JavaScript可以作为查询语言使用。通过使用sharding MongoDB水平伸缩。它在流行的JavaScript框架中非常有用。

人们真的很享受分片、高级文本搜索、gridFS和map-reduce功能。惊人的性能和新特性使这个NoSQL数据库在我们的列表中名列第一。

特点：提供高性能；自动分片；运行在多个服务器上；支持主从复制；数据以JSON样式文档的形式存储；索引文档中的任何字段；由于数据被放置在碎片中，所以它具有自动负载平衡配置；支持正则表达式搜索；在失败的情况下易于管理。

优点：易于安装MongoDB；MongoDB Inc.为客户提供专业支持；支持临时查询；高速数据库；无模式数据库；横向扩展数据库；性能非常高。

缺点：不支持连接；数据量大；嵌套文档是有限的；增加不必要的内存使用。

2、Cassandra

Cassandra是Facebook为收件箱搜索开发的。Cassandra是一个用于处理大量结构化数据的分布式数据存储系统。通常，这些数据分布在许多普通服务器上。您还可以添加数据存储容量，使您的服务保持在线，您可以轻松地完成这项任务。由于集群中的所有节点都是相同的，因此不需要处理复杂的配置。

Cassandra是用Java编写的。Cassandra查询语言(CQL)是查询Cassandra数据库的一种类似sql的语言。因此，Cassandra在最佳开源数据库中排名第二。Facebook、Twitter、思科(Cisco)、Rackspace、eBay、Twitter、Netflix等一些最大的公司都在使用Cassandra。

特点：线性可伸缩；；保持快速响应时间；支持原子性、一致性、隔离性和耐久性(ACID)等属性；使用Apache Hadoop支持MapReduce；分配数据的最大灵活性；高度可伸缩；点对点架构。

优点：高度可伸缩；无单点故障；Multi-DC复制；与其他基于JVM的应用程序紧密集成；更适合多数据中心部署、冗余、故障转移和灾难恢复。

缺点：对聚合的有限支持；不可预知的性能；不支持特别查询。

3、Redis

Redis是一个键值存储。此外，它是最著名的键值存储。Redis支持一些c++、PHP、Ruby、Python、Perl、Scala等等。Redis是用C语言编写的。此外，它是根据BSD授权的。

特点：自动故障转移；将其数据库完全保存在内存中；事务；Lua脚本；将数据复制到任意数量的从属服务器；钥匙的寿命有限；LRU驱逐钥匙；支持发布/订阅。

优点：支持多种数据类型；很容易安装；非常快（每秒执行约11万组，每秒执行约81000次）； *** 作都是原子的；多用途工具（在许多用例中使用）。

缺点：不支持连接；存储过程所需的Lua知识；数据集必须很好地适应内存。

4、HBase

HBase是一个分布式的、面向列的开源数据库，该技术来源于 Fay Chang 所撰写的Google论文“Bigtable：一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统（File System）所提供的分布式数据存储一样，HBase在Hadoop之上提供了类似于Bigtable的能力。

HBase是Apache的Hadoop项目的子项目。HBase不同于一般的关系数据库，它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。

5、neo4j

Neo4j被称为原生图数据库，因为它有效地实现了属性图模型，一直到存储层。这意味着数据完全按照白板的方式存储，数据库使用指针导航和遍历图。Neo4j有数据库的社区版和企业版。企业版包括Community Edition必须提供的所有功能，以及额外的企业需求，如备份、集群和故障转移功能。

特点：它支持唯一的约束；Neo4j支持完整的ACID(原子性、一致性、隔离性和持久性)规则；Java API: Cypher API和本机Java API；使用Apache Lucence索引；简单查询语言Neo4j CQL；包含用于执行CQL命令的UI: Neo4j Data Browser。

优点：容易检索其相邻节点或关系细节，无需连接或索引；易于学习Neo4j CQL查询语言命令；不需要复杂的连接来检索数据；非常容易地表示半结构化数据；大型企业实时应用程序的高可用性；简化的调优。

缺点：不支持分片

WPS成功上市代表了信息化企业软件国产化的趋势。在雷涛看来，WPS不是简单复制后替代Windows office，而是找到了下一代产品需求。

以往无论是运营商还是银行核心系统，大架构都垄断在西方的 IOE（IBM、Oracle、EMC）这三座大山里。直到2008年阿里提出去“IOE”运动，开始助推信息化软件国产化浪潮。

天云数据就是其中最早一批入场者。2010年为了建立中国完整的云计算产业链，中国宽带之父田溯宁投资建设云基地，天云数据便由此孵化，初备雏形。

2015年，雷涛带领创始团队们正式成立天云数据，率先切入金融领域。天云提供了国内领先的国产HTAP数据库Hubble，完成了“去IOE”中最困难的部分，替代金融A类核心系统惯用的西方IOE架构，在银行的联机事务中解决A类核心系统减负问题。此外，为了降低AI使用门槛，天云数据还推出AI PaaS平台MaximAI，逐步将数据价值逐渐扩展到能源、医药、军事等其它行业。

目前天云数据有70多家行业内大企业客户，单笔合同200-500万，纯软件年营收过亿。

融资方面，天云数据2018年曾获得曦域资本、华映资本B轮1亿人民币投资。

作为行业老兵，雷涛在北美跨国公司有20多年的技术管理经验， 2005年便入席SNIA存储工业协会中国区技术委员会联合主席，CCF中国计算机学会大数据专委会委员。

2011年在云基地时期，雷涛和创始团队通过BDP大数据平台负责了众多运营商业务，如联通的数据魔方、移动总部、南方基地等，2015年天云数据正式独立后，雷涛为了避免同业竞争，选择先聚焦在金融领域。

“天云数据的目标是替代 Oracle 和 SAS ”。云基地时期的积累让天云数据一开始就有高起点，首单就接下了光大银行的核心系统——OLTP线交易系统。比如银行能在全国所有营业厅实时实现OOTD交易，实时查询存钱取钱数额，整个环节涉及的技术都是天云数据早期对Oracle的一些替代。

但之后在多次的项目 *** 作过程中雷涛发现，在几百万条交易规格的强一致性下，数据的移动性、计算框架的变化、联机事务同时要做大规模并行计算，这对计算场景的通用性、即时性和全量数据要求极高，传统 Oracle架构根本无法适应。

“在Oracle架构之上，还需要升级满足新需求”。

于是天云数据自主研发HTAP国产分布式数据库Hubble。与传统 IT 架构处理失误需要联机分析和分开处理不同，HTAP 数据库能够在一份数据上同时支撑业务系统运行并做 OLAP 场景，避免在线与离线数据库之间大量的数据交互，为系统减负。

HTAP国产分布式数据库Hubble替代了Oracle一体机,核心表2000余张80T左右、400亿条交易数据、提供56只服务应用交易、满足500个用户并发、500ms交易服务响应、每天在线交易量超200万、占整个银行核心交易量的10%，让银行面向柜面系统可提供7*8小时A类实时核心交易，面向手机网银系统可提供7*24小时A类实时核心交易。

从集中式Oracle切换到分布式HTAP，也解决了数据库扩展性的问题。比如天云数据让光大银行解决了历史数据查询问题，以往历史查询只能查到2年前，但在分布式技术上线后，可以查询15年前所有交易数据，同时让银行柜面系统以及手机APP可以无数人同时查询。

而在BI逐步转向AI的过程中，复杂的商业流程经算法重构。过去要把数据拿到SAS平台先分析，一层一层地把数据提出来搭建。但现在通过分布式技术，流程趋于扁平化，可以实现毫秒级的服务响应。

天云数据一开始就撬动的是行业头部资源。目前天云数据有光大银行、兴业银行、中信银行、中泰证券、中国石油、国家统计局等70余家行业内大企业客户，分布在金融、能源、医药、政府军事等领域，单笔合同级别超百万

针对每个垂直行业，天云数据都会成立一个子公司来专注赛道。目前天云数据有160人，技术人员超六成。

在雷涛看来，如果一年600个项目，全是5万、15万等碎片化的订单，公司总是重复满足初级客户的简单需求，技术很难沉淀和深入。“在当下成长阶段，打造产品需要在用户想要什么和你想做什么中找到平衡”。

对于雷涛而言，专注头部大B发展有两大发展潜力。一方面，大B拥有机器学习的普遍能力和实验室，更容易接受新产品。另一方面，天云数据交付产品和交付服务的同时也在转移大B客户的数据价值。

“AI本身是一个知识生产过程，它能把大型企业规则、流程的经验价值快速地抽样出来进行复制，赋能行业内其它客户甚至类似的其它行业。”

但在头部客户更定制化、个性化的情况下，天云数据是否失去了很强的复制能力？

雷涛解释到，虽然每个企业要求不尽相同，但都在不大的池子里找数据库。企业从海量数据中对数据进行迁徙、清洗、去重，可以去找合适的AI方法让它产生业务的价值，此过程具有通用性。

谈到核心壁垒，雷涛认为天云数据壁垒就是数据的复制价值。

壁垒的构建可分为两个阶段。第一个阶段是前沿科技本身的壁垒，比的是效率和产品核心价值，谁能够扎得深和更好的交付，谁就能拔得头筹。而作为国内最早研发大数据和人工智能的团队，天云数据有一定的技术先发优势。

第二个阶段是推理端的服务。数据资源的价值需要通过机器学习进行提炼，形成知识，进而封装成推理服务服务于行业。比如某保险公司20年长周期发生的重疾赔付定价上学习出来的特征和内容能够快速地移植到保险行业，而头部大企业客户给天云数据带来很优质的训练数据库。

未来AI将引爆万亿级大市场，但目前渗透率不到1%，这给各企业留有众多机会和想象空间。但无论哪种圈地方式，最终比的是速度、服务的稳定性以及产品化的能力。

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/sjk/6759667.html

五大数据库理念，读懂亚马逊云科技的数据库布局

发表评论

评论列表（0条）