createdatabaselibrary
onprimary--默认就属于primary文件组,可省略
(
/--数据文件的具体描述--/
name='library',--主数据文件的逻辑名称
filename='D:\librarymdf',--主数据文件的物理路径名称,可自行修改
size=3mb,--主数据文件的初始大小
filegrowth=15%--主数据文件的增长率
)
logon
(
/--日志文件的具体描述,各参数含义同上--/
name='library_log',filename='D:\library_logldf',size=1mb,filegrowth=1mb
)
查看信息的话:
execSP_HELPDB
PetaBase-V作为Vertica基于亿信分析产品的定制版,提供面向大数据的实时分析服务,采用无共享大规模并行架构(MPP),可线性扩展集群的计算能力和数据处理容量,基于列式数据库技术,使 PetaBase-V 拥有高性能、高扩展性、高压缩率、高健壮性等特点,可完美解决报表计算慢和明细数据查询等性能问题。
大数据实时分析平台(以下简称PB-S),旨在提供数据端到端实时处理能力(毫秒级/秒级/分钟级延迟),可以对接多数据源进行实时数据抽取,可以为多数据应用场景提供实时数据消费。作为现代数仓的一部分,PB-S可以支持实时化、虚拟化、平民化、协作化等能力,让实时数据应用开发门槛更低、迭代更快、质量更好、运行更稳、运维更简、能力更强。
整体设计思想
我们针对用户需求的四个层面进行了统一化抽象:
统一数据采集平台
统一流式处理平台
统一计算服务平台
统一数据可视化平台
同时,也对存储层保持了开放的原则,意味着用户可以选择不同的存储层以满足具体项目的需要,而又不破坏整体架构设计,用户甚至可以在Pipeline中同时选择多个异构存储提供支持。下面分别对四个抽象层进行解读。
1)统一数据采集平台
统一数据采集平台,既可以支持不同数据源的全量抽取,也可以支持增强抽取。其中对于业务数据库的增量抽取会选择读取数据库日志,以减少对业务库的读取压力。平台还可以对抽取的数据进行统一处理,然后以统一格式发布到数据总线上。这里我们选择一种自定义的标准化统一消息格式UMS(Unified Message Schema)做为 统一数据采集平台和统一流式处理平台之间的数据层面协议。
UMS自带Namespace信息和Schema信息,这是一种自定位自解释消息协议格式,这样做的好处是:
整个架构无需依赖外部元数据管理平台;
消息和物理媒介解耦(这里物理媒介指如Kafka的Topic, Spark Streaming的Stream等),因此可以通过物理媒介支持多消息流并行,和消息流的自由漂移。
平台也支持多租户体系,和配置化简单处理清洗能力。
2)统一流式处理平台
统一流式处理平台,会消费来自数据总线上的消息,可以支持UMS协议消息,也可以支持普通JSON格式消息。同时,平台还支持以下能力:
支持可视化/配置化/SQL化方式降低流式逻辑开发/部署/管理门槛
支持配置化方式幂等落入多个异构目标库以确保数据的最终一致性
支持多租户体系,做到项目级的计算资源/表资源/用户资源等隔离
3)统一计算服务平台
统一计算服务平台,是一种数据虚拟化/数据联邦的实现。平台对内支持多异构数据源的下推计算和拉取混算,也支持对外的统一服务接口(JDBC/REST)和统一查询语言(SQL)。由于平台可以统一收口服务,因此可以基于平台打造统一元数据管理/数据质量管理/数据安全审计/数据安全策略等模块。平台也支持多租户体系。
4)统一数据可视化平台
统一数据可视化平台,加上多租户和完善的用户体系/权限体系,可以支持跨部门数据从业人员的分工协作能力,让用户在可视化环境下,通过紧密合作的方式,更能发挥各自所长来完成数据平台最后十公里的应用。
以上是基于整体模块架构之上,进行了统一抽象设计,并开放存储选项以提高灵活性和需求适配性。这样的RTDP平台设计,体现了现代数仓的实时化/虚拟化/平民化/协作化等能力,并且覆盖了端到端的OLPP数据流转链路。
具体问题和解决思路
下面我们会基于PB-S的整体架构设计,分别从不同维度讨论这个设计需要面对的问题考量和解决思路。
功能考量主要讨论这样一个问题:实时Pipeline能否处理所有ETL复杂逻辑?
我们知道,对于Storm/Flink这样的流式计算引擎,是按每条处理的;对于Spark Streaming流式计算引擎,按每个mini-batch处理;而对于离线跑批任务来说,是按每天数据进行处理的。因此处理范围是数据的一个维度(范围维度)。
另外,流式处理面向的是增量数据,如果数据源来自关系型数据库,那么增量数据往往指的是增量变更数据(增删改,revision);相对的批量处理面向的则是快照数据(snapshot)。因此展现形式是数据的另一个维度(变更维度)。
单条数据的变更维度,是可以投射收敛成单条快照的,因此变更维度可以收敛成范围维度。所以流式处理和批量处理的本质区别在于,面对的数据范围维度的不同,流式处理单位为“有限范围”,批量处理单位为“全表范围”。“全表范围”数据是可以支持各种SQL算子的,而“有限范围”数据只能支持部分SQL算子。
复杂的ETL并不是单一算子,经常会是由多个算子组合而成,由上可以看出单纯的流式处理并不能很好的支持所有ETL复杂逻辑。那么如何在实时Pipeline中支持更多复杂的ETL算子,并且保持时效性?这就需要“有限范围”和“全表范围”处理的相互转换能力。
设想一下:流式处理平台可以支持流上适合的处理,然后实时落不同的异构库,计算服务平台可以定时批量混算多源异构库(时间设定可以是每隔几分钟或更短),并将每批计算结果发送到数据总线上继续流转,这样流式处理平台和计算服务平台就形成了计算闭环,各自做擅长的算子处理,数据在不同频率触发流转过程中进行各种算子转换,这样的架构模式理论上即可支持所有ETL复杂逻辑。
2)质量考量
上面的介绍也引出了两个主流实时数据处理架构:Lambda架构和Kappa架构,具体两个架构的介绍网上有很多资料,这里不再赘述。Lambda架构和Kappa架构各有其优劣势,但都支持数据的最终一致性,从某种程度上确保了数据质量,如何在Lambda架构和Kappa架构中取长补短,形成某种融合架构,这个话题会在其他文章中详细探讨。
当然数据质量也是个非常大的话题,只支持重跑和回灌并不能完全解决所有数据质量问题,只是从技术架构层面给出了补数据的工程方案。关于大数据数据质量问题,我们也会起一个新的话题讨论。
3)稳定考量
这个话题涉及但不限于以下几点,这里简单给出应对的思路:
高可用HA
整个实时Pipeline链路都应该选取高可用组件,确保理论上整体高可用;在数据关键链路上支持数据备份和重演机制;在业务关键链路上支持双跑融合机制
SLA保障
在确保集群和实时Pipeline高可用的前提下,支持动态扩容和数据处理流程自动漂移
d性反脆弱
基于规则和算法的资源d性伸缩
支持事件触发动作引擎的失效处理
监控预警
集群设施层面,物理管道层面,数据逻辑层面的多方面监控预警能力
自动运维
能够捕捉并存档缺失数据和处理异常,并具备定期自动重试机制修复问题数据
上游元数据变更抗性
上游业务库要求兼容性元数据变更
实时Pipeline处理显式字段
4)成本考量
这个话题涉及但不限于以下几点,这里简单给出应对的思路:
人力成本
通过支持数据应用平民化降低人才人力成本
资源成本
通过支持动态资源利用降低静态资源占用造成的资源浪费
运维成本
通过支持自动运维/高可用/d性反脆弱等机制降低运维成本
试错成本
通过支持敏捷开发/快速迭代降低试错成本
5)敏捷考量
敏捷大数据是一整套理论体系和方法学,在前文已有所描述,从数据使用角度来看,敏捷考量意味着:配置化,SQL化,平民化。
6)管理考量
数据管理也是一个非常大的话题,这里我们会重点关注两个方面:元数据管理和数据安全管理。如果在现代数仓多数据存储选型的环境下统一管理元数据和数据安全,是一个非常有挑战的话题,我们会在实时Pipeline上各个环节平台分别考虑这两个方面问题并给出内置支持,同时也可以支持对接外部统一的元数据管理平台和统一数据安全策略。
以上是我们探讨的大数据实时分析平台PB-S的设计方案。
mysql数据库的导入,有两种方法:
1)
先导出数据库sql脚本,再导入;
2)
直接拷贝数据库目录和文件。
在不同 *** 作系统或mysql版本情况下,直接拷贝文件的方法可能会有不兼容的情况发生。
所以一般推荐用sql脚本形式导入。下面分别介绍两种方法。
2
方法一
sql脚本形式
*** 作步骤如下:
21
导出sql脚本
在原数据库服务器上,可以用phpmyadmin工具,或者mysqldump命令行,导出sql脚本。
211
用phpmyadmin工具
导出选项中,选择导出“结构”和“数据”,不要添加“drop
database”和“drop
table”选项。
选中“另存为文件”选项,如果数据比较多,可以选中“gzipped”选项。
将导出的sql文件保存下来。
212
用mysqldump命令行
命令格式
mysqldump
-u用户名
-p
数据库名
>
数据库名sql
范例:
mysqldump
-uroot
-p
abc
>
abcsql
(导出数据库abc到abcsql文件)
提示输入密码时,输入该数据库用户名的密码。
22
创建空的数据库
通过主控界面/控制面板,创建一个数据库。假设数据库名为abc,数据库全权用户为abc_f。
23
将sql脚本导入执行
同样是两种方法,一种用phpmyadmin(mysql数据库管理)工具,或者mysql命令行。
231
用phpmyadmin工具
从控制面板,选择创建的空数据库,点“管理”,进入管理工具页面。
在"sql"菜单中,浏览选择刚才导出的sql文件,点击“执行”以上载并执行。
注意:phpmyadmin对上载的文件大小有限制,php本身对上载文件大小也有限制,如果原始sql文件
比较大,可以先用gzip对它进行压缩,对于sql文件这样的文本文件,可获得1:5或更高的压缩率。
gzip使用方法:
#
gzip
xxxxxsql
得到
xxxxxsqlgz文件。
提示输入密码时,输入该数据库用户名的密码。
3
直接拷贝
如果数据库比较大,可以考虑用直接拷贝的方法,但不同版本和 *** 作系统之间可能不兼容,要慎用。
31
准备原始文件
用tar打包为一个文件
32
创建空数据库
33
解压
在临时目录中解压,如:
cd
/tmp
tar
zxf
mydbtargz
34
拷贝
将解压后的数据库文件拷贝到相关目录
cd
mydb/
cp
/var/lib/mysql/mydb/
对于freebsd:
cp
/var/db/mysql/mydb/
35
权限设置
将拷贝过去的文件的属主改为mysql:mysql,权限改为660
chown
mysql:mysql
/var/lib/mysql/mydb/
chmod
660
/var/lib/mysql/mydb/
打字不易,如满意,望采纳。
根据实现策略的不同,主要有快照复制、事务复制、合并复制等三种类型。这三种复制类型,各有各的特点,分别适用于不同的场合。一般来说,在考虑采用哪种复制类型比较合适的时候,主要考虑的是性能与数据同步的时间间复制是SQLServer数据库中保持数据一致性的一种手段。根据实现策略的不同,主要有快照复制、事务复制、合并复制等三种类型。这三种复制类型,各有各的特点,分别适用于不同的场合。一般来说,在考虑采用哪种复制类型比较合适的时候,主要考虑的是性能与数据同步的时间间隔。那么在什么情形下比较适用快照复制呢笔者就跟大家来讨论一下这个话题。 为了在恰当的时候采用快照复制,数据库管理员首先需要知道快照复制的特点。快照复制是指将数据以特定时刻的瞬时状态转发,而不坚实对数据的更新。在发生同步时,将生成完整的快照并将其发送到订阅服务器。简单的说,快照复制就是每隔一段时间发生数据同步 *** 作。而不是发布服务器的数据一有更新就出发这个快照复制。显然这种快照复制的数据同步性稍微差一点。在订阅服务器与发布服务器之间有一段时间会存在数据不一致的情况。但是这可以在很大程度上提高订阅服务器与发布服务器的性能。这就好像汽车运输。采用快照复制的话可以将一个集装箱装满后在送货,而不是有多少送多少。掌握这个数据库复快照复制的具体特点之后,数据库管理员就可以来考虑在什么情况下,采用快照复制更加的合理。 一、数据更改比较少的系统中。 快照复制与其他复制相比最主要的缺陷就是数据库中的数据无法及时同发布服务器一致。为此如果发布服务器中的内容很少更改的话,显然此时采用快照复制是比较合理的。此时采用快照复制的话,不仅数据一致性延迟的负面效应会越来越不明显,同时可以提高发布服务器与订阅服务器的性能。如在实际工作中,经常会遇到这样的客户。如一家企业在各地都有办事处或者销售机构,就像肯德基一样,各地的产品价格基本上都是相同的,不怎么会更改。即使更改的话,各地也是统一调整。由于此时产品价格表更改的比较少,那么在企业总部的数据库服务与各地的订阅服务器之间,采用快照复制的形式就会比较合适。其实类似的情况有很多。如不少的服装企业,像李宁、耐克等等,他们不仅自己生产,而且在各地又有自己的销售办事处。在价格方面也是统一的。在这种情况下,采用快照复制往往能够提高数据库复制的性能,同时又不影响其使用。 二、在某个时段内会出现数据大量的更改。 需要补充说明的一点是,上面说到的数据不怎么发生更改,指的是数据的延续性更改。如在一年中,每天或者每个小时更改的数据都比较平均。此时采用快照复制不怎么合适。但是如果数据的更改集中在一个时段内。而其他时间中数据库的内容不会有多大的更改。此时采用快照复制是可行的。如一些决策性系统,往往在起初导入数据的时候,需要进行大量的更改。而等到数据导入完毕,在大家对数据进行分析时,则数据库中的内容基本上保持不变。在这种情况下,笔者认为只要数据的更新集中在一个固定的时段,此时采用快照复制仍然是可行的。 再如上面这个KFC或者服装企业的案例中,如果市场部门维护一个产品的价格,而且这些价格往往在一个固定的时间进行几次更新。如在换季的时候会进行一些促销。此时数据库管理员可以在数据更新完毕后立即执行复制完成的数据快照。所以,以数据更新来判断是否适合采用快照复制,标准并不是数据的更新量。像上面提到的分析决策系统,其起初的数据更新量可能比有些数据库系统几年的数据更新量都要大。笔者认为,主要是根据数据更新的频率来进行判断。如果数据更新的比较频繁,那么即使数据更新的数据不多,像那种细水长流似的更新,则不适合采用快照复制。而那些井喷似的数据更新,所有的更新都集中在一个固定的时刻,那么此时采用快照复制是比较合理的。 三、在一段时间内是否允许具有相对发布服务器已过时的数据副本 现在不少超市也已经连锁了,如世纪联华等等。为了提高利润,增加市场的份额,这些超市纷纷推出了冲值卡,即消费者先将一定金额的人民币打入到冲值卡中。然后每次消费完成后从卡中扣费。但前些天经常有新闻报道,说一个客户的消费卡在一家联华超市挂失了。但是捡到这张卡的人仍然可以在其他的联华超市中消费。为此消费者就想不明白了,为什么挂失了的消费卡仍然可以在其他超市中消费挂失后的损失该由谁来承担呢其实这就使超市在不适当的时候采用了快照复制所造成的。由于采用快照复制,在各个联华超市的数据库之间数据无法在短时间内取得一致。如有些商户说挂失当日之内的损失他们不承担,这就说明他们可能是每天下班后进行一次快照复制。一般情况下这不会有问题。但是像遇到消费卡被偷了等情况,就会遇到类似的问题了。 所以,在考虑是否适合采用快照复制的时候,还需要考虑在一段时间内是否允许具有相对发布服务器来说已过时的数据副本。如果不允许的话,那么就不允许采用这个快照复制。如果允许的话,那么数据库管理员就需要评估这段时间最长是多少。如果是24个小时,那么就需要每隔24小时进行一次快照复制。但是需要注意的是,如果时间的间隔比较短,如才允许十分钟的数据延迟,那么采用快照复制就没有必要了。此时采用事务复制或则和合并复制可能更加的合适。 四、复制少量的数据。 快照复制跟其他复制类型相比,还有一个比较显著的特点,即当发生数据同步时,将生成完整的快照并将其从发布服务器传送到订阅服务器。这是一个什么概念呢如订阅服务器中有10G的数据,而在一个快照复制的周期内,只有1M的数据发生了更改。此时发生快照复制的话,数据库系统会将10G的数据都传送到订阅服务器上。此时更改的数据只有1M,却需要在网络上传送10G的数据流量,显然会对企业的网络产生比较大的压力。由于在发布服务器上快照复制的连续开销低于事务复制的开销,一次数据库系统不会启用跟踪增量更改。但是像这种情况,如果要复制的数据量非常的大,而平时的更新又不多。此时数据库系统要生成和应用快照,就将耗用大量的资源,包括网络资源和服务器资源。所以说,当发布服务器中的数据比较多时,采用快照复制不怎么合适。因为此时网络传输反而会成为其最重大的瓶颈资源。相反若能够采取细水长流的事务复制策略,那么对于企业网络性能的影响就会小的多,甚至可以忽略不计。 所以在采用快照复制的时候,数据库管理员一定要明白,快照复制会传送整个数据库对象。从而在快照复制传输过程中会侵蚀大量的网络带宽,从而明显的降低企业网络的性能,甚至导致网络拥塞。有时候为了保障快照能够准确、迅速的传递到其他的订阅服务器,还不得不采用***等技术来保障传输的准确性。为此,笔者认为只有发布服务器的数据库并不是很大的情况下,才适合采用快照复制。否则的话,采用快照复制是得不偿失。 从以上的分析中,可以得到一个结论。在考虑采用快照复制是否合适时,往往不能够采用一个指标来判断。而需要考虑多个因素,如数据库的大小、数据更新的频率、允许数据延迟的时间等等因素来进行判断。最后在数据的一致性与数据库的性能之间取得一个均衡。说实话,对于大部分数据库管理员来说,要做出一个抉择,确实有困难。因为这没有固定的指标可以拿来参考。如数据库容量小于多少时该采用快照复制。任何一个数据库管理专家都不能够下这个结论。所以在掌握影响其选择的相关因素外,就要依靠数据库管理员的经验了。在遇到类似的选择题时,往往经验可以帮助管理员迅速解决问题。最后需要提醒的是,无论最终采取了什么方案,最好能够持续跟踪一段时间,看看自己的选择是否合理。
1970 年,关系型数据库之父 EFCodd 发表《用于大型共享数据库的关系数据模型》论文,正式拉开数据库技术发展序幕。以 Oracle、DB2、SQL Server 为代表的三大商业数据库产品独占鳌头,随后涌现出 MySQL、PostgreSQL 等为代表的开源数据库 ,和以 Amazon RDS 等为代表的云数据库,拉开百花齐放的数据库新序幕。
我们知道,云计算十年为产业转型升级提供了 历史 性契机,但变革仍在进行,随着云计算的普及,数据库市场发生根本性改变,云厂商打破传统商业数据库的堡垒,成为数据库领域全新力量。其中以连续六年入选 Gartner 领导者象限的亚马逊云 科技 为代表,我们一起探讨:为什么亚马逊云 科技 能始终保持其创新性?纵观云原生时代下,亚马逊云 科技 数据库未来还有哪些更多的可能性?
01 面对四大数据库发展趋势,亚马逊云 科技 打造五大数据库理念
后疫情时代下,加速了不少行业的业务在线化和数字化运营,企业对数据价值挖掘的需求越发强烈,亚马逊云 科技 大中华区产品部总经理顾凡详细介绍其中四大趋势:
一是伴随互联网、移动互联网的发展,电商、视频、社交、出行等新应用场景的兴起,不仅数据量大,对数据实时性要求极高,传统关系型数据库无法满足需求,因此驱动云原生数据库的出现。
二是开源数据库的广泛应用。
三是应用程序现代化对数据库提出更高要求,期待数据库拥有更高的性能、可扩展性、可用性以及降低成本,让开发人员专注于核心业务的应用开发,不用关注和核心业务无关的代码。
四是软件架构历经 PC、互联网、移动互联网,再到如今的万物互联时代,其中的迭代和转型正在驱动数据库选型的变化。
在此四大趋势下,伴随企业的业务量越来越大、越来越复杂,对数据库的要求越来越高。亚马逊云 科技 洞察客户需求,在打造云上数据库产品时提出五大理念:
一是专库专用,极致性能;二是无服务器,敏捷创新;第三是全球架构,一键部署;第四是平滑迁移,加速上云;第五是 AI 赋能,深度集成。
02 历经真实锤炼,五大数据库理念,持续赋能企业数智转型
顾凡表示,随着数据爆炸式增长,微服务架构与 DevOps 愈发流行的今天,一个数据库打天下的时代已然过去。我们需要在不同的应用场景下,针对不同的数据类型和不同的数据访问特点,为开发者和企业提供专门构建的工具。
所以亚马逊云 科技 提出 第一个核心数据库理念:专库专用 。在此理念下,推出针对关系数据、键值数据、文档数据、内存数据、图数据、时许数据、分类账数据、宽列等专门构建数据库的产品家族。
这些数据库产品均经历过亚马逊内部核心业务的真实锤炼,成绩斐然:
亚马逊电商当年是 Oracle 的客户之一,随着亚马逊电商的应用重构和业务体量发展,亚马逊电商决定将业务迁移到亚马逊云 科技 里。100 多个团队参与这庞大的迁移工作中,将亚马逊电商采购、目录管理、订单执行、广告、财务系统、钱包、视频流等关键系统全部从 Oracle 迁出来。2019 年,亚马逊将存储近 7500 个Oracle 数据库中的 75 PB 内部数据迁移到多项亚马逊云 科技 的数据库服务中,包括 Amazon DynamoDB、Amazon Aurora、Amazon ElastiCache,于是亚马逊电商成为亚马逊云 科技 在全球的“第一大客户”。
从 Oracle 切换到亚马逊云 科技 后,亚马逊电商节省了 60% 成本,面向消费者端的应用程序延迟降低 40%,数据库管理支出减少 70%。
以被誉为“亚马逊云 科技 历史 上用户数量增速最快的云服务”Amazon Aurora 为例,其拥有科媲美高端商业数据库的速度和可用性,还拥有开源数据库的简单性与成本效益,Amazon Aurora 让客户满足“鱼和熊掌兼得”需求。
据顾凡介绍,Amazon Aurora 可提供 5 倍于标准 MySQL 性能,3 倍于 PostgreSQL 吞吐量。同时提供高可用,可用区(AZ)+1的高可用,Global Databases 可完成跨区域灾备。可扩展到 15 个只读副本,成本只有商业数据库的 1/10。
医药企业九州通为药厂、供应商,搭建药厂、供应商、消费者提供供应链链条。其 B2B 系统的业务特点是读多写少,受促销活动、工作时间等影响,经常会出现波峰波谷落差较大的情况,读写比例在 7:2 或者 8:3。九州通采用 Amazon Aurora 后实现读写分离和按需扩展,整体数据库性能提升 5 倍,TCO 降低 50%。实现了跨可用区部署、负载均衡、自动故障转移、精细监控、按需自动伸缩等。
据权威机构预测,到 2022 年,75% 数据库将被部署或迁移至云平台。在这个过程中,亚马逊云 科技 是如何通过技术来帮助客户加速应用上云的?这离不开除了上述的“专库专用”外,以下四大理念:
第二个理念是无服务器、敏捷创新。 亚马逊云 科技 大中华区产品部数据类产品高级经理王晓野表示,企业业务总有波峰波谷之时,如何按照企业 80-90% 的业务峰值来规划数据库的存储容量和计算资源的话,将给应用带来一定的业务连续性的妥协和挑战。因此大多数企业都是按照峰值留有余地来选择数据库的计算资源,这将造成成本上的浪费。而 Serverless 数据库服务可完成无差别的繁复工作和自动化扩展。
Amazon DynamoDB 是亚马逊云 科技 自研 Serverless 数据库,其诞生最早可追溯到 2004 年,当时亚马逊电商作为 Oracle 的客户,尽管对于关系型数据库在零售场景的需求并不频繁,70% 均是键值类 *** 作,此时倒逼亚马逊电商思考:为什么要把关系型数据库这么重得使用?我们可以设计一款支持读写、可横向扩展的分布式数据库吗?后来的故事大家都知道了,这款数据库就是 Amazon DynamoDB,并在 2007 年发表论文,掀起业界 NoSQL 分布式数据库技术创新大潮。
Amazon DynamoDB 可为大规模应用提供支持,支撑亚马逊自身多个高流量网站和系统,如亚马逊电商网站、亚马逊全球 442 个物流中心等。在亚马逊电商一年一度 Prime Day,光是针对DynamoDB API 的调用达到数万亿次,最高峰值请求达到每秒 8920 万次。由此可见,DynamoDB 拥有高吞吐、扩展性、一致性、可预测响应延迟、高可用等优势。
智能可穿戴设备厂商华米 科技 ,在全球 70 多个国家拥有近 1 亿用户。仅 2020 年上半年,其手表出货量超 174 万台,截止到 2021 年 2 月,华米 科技 的可穿戴设备累计记录步数是 151 万步,累计记录的睡眠时间是 128 亿个夜晚,记录心率总时长达 1208 亿个小时。如此庞大的数据同时必须保证极高的安全性和低延迟相应,如何保证稳定性是巨大的挑战。
DynamoDB 帮助华米 科技 在任何规模下都能提供延迟不超过 10 毫秒的一致响应时间。华米 科技 健康 云的 P0 和 P1 级别故障减少了约 30%,总体服务可用性提升了 025%,系统可用性指标达到 9999%,为华为 科技 全球化扩展提供了有力的支撑。
最新无服务数据库产品是 Amazon Aurora Serverless V2 提供瞬间扩展能力,真正把扩展能力发挥到极致,在不到一秒的时间内,将几百个事务扩展到数十万的级别。同时在扩展时每一次调整的增量都是非常精细化的去管理,如果按照峰值来规划数据库资源,可实现大概90%的成本节省。目前 Amazon Aurora Serverless V2 在全球实现预览。
第三个理念是全球架构、一键部署。 在全球化的今天,如何支撑全球客户的业务扩展连续性、一致性、以最低延迟带给到终端客户上,对数据库提出新的挑战。
亚马逊云 科技 提供 Amazon Aurora 关系型数据库Global Database、Amazon DynamoDB、Amazon ElastiCache 内存数据库、Amazon DocumentDB 文档数据库都能利用亚马逊云 科技 的骨干网络提供比互联网更稳定的网络支撑,以一键部署的方式,帮助客户实现几千公里跨区域数据库灾备,故障恢复大概能在一分钟之内完成,同时跨区域的数据复制延迟通常小于一秒。
第四个理念是平滑迁移、加速上云。 目前,450000+ 数据库通过亚马逊云 科技 数据库迁移服务迁移到亚马逊云 科技 中,这个数字每年都在不断增长。亚马逊云 科技 提供 Amazon DMS、Amazon Database Migration Service 等工具让开发者和企业进行自助式云迁移。另外,对于迁移过程中可能会需要的支持,可通过专业服务团队和合作伙伴网络成员,为客户提供专业支持,还通过 Database Freedom 项目帮助客户降低他们的顾虑。
今年 11 月,最新产品 Babelfish for Amazon Aurora PostgreSQL 在全球和中国两个区域正式可用,可加速企业上云的迁移,实现让企业可以利用原有的技术栈、原有的 SQL Server T-SQL的人员可以利用到云数据库进行创新。
第五个理念是 AI赋能,深度集成。 我们观察到,ML 技术赋能数据库开发者,开发者无需具备机器学习专业知识,就可进行机器学习 *** 作。在此潮流下,亚马逊云 科技 推出 Amazon Neptune,借由 Deep Graph Library 和 Amazon SageMaker 驱动图神经网络。
今年 8 月,Neptune ML 在中国正式可用,允许数据工程师不需要掌握机器学习的技能直接从图数据库里导出数据、转换格式、训练模型并发布,用 gremlin 语句调用训练成的模型在数据库里实现推理,进行欺诈检测,推荐物品。
目前,亚马逊云 科技 加速在中国区域服务落地,2021年至今新发布 60 多个数据库服务与功能。亚马逊云 科技 正是通过上述五大数据库理念,打造丰富的数据库产品家族,在全球智能化发展趋势下,为企业提供更快更好的数智服务,释放数据价值,并连续六年入选 Gartner 领导者象限,得到业界和客户的深度认可。
为了在恰当的时候采用快照复制,数据库管理员首先需要知道快照复制的特点。快照复制是指将数据以特定时刻的瞬时状态转发,而不坚实对数据的更新。在发生同步时,将生成完整的快照并将其发送到订阅服务器。简单的说,快照复制就是每隔一段时间发生数据同步 *** 作。而不是发布服务器的数据一有更新就出发这个快照复制。显然这种快照复制的数据同步性稍微差一点。在订阅服务器与发布服务器之间有一段时间会存在数据不一致的情况。但是这可以在很大程度上提高订阅服务器与发布服务器的性能。这就好像汽车运输。采用快照复制的话可以将一个集装箱装满后在送货,而不是有多少送多少。掌握这个数据库复快照复制的具体特点之后,数据库管理员就可以来考虑在什么情况下,采用快照复制更加的合理。一、数据更改比较少的系统中。 快照复制与其他复制相比最主要的缺陷就是数据库中的数据无法及时同发布服务器一致。为此如果发布服务器中的内容很少更改的话,显然此时采用快照复制是比较合理的。此时采用快照复制的话,不仅数据一致性延迟的负面效应会越来越不明显,同时可以提高发布服务器与订阅服务器的性能。如在实际工作中,经常会遇到这样的客户。如一家企业在各地都有办事处或者销售机构,就像肯德基一样,各地的产品价格基本上都是相同的,不怎么会更改。即使更改的话,各地也是统一调整。由于此时产品价格表更改的比较少,那么在企业总部的数据库服务与各地的订阅服务器之间,采用快照复制的形式就会比较合适。其实类似的情况有很多。如不少的服装企业,像李宁、耐克等等,他们不仅自己生产,而且在各地又有自己的销售办事处。在价格方面也是统一的。在这种情况下,采用快照复制往往能够提高数据库复制的性能,同时又不影响其使用。二、在某个时段内会出现数据大量的更改。 需要补充说明的一点是,上面说到的数据不怎么发生更改,指的是数据的延续性更改。如在一年中,每天或者每个小时更改的数据都比较平均。此时采用快照复制不怎么合适。但是如果数据的更改集中在一个时段内。而其他时间中数据库的内容不会有多大的更改。此时采用快照复制是可行的。如一些决策性系统,往往在起初导入数据的时候,需要进行大量的更改。而等到数据导入完毕,在大家对数据进行分析时,则数据库中的内容基本上保持不变。在这种情况下,笔者认为只要数据的更新集中在一个固定的时段,此时采用快照复制仍然是可行的。再如上面这个KFC或者服装企业的案例中,如果市场部门维护一个产品的价格,而且这些价格往往在一个固定的时间进行几次更新。如在换季的时候会进行一些促销。此时数据库管理员可以在数据更新完毕后立即执行复制完成的数据快照。所以,以数据更新来判断是否适合采用快照复制,标准并不是数据的更新量。像上面提到的分析决策系统,其起初的数据更新量可能比有些数据库系统几年的数据更新量都要大。笔者认为,主要是根据数据更新的频率来进行判断。如果数据更新的比较频繁,那么即使数据更新的数据不多,像那种细水长流似的更新,则不适合采用快照复制。而那些井喷似的数据更新,所有的更新都集中在一个固定的时刻,那么此时采用快照复制是比较合理的。三、在一段时间内是否允许具有相对发布服务器已过时的数据副本 现在不少超市也已经连锁了,如世纪联华等等。为了提高利润,增加市场的份额,这些超市纷纷推出了冲值卡,即消费者先将一定金额的人民币打入到冲值卡中。然后每次消费完成后从卡中扣费。但前些天经常有新闻报道,说一个客户的消费卡在一家联华超市挂失了。但是捡到这张卡的人仍然可以在其他的联华超市中消费。为此消费者就想不明白了,为什么挂失了的消费卡仍然可以在其他超市中消费挂失后的损失该由谁来承担呢其实这就使超市在不适当的时候采用了快照复制所造成的。由于采用快照复制,在各个联华超市的数据库之间数据无法在短时间内取得一致。如有些商户说挂失当日之内的损失他们不承担,这就说明他们可能是每天下班后进行一次快照复制。一般情况下这不会有问题。但是像遇到消费卡被偷了等情况,就会遇到类似的问题了。所以,在考虑是否适合采用快照复制的时候,还需要考虑在一段时间内是否允许具有相对发布服务器来说已过时的数据副本。如果不允许的话,那么就不允许采用这个快照复制。如果允许的话,那么数据库管理员就需要评估这段时间最长是多少。如果是24个小时,那么就需要每隔24小时进行一次快照复制。但是需要注意的是,如果时间的间隔比较短,如才允许十分钟的数据延迟,那么采用快照复制就没有必要了。此时采用事务复制或则和合并复制可能更加的合适。四、复制少量的数据。 快照复制跟其他复制类型相比,还有一个比较显著的特点,即当发生数据同步时,将生成完整的快照并将其从发布服务器传送到订阅服务器。这是一个什么概念呢如订阅服务器中有10G的数据,而在一个快照复制的周期内,只有1M的数据发生了更改。此时发生快照复制的话,数据库系统会将10G的数据都传送到订阅服务器上。此时更改的数据只有1M,却需要在网络上传送10G的数据流量,显然会对企业的网络产生比较大的压力。由于在发布服务器上快照复制的连续开销低于事务复制的开销,一次数据库系统不会启用跟踪增量更改。但是像这种情况,如果要复制的数据量非常的大,而平时的更新又不多。此时数据库系统要生成和应用快照,就将耗用大量的资源,包括网络资源和服务器资源。所以说,当发布服务器中的数据比较多时,采用快照复制不怎么合适。因为此时网络传输反而会成为其最重大的瓶颈资源。相反若能够采取细水长流的事务复制策略,那么对于企业网络性能的影响就会小的多,甚至可以忽略不计。所以在采用快照复制的时候,数据库管理员一定要明白,快照复制会传送整个数据库对象。从而在快照复制传输过程中会侵蚀大量的网络带宽,从而明显的降低企业网络的性能,甚至导致网络拥塞。有时候为了保障快照能够准确、迅速的传递到其他的订阅服务器,还不得不采用***等技术来保障传输的准确性。为此,笔者认为只有发布服务器的数据库并不是很大的情况下,才适合采用快照复制。否则的话,采用快照复制是得不偿失。从以上的分析中,可以得到一个结论。在考虑采用快照复制是否合适时,往往不能够采用一个指标来判断。而需要考虑多个因素,如数据库的大小、数据更新的频率、允许数据延迟的时间等等因素来进行判断。最后在数据的一致性与数据库的性能之间取得一个均衡。说实话,对于大部分数据库管理员来说,要做出一个抉择,确实有困难。因为这没有固定的指标可以拿来参考。如数据库容量小于多少时该采用快照复制。任何一个数据库管理专家都不能够下这个结论。所以在掌握影响其选择的相关因素外,就要依靠数据库管理员的经验了。在遇到类似的选择题时,往往经验可以帮助管理员迅速解决问题。最后需要提醒的是,无论最终采取了什么方案,最好能够持续跟踪一段时间,看看自己的选择是否合理。
以上就是关于数据库自动增长的增量值一般设定为多少全部的内容,包括:数据库自动增长的增量值一般设定为多少、设计一个大数据实时分析平台要怎么做呢、如何增量导入MYSQL数据库中的数据等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)