分布式数据库系统(DDBS)概述_服务器

一什么是分布式数据库

分布式数据库系统是在集中式数据库系统的基础上发展来的是数据库技术与网络技术结合的产物

分布式数据库系统有两种一种是物理上分布的但逻辑上却是集中的这种分布式数据库只适宜用途比较单一的不大的单位或部门另一种分布式数据库系统在物理上和逻辑上都是分布的也就是所谓联邦式分布数据库系统由于组成联邦的各个子数据库系统是相对自治的这种系统可以容纳多种不同用途的差异较大的数据库比较适宜于大范围内数据库的集成

分布式数据库系统(DDBS)包含分布式数据库管理系统(DDBMS)和分布式数据库(DDB)

在分布式数据库系统中一个应用程序可以对数据库进行透明 *** 作数据库中的数据分别在不同的局部数据库中存储由不同的DBMS进行管理在不同的机器上运行由不同的 *** 作系统支持被不同的通信网络连接在一起

一个分布式数据库在逻辑上是一个统一的整体即在用户面前为单个逻辑数据库在物理上则是分别存储在不同的物理节点上一个应用程序通过网络的连接可以访问分布在不同地理位置的数据库它的分布性表现在数据库中的数据不是存储在同一场地更确切地讲不存储在同一计算机的存储设备上这就是与集中式数据库的区别从用户的角度看一个分布式数据库系统在逻辑上和集中式数据库系统一样用户可以在任何一个场地执行全局应用就好那些数据是存储在同一台计算机上有单个数据库管理系统(DBMS)管理一样用户并没有什么感觉不一样

分布式数据库中每一个数据库服务器合作地维护全局数据库的一致性

分布式数据库系统是一个客户/服务器体系结构

在系统中的每一台计算机称为结点如果一结点具有管理数据库软件该结点称为数据库服务器如果一个结点为请求服务器的信息的一应用该结点称为客户在ORACLE客户执行数据库应用可存取数据信息和与用户交互在服务器执行ORACLE软件处理对ORACLE数据库并发共享数据存取 ORACLE允许上述两部分在同一台计算机上但当客户部分和服务器部分是由网连接的不同计算机上时更有效

分布处理是由多台处理机分担单个任务的处理在ORACLE数据库系统中分布处理的例子如

客户和服务器是位于网络连接的不同计算机上

单台计算机上有多个处理器不同处理器分别执行客户应用

参与分布式数据库的每一服务器是分别地独立地管理数据库好像每一数据库不是网络化的数据库每一个数据库独立地被管理称为场地自治性场地自治性有下列好处

◆系统的结点可反映公司的逻辑组织

◆由局部数据库管理员控制局部数据这样每一个数据库管理员责任域要小一些可更好管理

◆只要一个数据库和网络是可用那么全局数据库可部分可用不会因一个数据库的故障而停止全部 *** 作或引起性能瓶颈

◆故障恢复通常在单个结点上进行

◆每个局部数据库存在一个数据字典

◆结点可独立地升级软件

可从分布式数据库的所有结点存取模式对象因此正像非分布的局部的DBMS 必须提供一种机制可在局部数据库中引用一个对象分布式DBMS必须提供一种命名模式以致分布式数据库中一个对象可在应用中唯一标识和引用一般在层次结构的每一层实施唯一性分布式DBMS简单地扩充层次命名模型实施在网络上唯一数据库命名因此一个对象的全局对象名保证在分布式数据库内是唯一

ORACLE允许在SQL语句中使用全局对象名引用分布式数据库中的模式对象(表视图和过程) 在ORACLE中一个模式对象的全局名由三部分组成包含对象的模式名对象名数据库名其形式如

SCOTT EMP@SALES DIVISION ACME

一个远程查询为一查询是从一个或多个远程表中选择信息这些表驻留在同一个远程结点

一个分布式查询可从两个或多个结点检索数据一个分布式更新可修改两个或两个以上结点的数据

一个远程事务为一个事务包含一人或多个远程语句它所引用的全部是在同一个远程结点上一个分布式事务中一个事务包含一个或多个语句修改分布式数据库的两个或多个不同结点的数据

在分布式数据库中事务控制必须在网络上直辖市保证数据一致性两阶段提交机制保证参与分布式事务的全部数据库服务器是全部提交或全部回滚事务中的语句

ORACLE分布式数据库系统结构可由ORACLE数据库管理员为终端用户和应用提供位置透明性利用视图同义词过程可提供ORACLE分布式数据库系统中的位置透明性

ORACLE提供两种机制实现分布式数据库中表重复的透明性表快照提供异步的表重复;触发器实现同步的表的重复在两种情况下都实现了对表重复的透明性

在单场地或分布式数据库中所有事务都是用MIT或ROLLBACK语句中止

二分布式数据库系统的分类

( ) 同构同质型DDBS 各个场地都采用同一类型的数据模型(譬如都是关系型) 并且是同一型号的DBMS

( )同构异质型DDBS 各个场地采用同一类型的数据模型但是DBMS的型号不同譬如DB ORACLE SYBASE SQL Server等

( )异构型DDBS 各个场地的数据模型的型号不同甚至类型也不同随着计算机网络技术的发展异种机联网问题已经得到较好的解决此时依靠异构型DDBS就能存取全网中各种异构局部库中的数据

三分布式数据库系统主要特点

DDBS的基本特点

( )物理分布性数据不是存储在一个场地上而是存储在计算机网络的多个场地上

逻辑整体性数据物理分布在各个场地但逻辑上是一个整体它们被所有用户(全局用户)共享并由一个DDBMS统一管理

( )场地自治性各场地上的数据由本地的DBMS管理具有自治处理能力完成本场地的应用(局部应用)

( )场地之间协作性各场地虽然具有高度的自治性但是又相互协作构成一个整体

DDBS的其他特点

( )数据独立性

( )集中与自治相结合的控制机制

( )适当增加数据冗余度

( )事务管理的分布性

四分布式数据库系统的优点

( )更适合分布式的管理与控制

分布式数据库系统的结构更适合具有地理分布特性的组织或机构使用允许分布在不同区域不同级别的各个部门对其自身的数据实行局部控制例如实现全局数据在本地录入查询维护这时由于计算机资源靠近用户可以降低通信代价提高响应速度而涉及其他场地数据库中的数据只是少量的从而可以大大减少网络上的信息传输量;同时局部数据的安全性也可以做得更好

( )具有灵活的体系结构

集中式数据库系统强调的是集中式控制物理数据库是存放在一个场地上的由一个DBMS集中管理多个用户只可以通过近程或远程终端在多用户 *** 作系统支持下运行该DBMS来共享集中是数据库中的数据而分布式数据库系统的场地局部DBMS的自治性使得大部分的局部事务管理和控制都能就地解决只有在涉及其他场地的数据时才需要通过网络作为全局事务来管理分布式DBMS可以设计成具有不同程度的自治性从具有充分的场地自治到几乎是完全集中式的控制

( )系统经济可靠性高可用性好

与一个大型计算机支持一个大型的集中式数据库在加一些进程和远程终端相比由超级微型计算机或超级小型计算机支持的分布式数据库系统往往具有更高的性价比和实施灵活性分布式系统比集中式系统具有更高的可靠性和更好的可用性如由于数据分布在多个场地并有许多复制数据在个别场地或个别通信链路发生故障时不致于导致整个系统的崩溃而且系统的局部故障不会引起全局失控

( )在一定条件下响应速度加快

如果存取的数据在本地数据库中那么就可以由用户所在的计算机来执行速度就快

( )可扩展性好易于集成现有系统也易于扩充

对于一个企业或组织可以采用分布式数据库技术在以建立的若干数据库的基础上开发全局应用对原有的局部数据库系统作某些改动形成一个分布式系统这比重建一个大型数据库系统要简单既省时间又省财力物力也可以通过增加场地数的办法迅速扩充已有的分布式数据库系统

五分布式数据库系统的劣势

( )通信开销较大故障率高

例如在网络通信传输速度不高时系统的响应速度慢与通信相关的因素往往导致系统故障同时系统本身的复杂性也容易导致较高的故障率当故障发生后系统恢复也比较复杂可靠性有待提高

( )数据的存取结构复杂

一般来说在分布时数据库中存取数据比在集中时数据库中存取数据更复杂开销更大

( )数据的安全性和保密性较难控制

在具有高度场地自治的分布时数据库中不同场地的局部数据库管理员可以采用不同的安全措施但是无法保证全局数据都是安全的安全性问题式分布式系统固有的问题因为分布式系统式通过通信网络来实现分布控制的而通信网络本身却在保护数据的安全性和保密性方面存在弱点数据很容易被窃取

分布式数据库的设计场地划分及数据在不同场地的分配比较复杂数据的划分及分配对系统的性能响应速度及可用性等具有极大的影响不同场地的通信速度与局部数据库系统的存取部件的存取速度相比是非常慢的通信系统有较高的延迟在CPU上处理通信信息的代价很高分布式数据库系统中要注意解决分布式数据库的设计查询处理和优化事务管理及并发控制和目录管理等问题

六分布式数据库系统数据分片

类型

水平分片

按一定的条件把全局关系的所有元组划分成若干不相交的子集每个子集为关系的一个片段

垂直分片

把一个全局关系的属性集分成若干子集并在这些子集上作投影运算每个投影称为垂直分片

导出分片

又称为导出水平分片即水平分片的条件不是本关系属性的条件而是其他关系属性的条件

混合分片

以上三种方法的混合可以先水平分片再垂直分片或先垂直分片再水平分片或其他形式但他们的结果是不相同的

条件

( )完备性条件

必须把全局关系的所有数据映射到片段中决不允许有属于全局关系的数据却不属于它的任何一个片段

( )可重构条件

必须保证能够由同一个全局关系的各个片段来重建该全局关系对于水平分片可用并 *** 作重构全局关系;对于垂直分片可用联接 *** 作重构全局关系

( )不相交条件

要求一个全局关系被分割后所得的各个数据片段互不重叠(对垂直分片的主键除外)

七分布式数据库系统数据分配方式

( )集中式所有数据片段都安排在同一个场地上

( )分割式

所有数据只有一份它被分割成若干逻辑片段每个逻辑片段被指派在一个特定的场地上

( )全复制式数据在每个场地重复存储也就是每个场地上都有一个完整的数据副本

( )混合式这是一种介乎于分割式和全复制式之间的分配方式

八分布式数据库系统体系结构

数据分片和数据分配概念的分离形成了数据分布独立型概念

数据冗余的显式控制数据在各个场地的分配情况在分配模式中一目了然便于系统管理

局部DBMS的独立性这个特征也称为局部映射透明性此特征允许我们在不考虑局部DBMS专用数据模型的情况下研究DDB管理的有关问题

九分布式数据库管理系统

接受用户请求并判定把它送到哪里或必须访问哪些计算机才能满足该要求

访问网络数据字典了解如何请求和使用其中的信息

如果目标数据存储于系统的多个计算机上就必须进行分布式处理

通信接口功能在用户局部DBMS和其他计算机的DBMS之间进行协调

在一个异构型分布式处理环境中还需提供数据和进程移植的支持这里的异构型是指各个场地的硬件软件之间存在着差别

分布式数据库管理系统

lishixinzhi/Article/program/Oracle/201311/16998

1 大型网站系统的特点

2 大型网站架构演化历程

21 初始阶段架构

问题：网站运营初期，访问用户少，一台服务器绰绰有余。

特征：应用程序、数据库、文件等所有的资源都在一台服务器上。

描述：通常服务器 *** 作系统使用 linux，应用程序使用 PHP 开发，然后部署在 Apache 上，数据库使用 Mysql，通俗称为 LAMP。汇集各种免费开源软件以及一台廉价服务器就可以开始系统的发展之路了。

22 应用服务和数据服务分离

问题：越来越多的用户访问导致性能越来越差，越来越多的数据导致存储空间不足，一台服务器已不足以支撑。

特征：应用服务器、数据库服务器、文件服务器分别独立部署。

描述：三台服务器对性能要求各不相同：应用服务器要处理大量业务逻辑，因此需要更快更强大的 CPU；数据库服务器需要快速磁盘检索和数据缓存，因此需要更快的硬盘和更大的内存；文件服务器需要存储大量文件，因此需要更大容量的硬盘。

23 使用缓存改善性能

问题：随着用户逐渐增多，数据库压力太大导致访问延迟。

特征：由于网站访问和财富分配一样遵循二八定律：80% 的业务访问集中在 20% 的数据上。将数据库中访问较集中的少部分数据缓存在内存中，可以减少数据库的访问次数，降低数据库的访问压力。

描述：缓存分为两种：应用服务器上的本地缓存和分布式缓存服务器上的远程缓存，本地缓存访问速度更快，但缓存数据量有限，同时存在与应用程序争用内存的情况。分布式缓存可以采用集群方式，理论上可以做到不受内存容量限制的缓存服务。

24 使用应用服务器集群

问题：使用缓存后，数据库访问压力得到有效缓解。但是单一应用服务器能够处理的请求连接有限，在访问高峰期，成为瓶颈。

特征：多台服务器通过负载均衡同时向外部提供服务，解决单一服务器处理能力和存储空间不足的问题。

描述：使用集群是系统解决高并发、海量数据问题的常用手段。通过向集群中追加资源，提升系统的并发处理能力，使得服务器的负载压力不再成为整个系统的瓶颈。

25 数据库读写分离

问题：网站使用缓存后，使绝大部分数据读 *** 作访问都可以不通过数据库就能完成，但是仍有一部分读 *** 作和全部的写 *** 作需要访问数据库，在网站的用户达到一定规模后，数据库因为负载压力过高而成为网站的瓶颈。

特征：目前大部分的主流数据库都提供主从热备功能，通过配置两台数据库主从关系，可以将一台数据库服务器的数据更新同步到一台服务器上。网站利用数据库的主从热备功能，实现数据库读写分离，从而改善数据库负载压力。

描述：应用服务器在写 *** 作的时候，访问主数据库，主数据库通过主从复制机制将数据更新同步到从数据库。这样当应用服务器在读 *** 作的时候，访问从数据库获得数据。为了便于应用程序访问读写分离后的数据库，通常在应用服务器端使用专门的数据访问模块，使数据库读写分离的对应用透明。

26 反向代理和 CDN 加速

问题：中国网络环境复杂，不同地区的用户访问网站时，速度差别也极大。

特征：采用 CDN 和反向代理加快系统的静态资源访问速度。

描述：CDN 和反向代理的基本原理都是缓存，区别在于 CDN 部署在网络提供商的机房，使用户在请求网站服务时，可以从距离自己最近的网络提供商机房获取数据；而反向代理则部署在网站的中心机房，当用户请求到达中心机房后，首先访问的服务器时反向代理服务器，如果反向代理服务器中缓存着用户请求的资源，就将其直接返回给用户。

27 分布式文件系统和分布式数据库

问题：随着大型网站业务持续增长，数据库经过读写分离，从一台服务器拆分为两台服务器，依然不能满足需求。

特征：数据库采用分布式数据库，文件系统采用分布式文件系统。

描述：分布式数据库是数据库拆分的最后方法，只有在单表数据规模非常庞大的时候才使用。不到不得已时，更常用的数据库拆分手段是业务分库，将不同的业务数据库部署在不同的物理服务器上。

28 使用 NoSQL 和搜索引擎

问题：随着网站业务越来越复杂，对数据存储和检索的需求也越来越复杂。

特征：系统引入 NoSQL 数据库及搜索引擎。

描述：NoSQL 数据库及搜索引擎对可伸缩的分布式特性具有更好的支持。应用服务器通过统一数据访问模块访问各种数据，减轻应用程序管理诸多数据源的麻烦。

29 业务拆分

问题：大型网站的业务场景日益复杂，分为多个产品线。

特征：采用分而治之的手段将整个网站业务分成不同的产品线。系统上按照业务进行拆分改造，应用服务器按照业务区分进行分别部署。

描述：应用之间可以通过超链接建立关系，也可以通过消息队列进行数据分发，当然更多的还是通过访问同一个数据存储系统来构成一个关联的完整系统。

纵向拆分：将一个大应用拆分为多个小应用，如果新业务较为独立，那么就直接将其设计部署为一个独立的 Web 应用系统。纵向拆分相对较为简单，通过梳理业务，将较少相关的业务剥离即可。

横向拆分：将复用的业务拆分出来，独立部署为分布式服务，新增业务只需要调用这些分布式服务横向拆分需要识别可复用的业务，设计服务接口，规范服务依赖关系。

210 分布式服务

问题：随着业务越拆越小，存储系统越来越庞大，应用系统整体复杂程度呈指数级上升，部署维护越来越困难。由于所有应用要和所有数据库系统连接，最终导致数据库连接资源不足，拒绝服务。

特征：公共业务提取出来，独立部署。由这些可复用的业务连接数据库，通过分布式服务提供共用业务服务。

3 大型网站架构模式

31 分层

大型网站架构中常采用分层结构，将软件系统分为应用层、服务层、数据层：

分层架构的约束：禁止跨层次的调用（应用层直接调用数据层）及逆向调用（数据层调用服务层，或者服务层调用应用层）。

分层结构内部还可以继续分层，如应用可以再细分为视图层和业务逻辑层；服务层也可以细分为数据接口层和逻辑处理层。

32 分割

将不同的功能和服务分割开来，包装成高内聚低耦合的模块单元。这有助于软件的开发和维护，便于不同模块的分布式部署，提高网站的并发处理能力和功能扩展能力。

33 分布式

大于大型网站，分层和分割的一个主要目的是为了切分后的模块便于分布式部署，即将不同模块部署在不同的服务器上，通过远程调用协同工作。

分布式意味可以用更多的机器工作，那么 CPU、内存、存储资源也就更丰富，能够处理的并发访问和数据量就越大，进而能够为更多的用户提供服务。

分布式也引入了一些问题：

常用的分布式方案：

34 集群

集群即多台服务器部署相同应用构成一个集群，通过负载均衡设备共同对外提供服务。

集群需要具备伸缩性和故障转移机制：伸缩性是指可以根据用户访问量向集群添加或减少机器；故障转移是指，当某台机器出现故障时，负载均衡设备或失效转移机制将请求转发到集群中的其他机器上，从而不影响用户使用。

35 缓存

缓存就是将数据存放在距离最近的位置以加快处理速度。缓存是改善软件性能的第一手段。

网站应用中，缓存除了可以加快数据访问速度以外，还可以减轻后端应用和数据存储的负载压力。

常见缓存手段：

使用缓存有两个前提：

36 异步

软件发展的一个重要目标和驱动力是降低软件耦合性。事物之间直接关系越少，彼此影响就越小，也就更容易独立发展。

大型网站架构中，系统解耦的手段除了分层、分割、分布式等，还有一个重要手段——异步。

业务间的消息传递不是同步调用，而是将一个业务 *** 作拆分成多阶段，每个阶段间通过共享数据的方式异步执行进行协作。

异步架构是典型的生产者消费模式，二者不存在直接调用。异步消息队列还有如下特性：

37 冗余

大型网站，出现服务器宕机是必然事件。要保证部分服务器宕机的情况下网站依然可以继续服务，不丢失数据，就需要一定程度的服务器冗余运行，数据冗余备份。这样当某台服务器宕机是，可以将其上的服务和数据访问转移到其他机器上。

访问和负载很小的服务也必须部署至少两台服务器构成一个集群，目的就是通过冗余实现服务高可用。数据除了定期备份，存档保存，实现冷备份外；为了保证在线业务高可用，还需要对数据库进行主从分离，实时同步实现热备份。

为了抵御地震、海啸等不可抗因素导致的网站完全瘫痪，某些大型网站会对整个数据中心进行备份，全球范围内部署灾备数据中心。网站程序和数据实时同步到多个灾备数据中心。

38 自动化

大型网站架构的自动化架构设计主要集中在发布运维方面：

39 安全

4 大型网站核心架构要素

架构的一种通俗说法是：最高层次的规划，难以改变的决定。

41 性能

性能问题无处不在，所以网站性能优化手段也十分繁多：

42 可用性

可用性指部分服务器出现故障时，还能否对用户提供服务

43 伸缩性

衡量伸缩的标准就是是否可以用多台服务器构建集群，是否容易向集群中增删服务器节点。增删服务器节点后是否可以提供和之前无差别的服务。集群中可容纳的总服务器数是否有限制。

44 扩展性

衡量扩展性的标准就是增加新的业务产品时，是否可以实现对现有产品透明无影响，不需要任何改动或很少改动，既有功能就可以上线新产品。主要手段有：事件驱动架构和分布式服务。

45 安全性

安全性保护网站不受恶意攻击，保护网站重要数据不被窃取。

欢迎工作一到五年的Java工程师朋友们加入Java程序员开发： 721575865

群内提供免费的Java架构学习资料（里面有高可用、高并发、高性能及分布式、Jvm性能调优、Spring源码，MyBatis，Netty,Redis,Kafka,Mysql,Zookeeper,Tomcat,Docker,Dubbo,Nginx等多个知识点的架构资料）合理利用自己每一分每一秒的时间来学习提升自己，不要再用"没有时间“来掩饰自己思想上的懒惰！趁年轻，使劲拼，给未来的自己一个交代！

分布式服务器上下线动态感知（Hadoop HA）
HDFS集群中NameNode 存在单点故障问题，对于只有一个NameNode的集群，如果NameNode机器出现意外情况，将导致整个集群无法使用，直到NameNode 重新启动。

影响HDFS集群不可用主要包括以下两种情况：

NameNode机器宕机，将导致集群不可用，重启NameNode之后才可使用。

计划需要对NameNode节点软件或硬件升级，导致集群在短时间内不可用。

为了解决上述问题，Hadoop给出了HDFS的高可用 HA方案：HDFS的HA通常由两个NameNode组成，一个处于 active 状态，另一个处于 standby 状态。Active NameNode对外提供服务，比如处理来自客户端的RPC请求，而Standby NameNode则不对外提供服务，仅同步Active NameNode的状态，以便能够在它失败时快速进行切换。而这里的快速切换是如何实现的呢？是通过zookeeper的动态上线感知来实现的。

简单介绍下zookeeper是什么？

ZooKeeper 顾名思义动物园管理员，他是拿来管大象(Hadoop) 、蜜蜂(Hive) 、小猪(Pig) 的管理员， Apache Hbase和 Apache Solr 以及LinkedIn sensei 等项目中都采用到了 Zookeeper。ZooKeeper是一个分布式的，开放源码的分布式应用程序协调服务，ZooKeeper是以Fast Paxos算法为基础，实现同步服务，配置维护和命名服务等分布式应用。这是zookeeper的官方介绍，对于程序原来说zookeeper在hadoop中的应用可以理解为是hadoop的整体监控系统，如果namenode宕机后，这时候Zookeeper 的重新选出leader。这是它最大的作用所在。

接下来看看zookeeper的动态上线感知图：

1、首先在hadoop中配置自动故障转移机制。

2、在配置HA的时候首先配置zookeeper集群，然后启动zookeeper集群。

3、在第一次启动hadoop的HA之前先初始化HA在zookeeper中的状态然后启动HA，在启动过程中会在各个NameNode节点上启动DFSZK Failover Controller，作用就是向zookeeper中注册服务器的信息，然后hadoop通过进程监控在zookeeper中的节点状态。

4、在zookeeper中注册的节点是临时节点，当服务器宕机下线的时候，zookeeper会把这个节点删除掉，这样才会产生事件，客户端（hadoop）才能监听到，然后hadoop将Standby NameNode转换为Active NameNode。

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/zz/13342766.html

分布式数据库系统(DDBS)概述

发表评论

评论列表（0条）