数据库中的集群和F5_工具

分布式数据库系统分布式数据库系统有两种：一种是物理上分布的，但逻辑上却是集中的。这种分布式数据库只适宜用途比较单一的、不大的单位或部门。另一种分布式数据库系统在物理上和逻辑上都是分布的，也就是所谓联邦式分布数据库系统。由于组成联邦的各个子数据库系统是相对“自治”的，这种系统可以容纳多种不同用途的、差异较大的数据库，比较适宜于大范围内数据库的集成。

----- ----

分布式数据库系统(DDBS)包含分布式数据库管理系统(DDBMS)和分布式数据库(DDB)。在分布式数据库系统中，一个应用程序可以对数据库进行透明 *** 作，数据库中的数据分别在不同的局部数据库中存储、由不同的 DBMS进行管理、在不同的机器上运行、由不同的 *** 作系统支持、被不同的通信网络连接在一起。

一个分布式数据库在逻辑上是一个统一的整体，在物理上则是分别存储在不同的物理节点上。一个应用程序通过网络的连接可以访问分布在不同地理位置的数据库。它的分布性表现在数据库中的数据不是存储在同一场地。更确切地讲，不存储在同一计算机的存储设备上。这就是与集中式数据库的区别。从用户的角度看，一个分布式数据库系统在逻辑上和集中式数据库系统一样，用户可以在任何一个场地执行全局应用。就好那些数据是存储在同一台计算机上，有单个数据库管理系统(DBMS)管理一样，用户并没有什么感觉不一样。

分布式数据库系统是在集中式数据库系统的基础上发展起来的，是计算机技术和网络技术结合的产物。分布式数据库系统适合于单位分散的部门，允许各个部门将其常用的数据存储在本地，实施就地存放本地使用，从而提高响应速度，降低通信费用。分布式数据库系统与集中式数据库系统相比具有可扩展性，通过增加适当的数据冗余，提高系统的可靠性。在集中式数据库中，尽量减少冗余度是系统目标之一．其原因是，冗余数据浪费存储空间，而且容易造成各副本之间的不一致性．而为了保证数据的一致性，系统要付出一定的维护代价．减少冗余度的目标是用数据共享来达到的。而在分布式数据库中却希望增加冗余数据，在不同的场地存储同一数据的多个副本,其原因是：①．提高系统的可靠性、可用性当某一场地出现故障时，系统可以对另一场地上的相同副本进行 *** 作，不会因一处故障而造成整个系统的瘫痪。②．提高系统性能系统可以根据距离选择离用户最近的数据副本进行 *** 作，减少通信代价，改善整个系统的性能。

分布式数据库具有以下几个特点：

(1)、数据独立性与位置透明性。数据独立性是数据库方法追求的主要目标之一，分布透明性指用户不必关心数据的逻辑分区，不必关心数据物理位置分布的细节，也不必关心重复副本（冗余数据）的一致性问题，同时也不必关心局部场地上数据库支持哪种数据模型．分布透明性的优点是很明显的．有了分布透明性，用户的应用程序书写起来就如同数据没有分布一样．当数据从一个场地移到另一个场地时不必改写应用程序．当增加某些数据的重复副本时也不必改写应用程序．数据分布的信息由系统存储在数据字典中．用户对非本地数据的访问请求由系统根据数据字典予以解释、转换、传送．

(2)、集中和节点自治相结合。数据库是用户共享的资源．在集中式数据库中，为了保证数据库的安全性和完整性，对共享数据库的控制是集中的，并设有DBA负责监督和维护系统的正常运行．在分布式数据库中，数据的共享有两个层次：一是局部共享，即在局部数据库中存储局部场地上各用户的共享数据．这些数据是本场地用户常用的．二是全局共享，即在分布式数据库的各个场地也存储可供网中其它场地的用户共享的数据，支持系统中的全局应用．因此，相应的控制结构也具有两个层次：集中和自治．分布式数据库系统常常采用集中和自治相结合的控制结构,各局部的DBMS可以独立地管理局部数据库，具有自治的功能．同时，系统又设有集中控制机制，协调各局部DBMS的工作，执行全局应用。当然,不同的系统集中和自治的程度不尽相同．有些系统高度自治，连全局应用事务的协调也由局部DBMS、局部DBA共同承担而不要集中控制，不设全局DBA,有些系统则集中控制程度较高，场地自治功能较弱。

(3)、支持全局数据库的一致性和和可恢复性。分布式数据库中各局部数据库应满足集中式数据库的一致性、可串行性和可恢复性。除此以外还应保证数据库的全局一致性、并行 *** 作的可串行性和系统的全局可恢复性。这是因为全局应用要涉及两个以上结点的数据．因此在分布式数据库系统中一个业务可能由不同场地上的多个 *** 作组成．例如, 银行转帐业务包括两个结点上的更新 *** 作。这样，当其中某一个结点出现故障 *** 作失败后如何使全局业务滚回呢？如何使另一个结点撤销已执行的 *** 作(若 *** 作已完成或完成一部分）或者不必再执行业务的其它 *** 作(若 *** 作尚没执行)？这些技术要比集中式数据库复杂和困难得多，分布式数据库系统必须解决这些问题．

(4)、复制透明性。用户不用关心数据库在网络中各个节点的复制情况，被复制的数据的更新都由系统自动完成。在分布式数据库系统中，可以把一个场地的数据复制到其他场地存放，应用程序可以使用复制到本地的数据在本地完成分布式 *** 作，避免通过网络传输数据，提高了系统的运行和查询效率。但是对于复制数据的更新 *** 作，就要涉及到对所有复制数据的更新。

(5)、易于扩展性。在大多数网络环境中，单个数据库服务器最终会不满足使用。如果服务器软件支持透明的水平扩展，那么就可以增加多个服务器来进一步分布数据和分担处理任务。

分布式数据库的优点：

(1)具有灵活的体系结构。

(2)适应分布式的管理和控制机构。

(3)经济性能优越。

(4)系统的可靠性高、可用性好。

(5)局部应用的响应速度快。

(6)可扩展性好，易于集成现有系统。

分布式数据库的缺点：

(1)系统开销大，主要花在通信部分。

(2)复杂的存取结构，原来在集中式系统中有效存取数据的技术，在分成式系统中都不再适用。

(3)数据的安全生和保密性较难处理。

分布式数据库系统的目标

分布式数据库系统的目标，也就是研制分布式数据库系统的目的、动机，主要包括技术和组织两方面的目标．

1．适应部门分布的组织结构，降低费用。

使用数据库的单位在组织上常常是分布的（如分为部门、科室、车间等等），在地理上也是分布的．分布式数据库系统的结构符合部门分布的组织结构，允许各个部门对自己常用的数据存储在本地，在本地录入、查询、维护，实行局部控制．由于计算机资源靠近用户，因而可以降低通信代价，提高响应速度，使这些部门使用数据库更方便更经济。

2．提高系统的可靠性和可用性。

改善系统的可靠性和可用性是分布式数据库的主要目标．将数据分布于多个场地，并增加适当的冗余度可以提供更好的可靠性．一些可靠性要求较高的系统，这一点尤其重要．因为一个地出了故障不会引起整个系统崩溃．因为故障场地的用户可以通过其它场地进入系统．而其它场地的用户可以由系统自动选择存取路径，避开故障场地，利用其它数据副本执行 *** 作，不影响业务的正常运行．

3．充分利用数据库资源，提高现有集中式数据库的利用率

当在一个大企业或大部门中已建成了若干个数据库之后，为了利用相互的资源，为了开发全局应用，就要研制分布式数据库系统．这种情况可称为自底向上的建立分布式系统．这种方法虽然也要对各现存的局部数据库系统做某些改动、重构，但比起把这些数据库集中起来重建一个集中式数据库，则无论从经济上还是从组织上考虑，分布式数据库均是较好的选择．

4．逐步扩展处理能力和系统规模

当一个单位规模扩大要增加新的部门(如银行系统增加新的分行，工厂增加新的科室、车间)时，分布式数据库系统的结构为扩展系统的处理能力提供了较好的途径：在分布式数据库系统中增加一个新的结点．这样做比在集中式系统中扩大系统规模要方便、灵活、经济得多。

在集中式系统中为了扩大规模常用的方法有两种：一种是在开始设计时留有较大的余地．这容易造成浪费，而且由于预测困难，设计结果仍可能不适应情况的变化．另一种方法是系统升级，这会影响现有应用的正常运行．并且当升级涉及不兼容的硬件或系统软件有了重大修改而要相应地修改已开发的应用软件时，升级的代价就十分昂贵而常常使得升级的方法不可行．分布式数据库系统能方便地把一个新的结点纳入系统，不影响现有系统的结构和系统的正常运行，提供了逐渐扩展系统能力的较好途径，有时甚至是唯一的途径。

①数据库系统与应用赵致格编著清华大学出版社p 260

②数据库原理及应用张晋连编著电子工业出版社P13

确切地来说，数据库集群指的是由多个一致并且独立的数据库服务器构成一个逻辑上强大的数据库，它应该同时具备负载均衡、内部实时数据同步、容错和高可用性等功能，还应该对任何原有数据库客户端保持二进制兼容，使得客户端不需要作任何修改就能使用数据库集群。

“数据库集群”这一名称，在市场上有好几种含义。对于微软来说，它指的是SQL Server故障转移集群；而对于ORACLE来讲，则指的是共享存储方式的RAC集群，另外还有一些独立软件开发商开发的集群产品，其中有的产品非常吻合上述数据库集群的定义要求，有的则不是。

我在Cernet做过拨号接入平台的搭建，而后在Yahoo3721负载搜索引擎前端平台开发，又在猫扑处理过大型社区猫扑大杂烩的架构升级等工作，同时自己接触和开发过不少大中型网站的模块，因此在大型网站应对高负载和并发的解决方案上有一些积累和经验，可以和大家一起探讨一下。

一个小型的网站，比如个人网站，可以使用最简单的html静态页面就实现了，配合一些达到美化效果，所有的页面均存放在一个目录下，这样的网站对系统架构、性能的要求都很简单，随着互联网业务的不断丰富，网站相关的技术经过这些年的发展，已经细分到很细的方方面面，尤其对于大型网站来说，所采用的技术更是涉及面非常广，从硬件到软件、编程语言、数据库、WebServer、防火墙等各个领域都有了很高的要求，已经不是原来简单的html静态网站所能比拟的。

大型网站，比如门户网站。在面对大量用户访问、高并发请求方面，基本的解决方案集中在这样几个环节：使用高性能的服务器、高性能的数据库、高效率的编程语言、还有高性能的Web容器。但是除了这几个方面，还没法根本解决大型网站面临的高负载和高并发问题。

上面提供的几个解决思路在一定程度上也意味着更大的投入，并且这样的解决思路具备瓶颈，没有很好的扩展性，下面我从低成本、高性能和高扩张性的角度来说说我的一些经验。

1、HTML静态化

其实大家都知道，效率最高、消耗最小的就是纯静态化的html页面，所以我们尽可能使我们的网站上的页面采用静态页面来实现，这个最简单的方法其实也是最有效的方法。但是对于大量内容并且频繁更新的网站，我们无法全部手动去挨个实现，于是出现了我们常见的信息发布系统CMS，像我们常访问的各个门户站点的新闻频道，甚至他们的其他频道，都是通过信息发布系统来管理和实现的，信息发布系统可以实现最简单的信息录入自动生成静态页面，还能具备频道管理、权限管理、自动抓取等功能，对于一个大型网站来说，拥有一套高效、可管理的CMS是必不可少的。

除了门户和信息发布类型的网站，对于交互性要求很高的社区类型网站来说，尽可能的静态化也是提高性能的必要手段，将社区内的帖子、文章进行实时的静态化，有更新的时候再重新静态化也是大量使用的策略，像Mop的大杂烩就是使用了这样的策略，网易社区等也是如此。

同时，html静态化也是某些缓存策略使用的手段，对于系统中频繁使用数据库查询但是内容更新很小的应用，可以考虑使用html静态化来实现，比如论坛中论坛的公用设置信息，这些信息目前的主流论坛都可以进行后台管理并且存储再数据库中，这些信息其实大量被前台程序调用，但是更新频率很小，可以考虑将这部分内容进行后台更新的时候进行静态化，这样避免了大量的数据库访问请求。

2、服务器分离

大家知道，对于Web服务器来说，不管是Apache、IIS还是其他容器，是最消耗资源的，于是我们有必要将与页面进行分离，这是基本上大型网站都会采用的策略，他们都有独立的服务器，甚至很多台服务器。这样的架构可以降低提供页面访问请求的服务器系统压力，并且可以保证系统不会因为问题而崩溃，在应用服务器和服务器上，可以进行不同的配置优化，比如apache在配置ContentType的时候可以尽量少支持，尽可能少的LoadModule，保证更高的系统消耗和执行效率。

3、数据库集群和库表散列

大型网站都有复杂的应用，这些应用必须使用数据库，那么在面对大量访问的时候，数据库的瓶颈很快就能显现出来，这时一台数据库将很快无法满足应用，于是我们需要使用数据库集群或者库表散列。

在数据库集群方面，很多数据库都有自己的解决方案，Oracle、Sybase等都有很好的方案，常用的MySQL提供的Master/Slave也是类似的方案，您使用了什么样的DB，就参考相应的解决方案来实施即可。

上面提到的数据库集群由于在架构、成本、扩张性方面都会受到所采用DB类型的限制，于是我们需要从应用程序的角度来考虑改善系统架构，库表散列是常用并且最有效的解决方案。我们在应用程序中安装业务和应用或者功能模块将数据库进行分离，不同的模块对应不同的数据库或者表，再按照一定的策略对某个页面或者功能进行更小的数据库散列，比如用户表，按照用户ID进行表散列，这样就能够低成本的提升系统的性能并且有很好的扩展性。sohu的论坛就是采用了这样的架构，将论坛的用户、设置、帖子等信息进行数据库分离，然后对帖子、用户按照板块和ID进行散列数据库和表，最终可以在配置文件中进行简单的配置便能让系统随时增加一台低成本的数据库进来补充系统性能。

4、缓存

缓存一词搞技术的都接触过，很多地方用到缓存。网站架构和网站开发中的缓存也是非常重要。这里先讲述最基本的两种缓存。高级和分布式的缓存在后面讲述。

架构方面的缓存，对Apache比较熟悉的人都能知道Apache提供了自己的缓存模块，也可以使用外加的Squid模块进行缓存，这两种方式均可以有效的提高Apache的访问响应能力。

网站程序开发方面的缓存，Linux上提供的Memory Cache是常用的缓存接口，可以在web开发中使用，比如用Java开发的时候就可以调用MemoryCache对一些数据进行缓存和通讯共享，一些大型社区使用了这样的架构。另外，在使用web语言开发的时候，各种语言基本都有自己的缓存模块和方法，PHP有Pear的Cache模块，Java就更多了，net不是很熟悉，相信也肯定有。

5、镜像

镜像是大型网站常采用的提高性能和数据安全性的方式，镜像的技术可以解决不同网络接入商和地域带来的用户访问速度差异，比如ChinaNet和EduNet之间的差异就促使了很多网站在教育网内搭建镜像站点，数据进行定时更新或者实时更新。在镜像的细节技术方面，这里不阐述太深，有很多专业的现成的解决架构和产品可选。也有廉价的通过软件实现的思路，比如Linux上的rsync等工具。

6、负载均衡

负载均衡将是大型网站解决高负荷访问和大量并发请求采用的终极解决办法。

负载均衡技术发展了多年，有很多专业的服务提供商和产品可以选择，我个人接触过一些解决方法，其中有两个架构可以给大家做参考。

硬件四层交换

第四层交换使用第三层和第四层信息包的报头信息，根据应用区间识别业务流，将整个区间段的业务流分配到合适的应用服务器进行处理。　第四层交换功能就象是虚 IP，指向物理服务器。它传输的业务服从的协议多种多样，有>

在老版本的MySQL 322中，MySQL的单表限大小为4GB，当时的MySQL的存储引擎还是ISAM存储引擎。但是，当出现MyISAM存储引擎之后，也就是从MySQL 323开始，MySQL单表最大限制就已经扩大到了64PB了（官方文档显示）。也就是说，从目前的技术环境来看，MySQL数据库的MyISAM存储引擎单表大小限制已经不是有MySQL数据库本身来决定，而是由所在主机的OS上面的文件系统来决定了。

而MySQL另外一个最流行的存储引擎之一Innodb存储数据的策略是分为两种的，一种是共享表空间存储方式，还有一种是独享表空间存储方式。

当使用共享表空间存储方式的时候，Innodb的所有数据保存在一个单独的表空间里面，而这个表空间可以由很多个文件组成，一个表可以跨多个文件存在，所以其大小限制不再是文件大小的限制，而是其自身的限制。从Innodb的官方文档中可以看到，其表空间的最大限制为64TB，也就是说，Innodb的单表限制基本上也在64TB左右了，当然这个大小是包括这个表的所有索引等其他相关数据。

而当使用独享表空间来存放Innodb的表的时候，每个表的数据以一个单独的文件来存放，这个时候的单表限制，又变成文件系统的大小限制了。

以上就是关于数据库中的集群和F5全部的内容，包括:数据库中的集群和F5、数据库集群、要架构一个网站，要求并发性好，安全性高，数据库oracle不能更改，有两种架构，请大家帮我分析哪种架构好等相关内容解答，如果想了解更多相关内容，可以关注我们，你们的支持是我们更新的动力！

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/sjk/9525796.html

数据库中的集群和F5

发表评论

评论列表（0条）