并行
数据库系统(Parallel Database System)是新一代高性能的
数据库系统,是在MPP和集群并行计算环境的基础上建立的数据库系统。 并行数据库技术起源于20世纪70年代的数据库机(Database Machine)研究,,研究的内容主要集中在关系代数 *** 作的并行化和实现关系 *** 作的专用硬件设计上,希望通过硬件实现关系数据库 *** 作的某些功能,该研究以失败而告终。80年代后期,并行数据库技术的研究方向逐步转到了通用并行机方面,研究的重点是并行数据库的物理组织、 *** 作算法、优化和调度策络。从90年代至今,随着处理器、存储、网络等相关基础技术的发展,并行数据库技术的研究上升到一个新的水平,研究的重点也转移到数据 *** 作的时间并行性和空间并行性上。 并行数据库系统的目标是高性能(High Performance)和高可用性(High Availability),通过多个处理
节点并行执行数据库任务,提高整个数据库系统的性能和可用性。 性能指标关注的是并行数据库系统的处理能力,具体的表现可以统一总结为数据库系统处理事务的响应时间。并行数据库系统的高性能可以从两个方面理解,一个是速度提升(SpeedUp),一个是范围提升(ScaleUp)。速度提升是指,通过并行处理,可以使用更少的时间完成两样多的数据库事务。范围提升是指,通过并行处理,在相同的处理时间内,可以完成更多的数据库事务。并行数据库系统基于多处理节点的物理结构,将数据库管理技术与并行处理技术有机结合,来实现系统的高性能。 可用性指标关注的是并行数据库系统的健壮性,也就是当并行处理节点中的一个节点或多个节点部分失效或完全失效时,整个系统对外持续响应的能力。高可用性可以同时在硬件和软件两个方面提供保障。在硬件方面,通过冗余的处理节点、存储设备、网络链路等硬件措施,可以保证当系统中某节点部分或完全失效时,其它的硬件设备可以接手其处理,对外提供持续服务。在软件方面,通过状态监控与跟踪、互相备份、日志等技术手段,可以保证当前系统中某节点部分或完全失效时,由它所进行的处理或由它所掌控的资源可以无损失或基本无损失地转移到其它节点,并由其它节点继续对外提供服务。 为了实现和保证高性能和高可用性,可扩充性也成为并行数据库系统的一个重要指标。可扩充性是指,并行数据库系统通过增加处理节点或者硬件资源(处理器、内存等),使其可以平滑地或线性地扩展其整体处理能力的特性。 随着对并行计算技术研究的深入和SMP、MPP等处理机技术的发展,并行数据库的研究也进入了一个新的领域,集群已经成为了并行数据库系统中最受关注的热点。目前,并行数据库领域主要还有下列问题需要进一步地研究和解决。 (1)并行体系结构及其应用,这是并行数据库系统的基础问题。为了达到并行处理的目的,参与并行处理的各个处理节点之间是否要共享资源、共享哪些资源、需要多大程度的共享,这些就需要研究并行处理的体系结构及有关实现技术。 (2)并行数据库的物理设计,主要是在并行处理的环境下,数据分布的算法的研究、数据库设计工具与管理工具的研究。 (3)处理节点间通讯机制的研究。为了实现并行数据库的高性能,并行处理节点要最大程度地协同处理数据库事务,因此,节点间必不可少地存在通讯问题,如何支持大量节点之间消息和数据的高效通讯,也成为了并行数据库系统中一个重要的研究课题。 (4)并行 *** 作算法,为提高并行处理的效率,需要在数据分布算法研究的基础上,深入研究联接、聚集、统计、排序等具体的数据 *** 作在多节点上的并行 *** 作算法。 (5)并行 *** 作的优化和同步,为获得高性能,如何将一个数据库处理事务合理地分解成相对独立的并行 *** 作步骤、如何将这些步骤以最优的方式在多个处理节点间进行分配、如何在多个处理节点的同一个步骤和不同步骤之间进行消息和数据的同步,这些问题都值得深入研究。 (6)并行数据库中数据的加载和再组织技术,为了保证高性能和高可用性,并行数据库系统中的处理节点可能需要进行扩充(或者调整),这就需要考虑如何对原有数据进行卸载、加载,以及如何合理地在各个节点是重新组织数据。
并行结构又称为收敛结构,是指由两个或两个以上前提分别独立支持统一结论的结构。
并行结构一般是指并行体系结构和软件架构采取并行编程。主要目的是使更多任务或数据同时运行。并行体系结构是指许多指令能同时进行的体系结构;并行编程一般有以下模式:>共享内存模式;消息传递模式;数据并行模式。
在>数据库中,为了提高存取和查询速率,会同时采用以上两种并行结构。并行性有两种解释,同时性:两个或两个以上的事件在同一时刻发生。并发性:两个或两个以上的事件在同一时间间隔发生。
从处理数据的角度看,并行性等级从低到高可分为四类。字串位串:同时只对一个字的一位进行处理。这是最基本的串行处理方式,不存在并行性。字串位并:同时对一个字的全部位进行处理,不同字之间是串行的。这里已开始出现并行性。
字并位串:同时对许多字的同一位进行处理。这种方式有较高的并行性。全并行:同时对许多字的全部位进行处理。这是最高一级的并行。在数据库中,并行结构主要是处理数据来分析的,具体采用哪一级并行性,主要与数据规模、机器设备和程序架构有关。
并行体系结构:
1、数据级并行它的出现是因为可以同时 *** 作许多数据项。
2、任务级并行它的出现是因为创建了一些能够单独处理但大量采用并行方式执行的工作任务。
3、指令级并行在编译器的帮助下,利用流水线之类的思想适度开发数据级并行,利用推理执行之类的思想以中等水平开发数据级并行。
4、向量体系结构和图形处理器将单条指令并行应用于一个数据集,以开发数据级并行。
5、线程级并行在一种紧耦合硬件模型中开发数据级并行或任务级并行,这种模型允许在并行线程之间进行交互。
6、请求级并行在程序员或 *** 作系统指定的大量去耦合任务之间开发并行。
评论列表(0条)