如何区分分布式集群并行文件系统?

如何区分分布式集群并行文件系统?,第1张

分布式文件系统、集群文件系统、并行文件系统,这三种概念很容易混淆,实际中大家也经常不加区分地使用。总是有人问起这三者的区别和联系,其实它们之间在概念上的确有交叉重叠的地方,但是也存在显著不同之处。 
分布式文件系统
自然地,“分布式”是重点,它是相对与本地文件系统而言的。分布式文件系统通常指C/S架构或网络文件系统,用户数据没有直接连接到本地主机,而是存储在远程存储服务器上。NFS/CIFS是最为常见的分布式文件系统,这就是我们说的NAS系统。分布式文件系统中,存储服务器的节点数可能是1个(如传统NAS),也可以有多个(如集群NAS)。对于单个节点的分布式文件系统来说,存在单点故障和性能瓶颈问题。除了NAS以外,典型的分布式文件系统还有AFS,以及下面将要介绍的集群文件系统(如Lustre, GlusterFS, PVFS2等)。 
集群文件系统
“集群”主要分为高性能集群HPC(High Performance Cluster)、高可用集群HAC(High Availablity Cluster)和负载均衡集群LBC(Load Balancing Cluster)。集群文件系统是指协同多个节点提供高性能、高可用或负载均衡的文件系统,它是分布式文件系统的一个子集,消除了单点故障和性能瓶问题。对于客户端来说集群是透明的,它看到是一个单一的全局命名空间,用户文件访问请求被分散到所有集群上进行处理。此外,可扩展性(包括Scale-Up和Scale-Out)、可靠性、易管理等也是集群文件系统追求的目标。在元数据管理方面,可以采用专用的服务器,也可以采用服务器集群,或者采用完全对等分布的无专用元数据服务器架构。目前典型的集群文件系统有SONAS, ISILON, IBRIX, NetAPP-GX, Lustre, PVFS2, GlusterFS, Google File System, LoongStore, CZSS等。 
并行文件系统
这种文件系统能够支持并行应用,比如MPI。在并行文件系统环境下,所有客户端可以在同一时间并发读写同一个文件。并发读,大部分文件系统都能够实现。并发写实现起来要复杂许多,既要保证数据一致性,又要最大限度提高并行性,因此在锁机制方面需要特别设计,如细粒度的字节锁。通常SAN共享文件系统都是并行文件系统,如GPFS、StorNext、GFS、BWFS,集群文件系统大多也是并行文件系统,如Lustre, Panasas等。
如何区分?
区分这三者的重点是“分布式”、“集群”、“并行”三个前缀关键字。简单来说,非本地直连的、通过网络连接的,这种为分布式文件系统;分布式文件系统中,服务器节点由多个组成的,这种为集群文件系统;支持并行应用(如MPI)的,这种为并行文件系统。在上面所举的例子中也可以看出,这三个概念之间具有重叠之处,比如Lustre,它既是分布式文件系统,也是集群和并行文件系统。但是,它们也有不同之处。集群文件系统是分布式文件系统,但反之则不成立,比如NAS、AFS。SAN文件系统是并行文件系统,但可能不是集群文件系统,如StorNext。GFS、HDFS之类,它们是集群文件系统,但可能不是并行文件系统。实际中,三者概念搞理清后,分析清楚文件系统的特征,应该还是容易正确地为其划分类别的。

并行查询其优势就是可以通过多个线程来处理查询作业 从而提高查询的效率 SQL Server数据库为具有多个CPU的数据库服务器提供并行查询的功能 以优化查询作业的性能 也就是说 只要数据库服务器有多个CPU 则数据库系统就可以使用多个 *** 作系统进程并行执行查询 *** 作 来加速完成查询作业

  一 并行查询三步走

并行查询作业在数据库中 主要经过三个步骤

首先 数据库会判断是否需要进行并行查询 在数据库中有一个查询优化器 会对SQL语句进行优化 然后数据库才会去执行查询语句 而这个查询器在对SQL语句进行查询优化时 其中一个动作就是判断是否需要对SQL语句进行查询优化 也就是说 并不是所有的SQL查询语句都可以从并行查询中获取收益 如果查询优化器认为查询语句可以从并行查询中获取收益的话 则就会将交换运算符插入到查询执行计划中 为并行查询做准备 故哪些语句需要采用并行查询 哪些不需要 这不用数据库管理员关心 数据库查询优化器会帮管理员作出这个决定 数据库管理员需要清楚的是 在哪些情况下 数据库SQL优化器会认为不宜采用并行查询 通常情况下 只要满足以下条件的任何一个 则就不会执行并行查询 一是对于特定的查询 查询优化器认为串行查询执行计划要快于任何可能的并行执行计划;二是查询的串行执行成本并不高 不需要进行并行查询;三是查询中包含无法并行运行的标量运算符或者关系运算符 若从数据库管理员的角度讲 第三个条件对我们具有最大的影响 当数据库预计未来可能利用并行查询来提高数据库性能时 则在数据库设计时 就需要注意避免使用那些无法在并行查询功能中使用的运算符 因为某些关系运算符或者逻辑运算符可能会要求查询计划一定要在串行模式中进行 或者部分需要在串行模式下进行 如此的话 查询优化器就不会利用并行查询功能来提高查询语句的性能 这是数据库管理员在数据库设计时必须要考虑到的一个细节问题

其次 确定并行的进程数 当查询优化器在查询语句中插入交叉运算符之后 数据库就会执行并行查询 并行查询在执行计划时可以使用多个线程 此时 就又遇到了一个问题 数据库会把这个查询作业分成几个进程 *** 作呢此时 数据库管理员就需要知道上什么叫做并行度 其实 在处理并行查询的时候 数据需要知道最大可使用的进程与实际使用的进程 而最大可使用的进程就叫做并行度 这个并行度的值是在服务器级别中进行设置 也可以通过系统存储过程来进行修改 但是 最大可使用进程数不一定等于实际是用进程数 实际是用进程数是数据库在查询计划执行时初始化的时候确定的 也就是说 这不用数据库管理员去额外的设定 数据库系统会自动根据计划的复杂程度来确定合理的进程数目 当然其实际采用的进程数不能够超过并行度 即最大可以使用的进程数

最后执行查询 当以上内容确定好之后 数据库就会执行具体的查询语句 在这一步中 需要注意一个问题 数据库管理员还可以在查询语句中指定MAXDOP查询提示来修改这个进度值 也就是说 如果某个查询作业数据库管理员认为可能会耗时比较久 就可以为这个查询作业设置比较大的进度值 当利用MAXDOP查询提示设置这个并行进度值之后 它会覆盖预先设置的默认值 从而实现针对单个查询语句设置额外的进度值 以提高某些特殊查询作业的性能

二 并行查询中需要注意的内容

注意点一 需要注意硬件方面的限制

并行查询是数据库提高查询性能的一个有力举措 不过其往往受到比较大的约束 如上面提高的一些基于成本考虑之外 还有一些硬性的限制 如通常情况下 只有在数据库服务器有多个微处理器(CPU )的情况下数据库才会考虑执行并行查询 也就是受 只有具有多个CPU的计算机才能够使用并行查询 这是一个硬性的限制条件 另外在查询计划执行过程中 数据库还会判断当时是否有足够多的线程可以使用 每个查询 *** 作都要求一定的线程数才能够执行;而且执行并行计划比执行串行计划需要更多的线程 所需要的线程数也会随着并行度的提高而提高 如果在并行计划执行的时候 当时数据库服务器没有足够的线程让并行计划使用的话 数据库引擎就会自动减少并行度 甚至会放弃并行查询而改为串行计划 所以说 数据库是否能够执行并行查询 要受到其硬件的限制 为此 如果企业真的需要通过并行查询来提高数据库性能的话 则管理员就需要根据情况来调整硬件配置

注意点二 不建议对所有查询都使用并行查询

通常情况下 笔者认为最好只对大型表的连接查询 大量数据的聚合 *** 作 大型结果集的重复排序等等 *** 作才应用并行查询的功能 如果在这些 *** 作上执行并行查询的话 那么其改善数据库性能的效果是非常明显的 相反 如果对于简单查询执行并行查询的话 可能执行并行查询所需要的额外协调工作会大于其潜在的性能提升 所以 数据库管理员在确定是否需要执行并行查询功能的话 需要慎重 笔者的建议是 在数据库服务器级别上 最好不要设置并行查询 即把并行度设置为 或者一个比较小的值 然后对于一些特殊的查询 *** 作 利用MAXDOP查询提示来设置最大的可使用进程数 如此的话 可能会更加的合理 如果有时候数据库管理员不知道是否需要采用并行查询功能的话 则可以通过数据库自带的统计功能进行判断 为了区别并行查询计划到底有没有从并行查询中受益 数据库引擎可以将执行查询的估计开销与并行查询的开销阀值进行比较 并行计划只有对需时较长的查询通常更加有益;因为其性能优势将抵消初始化 同步和终止并行计划所需的额外时间开销

注意点三 数据库会根据查询所涉及到的行数来判断是否要并行查询

上面谈到 最好对大型表的连接查询 大量数据的聚合 *** 作 大型结果集的重复排序等等 *** 作才应用并行查询的功能 因为只有如此 并行查询带来的收益才会超过其付出的代价 但是 并不是说连接查询 聚合 *** 作 排序等作业都适合采用并行查询 当数据库在考虑并行查询计划的时候 查询优化器还会去确定所涉及到的行数 如果所涉及到的行数台少 则将不会考虑执行并行查询计划 而会采用串行方式执行查询语句 如此的话 可以避免因为启动 分发 协调的开销大大超过并行执行作业所带来的收益 这本来是一个不错的设计 但是也会给数据库管理员带来一定的麻烦 如现在数据库管理员想要测试并行查询到底可以在多大程度上影响查询 *** 作 就有点麻烦 因为其有数据量的限制 如果数据库管理员需要进行这个测试 还不得不先在数据库系统中导入足够多的数据才行 这就限制了数据库管理员的测试 *** 作 不过话说回来 这个机制仍然是不错的 因为数据库管理员不用去考虑 当数据库规模到多大的时候采用并行查询

注意点四 同一个 *** 作在不同时候会采用不同的进程数

lishixinzhi/Article/program/SQLServer/201311/22477

呵呵,并行运算这个很复杂!需要用专门的 *** 作系统和软件进行的。
大型计算机最廉价的方案就是用工作站组合运算。
服务器比较专业,不过性能就要看多少价位的服务器了,很多廉价服务器绝对没有工作站快!(服务器就是稳定些而已)

四大主流数据库比较

一、开放性

1SQLServer

只能在windows上运行,没有丝毫的开放性, *** 作系统的系统的稳定对数据库是十分重要的。Windows9X系列产品是偏重于桌面应用,NTserver只适合中小型企业。而且windows平台的可靠性,安全性和伸缩性是非常有限的。它不象unix那样久经考验,尤其是在处理大数据库。

2Oracle

能在所有主流平台上运行(包括windows)。完全支持所有的工业标准。采用完全开放策略。可以使客户选择最适合的解决方案。对开发商全力支持。

3SybaseASE

能在所有主流平台上运行(包括windows)。但由于早期Sybase与OS集成度不高,因此VERSION1192以下版本需要较多OS和DB级补丁。在多平台的混合环境中,会有一定问题。

4DB2

能在所有主流平台上运行(包括windows)。最适于海量数据。DB2在企业级的应用最为广泛,在全球的500家最大的企业中,几乎85%以上用DB2数据库服务器,而国内到97年约占5%。

二、可伸缩性,并行性

1SQLserver

并行实施和共存模型并不成熟,很难处理日益增多的用户数和数据卷,伸缩性有限。

2Oracle

并行服务器通过使一组结点共享同一簇中的工作来扩展windownt的能力,提供高可用性和高伸缩性的簇的解决方案。如果windowsNT不能满足需要,用户可以把数据库移到UNIX中。Oracle的并行服务器对各种UNIX平台的集群机制都有着相当高的集成度。

3SybaseASE

虽然有DBSWITCH来支持其并行服务器,但DBSWITCH在技术层面还未成熟,且只支持版本125以上的ASESERVER。DBSWITCH技术需要一台服务器充当SWITCH,从而在硬件上带来一些麻烦。

4DB2

具有很好的并行性。DB2把数据库管理扩充到了并行的、多节点的环境。数据库分区是数据库的一部分,包含自己的数据、索引、配置文件、和事务日志。数据库分区有时被称为节点安全性。

三、安全认证

1SQLserver

没有获得任何安全证书。

2OracleServer

获得最高认证级别的ISO标准认证。

3SybaseASE

获得最高认证级别的ISO标准认证。

4DB2

获得最高认证级别的ISO标准认证。

四、性能

1SQLServer

多用户时性能不佳

2Oracle

性能最高,保持开放平台下的TPC-D和TPC-C的世界记录。

3SybaseASE

性能接近于SQLServer,但在UNIX平台下的并发性要优与SQLServer。

4DB2

性能较高适用于数据仓库和在线事物处理。

五、客户端支持及应用模式

1SQLServer

C/S结构,只支持windows客户,可以用ADO、DAO、OLEDB、ODBC连接。

2Oracle

多层次网络计算,支持多种工业标准,可以用ODBC、JDBC、OCI等网络客户连接。

3SybaseASE

C/S结构,可以用ODBC、Jconnect、Ct-library等网络客户连接。

4DB2

跨平台,多层结构,支持ODBC、JDBC等客户。

六、 *** 作简便

1SQLServer

*** 作简单,但只有图形界面。

2Oracle

较复杂,同时提供GUI和命令行,在windowsNT和unix下 *** 作相同。

3SybaseASE

较复杂,同时提供GUI和命令行。但GUI较差,常常无法及时状态,建议使用命令行。

4DB2

*** 作简单,同时提供GUI和命令行,在windowsNT和unix下 *** 作相同。

七、使用风险

1SQLserver

完全重写的代码,经历了长期的测试,不断延迟,许多功能需要时间来证明。并不十分兼容。

2Oracle

长时间的开发经验,完全向下兼容。得到广泛的应用。完全没有风险。

3SybaseASE

向下兼容,但是ct-library程序不益移植。

4DB2

在巨型企业得到广泛的应用,向下兼容性好。风险小

科学计算、海量信息处理与检索以及正在普及的多核个人计算机是高性能计算的主要研究领域,由于领域的不同,对于高性能计算各自都有不同的研究重点。 美国宇航局(NASA)是超级计算机最大的用户之一

从起源来看,计算机系统的原始需求来自军事,如第一台计算机ENIAC是美国军队为了计算d道而投资研制的。在随后的30年中,计算机主要应用于与国家安全相关的领域,如核武器设计、密码破译等。到20世纪70年代末,高性能计算机开始应用于石油工业、汽车工业等资本密集型工业。随后,高性能计算机开始广泛进入各个行业,协助进行产品设计、用户分析等等。如医药公司使用高性能计算机辅助进行药物设计,可以大大节省新药的研发开支; 超市使用高性能计算机分析用户消费模式,以推出恰当促销措施等等。在这些领域,更高的计算性能就意味着在产品和服务方面的竞争优势。在科学研究领域,数值模拟方法成为现代科学方法的重要组成部分,这里更高的计算性能就意味着更快的科学发现速度。目前,高性能计算技术已成为促进科技创新和经济发展的重要手段,是一个国家综合国力的重要组成部分。本文将就高性能的几个最重要的应用领域进行介绍。
用高性能计算机解决科学挑战
许多重要的科学问题非常复杂,需要功能非常强大的计算机来进行数值模拟,这些问题被视作科学上的重大挑战,可以分为如下几类:
1 量子化学、统计力学和相对论物理学;
2 宇宙学和天体物理学;
3 计算流体力学和湍流;
4 材料设计和超导;
5 生物学、制药研究、基因组序列分析、基因工程、蛋白质折叠、酶活动和细胞建模;
6 药物、人类骨骼和器官建模;
7 全球天气和环境建模。
这些重大挑战问题大多可以看作传统的高性能计算应用的延伸,其特点是: 大部分是浮点密集型应用程序,并行算法要求多个并行进程之间进行较为频繁的通信和同步,而非简单的多个计算用例之间的并行,因此无法使用多台规模较小的系统来替代一台大规模系统。
这些重大挑战问题对计算能力的需求远远超出了现有的高性能计算机的性能。以量子化学计算为例,需要20T~100Tflops的持续计算能力才能够对目前进行的实际实验结果进行预测。在核聚变研究领域,需要20Tflops的持续计算能力才能够进行全规模的系统模拟。蛋白质折叠的计算需要1Tflops的持续计算速度。另一方面,重大挑战问题对数据的存储也提出了更高的要求,以计算生物学为例,进行蛋白质分析时需要使用的一台质谱仪每天就可以产生100GB的数据,50台质谱仪1天就可以产生5TB的数据。
目前,世界上最快IBM BlueGene/L的处理器个数为131072个,Linpack速度为2806TFlops,达到了其峰值速度的765%(2005年11月数据)。但一般并行算法要比Linpack的通信更加频繁,访存局部性也没有Linpack好,这使得其并行效率相当低,通常仅能达到系统峰值速度的10%,甚至更低。为了能够有效地解决上述重大挑战性的问题,需要研制千万亿次高性能计算机系统,这就需要攻克系统结构、软件工具和并行算法等多方面的难关:

1 能耗控制
随着现代处理器频率的增加,其功率也大幅度增加,最新处理器的功耗已经超过100W。这使得高性能计算系统本身的耗电问题已经十分严重。同时由于系统散发的大量热量,必须在机房中采用大功率的空调系统才能保持系统机房的正常温度。这两方面的因素造成系统的整体电能消耗非常巨大,维护成本很高。分析结果表明,未来系统主要的维护成本将来自系统的电能消耗。在研制千万亿次高性能计算机系统时,必须重视系统的能耗问题。
目前有几种方法来处理系统能耗问题,一是给处理器设定较低的工作电压,通过并行性来获得高性能,例如BlueGene/L处理器的工作频率仅有700Mhz,因此单个内核的处理能力远远低于其他高频率的处理器。但BlueGene/L通过大量的处理器来弥补单个处理器能力的不足,达到了较高的整体系统性能,并获得了优化的性能/能耗比。另一种方法是通过软件和硬件传感器确定和预测需要使用的部件和不需要使用的部件,然后将不需要立即使用的部分通过某种措施,如降低频率或完全关闭来减少其耗电量,从而达到降低整个系统功耗的目的。这方面的工作根据控制的粒度不同可分为芯片级、主板/BIOS级以及结点级。

2 高性能计算软件与算法
大规模并行处理硬件系统仅仅为高性能计算提供了一个平台,真正的功能还要通过高性能计算软件来完成。高性能计算软件与算法的主要工作可以分为3类:
(1) 提出具有较低理论复杂度或较好实际性能的串行算法
尽管可以通过并行计算来加快运算的速度,但并行处理往往需要较大的软件开发成本和硬件成本,因此在进行并行算法的开发之前,必须考察是否存在可以解决问题的更好串行算法。以整数排序问题为例,使用并行的冒泡排序算法,其效果还不如使用串行的快速排序算法。因此,高效的串行算法研究是高性能算法研究的重要课题。著名的算法包括线性规划问题的单纯型法、FFT、快速排序、矩阵特征值的QR算法、快速多极算法等。近年来在算法方面的突破使印度学者在素数判定问题上提出了多项式复杂度算法。
(2) 优化现有算法
算法只提供了理论上的性能,要在实际系统上获得高性能,必须对算法的实现进行优化。现代处理器大多使用多级Cache来隐藏访存延迟,因此必须根据目标系统的Cache参数来优化算法的访存行为。此外,许多处理器还提供了SIMD指令,合理使用这些指令可以达到较高的性能。许多优化的数学库,如ATLAS、Intel公司的MKL等已经为不同的体系结构,特别是Cache配置进行了特别优化,可以达到较高的执行效率,为优化算法实现提供了很好的帮助。
(3) 并行算法与并行应用的开发
并行算法的研究与串行算法有联系也有区别。优秀的串行算法并不一定适合并行化,某些时候在串行算法中并非最优的算法在并行实现时却能体现出较大的优势。对于千万亿次计算机而言,其处理器(核)个数在10万以上,并行应用的并行度需要达到数万个并行进程才能有效地利用千万亿次计算机。并行算法的三个主要优化目标是: 通信优化、负载平衡以及最大化并行区。通信优化的目标是尽量减少通信次数和通信量,减少由于处理器之间通信带宽限制引起的性能下降。在大规模并行程序中,负载平衡问题也非常突出,少数负载不平衡的任务会使得整体性能急剧下降。同样的,根据Amdahl定律,应用加速比的上限是串行区所占比例的倒数,即应用中1%的串行区域就会使得整个应用程序的加速比不可能超过100。因此,要在数万个并行进程的情况下取得理想的加速比给并行算法的开发提出了很大的挑战。

3 系统可靠性与可管理性
随着系统内结点个数的增加,系统失效的可能性也随着增大。并行程序的特点是只要有一个并行进程失败,整个并行程序都执行不成功。对可靠性问题的处理方法之一是设法提高系统的稳定性,这包括硬件系统可靠性和软件系统的可靠性。但目前公认的结论是: 大规模系统的故障是在设计时必须考虑的前提条件,而并非可以通过技术手段加以解决的问题。因此,必须考虑如何在系统结点出现故障的情况下仍然能够保证系统服务质量不发生显著下降。
故障监测技术和动态系统重构技术可以用来减少或消除系统失效对应用的影响,即尽快隔离出现问题的结点,使得用户可以使用状态正常的结点进行计算。与系统动态重构技术类似的技术还有系统动态划分技术,主要用于向不同的用户提供相互独立的结点集,使得整个系统的管理和使用更加有效和安全。
但是上述技术仅能解决系统对新的应用的服务质量问题,无法保证已经执行的应用在某个计算结点出现问题后的处理。某些并行应用,如石油数据处理需要连续运行几十天的时间,一旦某个结点出现错误,会使得前面的计算前功尽弃,需要从头开始计算。并行检查点技术主要提供应用级的容错,即能够自动地定期记录并行程序的状态(称作检查点),在计算过程中某个结点发生失效后,可以从所记录的并行程序检查点恢复执行,避免了重新执行整个程序。

高性能计算与海量信息处理

人类所产生的信息量以指数速度增长,如何存储、检索和利用这些信息为信息技术提出了重要挑战。从20世纪90年代开始,互联网的飞速发展给信息的传播与服务提供了新的机遇。传统的信息服务系统以数据库为中心,典型应用是OLTP(事务联机处理)。而以Google为代表的海量信息检索与处理服务是另一类重要应用,以Google集群系统为代表的系统体现了高性能计算系统的另一个发展方向。
信息检索与处理服务系统的特点与科学计算非常不同,对处理系统也提出了不同的要求:
1 信息处理与服务应用需要频繁访问动态的数据结构,包含很多不可预测的分支,使得现有超标量处理器中的许多技术,如分支预测、数据预取、乱序和推测执行等功能无法很好地发挥作用,应用的指令级并行性较差。
2 大部分信息处理与服务应用具有较好的数据并行性,可以很容易地在分布式系统上执行。以信息检索为例,一个信息检索请求可以被分配到多个服务器上进行并行检索,最后再将搜索结果统一处理返回给用户。这个过程中大多数的访问是只读的数据,并行任务之间的通信非常少,并行效率比较高。
3 系统的性能指标一般不以单个服务请求的响应时间为量度,而更关注系统整体的吞吐率。以搜索引擎为例,信息服务系统更重视在1分钟内能够完成的用户搜索次数,而对单次搜索在05秒内完成还是1秒内完成并不特别敏感。
4 系统需要很高的可靠性和可维护性。可靠性是对服务而言的,即组成的系统必须能够近乎不间断地为用户提供服务。可维护性是指系统的更换与维修可以简单快捷地完成,新更换的结点可以快捷地加入到系统中。
5 低成本。这包括系统构建成本和总拥有成本两部分。海量信息处理和服务所需的系统规模极为庞大,Google Cluster在2003年就达到了15000台计算机的规模。如此巨大规模的系统,需要尽可能地降低成本。
为了能够有效满足上述信息处理与服务系统的要求,人们对于如何高效地构建相应的服务系统也展开了研究与实践:
1 使用副本技术通过软件提供可靠性
在大规模系统中,单个系统结点的失效是不可避免的。现有的通过冗余底层硬件提高系统可靠性的方式,比如冗余电源、RAID技术等,成本较高,性价比较差。相反,在信息服务系统中可以广泛使用软件提供服务级别的可靠性。主要的方法是采用副本,即将服务和数据复制到多个系统结点上,即使单个系统结点的可靠性不是很高,多个副本提供了服务所需的可靠性。另一个使用副本技术的优点在于其提高系统可靠性的同时也提高了系统的性能,即保存副本的多个系统结点可以同时向用户提供服务。
2 注重系统的性能/价格比
由于信息服务系统应用容易并行的特点,采用大量低端系统组合的方法比使用少量高端系统在性能价格比方面更具有优势(此处所指的低端系统是指1~2个CPU的PC机或入门服务器,高端系统是指大规模处理器服务器,如HP 的Superdom服务器、IBM的P690服务器等)。此外,信息服务系统与用于科学计算的高性能系统面临同样的挑战: 能耗问题。在大规模信息处理与服务系统中,电费成本(包括系统本身耗电和空调系统耗电)将占有总拥有成本的很大一部分。因此,在选用系统时,应选择性能/能耗比较高的系统也是一个重要的原则。
(3) 使用多内核处理器
由于信息服务程序的特点,它更适合使用多个简单内核构成的处理器,这些简单内核仅需要按序执行,并使用较短的流水线。由于信息服务应用的指令级并行度较差,按序执行不会造成太多的性能下降,但可以节省复杂的乱序执行单元电路,从而可以降低功耗。另一方面,较短的流水线可以降低分支预测失效的开销。
并行计算与个人计算机
随着半导体工艺的发展,单个芯片上能够集成的元件个数还将在5~10年内遵循摩尔定律继续以指数级增长。但是当前的芯片散热技术已无法支持芯片频率的进一步提高,而通过提高发射宽度、提高分支预测效率以及数据预取等进一步在体系结构上提高单线程执行速度的方法也逐渐失去了有效性。多内核芯片通过在一个芯片内集成多个处理器内核,采用线程级并行提高处理器性能,已成为微处理器的主要发展趋势。IBM公司在几年前就推出了双内核Power芯片,Intel公司和AMD在2005年推出的双内核芯片更是标志着多内核技术进入了普及阶段。支持更多核心的处理器芯片也正在快速涌现,如Sun公司已经推出了8核的Nigeria芯片,用于面向提高吞吐率的服务器应用; IBM则联合索尼和东芝推出了面向娱乐应用的9内核Cell芯片。Intel公司甚至已经在计划100内核以上的处理器。
多核处理器的出现给计算机的使用带来了新的挑战。随着多内核处理器的普及,成千上万的桌面电脑将成为并行计算机。目前在桌面机上执行的应用程序大多数是单线程程序,无法有效利用多内核处理器提供的能力。如何有效地在个人电脑上利用多个处理器内核成为高性能计算领域一个重要的研究课题,从目前的趋势来看主要有以下几个方向:
1使用多任务带来的并发性
Intel的 双核ViiV家用电脑是这方面的典型例子。ViiV电脑的典型使用模式是一个人在客厅使用ViiV电脑看,另一个在自己的房间里使用同一台电脑玩游戏,两个人使用同一台电脑中的不同处理器内核,从而达到了有效发挥双核能力的目的。但这种依靠多个用户同时使用一台电脑的模式具有很大局限性,因为家庭成员的个数是有限的,对于4内核以上的多内核处理器,这种模式无法提供有效的支持。
2聚合多内核的能力,加速串行程序的执行速度
计算机科学家们正在研究一种称作推测多线程(TLS: Thread-Level Speculation)的技术,该技术可以自动分析串行程序,推测其中能够并行执行的部分,在多个内核上并行执行。但一旦发现并行执行的部分有冲突,就撤销其中一个冲突线程的执行,执行补偿 *** 作并重新执行该线程。推测多线程技术的优点在于无需用户干预就可以在多内核系统上加速现有单线程程序,其缺点在于对于性能提高的幅度有限,大约在4内核系统上仅能比在单个内核上提高性能30%,而且再增加内核数,其加速比也不会显著增加。因此,这种方式也无法支持更多内核的处理器。
另一种有前途的技术是自动并行化技术。自动并行化技术可以在编译时识别程序中的并行性,并将其转化为多线程并行程序。过去的自动并行化技术主要是面向SMP系统的,但不是很成功,原因是对真实应用程序,自动并行化无法得到满意的加速比。一个程序通过自动并行化在4 CPU的SMP系统上得到20%的加速比是不能令人满意的,因为4 CPU的系统通常价格是单CPU价格的10倍以上,自动并行化无法提供性能价格比上的优势。但是对于多内核系统,如果能够在四内核系统上通过自动并行化得到20%的加速比,应该是比较令人满意的结果,因为这些内核是“免费”提供给用户的,即用户无法用四内核处理器1/4的价格购买一个单内核处理器。因此,多内核处理器在家用电脑上的普及,将大大降低人们对自动并行化效果的期望,使得自动并行化技术重新被接受和应用。
3 并行化现有的桌面应用
既然采用多内核处理器加速串行应用无法充分利用多内核处理器的能力,那么并行化现有的桌面应用就成为了一个重要选择。这方面的研究主要是分析现有的桌面应用,对有代表性的应用进行手工并行化,这些研究试图回答下面的问题: 哪些桌面应用能够被有效并行化,哪些不能?并行化本身的难度有多大?应如何改进现有的编程模型、编程工具以及系统软件来更好地支持应用的并行化?
研究表明,桌面系统上的大部分应用,如图像处理、3D图形运算、多媒体数据编码与解码、数据与文本挖掘、文本与媒体搜索、游戏与博弈等都可以有效地被并行化,并在多内核系统上得到有效的执行。但是,手工程序并行化的开销仍然很大,并行程序员需要了解并行计算的有关知识,并对计算机体系结构、 *** 作系统、编译原理等有一定了解才能写出有效率的并行程序。并行编程模型与并行编程工具还需要提供更好的支持,以帮助并行程序员开发、调试并行程序。
今天,高性能计算技术已成为整个计算机领域的引领技术。多内核处理器的出现,使得并行计算技术将很快普及到我们的每台计算机,渗入到我们生活的方方面面,这是计算机产业发展史上的一个重大变革,对我国而言是一次难得的机会。在“十一五”期间,我国将进一步加强对高性能计算技术研究的支持,注重引导企业应用高性能计算技术促进产业升级和科技创新,同时更加特别重视高性能计算技术的教育培训工作,在高校的理工专业广泛开设并行程序设计课程,培养更多了解和使用高性能计算技术的人才,在此次变革中实现跨越性的发展。

作者简介
陈文光
清华大学计算机博士,清华大学计算机系副教授,863高性能计算机评测中心副主任。曾任Opportunity International Inc总工程师。主要研究领域为并行计算的编程模型、并行化编译和并行应用分析。

链接:高性能计算发展趋势
随着应用的需求与计算机技术本身的发展,近年来高性能计算的发展体现出一些新的特点,可以用“大,宽,小”来代表这三个特点:
“大”是指高性能计算系统向更大规模发展,处理器个数可达10万个以上,主要用于解决超大规模的数值模拟问题。
“宽”是指在传统的数值计算之外,高性能计算系统正越来越广泛地应用于信息处理和服务领域,为海量信息的存储与检索以及网络服务提供有效的保证。
“小”是指多内核CPU的出现和普及,将使得今后的每台个人计算机都成为并行计算机,如何有效地利用个人计算机的多个内核是对高性能计算技术提出的新挑战。

Linux是一套免费使用和自由传播的类Unix *** 作系统,是一个基于POSIX和UNIX的多用户、多任务、支持多线程和多CPU的 *** 作系统。它能运行主要的UNIX工具软件、应用程序和网络协议。它支持32位和64位硬件。Linux继承了Unix以网络为核心的设计思想,是一个性能稳定的多用户网络 *** 作系统。


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zz/10654783.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-10
下一篇 2023-05-10

发表评论

登录后才能评论

评论列表(0条)

保存