1首先要确定硬件部件和所需要的资源
需要一个头节点(head node),至少一打的计算节点(compute node),一台以太网交换机,一个电源分配单元(power distribution unit)和一个服务器机架。计算一下电力消耗,冷却需求和占地需求。同样,你需要确定你的私有网络的IP地址段,节点的命名,预计使用的软件包以及搭建 服务集群所用的技术(后面会有更多解释)。
2建立计算节点
需要自己组装计算节点,或者你也可以使用预配置的服务器。
●选择一款能够最大化空间、冷却和能源消耗效率的机架式服务器;
●或者,可以使用一打左右闲置的过时服务器——它们集合在一起工作的性能要比它们独立运行时的总和还多,而且还能省你一大笔钱!整个系统的处理器、网络适配器、主板应该是同一型号的,这样才能达到最佳运行效能。当然了,还要给每个节点配内存和硬盘,并且至少给头节点配一台光驱。
3将服务器装在机架上
安装的时候从下面开始,这样可以避免机架头重脚轻。你可能会需要朋友的帮助才能完成这件事——这么多的服务器将非常的重,把它们放到机架的滑轨上会非常困难。
4在机架顶端安装以太网交换机
现在来配置交换机:允许9000字节的大的帧,将IP地址设置为你在第一步里面确定的静态地址,关闭例如SMTP嗅探这样不必要的路由协议。
5安装能源分配单元
根据目前你的节点的最大需求,可能220V就能满足你的高性能计算需求了。
6 一切都安装妥当之后,就可以开始配置环节了
Linux是高性能计算集群(HPC Cluster) *** 作系统的事实标准,这不仅因为Linux是科学计算的理想环境,也是由于在数以百计甚至千计的节点上安装的时候,Linux不会产生任何花费。设想一下,在如此多的节点上安装Windows会花掉你多少钱呢?
●从更新主板BIOS的固件开始,将所有节点的BIOS固件都更新至最新的版本;
●在每个节点上都安装好你喜欢的Linux发行版,头节点需要安装队图形界面的支持。比较流行的选择,包括CentOS、OpenSuse、Scientific Linux、RedHat以及SLES;
●使用Rocks Cluster Distribution来搭建计算集群。除了它已经安装好计算集群需要使用的所有工具外,Rock还提供了一种通过PXE和RedHat的“Kick Start”来进行批量部署的方案。
7 安装消息传送界面、资源管理器以及其他必须的库
如果上一步里你没有选择Rock做为你的节点的 *** 作系统,那么现在你需要手动设置并行计算机制所必需的软件。
●首先,你需要一个便携的bash管理系统,例如Torque Resource Manager,这些软件允许你划分以及分配计算任务;
●如果安装了Torque Resource Manager,那么你还需要Maui Cluster Scheduler来完成设置;
●其次,需要安装消息传送界面(message passing interface),用来在不同的计算节点的进程之间共享数据。
最后,不要忘了用多线程的数学库及编译器来编写计算任务。
8将所有的计算节点接入网络
头节点负责将任务分配到计算节点,计算节点再把结果返回回来,节点间的消息传递也是如此,所以当然是越快越好了。
●使用私有网络将集群中的所有节点互联起来;
●头节点其实还充当局域网里的NFS、PXE、DHCP以及NTP服务器;
●将该网络从公网中分离出来,这样可以保证该网络中的广播报文不会影响到其他的网络;
9对集群进行测试
在你把你强大的Top500计算集群交付给客户之前,你还要测试一下它的性能。HPL(High Performance Lynpack)评测软件包是测试集群的计算速度的常见选择。你需要从源代码编译它,编译的时候根据你选择的架构,打开所有可能的优化选项。
按服务器的处理器架构(也就是服务器CPU所采用的指令系统)划分把服务器分为CISC架构服务器、RISC架构服务器和VLIW架构服务器三种。 CISC的英文全称为“Complex Instruction Set Computer”,即“复杂指令系统计算机”,从计算机诞生以来,人们一直沿用CISC指令集方式。早期的桌面软件是按CISC设计的,所以,微处理器(CPU)厂商一直在走CISC的发展道路,包括Intel、AMD,还有其他一些已经更名的厂商,如TI(德州仪器)、Cyrix以及VIA(威盛)等。在CISC微处理器中,程序的各条指令是按顺序串行执行的,每条指令中的各个 *** 作也是按顺序串行执行的。顺序执行的优点是控制简单,但计算机各部分的利用率不高,执行速度慢。CISC架构的服务器主要以IA-32架构(Intel Architecture,英特尔架构)为主,而且多数为中低档服务器所采用。
如果企业的应用都是基于NT平台的应用,那么服务器的选择基本上就定位于IA架构(CISC架构)的服务器。如果企业的应用主要是基于Linux *** 作系统,那么服务器的选择也是基于IA结构的服务器。如果应用必须是基于Solaris的,那么服务器只能选择SUN服务器。如果应用基于AIX(IBM的Unix *** 作系统)的,那么只能选择IBM Unix服务器(RISC架构服务器)。 台式服务器也称为“塔式服务器”。有的台式服务器采用大小与普通立式计算机大致相当的机箱,有的采用大容量的机箱,像个硕大的柜子。低档服务器由于功能较弱,整个服务器的内部结构比较简单,所以机箱不大,都采用台式机箱结构。这里所介绍的台式不是平时普通计算机中的台式,立式机箱也属于台式机范围,这类服务器在整个服务器市场中占有相当大的份额。
优点:塔式服务器它的外形以及结构都跟我们平时使用的立式PC差不多,由于服务器的主板扩展性较强、插槽也多出一堆,所以个头比普通主板大一些,因此塔式服务器的主机机箱也比标准的ATX机箱要大,一般都会预留足够的内部空间以便日后进行硬盘和电源的冗余扩展。
由于塔式服务器的机箱比较大,服务器的配置也可以很高,冗余扩展更可以很齐备,所以它的应用范围非常广,应该说目前使用率最高的一种服务器就是塔式服务器。
缺点:目前常见的入门级和工作组级服务器基本上都采用这一服务器结构类型,不过由于只有一台主机,即使进行升级扩张也有个限度,所以在一些应用需求较高的企业中,单机服务器就无法满足要求了,需要多机协同工作,而塔式服务器个头太大,独立性太强,协同工作在空间占用和系统管理上都不方便,这也是塔式服务器的局限性。不过,总的来说,这类服务器的功能、性能基本上能满足大部分企业用户的要求,其成本通常也比较低,因此这类服务器还是拥有非常广泛的应用支持。 机架式服务器的外形看来不像计算机,而像交换机,有1U(1U=175英寸)、2U、4U等规格。机架式服务器安装在标准的19英寸机柜里面。这种结构的多为功能型服务器。
优点:作为为互联网设计的服务器模式,机架服务器是一种外观按照统一标准设计的服务器,配合机柜统一使用。可以说机架式是一种优化结构的塔式服务器,它的设计宗旨主要是为了尽可能减少服务器空间的占用,而减少空间的直接好处就是在机房托管的时候价格会便宜很多。
很多专业网络设备都是采用机架式的结构(多为扁平式,就像个抽屉),如交换机、路由器、硬件防火墙这些。机架服务器的宽度为19英寸,高度以U为单位(1U=175英寸=4445毫米),通常有1U,2U,3U,4U,5U,7U)几种标准的服务器。机柜的尺寸也是采用通用的工业标准,通常从22U到42U不等;机柜内按U的高度有可拆卸的滑动拖架,用户可以根据自己服务器的标高灵活调节高度,以存放服务器、集线器、磁盘阵列柜等网络设备。服务器摆放好后,它的所有I/O线全部从机柜的后方引出(机架服务器的所有接口也在后方),统一安置在机柜的线槽中,一般贴有标号,便于管理。
缺点:机架式服务器因为空间比塔式服务器大大缩小,所以这类服务器在扩展性和散热问题上受到一定的限制,配件也要经过一定的筛选,一般都无法实现太完整的设备扩张,所以单机性能就比较有限,应用范围也比较有限,只能专注于某一方面的应用,如远程存储和Web服务的提供等 在一些高档企业服务器中由于内部结构复杂,内部设备较多,有的还具有许多不同的设备单元或几个服务器都放在一个机柜中,这种服务器就是机柜式服务器。
对于证券、银行、邮电等重要企业,则应采用具有完备的故障自修复能力的系统,关键部件应采用冗余措施,对于关键业务使用的服务器也可以采用双机热备份高可用系统或者是高性能计算机,这样的系统可用性就可以得到很好的保证。 刀片式服务器是一种HAHD(High Availability High Density,高可用高密度)的低成本服务器平台,是专门为特殊应用行业和高密度计算机环境设计的,其中每一块“刀片”实际上就是一块系统母板,类似于一个个独立的服务器。在这种模式下,每一个母板运行自己的系统,服务于指定的不同用户群,相互之间没有关联。不过可以使用系统软件将这些母板集合成一个服务器集群。在集群模式下,所有的母板可以连接起来提供高速的网络环境,可以共享资源,为相同的用户群服务。当前市场上的刀片式服务器有两大类:一类主要为电信行业设计,接口标准和尺寸规格符合PICMG(PCI Industrial Computer Manufacturer's Group)1x或2x,未来还将推出符合PICMG 3x 的产品,采用相同标准的不同厂商的刀片和机柜在理论上可以互相兼容;另一类为通用计算设计,接口上可能采用了上述标准或厂商标准,但 尺寸规格是厂商自定,注重性能价格比,属于这一类的产品居多。刀片式服务器目前最适合群集计算和IxP提供互联网服务。
优点:刀片服务器适用于数码媒体、医学、航天、军事、通讯等多种领域。其中每一块“刀片”实际上就是一块系统主板。它们可以通过本地硬盘启动自己的 *** 作系统,如Windows NT/2000、Linux、Solaris等等,类似于一个个独立的服务器。
在这种模式下,每一个主板运行自己的系统,服务于指定的不同用户群,相互之间没有关联。不过可以用系统软件将这些主板集合成一个集群服务器。在集群模式下,所有的主板可以连接起来提供高速的网络环境,可以共享资源,为相同的用户群服务。在集群中插入新的“刀片”,就可以提高整体性能。而由于每块“刀片”都是热插拔的,所以,系统可以轻松地进行替换,并且将维护时间减少到最小。值得一提的是,系统配置可以通过一套智能KVM和9个或10个带硬盘的CPU板来实现。CPU可以配置成为不同的子系统。一个机架中的服务器可以通过新型的智能KVM转换板共享一套光驱、软驱、键盘、显示器和鼠标,以访问多台服务器,从而便于进行升级、维护和访问服务器上的文件。
系统的整体功耗为176 MW,加上冷却系统整体功耗将高达24MW,即每小时用电24万度
天河二号由170个机柜组成,包括125个计算机柜、8个服务机柜、13个通信机柜和24个存储机柜,占地面积720平方米,内存总容量1200T,存储总容量11PB,最大运行功耗178兆瓦。超级计算机指得是具有很强计算能力的计算机集群,一般包括好几千颗高性能的cpu,计算能力是最强的。而服务器的范围很广,但说白了也是一台高性能的电脑,用来专门对外提供网页,查询,存储或初级计算服务等等功能,可以是多cpu,也可以是单cpu,但规模和超级计算机比起来要差很多。而个人电脑就是只有一颗或多颗(很少有用多cpu作个人电脑的,费电)的普通电脑,可以完成上网,编程,看**,玩游戏等。计算能力差,不适合作科学计算。
补充:一般所指的计算能力指的是运算量很大的科学计算,比如数学建模,最优路径搜索,模型求解等等。我曾经用个人电脑(配置一般,P428)计算一个最优路径,少则5分钟,多则40分钟,如果在这样的电脑上开发程序,周期太大,不合适,一天也跑不了几遍,所以必须用服务器或超级计算机。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)