高可用性计算机走向开放_计算机病毒分类

高可用性计算机走向开放_计算机病毒分类,第1张

由于具有超过5个“9”以上的高可用性参数指标,惠普公司的NonStop赢得了全球最大的550多家证券交易所和金融机构支付应用的青睐。不过为了赢得更多的用户,容错的NonStop开始超越自己曾经设立的藩篱,走向开放。

提起可用性超过5个“9”的计算机系统,人们自然会想到惠普公司的容错计算机系统NonStop。近日,惠普公司NonStop系统开发部副总裁Fred Laccabue告诉本报记者,NonStop将逐渐采用工业标准部件和商业化系统,走向开放,降低成本。
而两三年前,低端容错计算机的供应商美国容错公司以及其伙伴NEC早就走上了开放之路: 采用英特尔至强处理器和微软Windows Server 2003 *** 作系统,容错系统的成本大大降低,专业服务水平逐渐提高。
如今,低端的容错计算机已经全面走向开放,高端的Nonstop也吹响了开放的号角。然而面对集群和大型机的夹击,市场对这一举措会有什么反映?用户会接受更开放的容错系统吗?

开放之风劲吹题

走向开放对传统的NonStop用户而言,绝对是一个爆炸性消息。传统上,Nonstop系统在关键业务应用领域占有主导地位,全球97%的大型股票交易所、90%的证券交易所、超过500家金融机构等都采用了NonStop。“这些用户最看重的是它的高可用性,一年的宕机时间不超过5分钟。”接受记者采访的一名忠实用户如是说。但是,采用容错技术的Nonstop系统成本虽然比IBM的大型机低,但是其成本相对于集群技术而言却高了很多,也因此把许多对高可用性有需求的用户拒之门外,降低成本成为Nonstop的一大努力方向。
同样,几年前,当美国容错宣布走向开放时,舆论一样铺天盖地。当时美国容错公司的CEODavidLauello在北京告诉本报记者,作为全球容错计算的主导厂商,容错公司未来将采用开放的基于工业标准的技术,将容错计算机的成本降低50%,让容错服务器“平民化”。
相比美国容错而言,惠普NonStop的影响要大得多,因为NonStop的用户都是些“大家伙”,影响也要深远得多。毫不讳言,高可用性、高可靠性系统是目前增长最快的IT领域,市场需求巨大。为了在这一市场分到一杯羹,除了保持性能的持续增长外,降低成本是一个必然的选择。美国容错这样做了,IBM的大型机这样做了,惠普的Nonstop也不可避免地走上了这一步。

性能与成本双改善

像美国容错一样,惠普决定在Nonstop系统上放弃专用的MIPS处理器,改为采用英特尔公司的安腾处理器。随着安腾处理器的不断发展,Nonstop已经可以为用户装备最新的双核安腾2处理器,为适应数据中心发展的需求,惠普还推出了高密度的基于英特尔安腾2处理器的Nonstop NB50000c刀片系统,不仅保持了Nonstop性能的持续提升,同时也得到了大型用户的欢迎。
美国芝加哥商品交易所和芝加哥交易所的母公司――CME集团技术工程总经理John Hart认为: “我们一直在寻找更佳性能,我们期望看到每次交易的成本、吞吐量及响应时间都得到改善,并通过对系统的调整获得额外收益。利用刀片环境,可以提高处理速度,刀片环境更加紧凑,数据中心空间占用更少。”
惠普容错解决方案销售和市场经理彭玉龙说,通过使用多核技术及HP BladeSystem体系的Nonstop,提供了双倍的处理性能和一半的物理占地面积。同时,惠普在其他服务器上应用的管理工具也可以发挥作用。
开放的另一大步骤是逐渐放弃其专有的互联技术ServerNet,采用已经商品化的InfiniBand。惠普亚太及日本地区NonStop服务器业务部门经理Sandeep Kapoor表示, InfiniBand就是在ServerNet基础上发展起来的。同时,Nonstop将逐渐采用商品化技术与部件,如TCP/IP技术、I/O技术,以及Linux控制器等。
彭玉龙说,Nonstop走向开放是一个目标,这在Nonstop产品上已经开始体现。未来,Nonstop将全部采用英特尔安腾2处理器,基于MIPS的系统会停止生产。但是惠普对用户提供的支持服务至少将延续5年。
Fred Laccabue直言不讳地说,NonStop以前属专有系统,产量不够大,要赶上整个行业的发展水平肯定是比较困难的。而今天,因为Nonstop整个硬件的所有组件,很快全部采用标准化部件,包括英特尔的安腾2处理器,与开放系统已经没有什么区别。“NonStop将会是世界上第一个采用32纳米制造工艺的安腾2芯片的系统,用户的顾虑应该会减少。”

开放不能妨碍可用性

容错系统的第一竞争力是可用性,用户要求系统一年的宕机时间不能超过5分钟。作为Nonstop的重要用户,一位银行的CIO表示: “如果为了成本而放弃可用性,那么容错系统就是死路一条。”
Fred Laccabue说,Nonstop走向开放系统是不遗余力的,它尽量采用开放的组件、开放的接口标准,以及开放的 *** 作系统和管理软件。“但是当开放与可用性成为一对矛盾时,我们坚持可用性。全部开放也就意味着高可能性不复存在”。美国容错公司也采用了这一发展策略,当它和NEC合作开发容错系统时,也一直坚持高可用性第一的策略。
相对于集群系统,NonStop的优势一是可用性高,二是因为采用开放部件,成本逐渐降低。不过,在可用性方面,集群也属最专业、最成熟的工具之一,也是用户的一个选择。不过在可用性方面,它与NonStop无法相比。集群一旦发生故障,用户可以切换系统,但是切换的时间可能达到10~15分钟,这是很难避免的,那么对于要求比较高的、专业程度比较高的用户来说,这是不能接受的。而相对于大型机,Nonstop不管是从性能还是成本上,都有被用户所认可的优势。
“所以我们会继续坚持实现5个“9”甚至以上的可用性的标准,在这一前提之下,凡是可以被商用标准部件替换的,都会立即采用。” Fred Laccabue说,“在硬件标准化与开放化方面,我们已经完成了70%~80%的工作,越来越多的用户会喜欢它的。”

区别:容错主要依靠冗余设计来实现,它以增加资源的办法换取可靠性。由于资源的不同,冗余技术分为硬件冗余、软件冗余、时间冗余和信息冗余。


硬件冗余是通过硬件的重复使用来获得容错能力。
软件冗余的基本思想是用多个不同软件执行同一功能,利用软件设计差异来实现容错。


信息冗余是利用在数据中外加的一部分信息位来检测或纠正信息在运算或传输中的错误而达到容错。在通信和计算机系统中,常用的可靠性编码包括:奇偶校验码、循环冗余码CRC、汉明码等。


时间冗余是通过消耗时间资源来实现容错,其基本思想是重复运算以检测故障。按照重复运算是在指令级还是程序级分为指令复执程序复算。指令复执当指令执行的结果送到目的地址中,如果这时有错误恢复请求信号,则重新执行该指令。

程序复算常用程序滚回技术。例如将机器运行的某一时刻称作检查点,此时检查系统运行的状态是否正确,不论正确与否,都将这一状态存储起来,一旦发现运行故障,就返回到最近一次正确的检查点重新运行。


冗余设计可以是元器件级的冗余设计,也可以是部件级的、分系统级的、或系统级的冗余设计。冗余要消耗资源,应当在可靠性与资源消耗之间进行权衡和折衷。
容错系统工作过程包括自动侦测、自动切换、自动恢复。

延展回答:

冗余:指重复配置系统的一些部件,当系统发生故障时,冗余配置的部件介入并承担故障部件的工作,由此减少系统的故障时间。通常指通过多重备份来增加系统的可靠性

容错:容错是用冗余的资源使计算机具有容忍故障的能力,即在产生故障的情况下,仍有能力将指定的算法继续完成。

美国行为学家莱曼·波特(Lyman Porter):说:总盯着下属的错误,是一个领导者最大的错误。“波特定律”就是由他所提出,其含义是指:当遭受许多批评时,下级往往只记住开头的一些,其余就不听了,因为他们忙于思索论据来反驳开头的批评。所以,总是盯着下属的错误,结果往往会适得其反。
通用电气的杰克·韦尔奇认为,管理者过于关注员工的错误就不会有人勇于尝试。而没有人勇于尝试比犯错还可怕,它使员工故步自封,拘泥于现有的一切,不敢有丝毫的突破和逾越。
勇于尝试,意味着勇于“试错”。在当代商业社会中,社会需求与环境变化日新月异,企业需要创新才能长足发展,只有敢于试错,才能迭代发展。试错虽有风险,但不敢突破,却是更大的“错误”。
因此,不会“容错”的企业,就等于失去了创新的能力。而怎么界定“错误”的边界,怎么平衡好创新与成本,以及如何制定容错机制,才是一家企业在制定创新战略的重点。
定义“错误”
鼓励“试错”之前,领导者必须厘清错误边界,什么错误可以接受,而什么错误是不允许的,这在企业制度中至关重要。
在企业管理中,与波特定律完全相反的观点是“零缺陷”管理。后者适用于质量管理,主要在制造业中大力推广。它的要求是,生产工作者从一开始就把工作做得准确无误,而不是依靠检验时再纠正。这里的错误,指的是避免由于粗心等原因,而导致的工作失误,这种错误属于低级错误。而这种低级错误,在某些行业中的容忍度更低,比如医疗行业。而本文所指的“试错”,适用范围主要在企业的创新应用层面,它只有通过不断试错,才能更快获得市场反馈,或者最终获得重大突破。
华为就是一家极具容错氛围的企业。任正非曾说,在华为,把创新做出来的人叫天才,这样的人很少。努力做创新没做出来的,叫人才,这是我们公司需要的。正是基于这样的先进认知,任正非带领的华为始终极具破坏性创新力,产品和技术能力不仅领先行业,甚至引领全球。这种对创新的容错能力,正是一个好的领导者所必备的素质之一。
如何做好“容错机制”
既然容错能力对于企业发展和创新不可或缺,那如何制定有效的容错机制呢?
第一、打造容错度高的组织文化
若想有效推行创新,容错的企业文化必不可少,包括组织模式等,都是有效推行的重要手段。网心科技作为一家云计算科技企业,为了推行创新技术的快速迭代发展,就在组织与文化的建设上,下了不少苦功,成效也颇为明显。
陈磊是迅雷及网心科技的领头人,他曾在谷歌、微软、腾讯担任过管理职位,对行业有着深刻的洞察和见解。在他看来,身处于巨头云集、创业公司大肆兴起的云计算行业中,“小步快跑、快速迭代”,才是领跑要诀。
陈磊认为,因为网心做的事情是高度创新的云计算产品,而且难度也很大。因此必须要建立一只战斗力很强的队伍,同时让同事们对公司有极强的信任度。
为了让同事们积极创新、大胆试错,网心科技的组织管理模式是“反向管理”模式。这种模式强调淡化职位等级观念,并让决策快速反应和落地。因此,公司管理岗位的员工仅有8名。这些管理者一律向陈磊汇报,其余普通员工则向这8名管理者汇报工作。一个管理干部最多可以有200多人向陈磊汇报。
除了管理岗位上的数量设置有限,其级别设置也非常简单。这8名管理岗位的员工只设立了一个级别,也就是说,除陈磊以外,8名管理者都属平行级别。在网心,管理干部没有任何权利,他更多的是责任,要带领团队去完成业务目标。
在这样扁平化的组织架构下,不仅大幅提升了公司的管理效率,减少信息在传递过程中的错误率,并且还能让所有员工拥有自底向上的自主精神,从而彰显出一般传统互联网企业所不具备的活力与激情。
第二、培养快速有效的决策机制
错误成本高是企业裹足不前的一个重要原因。因此,创新与成本之间必须做好平衡,才能长远发展。作为一家成长型公司,如果没有有效的决策机制,来判定创新是否必要,那么就可能会陷入盲目创新,以及低效试错的旋涡之中。但在互联网时代,试错就是最快速度的纠错,完美才是最大的成本。雷军也曾说:有机会一定要试一试,其实试错的成本并不高,而错过的成本非常高。在硅谷创业圈,有一条金科玉律叫 “快速试错”,意思是创业公司应该尽快打造自己的产品,如果没有马上取得成功,就应该立刻放弃掉,“转型”去做一个新的产品。
蚂蚁金服的决策机制,可以说有效解决了创新与成本之间的平衡。

双机容错系统方案
一,双机容错系统方案综述
11 久强世纪 Storage Solution 双机容错系统
近年来,随着计算机技术的飞速发展,服务器的性能有了大幅度的提升,服务器作为处理关键性事物
的业务主机已随处可见对于要求有高可用性和高安全性的系统,比如金融,邮电,交通,石油,电力,
保险证券等行业,用户提出了系统容错的要求久强世纪公司推出基于Cluster集群技术的双机互备援解
决方案,包括用于对双服务器实行监控的HA 容错软件和作为数据存储设备的系列磁盘阵列系统通过软
硬件两部分的紧密配合,提供给客户一套具有单点故障容错能力,且性价比优越的用户应用系统运行平台
12 Cluster集群技术
Cluster集群技术:一组相互独立的服务器在网络中表现为单一系统,并以单一系统的模式加以管理
此单一系统为客户工作站提供高可靠性的服务
Cluster大多数模式下,集群中所有的计算机拥有一个共同的名称,集群内任一系统上运行的服务可
被所有的网络客户所使用Cluster必须可以协调管理各分离的组件的错误和失败,并可透明的向Cluster
中加入组件
一个Cluster包含多台(至少二台)拥有共享数据储存空间的服务器任何一台服务器运行一个应用
时,应用数据被存储在共享的数据空间内每台服务器的 *** 作系统和应用程序文件存储在其各自的本地储
存空间上
Cluster内各节点服务器通过一内部局域网相互通讯当一台节点服务器发生故障时,这台服务器上
所运行的应用程序将在另一节点服务器上被自动接管当一个应用服务发生故障时,应用服务将被重新启
动或被另一台服务器接管当以上任一故障发生时,客户将能很快连接到新的应用服务上
13久强世纪 Storage Solution 双机容错系统方案
Cluster集群可由N台服务器组成,当Cluster最小值N=2时,即为双机容错集群系统
久强世纪Cluster双机容错系统结合了磁盘阵列产品的安全可靠性与HA监控软件技术的优点,将二
者的优势相互配合使用软件与磁盘阵列结合的方案,可以有效提高主机工作效率,减轻服务器和网络设
备压力,保证系统稳定性
二,系统概述
21 功能概述
·如果硬盘发生故障时,磁盘阵列柜会有蜂鸣声告警,同时硬盘架面板上的状态指示灯变成红色(正
常时为绿色),以便提醒用户进行及时有效的维护
·独特的硬盘保护环路设计,可以确保故障硬盘插拔时,即刻隔断与SCSI总线的连接,而不会影响
SCSI总线上的信号
·即时响应: 控制器在硬盘发生故障时即刻识别错误信息
·支持环境监控(当机箱内温度过高时会有蜂鸣告警声)
·冗余电源备份(支持热插拔)
·热插拔风扇
·系统安全密码锁定
·当柜门关闭时,仍可观察到控制器及硬盘工作状态
·支持不同品牌,容量,型号的SCSI硬盘
22 阵列柜结构
AccuSTOR S940阵列柜的组成包括RAID控制器,双电源保护装置,支持热插拔的硬盘盒(Mobile Rack)
等,大部分部件具有冗余能力,可以全面保护硬盘和数据的安全
AccuSTOR S940的RAID控制器使用64-bit RISC处理器,基本缓存(CACHE)为64MB, 控制器提供4个
通道(Channel),其中两个为主机通道(Host Channel),2个为设备通道(Disk Channel),可同时接驳8块
硬盘,最大RAID5容量为7X146GB=102TB
在控制器中,可以方便的给设置0,1,3,5,0+1级的RAID组控制器带有Monitor接口,用户可
以通过该接口使用终端或终端仿真程序进行设置,可以对控制器的BIOS程序进行升级
在阵列柜的顶部预留一个插槽,用户可以选装一个备份RAID控制器,以提高系统的可靠性
AccuSTOR S940或内部与SCSI硬盘的接口是采用SCA-2规格的整体式后背板,可以直接使用80Pin
热插拔硬盘,配备转换口后,也可使用80Pin Ultra2/Ultra160硬盘每一硬盘插槽配有隔绝保护IC,以
消除硬盘在热插时的电流负效应,避免瞬间电流造成对硬盘或控制器的损害
AccuSTOR S940阵列柜安装双份热插拔电源,每个电源的功率300W,通过调整电压开关该电源可以在
110/220V电压下工作
正常情况下,双电源在Share状态工作,各输出150W功率,保证电源的使用寿命如果其中一只电
源发生故障,另一电源将自动转换到300W 输出功率状态,使阵列继续正常运转同时系统将通过液晶屏
幕和蜂鸣方式发出警报,用户可以将损坏的电源直接拔除,而不必关闭阵列
机箱后背板上装有四个热插拔冷却风扇,风扇的启动温度和转速受ENC控制,用户可以通过ENC上的
DIP开关进行设定所有风扇均采用德国标准的三钢珠结构,使其使用寿命大大延长
阵列柜中安置有8个硬盘盒,可以接驳80针Ultra2/Ultra160 SCSI硬盘和SCA硬盘,普通硬盘接入
阵列后,即支持热插拔功能Mobile Rack可自动为硬盘设置ID,前面板上有指示灯,可以显示硬盘的工
作状态
阵列柜后面板上装有HOST-A,HOST-B接口各两个,用来接驳主机Monitor口可接至终端或PC机,
用来进行阵列的设置Modem口可以接驳调制解调器,用于传真和Pager方式的远程报警UPS口可连接
UPS电源,当断电时UPS系统会送出一PowerFail信号到此UPS接口上,此时磁盘阵列控制器会即刻将缓
存(Cache)的资料完整地写入磁盘中,并关闭缓存,如服务器再有资料传来则会直接写入硬盘内,直到电
源恢复正常两个设备通道接口配备终结器,用户可以串联机柜或其他SCSI设备
23 双机容错系统软件 HA
久强世纪 Storage Solution双机容错系统解决方案提供专用双机软件:HA
HA For NT 作为目前市场上最为成熟的双机容错软件,以其友好图形 *** 作界面,方便的配置与管理被
广泛应用于政府,学校,电信,电力,石油,交通等行业
通过装在两个服务器中的双机热备份应用软件HA,系统具有在线容错能力,即当处于工作状态的服
务器无法正常工作时,通过双机系统容错软件,使处于守候监护状态的另一台服务器迅速接管不正常服务
器上的业务程序及数据资料,使得网络用户的业务交易正常运行,保证交易数据的完整一致性及交易业务
的高可靠性
通过架设与两台服务器间的侦测网络,HA for NT软件能够对两台服务器的软硬件运行状态实行监控
HA For NT具有两种工作模式:
Hot Standby:即双机热备份,两台服务器为生产机--备份机关系当生产机发生故障时,备份机自
动接管生产机的任务和数据,使拥护业务交易正常运行使用者可在最短时间内回复作业,使客户的应用
不必中断,减少主机停机所造成的损失
Daul Active:即双机互备援两台服务器各运行不同的应用任务,并互相作为备份机当两部主机
中任一主机当机时,另一部主机可迅速接替故障主机任务
三,系统整合
久强世纪 Storage solution双机容错系统是由HA容错软件与磁盘阵列有机组合的成熟方案整个
系统的组合架构工作包括三个方面:
1)硬件系统的连接
2)容错软件的安装和配置
3)与用户应用的整合
31 硬件系统的连接
硬件部分的连接主要包括磁盘阵列与主机的连接和侦测网络的连接
用户可以将支持多主机的磁盘阵列系统分别连接至两台服务器的SCSI接口 磁盘阵列系统提供两条
标准68Pin外接SCSI电缆,可与任何服务器的Ultra 3 SCSI接口接驳用户不需要在服务器上增加任何
硬件设备或驱动程序磁盘阵列连接至主机后,用户可以象增加普通硬盘那样对其进行分区,格式化,安
装文件系统等 *** 作
HA for NT可使用三种侦测网络
RS232线路:只需使用软件附带的专用电缆将两台服务器的串口连接即可;
TCP/IP:使用直连网线或通过交换设备(Switch或Hub)连接两台服务器的网卡;
Share Disk:在磁盘阵列柜上设置双主机共享的8MB分区;
以上三种侦测网络可同时使用,互为备份,有利于提高双机系统的可靠性
32 容错软件的安装和配置
HA容错软件的安装简单快捷整个安装过程中,用户不需要进行繁琐的安装选择,或更改服务器硬
件配备或 *** 作系统设定与容错软件配合
HA for NT具有友好图形用户界面(GUI),使容错软件的配置管理成为轻松的工作
33 与用户应用的整合
久强世纪 Storage solution双机容错控制系统能够提供具有相当容错能力的应用系统平台它既可
以同所有大型数据库配合使用,也可监管用户自主开发的应用软件在与容错系统整合时,只需将数据库
系统分别在两台服务器安装,并将数据文件放置于共享的磁盘阵列即可,而不需要对应用程序进行任何更


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zz/13171276.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-06-15
下一篇 2023-06-15

发表评论

登录后才能评论

评论列表(0条)

保存