什么是系统容错?_服务器

双机容错系统方案
一,双机容错系统方案综述
11 久强世纪 Storage Solution 双机容错系统
近年来,随着计算机技术的飞速发展,服务器的性能有了大幅度的提升,服务器作为处理关键性事物
的业务主机已随处可见对于要求有高可用性和高安全性的系统,比如金融,邮电,交通,石油,电力,
保险证券等行业,用户提出了系统容错的要求久强世纪公司推出基于Cluster集群技术的双机互备援解
决方案,包括用于对双服务器实行监控的HA 容错软件和作为数据存储设备的系列磁盘阵列系统通过软
硬件两部分的紧密配合,提供给客户一套具有单点故障容错能力,且性价比优越的用户应用系统运行平台
12 Cluster集群技术
Cluster集群技术:一组相互独立的服务器在网络中表现为单一系统,并以单一系统的模式加以管理
此单一系统为客户工作站提供高可靠性的服务
Cluster大多数模式下,集群中所有的计算机拥有一个共同的名称,集群内任一系统上运行的服务可
被所有的网络客户所使用Cluster必须可以协调管理各分离的组件的错误和失败,并可透明的向Cluster
中加入组件
一个Cluster包含多台(至少二台)拥有共享数据储存空间的服务器任何一台服务器运行一个应用
时,应用数据被存储在共享的数据空间内每台服务器的 *** 作系统和应用程序文件存储在其各自的本地储
存空间上
Cluster内各节点服务器通过一内部局域网相互通讯当一台节点服务器发生故障时,这台服务器上
所运行的应用程序将在另一节点服务器上被自动接管当一个应用服务发生故障时,应用服务将被重新启
动或被另一台服务器接管当以上任一故障发生时,客户将能很快连接到新的应用服务上
13久强世纪 Storage Solution 双机容错系统方案
Cluster集群可由N台服务器组成,当Cluster最小值N=2时,即为双机容错集群系统
久强世纪Cluster双机容错系统结合了磁盘阵列产品的安全可靠性与HA监控软件技术的优点,将二
者的优势相互配合使用软件与磁盘阵列结合的方案,可以有效提高主机工作效率,减轻服务器和网络设
备压力,保证系统稳定性
二,系统概述
21 功能概述
·如果硬盘发生故障时,磁盘阵列柜会有蜂鸣声告警,同时硬盘架面板上的状态指示灯变成红色(正
常时为绿色),以便提醒用户进行及时有效的维护
·独特的硬盘保护环路设计,可以确保故障硬盘插拔时,即刻隔断与SCSI总线的连接,而不会影响
SCSI总线上的信号
·即时响应: 控制器在硬盘发生故障时即刻识别错误信息
·支持环境监控(当机箱内温度过高时会有蜂鸣告警声)
·冗余电源备份(支持热插拔)
·热插拔风扇
·系统安全密码锁定
·当柜门关闭时,仍可观察到控制器及硬盘工作状态
·支持不同品牌,容量,型号的SCSI硬盘
22 阵列柜结构
AccuSTOR S940阵列柜的组成包括RAID控制器,双电源保护装置,支持热插拔的硬盘盒(Mobile Rack)
等,大部分部件具有冗余能力,可以全面保护硬盘和数据的安全
AccuSTOR S940的RAID控制器使用64-bit RISC处理器,基本缓存(CACHE)为64MB, 控制器提供4个
通道(Channel),其中两个为主机通道(Host Channel),2个为设备通道(Disk Channel),可同时接驳8块
硬盘,最大RAID5容量为7X146GB=102TB
在控制器中,可以方便的给设置0,1,3,5,0+1级的RAID组控制器带有Monitor接口,用户可
以通过该接口使用终端或终端仿真程序进行设置,可以对控制器的BIOS程序进行升级
在阵列柜的顶部预留一个插槽,用户可以选装一个备份RAID控制器,以提高系统的可靠性
AccuSTOR S940或内部与SCSI硬盘的接口是采用SCA-2规格的整体式后背板,可以直接使用80Pin
热插拔硬盘,配备转换口后,也可使用80Pin Ultra2/Ultra160硬盘每一硬盘插槽配有隔绝保护IC,以
消除硬盘在热插时的电流负效应,避免瞬间电流造成对硬盘或控制器的损害
AccuSTOR S940阵列柜安装双份热插拔电源,每个电源的功率300W,通过调整电压开关该电源可以在
110/220V电压下工作
正常情况下,双电源在Share状态工作,各输出150W功率,保证电源的使用寿命如果其中一只电
源发生故障,另一电源将自动转换到300W 输出功率状态,使阵列继续正常运转同时系统将通过液晶屏
幕和蜂鸣方式发出警报,用户可以将损坏的电源直接拔除,而不必关闭阵列
机箱后背板上装有四个热插拔冷却风扇,风扇的启动温度和转速受ENC控制,用户可以通过ENC上的
DIP开关进行设定所有风扇均采用德国标准的三钢珠结构,使其使用寿命大大延长
阵列柜中安置有8个硬盘盒,可以接驳80针Ultra2/Ultra160 SCSI硬盘和SCA硬盘,普通硬盘接入
阵列后,即支持热插拔功能Mobile Rack可自动为硬盘设置ID,前面板上有指示灯,可以显示硬盘的工
作状态
阵列柜后面板上装有HOST-A,HOST-B接口各两个,用来接驳主机Monitor口可接至终端或PC机,
用来进行阵列的设置Modem口可以接驳调制解调器,用于传真和Pager方式的远程报警UPS口可连接
UPS电源,当断电时UPS系统会送出一PowerFail信号到此UPS接口上,此时磁盘阵列控制器会即刻将缓
存(Cache)的资料完整地写入磁盘中,并关闭缓存,如服务器再有资料传来则会直接写入硬盘内,直到电
源恢复正常两个设备通道接口配备终结器,用户可以串联机柜或其他SCSI设备
23 双机容错系统软件 HA
久强世纪 Storage Solution双机容错系统解决方案提供专用双机软件:HA
HA For NT 作为目前市场上最为成熟的双机容错软件,以其友好图形 *** 作界面,方便的配置与管理被
广泛应用于政府,学校,电信,电力,石油,交通等行业
通过装在两个服务器中的双机热备份应用软件HA,系统具有在线容错能力,即当处于工作状态的服
务器无法正常工作时,通过双机系统容错软件,使处于守候监护状态的另一台服务器迅速接管不正常服务
器上的业务程序及数据资料,使得网络用户的业务交易正常运行,保证交易数据的完整一致性及交易业务
的高可靠性
通过架设与两台服务器间的侦测网络,HA for NT软件能够对两台服务器的软硬件运行状态实行监控
HA For NT具有两种工作模式:
Hot Standby:即双机热备份,两台服务器为生产机--备份机关系当生产机发生故障时,备份机自
动接管生产机的任务和数据,使拥护业务交易正常运行使用者可在最短时间内回复作业,使客户的应用
不必中断,减少主机停机所造成的损失
Daul Active:即双机互备援两台服务器各运行不同的应用任务,并互相作为备份机当两部主机
中任一主机当机时,另一部主机可迅速接替故障主机任务
三,系统整合
久强世纪 Storage solution双机容错系统是由HA容错软件与磁盘阵列有机组合的成熟方案整个
系统的组合架构工作包括三个方面:
1)硬件系统的连接
2)容错软件的安装和配置
3)与用户应用的整合
31 硬件系统的连接
硬件部分的连接主要包括磁盘阵列与主机的连接和侦测网络的连接
用户可以将支持多主机的磁盘阵列系统分别连接至两台服务器的SCSI接口磁盘阵列系统提供两条
标准68Pin外接SCSI电缆,可与任何服务器的Ultra 3 SCSI接口接驳用户不需要在服务器上增加任何
硬件设备或驱动程序磁盘阵列连接至主机后,用户可以象增加普通硬盘那样对其进行分区,格式化,安
装文件系统等 *** 作
HA for NT可使用三种侦测网络
RS232线路:只需使用软件附带的专用电缆将两台服务器的串口连接即可;
TCP/IP:使用直连网线或通过交换设备(Switch或Hub)连接两台服务器的网卡;
Share Disk:在磁盘阵列柜上设置双主机共享的8MB分区;
以上三种侦测网络可同时使用,互为备份,有利于提高双机系统的可靠性
32 容错软件的安装和配置
HA容错软件的安装简单快捷整个安装过程中,用户不需要进行繁琐的安装选择,或更改服务器硬
件配备或 *** 作系统设定与容错软件配合
HA for NT具有友好图形用户界面(GUI),使容错软件的配置管理成为轻松的工作
33 与用户应用的整合
久强世纪 Storage solution双机容错控制系统能够提供具有相当容错能力的应用系统平台它既可
以同所有大型数据库配合使用,也可监管用户自主开发的应用软件在与容错系统整合时,只需将数据库
系统分别在两台服务器安装,并将数据文件放置于共享的磁盘阵列即可,而不需要对应用程序进行任何更
改

容错软件的定义：
1。对自身的错误的作用具有屏蔽作用
2。可以从错误状态恢复到正常状态
3。发生错误时，能完成预期的功能
4。在一定程度上具有容错能力
实现容错技术主要是冗余：
1。结构冗余
2。信息冗余
3。时间冗余
4。冗余附加技术
世纪80年代，第一代容错技术就开始进入商用领域。美国Stratus（容错公司）在Stratus独特的硬件级容错技术及VOS专有 *** 作系统环境下,采用了Motorola M68000处理器。
1993年，Intel I860处理器在Stratus的硬件级容错体系结构中成功应用，在软件环境方面，还能满足业界对开放性要求的Unix *** 作系统FTX，即AT&T UNIX SVR4。
1996年，容错技术得到HP的支持，共同推出Stratus Continuum系列，将Stratus容错结构结合HP PA－RISC对称多处理技术。
进入21世纪以来，制造、中小企业、能源、交通等领域对服务器，特别是中低端IA服务器的需求激增，过去仅仅可以应用在RISC平台、HP－UX环境下的容错产品也面临着新的挑战。另一方面，企业越来越依赖信息系统来完成关键业务的应用，同时他们不可能配备更多的专业人员来进行专职维护。双机热备、集群服务器遇到难题。
如今：NEC通过与美国容错公司多年的合作，于2001年推出了业界第一台基于IA架构、支持Microsoft Win-dows Server 2000标准 *** 作系统环境的容错服务器。NEC的Express5800/ft系列在Windows及Linux平台上的可靠性达到了99999%，这种实时保护技术来源于STRATUS连续处理技术（Fundamentals of Continuous Pro-cessing Design），它包括：
1、LOCKSTEP 技术
LOCKSTEP技术使用相同的、冗余的硬件组件在同一时间内处理相同的指令。LOCKSTEP技术可以保持多个CPU、内存精确的同步，在正确的相同时钟周期内执行相同的指令。该技术保证能够发现任何错误，即使短暂的错误，系统也能在不间断处理和不损失数据的情况下恢复正常运行。
2、安全故障（FAILSAFE）软件
FAILSAFE 软件和LOCKSTEP技术运行一样，可防止很多软件错误和储运耗损。该软件在Windows 2000/2003环境下采用热插拔、内存镜像、负载均衡、多点终止失效、多通道I/O等方式，大大增强了系统连续运行的稳定性。
FAILSAFE可以管理和诊断特征捕获，分析和通报服务器的软件问题，从而允许个人在软件发生错误之前去纠正错误。FAILSAFE软件的下列功能增强了NEC Express5800/ft系统在Windows环境中的可靠性：保护短暂的硬件故障；通过增强的驱动程序预防软件失效；软件问题的捕获、分析及修正；内存数据的连续性维持；丰富的纠错功能可以解决各种不同的错误。为了避免物理撞击等意外故障，安全故障软件还提供了自动重启功能，能够将宕机前CPU与内存数据即时保存下来，最大限度地避免数据的意外丢失。
3、激活服务（ACTIVE SERVICE ）
当然，假如容错服务器的硬件发生永久性故障，尽管系统能够正常运行，也必须及时更换硬件才能维持容错的冗余架构。容错服务器都配备了简易直观的图形界面来管理监测工具，（如NECExpress5800/ft提供了ESMPRO 管理软件），能够对服务器中硬件运行及故障状态进行适时监控。
未来
容错技术的应用已经开始从过去的证券、电信等领域进入基础行业，如制造、能源、物流、交通及有着"7×24"不间断运营需求的中小商业团体和政府。NEC为迎合互联网的高速增长，为容错服务器引入了最新的稳定、安全、可升级、功能强大的Linux版本。
容错的未来将会向更高的可用性、更卓越的可维护性发展。调查显示，越来越多的用户开始注重TCO（总拥有成本）而不是初期购买价格，更多的企业决定逐步放弃采用双机热备的方式来维护复杂的集群服务器，转而将目光瞄向具有容错技术的平台或容错服务器平台。
在中国市场，NEC 公司与神州数码的合作在一定程度上弥补了容错服务器在中国市场服务拓展领域的短板。这将引发国内各领域的容错技术与应用的井喷式发展。

一、云主机的优点
（例如：易迈云推出企业0元购买云服务器的永久性活动 )
云主机主要有三大优点。
（1）便宜。
因为服务可以分散到多台服务器，因此能够充分利用资源，这样就降低了硬件、电力和维护成本。而且，云主机是根据使用量计费的，多用多付，少用少付，所以对小网站特别有利。
（2）可靠。
因为服务分布在多台服务器、甚至多个机房，所以不容易彻底宕机，抗灾容错能力强，可以保证长时间在线。
（3）可扩展性好（scalability）。
云主机的基本特点就是分布式架构，所以可以轻而易举地增加服务器，成倍扩展服务能力。
二、云主机的缺点
一些客户担心云主机的安全问题，感到对服务缺乏控制。
因为云主机只是提供网络接口，所以客户的数据必然全部服从云服务公司的安排，完全在后者控制之下。数据是否安全保密，取决于后者的职业道德和保护能力。
但是，这其实是一个"伪问题"，因为绝大多数情况下，云服务公司会比客户更在乎、也更善于保护数据。Paul Graham在《黑客与画家》一书中，就谈过这一点：
"反对者往往觉得我们的产品不安全，如果员工可以很容易地登录，那么坏人也可以很容易地登录。一些大公司觉得不能把客户的xyk资料交给我们，而是放在自己的服务器上更安全。但是事实上，他们的服务器就是没我们的安全，我们对数据的保护几乎肯定比他们好。想想看，谁能雇到更高水平的网络安全专家，是一个所有业务就是管理服务器的技术型创业公司，还是一家服装零售商？而且我们比他们更关心数据的安全。如果一家服装零售商的服务器被入侵，最多只影响到这家公司本身，这件事也很可能在公司内部被掩盖起来，最严重的情况下可能还会有一个员工被解雇。但是，如果我们的服务器被入侵，就有成千上万家公司可能受到影响，这件事也许还会被当作新闻，发表在业内网站上面，使得我们生意做不下去，不得不关门歇业。如果你想把钱藏在安全的地方，请问你是选择家中床垫下面，还是选择银行？这个比喻对服务器管理的方方面面都适用，不仅是安全性，还包括正常运行时间、带宽、负载管理、备份等等，都是我们占优。"
三、如何选择云主机
一般来说，知名公司总是优先的选择。（例如：易迈云推出企业0元购买云服务器的永久性活动 )但是，小公司也有自己的优势，比如满足个性化需求和更低的价格。
你可以根据客户服务、机房分布、可靠性、API的强大程度、安全措施、价格等因素，进行综合考虑。

所谓容错，应该是冗余吧。
IBM X3650M4 是两路2U机架服务器
两颗CPU 有一颗宕掉，不会业务中断：冗余
每颗CPU 有对应的内存组。坏掉任何一根不影响业务中断：冗余
硬盘有RAID 允许坏掉一块硬盘（R1 1允许一块 R5 允许 1块 R6 允许2块) 冗余
电源两个。坏掉任何一个不会业务中断：冗余。
。。。风扇硬盘背板RAID 卡都可以冗余。
还可以服务器1+1冗余还可以异地冗余

1个。容错是苏州创云产业旗下的品牌。苏州创云作为华为20多名原班人马，联合创立的公司，经过5年的发展，在超融合、集团组网、混合云搭建与企业上云，逐渐成为业内的知名企业，这几年依靠掌握超融合核心技。容错服务器品牌只有一个，是FtServer4500的服务器。苏州济丰寰亚。苏州济丰寰亚作为国际寰亚集团核心IT子公司，在2006年就把IT总部建在苏州。

区别：容错主要依靠冗余设计来实现，它以增加资源的办法换取可靠性。由于资源的不同，冗余技术分为硬件冗余、软件冗余、时间冗余和信息冗余。

硬件冗余是通过硬件的重复使用来获得容错能力。
软件冗余的基本思想是用多个不同软件执行同一功能，利用软件设计差异来实现容错。

信息冗余是利用在数据中外加的一部分信息位来检测或纠正信息在运算或传输中的错误而达到容错。在通信和计算机系统中，常用的可靠性编码包括：奇偶校验码、循环冗余码CRC、汉明码等。

时间冗余是通过消耗时间资源来实现容错，其基本思想是重复运算以检测故障。按照重复运算是在指令级还是程序级分为指令复执程序复算。指令复执当指令执行的结果送到目的地址中，如果这时有错误恢复请求信号，则重新执行该指令。

程序复算常用程序滚回技术。例如将机器运行的某一时刻称作检查点，此时检查系统运行的状态是否正确，不论正确与否，都将这一状态存储起来，一旦发现运行故障，就返回到最近一次正确的检查点重新运行。

冗余设计可以是元器件级的冗余设计，也可以是部件级的、分系统级的、或系统级的冗余设计。冗余要消耗资源，应当在可靠性与资源消耗之间进行权衡和折衷。
容错系统工作过程包括自动侦测、自动切换、自动恢复。

延展回答：

冗余：指重复配置系统的一些部件,当系统发生故障时,冗余配置的部件介入并承担故障部件的工作,由此减少系统的故障时间。通常指通过多重备份来增加系统的可靠性

容错：容错是用冗余的资源使计算机具有容忍故障的能力，即在产生故障的情况下，仍有能力将指定的算法继续完成。

磁盘阵列简称RAID（Redundant Arrays of Inexpensive Disks，RAID），有“价格便宜且多余的磁盘阵列”之意。其原理是利用数组方式来作磁盘组，配合数据分散排列的设计，提升数据的安全性。磁盘阵列主要针对硬盘，在容量及速度上，无法跟上CPU及内存的发展，提出改善方法。磁盘阵列是由很多便宜、容量较小、稳定性较高、速度较慢磁盘，组合成一个大型的磁盘组，利用个别磁盘提供数据所产生的加成效果来提升整个磁盘系统的效能。同时，在储存数据时，利用这项技术，将数据切割成许多区段，分别存放在各个硬盘上。
磁盘阵列还能利用同位检查（Parity Check）的观念，在数组中任一颗硬盘故障时，仍可读出数据，在数据重构时，将故障硬盘内的数据，经计算后重新置入新硬盘中。
磁盘阵列的由来：由美国柏克莱大学（University of California-Berkeley）在1987年，发表的文章：“A Case for Redundant Arrays of Inexpensive Disks”。文章中，谈到了RAID这个字汇，而且定义了RAID的5层级。柏克莱大学研究其研究目的为，反应当时CPU快速的性能。CPU效能每年大约成长30～50%，而硬磁机只能成长约7%。研究小组希望能找出一种新的技术，在短期内，立即提升效能来平衡计算机的运算能力。在当时，柏克莱研究小组的主要研究目的是效能与成本。另外，研究小组也设计出容错（fault-tolerance），逻辑数据备份（logical data redundancy），而产生了RAID理论。研究初期，便宜（Inexpensive）的磁盘也是主要的重点，但后来发现，大量便宜磁盘组合并不能适用于现实的生产环境，后来Inexpensive被改为independence，许多独立的磁盘组。磁盘阵列，时势所趋：自有PC以来，硬盘是最常使用的储存装置。但在整个计算机系统架构中，跟CPU与RAM来比，硬盘的速度是PC中最弱的设备之一。所以，为了加速计算机整体的数据流量，增加储存的吞吐量，进阶改进硬盘数据的安全，磁盘阵列的设计因应而生。硬盘随着科技的日新月异，现在其容量已达1500GB以上，转速到了1万转，甚至15000转，而且价格实在是很便宜，再加现在企业流行建造网络，企业资源计划（Enterprise Resource Planning：ERP）是每个公司建构网络的主要目标。所以，利用局域网络来传递数据，服务器所使用的硬盘显得非常重要，除了容量大、速度快之外，稳定更是基本要求。基于此因，磁盘阵列开始被广泛的应用在个人计算机上。磁盘阵列其样式有三种，一是外接式磁盘阵列柜、二是内接式磁盘阵列卡，三是利用软件来仿真。外接式磁盘阵列柜最常被使用大型服务器上，具可热抽换（Hot Swap）的特性，不过这类产品的价格都很贵。内接式磁盘阵列卡，因为价格便宜，但需要较高的安装技术，适合技术人员使用 *** 作。另外利用软件仿真的方式，由于会拖累机器的速度，不适合大数据流量的服务器。由上述可知，现在IDE磁盘阵列大行其道的道理；IDE接口硬盘的稳定度与效能表现已有很大的提升，加上成本考量，所以采用IDE接口硬盘来作为磁盘阵列的解决方案，可说是最佳的方式在网络存储中，磁盘阵列是一种把若干硬磁盘驱动器按照一定要求组成一个整体，整个磁盘阵列由阵列控制器管理的系统。磁带库是像自动加载磁带机一样的基于磁带的备份系统，磁带库由多个驱动器、多个槽、机械手臂组成，并可由机械手臂自动实现磁带的拆卸和装填。它能够提供同样的基本自动备份和数据恢复功能，同时具有更先进的技术特点。掌握网络存储设备的安装、 *** 作使用也是网管员必须要学会的。在架构无线局域网时，对无线路由器、无线网络桥接器AP、无线网卡、天线等无线局域网产品进行安装、调试和应用 *** 作。磁盘阵列的主流结构：磁盘阵列作为独立系统在主机外直连或通过网络与主机相连。磁盘阵列有多个端口可以被不同主机或不同端口连接。一个主机连接阵列的不同端口可提升传输速度。和目前PC用单磁盘内部集成缓存一样，在磁盘阵列内部为加快与主机交互速度，都带有一定量的缓冲存储器。主机与磁盘阵列的缓存交互，缓存与具体的磁盘交互数据。在应用中，有部分常用的数据是需要经常读取的，磁盘阵列根据内部的算法，查找出这些经常读取的数据，存储在缓存中，加快主机读取这些数据的速度，而对于其他缓存中没有的数据，主机要读取，则由阵列从磁盘上直接读取传输给主机。对于主机写入的数据，只写在缓存中，主机可以立即完成写 *** 作。然后由缓存再慢慢写入磁盘。
编辑本段磁盘阵列的优点
RAID的采用为存储系统（或者服务器的内置存储）带来巨大利益，其中提高传输速率和提供容错功能是最大的优点。 RAID通过同时使用多个磁盘，提高了传输速率。RAID通过在多个磁盘上同时存储和读取数据来大幅提高存储系统的数据吞吐量（Throughput）。在RAID中，可以让很多磁盘驱动器同时传输数据，而这些磁盘驱动器在逻辑上又是一个磁盘驱动器，所以使用RAID可以达到单个磁盘驱动器几倍、几十倍甚至上百倍的速率。这也是RAID最初想要解决的问题。因为当时CPU的速度增长很快，而磁盘驱动器的数据传输速率无法大幅提高，所以需要有一种方案解决二者之间的矛盾。RAID最后成功了。通过数据校验，RAID可以提供容错功能。这是使用RAID的第二个原因，因为普通磁盘驱动器无法提供容错功能，如果不包括写在磁盘上的CRC（循环冗余校验）码的话。RAID容错是建立在每个磁盘驱动器的硬件容错功能之上的，所以它提供更高的安全性。在很多RAID模式中都有较为完备的相互校验/恢复的措施，甚至是直接相互的镜像备份，从而大大提高了RAID系统的容错度，提高了系统的稳定冗余性。
编辑本段磁盘阵列问答
1 什么是磁盘阵列（Disk Array）磁盘阵列（Disk Array）是由一个硬盘控制器来控制多个硬盘的相互连接，使多个硬盘的读写同步，减少错误，增加效率和可靠度的技术。 2什么是RAID RAID是Redundant Array of Inexpensive Disk的缩写，意为廉价冗余磁盘阵列，是磁盘阵列在技术上实现的理论标准，其目的在于减少错误、提高存储系统的性能与可靠度。常用的等级有1、3、5级等。 3什么是RAID Level 0 RAID Level 0是Data Striping(数据分割)技术的实现，它将所有硬盘构成一个磁盘阵列，可以同时对多个硬盘做读写动作，但是不具备备份及容错能力，它价格便宜，硬盘使用效率最佳，但是可靠度是最差的。以一个由两个硬盘组成的RAID Level 0磁盘阵列为例，它把数据的第1和2位写入第一个硬盘，第三和第四位写入第二个硬盘……以此类推，所以叫“数据分割"，因为各盘数据的写入动作是同时做的，所以它的存储速度可以比单个硬盘快几倍。但是，这样一来，万一磁盘阵列上有一个硬盘坏了，由于它把数据拆开分别存到了不同的硬盘上，坏了一颗等于中断了数据的完整性，如果没有整个磁盘阵列的备份磁带的话，所有的数据是无法挽回的。因此，尽管它的效率很高，但是很少有人冒着数据丢失的危险采用这项技术。 4什么是RAID Level 1 RAID Level 1使用的是Disk Mirror(磁盘映射)技术，就是把一个硬盘的内容同步备份复制到另一个硬盘里，所以具备了备份和容错能力，这样做的使用效率不高，但是可靠性高。 5什么是RAID Level 3 RAID Level 3采用Byte－interleaving(数据交错存储)技术，硬盘在SCSI控制卡下同时动作，并将用于奇偶校验的数据储存到特定硬盘机中，它具备了容错能力，硬盘的使用效率是安装几个就减掉一个，它的可靠度较佳。 6什么是RAID Level 5 RAID Level 5使用的是Disk Striping(硬盘分割)技术，与Level 3的不同之处在于它把奇偶校验数据存放到各个硬盘里，各个硬盘在SCSI控制卡的控制下平行动作，有容错能力，跟Level 3一样，它的使用效率也是安装几个再减掉一个。 7什么是热插拔硬盘？热插拔硬盘英文名为Hot－Swappable Disk，在磁盘阵列中，如果使用支持热插拔技术的硬盘，在有一个硬盘坏掉的情况下，服务器可以不用关机，直接抽出坏掉的硬盘，换上新的硬盘。一般的商用磁盘阵列在硬盘坏掉的时候，会自动鸣叫提示管理员更换硬盘。
编辑本段RAID技术规范简介
在计算机发展的初期，“大容量”硬盘的价格还相当高，解决数据存储安全性问题的主要方法是使用磁带机等设备进行备份，这种方法虽然可以保证数据的安全，但查阅和备份工作都相当繁琐。1987年， Patterson、Gibson和Katz这三位工程师在加州大学伯克利分校发表了题为《A Case of Redundant Array of Inexpensive Disks（廉价磁盘冗余阵列方案）》的论文，其基本思想就是将多只容量较小的、相对廉价的硬盘驱动器进行有机组合，使其性能超过一只昂贵的大硬盘。这一设计思想很快被接受，从此RAID技术得到了广泛应用，数据存储进入了更快速、更安全、更廉价的新时代。磁盘阵列对于个人电脑用户，还是比较陌生和神秘的。印象中的磁盘阵列似乎还停留在这样的场景中：在宽阔的大厅里，林立的磁盘柜，数名表情阴郁、早早谢顶的工程师徘徊在其中，不断从中抽出一块块沉重的硬盘，再插入一块块似乎更加沉重的硬盘……终于，随着大容量硬盘的价格不断降低，个人电脑的性能不断提升，IDE-RAID作为磁盘性能改善的最廉价解决方案，开始走入一般用户的计算机系统。 RAID技术主要包含RAID 0～RAID 7等数个规范，它们的侧重点各不相同，常见的规范有如下几种： RAID 0：RAID 0连续以位或字节为单位分割数据，并行读/写于多个磁盘上，因此具有很高的数据传输率，但它没有数据冗余，因此并不能算是真正的RAID结构。RAID 0只是单纯地提高性能，并没有为数据的可靠性提供保证，而且其中的一个磁盘失效将影响到所有数据。因此，RAID 0不能应用于数据安全性要求高的场合。 RAID 1：它是通过磁盘数据镜像实现数据冗余，在成对的独立磁盘上产生互为备份的数据。当原始数据繁忙时，可直接从镜像拷贝中读取数据，因此RAID 1可以提高读取性能。RAID 1是磁盘阵列中单位成本最高的，但提供了很高的数据安全性和可用性。当一个磁盘失效时，系统可以自动切换到镜像磁盘上读写，而不需要重组失效的数据。 RAID 0+1: 也被称为RAID 10标准，实际是将RAID 0和RAID 1标准结合的产物，在连续地以位或字节为单位分割数据并且并行读/写多个磁盘的同时，为每一块磁盘作磁盘镜像进行冗余。它的优点是同时拥有RAID 0的超凡速度和RAID 1的数据高可靠性，但是CPU占用率同样也更高，而且磁盘的利用率比较低。 RAID 2：将数据条块化地分布于不同的硬盘上，条块单位为位或字节，并使用称为“加重平均纠错码（海明码）”的编码技术来提供错误检查及恢复。这种编码技术需要多个磁盘存放检查及恢复信息，使得RAID 2技术实施更复杂，因此在商业环境中很少使用。 RAID 3：它同RAID 2非常类似，都是将数据条块化分布于不同的硬盘上，区别在于RAID 3使用简单的奇偶校验，并用单块磁盘存放奇偶校验信息。如果一块磁盘失效，奇偶盘及其他数据盘可以重新产生数据；如果奇偶盘失效则不影响数据使用。RAID 3对于大量的连续数据可提供很好的传输率，但对于随机数据来说，奇偶盘会成为写 *** 作的瓶颈。 RAID 4：RAID 4同样也将数据条块化并分布于不同的磁盘上，但条块单位为块或记录。RAID 4使用一块磁盘作为奇偶校验盘，每次写 *** 作都需要访问奇偶盘，这时奇偶校验盘会成为写 *** 作的瓶颈，因此RAID 4在商业环境中也很少使用。 RAID 5：RAID 5不单独指定的奇偶盘，而是在所有磁盘上交叉地存取数据及奇偶校验信息。在RAID 5上，读/写指针可同时对阵列设备进行 *** 作，提供了更高的数据流量。RAID 5更适合于小数据块和随机读写的数据。RAID 3与RAID 5相比，最主要的区别在于RAID 3每进行一次数据传输就需涉及到所有的阵列盘；而对于RAID 5来说，大部分数据传输只对一块磁盘 *** 作，并可进行并行 *** 作。在RAID 5中有“写损失”，即每一次写 *** 作将产生四个实际的读/写 *** 作，其中两次读旧的数据及奇偶信息，两次写新的数据及奇偶信息。 RAID 6：与RAID 5相比，RAID 6增加了第二个独立的奇偶校验信息块。两个独立的奇偶系统使用不同的算法，数据的可靠性非常高，即使两块磁盘同时失效也不会影响数据的使用。但RAID 6需要分配给奇偶校验信息更大的磁盘空间，相对于RAID 5有更大的“写损失”，因此“写性能”非常差。较差的性能和复杂的实施方式使得RAID 6很少得到实际应用。 RAID 7：这是一种新的RAID标准，其自身带有智能化实时 *** 作系统和用于存储管理的软件工具，可完全独立于主机运行，不占用主机CPU资源。RAID 7可以看作是一种存储计算机（Storage Computer），它与其他RAID标准有明显区别。除了以上的各种标准（如表1），我们可以如RAID 0+1那样结合多种RAID规范来构筑所需的RAID阵列，例如RAID 5+3（RAID 53）就是一种应用较为广泛的阵列形式。用户一般可以通过灵活配置磁盘阵列来获得更加符合其要求的磁盘存储系统。 RAID 5E RAID 5E(RAID 5 Enhencement): RAID 5E是在 RAID 5级别基础上的改进，与RAID 5类似，数据的校验信息均匀分布在各硬盘上，但是，在每个硬盘上都保留了一部分未使用的空间，这部分空间没有进行条带化，最多允许两块物理硬盘出现故障。看起来，RAID 5E和RAID 5加一块热备盘好象差不多，其实由于RAID 5E是把数据分布在所有的硬盘上，性能会与RAID5 加一块热备盘要好。当一块硬盘出现故障时，有故障硬盘上的数据会被压缩到其它硬盘上未使用的空间，逻辑盘保持RAID 5级别。 RAID 5EE RAID 5EE: 与RAID 5E相比，RAID 5EE的数据分布更有效率，每个硬盘的一部分空间被用作分布的热备盘，它们是阵列的一部分，当阵列中一个物理硬盘出现故障时，数据重建的速度会更快。开始时RAID方案主要针对SCSI硬盘系统，系统成本比较昂贵。1993年，HighPoint公司推出了第一款IDE-RAID控制芯片，能够利用相对廉价的IDE硬盘来组建RAID系统，从而大大降低了RAID的“门槛”。从此，个人用户也开始关注这项技术，因为硬盘是现代个人计算机中发展最为“缓慢”和最缺少安全性的设备，而用户存储在其中的数据却常常远超计算机的本身价格。在花费相对较少的情况下，RAID技术可以使个人用户也享受到成倍的磁盘速度提升和更高的数据安全性，现在个人电脑市场上的IDE-RAID控制芯片主要出自HighPoint和Promise公司，此外还有一部分来自AMI公司。面向个人用户的IDE-RAID芯片一般只提供了RAID 0、RAID 1和RAID 0+1（RAID 10）等RAID规范的支持，虽然它们在技术上无法与商用系统相提并论，但是对普通用户来说其提供的速度提升和安全保证已经足够了。随着硬盘接口传输率的不断提高，IDE-RAID芯片也不断地更新换代，芯片市场上的主流芯片已经全部支持ATA 100标准，而HighPoint公司新推出的HPT 372芯片和Promise最新的PDC20276芯片，甚至已经可以支持ATA 133标准的IDE硬盘。在主板厂商竞争加剧、个人电脑用户要求逐渐提高的今天，在主板上板载RAID芯片的厂商已经不在少数，用户完全可以不用购置RAID卡，直接组建自己的磁盘阵列，感受磁盘狂飙的速度。 RAID 50 RAID 50：RAID50是RAID5与RAID0的结合。此配置在RAID5的子磁盘组的每个磁盘上进行包括奇偶信息在内的数据的剥离。每个RAID5子磁盘组要求三个硬盘。RAID50具备更高的容错能力，因为它允许某个组内有一个磁盘出现故障，而不会造成数据丢失。而且因为奇偶位分部于RAID5子磁盘组上，故重建速度有很大提高。优势：更高的容错能力，具备更快数据读取速率的潜力。需要注意的是：磁盘故障会影响吞吐量。故障后重建信息的时间比镜像配置情况下要长。
编辑本段实现IDE RAID0/RAID1的方法
在RAID家族里，RAID 0和RAID 1在个人电脑上应用最广泛，毕竟愿意使用4块甚至更多的硬盘来构筑RAID 0+1或其他硬盘阵列的个人用户少之又少，因此我们在这里仅就这两种RAID方式进行讲解。我们选择支持IDE-RAID功能的升技KT7A-R AID主板，一步一步向大家介绍IDE-RAID的安装。升技KT7A-RAID集成的是HighPoint 370芯片，支持RAID 0、1、0+1。做RAID自然少不了硬盘，RAID 0和RAID 1对磁盘的要求不一样，RAID 1（Mirror）磁盘镜像一般要求两块（或多块）硬盘容量一致，而RAID 0（Striping）磁盘一般没有这个要求，当然，选用容量相似性能相近甚至完全一样的硬盘比较理想。为了方便测试，我们选用两块60GB的希捷酷鱼Ⅳ硬盘（Barracuda ATA Ⅳ、编号ST360021A）。系统选用Duron 750MHz的CPU，2×128MB樵风金条SDRAM，耕升GeForce2 Pro显卡，应该说是比较普通的配置，我们也希望借此了解构建RAID所需的系统要求。 1RAID 0的创建第一步首先要备份好硬盘中的数据。很多用户都没有重视备份这一工作，特别是一些比较粗心的个人用户。创建RAID对数据而言是一项比较危险的 *** 作，稍不留神就有可能毁掉整块硬盘的数据，我们首先介绍的RAID 0更是这种情况，在创建RAID 0时，所有阵列中磁盘上的数据都将被抹去，包括硬盘分区表在内。因此要先准备好一张带Fdisk与format命令的Windows 98启动盘，这也是这一步要注意的重要事项。第二步将两块硬盘的跳线设置为Master，分别接上升技KT7A-RAID的IDE3、IDE4口（它们由主板上的HighPoint370芯片控制）。由于RAID 0会重建两块硬盘的分区表，我们就无需考虑硬盘连接的顺序（下文中我们会看到在创建RAID 1时这个顺序很重要）。第三步对BIOS进行设置，打开ATA RAID CONTROLLER。我们在升技KT7A-RAID主板的BIOS中进入INTEGRATED PERIPHERALS选项并开启ATA100 RAID IDE CONTROLLER。升技建议将开机顺序全部改为ATA 100 RAID，实际我们发现这在系统安装过程中并不可行，难道没有分区的硬盘可以启动吗？因此我们仍然设置软驱作为首选项。第四步接下来的设置步骤是创建RAID 0的核心内容，我们以图解方式向大家详细介绍： 1系统BIOS设置完成以后重启电脑，开机检测时将不会再报告发现硬盘。 2磁盘的管理将由HighPoint 370芯片接管。 3下面是非常关键的HighPoint 370 BIOS设置，在HighPoint 370磁盘扫描界面同时按下“Ctrl”和“H”。 4进入HighPoint 370 BIOS设置界面后第一个要做的工作就是选择“Create RAID”创建RAID。 5在“Array Mode（阵列模式）”中进行RAID模式选择，这里能够看到RAID 0、RAID 1、RAID 0+1和Span的选项，在此我们选择了RAID 0项。 6RAID模式选择完成会自动退出到上一级菜单进行“Disk Drives（磁盘驱动器）”选择，一般来说直接回车就行了。 7下一项设置是条带单位大小，缺省值为64kB，没有特殊要求可以不予理睬。8接着是“Start Create（开始创建）”的选项，在你按下“Y”之前，请认真想想是否还有重要的数据留在硬盘上，这是你最后的机会！一旦开始创建RAID，硬盘上的所有数据都会被清除。 9创建完成以后是指定BOOT启动盘，任选一个吧。按“Esc”键退出，当然少不了按下“Y”来确认一下。 HighPoint 370 BIOS没有提供类似“Exit Without Save”的功能，修改设置后是不可逆转的。第五步再次重启电脑以后，我们就可以在屏幕上看到“Striping（RAID 0）for Array #0”字样了。插入先前制作的启动盘，启动DOS。打开Fdisk程序，咦？怎么就一个硬盘可见？是的，RAID阵列已经整个被看作了一块硬盘，对于 *** 作系统而言，RAID完全透明，我们大可不必费心RAID磁盘的管理，这些都由控制芯片完成。接下来按照普通单硬盘方法进行分区，你会发现“这个”硬盘的容量“变”大了，仔细算算，对，总容量就是两块硬盘相加的容量！我们可以把RAID 0的读写比喻成拉链，它把数据分开在两个硬盘上，读取数据会变得更快，而且不会浪费磁盘空间。在分区和格式化后千万别忘了激活主分区。第六步选择 *** 作系统让我们颇费周折，HighPoint370芯片提供对Windows 98/NT/2000/XP的驱动支持，考虑到使RAID功能面向的是相对高级的用户，所以我们选择了对新硬件支持更好的Windows XP Professional英文版（采用英文版系统主要是为了方便后面的Winbench测试，大家自己使用RAID完全可以用中文版的 *** 作系统），Windows 2000也是一个不错的选择，但是硬件支持方面显然不如Windows XP Professional。第七步对于采用RAID的电脑， *** 作系统的安装和普通情况下不一样，让我们看看图示，这是在Windows XP完成第一步“文件复制”重启以后出现的画面，安装程序会以英文提示“按下F6安装SCSI设备或RAID磁盘”，这一过程很短，而且用户往往会忽视屏幕下方的提示。按下F6后出现安装选择，选择“S”将安装RAID控制芯片驱动，选择“Enter”则不安装。按下“S”键会提示插入RAID芯片驱动盘。键入回车，安装程序自动搜索驱动盘上的程序，选择“WinXP”那一个并回车。如果所提供的版本和Windows XP Profesional内置的驱动版本不一致，安装程序会给出提示让用户进行选择。按下“S”会安装软盘所提供的而按下“Enter”则安装Windows XP Professional自带的驱动。按下“S”后又需要确认，这次是按“Enter”（这个……确认太多了，呵呵）。接下来是正常的系统安装，和普通安装没有任何区别。 RAID 0的安装设置我们就介绍到这里，下面我们会谈谈RAID 1的安装。与RAID 0相比，RAID 1的安装过程要简单许多，在正确 *** 作的情况下不具破坏性。 2RAID 1的创建虽然在原理上和RAID 0完全不一样，但RAID 1的安装设置过程却与RAID 0相差不多，主要区别在于HighPoint 370 BIOS里的设置。为了避免重复，我们只向大家重点介绍这部分设置：进入HighPoint 370 BIOS后选择“Create RAID”进行创建: 1在“Array Mode”上点击回车，在RAID模式选择中选择第二项“Mirror（RAID 1）for Data Security（为数据源盘创建镜像）”。 2接着是源盘的选择，我们再次提醒用户：务必小心，不要选错。 3然后是目标盘的选择，也就是我们所说的镜像盘或备份盘。 4然后开始创建。 5创建完成以后BIOS会提示进行镜像的制作，这一过程相当漫长。 6我们用了大约45分钟才完成60GB的镜像制作，至此RAID 1创建完成。 RAID 1会将主盘的数据复制到镜像盘，因此在构建RAID 1时需要特别小心，千万不要把主盘和镜像盘弄混，否则结果将是悲剧性的。RAID 1既可在两块无数据的硬盘上创建，也能够在一块已经安装 *** 作系统的硬盘上添加，比RAID 0方便多了（除了漫长的镜像制作过程）。创建完成以后我们试着将其中一块硬盘拔下，HighPoint370 BIOS给出了警告，按下“Esc”，另一块硬盘承担起了源盘的重任，所有数据完好无损。对于在一块已经安装 *** 作系统的硬盘上添加RAID 1，我们建议的步骤是：打开BIOS中的控制芯片→启动 *** 作系统安装HighPoint 370驱动→关机将源盘和镜像盘接在IDE3、4口→进入HighPoint 370 BIOS设置RAID 1（步骤见上文介绍）→重启系统完成创建。我们对两种RAID进行了简单的测试，虽然RAID 0的测试成绩让人有些不解，但是实际使用中仍然感觉比单硬盘快了很多，特别是Windows XP Professional的启动异常迅速，进度条一闪而过。至于传输率曲线出现不稳定的情况，我们估计和平台选择有一些关系，毕竟集成芯片在进行这种高数据吞吐量的工作时非常容易被干扰。不过即使是这样，我们也看到RAID 0系统的数据传输率达到了非常高的水平，一度接近60MB/s。与RAID 0相比，RAID 1系统的性能虽然相对单磁盘系统没有什么明显的改善，但测试中我们发现RAID 1的工作曲线显得非常稳定，很少出现波动的情况。再看看Winbench99 20中的磁盘测试成绩，一目了然。对用户和 *** 作系统而言，RAID 0和1是透明不影响任何 *** 作的，我们就像使用一块硬盘一样。
编辑本段磁盘阵列实现方式
磁盘阵列有两种方式可以实现，那就是“软件阵列”与“硬件阵列”。软件阵列是指通过网络 *** 作系统自身提供的磁盘管理功能将连接的普通SCSI卡上的多块硬盘配置成逻辑盘，组成阵列。如微软的Windows NT/2000 Server/Server 2003和NetVoll的NetWare两种 *** 作系统都可以提供软件阵列功能，其中Windows NT/2000 Server/Server 2003可以提供RAID 0、RAID 1、RAID 5；NetWare *** 作系统可以实现RAID 1功能。软件阵列可以提供数据冗余功能，但是磁盘子系统的性能会有所降低，有的降代还比较大，达30%左右。

欢迎分享，转载请注明来源：内存溢出

原文地址: https://outofmemory.cn/zz/12800233.html

什么是系统容错?

发表评论

评论列表（0条）