什么是系统容错?_服务器

双机容错系统方案
一,双机容错系统方案综述
11 久强世纪 Storage Solution 双机容错系统
近年来,随着计算机技术的飞速发展,服务器的性能有了大幅度的提升,服务器作为处理关键性事物
的业务主机已随处可见对于要求有高可用性和高安全性的系统,比如金融,邮电,交通,石油,电力,
保险证券等行业,用户提出了系统容错的要求久强世纪公司推出基于Cluster集群技术的双机互备援解
决方案,包括用于对双服务器实行监控的HA 容错软件和作为数据存储设备的系列磁盘阵列系统通过软
硬件两部分的紧密配合,提供给客户一套具有单点故障容错能力,且性价比优越的用户应用系统运行平台
12 Cluster集群技术
Cluster集群技术:一组相互独立的服务器在网络中表现为单一系统,并以单一系统的模式加以管理
此单一系统为客户工作站提供高可靠性的服务
Cluster大多数模式下,集群中所有的计算机拥有一个共同的名称,集群内任一系统上运行的服务可
被所有的网络客户所使用Cluster必须可以协调管理各分离的组件的错误和失败,并可透明的向Cluster
中加入组件
一个Cluster包含多台(至少二台)拥有共享数据储存空间的服务器任何一台服务器运行一个应用
时,应用数据被存储在共享的数据空间内每台服务器的 *** 作系统和应用程序文件存储在其各自的本地储
存空间上
Cluster内各节点服务器通过一内部局域网相互通讯当一台节点服务器发生故障时,这台服务器上
所运行的应用程序将在另一节点服务器上被自动接管当一个应用服务发生故障时,应用服务将被重新启
动或被另一台服务器接管当以上任一故障发生时,客户将能很快连接到新的应用服务上
13久强世纪 Storage Solution 双机容错系统方案
Cluster集群可由N台服务器组成,当Cluster最小值N=2时,即为双机容错集群系统
久强世纪Cluster双机容错系统结合了磁盘阵列产品的安全可靠性与HA监控软件技术的优点,将二
者的优势相互配合使用软件与磁盘阵列结合的方案,可以有效提高主机工作效率,减轻服务器和网络设
备压力,保证系统稳定性
二,系统概述
21 功能概述
·如果硬盘发生故障时,磁盘阵列柜会有蜂鸣声告警,同时硬盘架面板上的状态指示灯变成红色(正
常时为绿色),以便提醒用户进行及时有效的维护
·独特的硬盘保护环路设计,可以确保故障硬盘插拔时,即刻隔断与SCSI总线的连接,而不会影响
SCSI总线上的信号
·即时响应: 控制器在硬盘发生故障时即刻识别错误信息
·支持环境监控(当机箱内温度过高时会有蜂鸣告警声)
·冗余电源备份(支持热插拔)
·热插拔风扇
·系统安全密码锁定
·当柜门关闭时,仍可观察到控制器及硬盘工作状态
·支持不同品牌,容量,型号的SCSI硬盘
22 阵列柜结构
AccuSTOR S940阵列柜的组成包括RAID控制器,双电源保护装置,支持热插拔的硬盘盒(Mobile Rack)
等,大部分部件具有冗余能力,可以全面保护硬盘和数据的安全
AccuSTOR S940的RAID控制器使用64-bit RISC处理器,基本缓存(CACHE)为64MB, 控制器提供4个
通道(Channel),其中两个为主机通道(Host Channel),2个为设备通道(Disk Channel),可同时接驳8块
硬盘,最大RAID5容量为7X146GB=102TB
在控制器中,可以方便的给设置0,1,3,5,0+1级的RAID组控制器带有Monitor接口,用户可
以通过该接口使用终端或终端仿真程序进行设置,可以对控制器的BIOS程序进行升级
在阵列柜的顶部预留一个插槽,用户可以选装一个备份RAID控制器,以提高系统的可靠性
AccuSTOR S940或内部与SCSI硬盘的接口是采用SCA-2规格的整体式后背板,可以直接使用80Pin
热插拔硬盘,配备转换口后,也可使用80Pin Ultra2/Ultra160硬盘每一硬盘插槽配有隔绝保护IC,以
消除硬盘在热插时的电流负效应,避免瞬间电流造成对硬盘或控制器的损害
AccuSTOR S940阵列柜安装双份热插拔电源,每个电源的功率300W,通过调整电压开关该电源可以在
110/220V电压下工作
正常情况下,双电源在Share状态工作,各输出150W功率,保证电源的使用寿命如果其中一只电
源发生故障,另一电源将自动转换到300W 输出功率状态,使阵列继续正常运转同时系统将通过液晶屏
幕和蜂鸣方式发出警报,用户可以将损坏的电源直接拔除,而不必关闭阵列
机箱后背板上装有四个热插拔冷却风扇,风扇的启动温度和转速受ENC控制,用户可以通过ENC上的
DIP开关进行设定所有风扇均采用德国标准的三钢珠结构,使其使用寿命大大延长
阵列柜中安置有8个硬盘盒,可以接驳80针Ultra2/Ultra160 SCSI硬盘和SCA硬盘,普通硬盘接入
阵列后,即支持热插拔功能Mobile Rack可自动为硬盘设置ID,前面板上有指示灯,可以显示硬盘的工
作状态
阵列柜后面板上装有HOST-A,HOST-B接口各两个,用来接驳主机Monitor口可接至终端或PC机,
用来进行阵列的设置Modem口可以接驳调制解调器,用于传真和Pager方式的远程报警UPS口可连接
UPS电源,当断电时UPS系统会送出一PowerFail信号到此UPS接口上,此时磁盘阵列控制器会即刻将缓
存(Cache)的资料完整地写入磁盘中,并关闭缓存,如服务器再有资料传来则会直接写入硬盘内,直到电
源恢复正常两个设备通道接口配备终结器,用户可以串联机柜或其他SCSI设备
23 双机容错系统软件 HA
久强世纪 Storage Solution双机容错系统解决方案提供专用双机软件:HA
HA For NT 作为目前市场上最为成熟的双机容错软件,以其友好图形 *** 作界面,方便的配置与管理被
广泛应用于政府,学校,电信,电力,石油,交通等行业
通过装在两个服务器中的双机热备份应用软件HA,系统具有在线容错能力,即当处于工作状态的服
务器无法正常工作时,通过双机系统容错软件,使处于守候监护状态的另一台服务器迅速接管不正常服务
器上的业务程序及数据资料,使得网络用户的业务交易正常运行,保证交易数据的完整一致性及交易业务
的高可靠性
通过架设与两台服务器间的侦测网络,HA for NT软件能够对两台服务器的软硬件运行状态实行监控
HA For NT具有两种工作模式:
Hot Standby:即双机热备份,两台服务器为生产机--备份机关系当生产机发生故障时,备份机自
动接管生产机的任务和数据,使拥护业务交易正常运行使用者可在最短时间内回复作业,使客户的应用
不必中断,减少主机停机所造成的损失
Daul Active:即双机互备援两台服务器各运行不同的应用任务,并互相作为备份机当两部主机
中任一主机当机时,另一部主机可迅速接替故障主机任务
三,系统整合
久强世纪 Storage solution双机容错系统是由HA容错软件与磁盘阵列有机组合的成熟方案整个
系统的组合架构工作包括三个方面:
1)硬件系统的连接
2)容错软件的安装和配置
3)与用户应用的整合
31 硬件系统的连接
硬件部分的连接主要包括磁盘阵列与主机的连接和侦测网络的连接
用户可以将支持多主机的磁盘阵列系统分别连接至两台服务器的SCSI接口磁盘阵列系统提供两条
标准68Pin外接SCSI电缆,可与任何服务器的Ultra 3 SCSI接口接驳用户不需要在服务器上增加任何
硬件设备或驱动程序磁盘阵列连接至主机后,用户可以象增加普通硬盘那样对其进行分区,格式化,安
装文件系统等 *** 作
HA for NT可使用三种侦测网络
RS232线路:只需使用软件附带的专用电缆将两台服务器的串口连接即可;
TCP/IP:使用直连网线或通过交换设备(Switch或Hub)连接两台服务器的网卡;
Share Disk:在磁盘阵列柜上设置双主机共享的8MB分区;
以上三种侦测网络可同时使用,互为备份,有利于提高双机系统的可靠性
32 容错软件的安装和配置
HA容错软件的安装简单快捷整个安装过程中,用户不需要进行繁琐的安装选择,或更改服务器硬
件配备或 *** 作系统设定与容错软件配合
HA for NT具有友好图形用户界面(GUI),使容错软件的配置管理成为轻松的工作
33 与用户应用的整合
久强世纪 Storage solution双机容错控制系统能够提供具有相当容错能力的应用系统平台它既可
以同所有大型数据库配合使用,也可监管用户自主开发的应用软件在与容错系统整合时,只需将数据库
系统分别在两台服务器安装,并将数据文件放置于共享的磁盘阵列即可,而不需要对应用程序进行任何更
改

容错技术是容忍并防范局部错误的决策方法。是提高决策可靠性的重要方法之一。所谓容忍错误，就是认识到错误是客观存在的，不可避免的，因此，要把主要的精力放在防范错误的对策上。其主要内容有:(1)诊断技术，即在最短的时间内，也就是在错误还不致于造成重大损失之前，就发现并排除错误。(2)错误防范技术和错误影响弱化技术。(3)冗余技术，即用功能相近的若干决策方案或措施来代替单一方案，在原方案有效时，其余方案从表面上看是多余的，然而一旦原方案失效时，这些"多余"的方案就可自动依次接替原方案而维持决策实施的正常进行。
容错技术概况
容错FT(Fault Tolerant)技术一般利用冗余硬件交叉检测 *** 作结果。随着处理器速度的加快和价格的下跌而越来越多地转移到软件中。未来容错技术将完全在软件环境下完成，那时它和高可用性技术之间的差别也就随之消失了。
局域网的核心设备是服务器。用户不断从文件服务器中大量存取数据，文件服务器集中管理系统共享资源。但是如果文件服务器或文件服务器的硬盘出现故障，数据就会丢失，所以，我们在这里讲解的容错技术是针对服务器、服务器硬盘和供电系统的。
双重文件分配表和目录表技术
硬盘上的文件分配表和目录表存放着文件在硬盘上的位置和文件大小等信息，如果它们出现故障，数据就会丢失或误存到其他文件中。通过提供两份同样的文件分配表和目录表，把它们存放在不同的位置，一旦某份出现故障，系统将做出提示，从而达到容错的目的。
快速磁盘检修技术
这种方法是在把数据写入硬盘后，马上从硬盘中把刚写入的数据读出来与内存中的原始数据进行比较。如果出现错误，则利用在硬盘内开设的一个被称为"热定位重定区"的区，将硬盘坏区记录下来，并将已确定的在坏区中的数据用原始数据写入热定位重定区上。
磁盘镜像技术
磁盘镜像是在同一存储通道上装有成对的两个磁盘驱动器，分别驱动原盘和副盘，两个盘串行交替工作，当原盘发生故障时，副盘仍旧正常工作，从而保证了数据的正确性。
双工磁盘技术
它是在网络系统上建立起两套同样的且同步工作的文件服务器，如果其中一个出现故障，另一个将立即自动投入系统，接替发生故障的文件服务器的全部工作。
网络 *** 作系统具有完备的事务跟踪系统
这是针对数据库和多用户软件的需要而设计的，用以保证数据库和多用户应用软件在全部处理工作还没有结束时或工作站或服务器发生突然损坏的情况下，能够保持数据的一致。其工作方式是:对指定的事务( *** 作)要么一次完成，要么什么 *** 作也不进行。
UPS监控系统
UPS监控系统用于监控网络设备的供电系统，以防止供电系统电压波动或中断。
在工作中，我们选取的容错技术应根据实际情况而定(如资金，规模等)。

这个问题就不太好搞了，我不知道你做的是什么阵列，从结果看你做的阵列应该是没有容错的，一个阵列中出现一个硬盘错误，整个阵列就会损坏，从你看到的现象中应该就是这个现象。
作阵列的主要目的：一是为了提高硬盘的访问速度；二是实现容错机制；三是可以扩大硬盘的容量，但是一般不会这么用，因为，单盘加起来的容量要比作阵列要大，尤其是再作阵列容错，一般至少要损失一个硬盘的容量。
作阵列一般的目的是实现容错，这种技术成为RAID技术，目前有0-6七种配置方法，0：没有容错，只是提高速度，一块盘的损坏影响整个阵列；1：镜像，成对使用，彼此之间进行镜像，容量损失一半；2-4一般不是太使用，5是一块硬盘作容错，阵列中允许有一块硬盘损坏，而不影响整个阵列；还有一种容错就是使用在线热备份，spare，任何一块硬盘故障，spare硬盘就可以接替工作。

41 高可靠性
⒋11 快速恢复
不管如何终止服务，MASTER和数据块服务器都会在几秒钟内恢复状态和运行。实际上，我们不对正常终止和不正常终止进行区分，服务器进程都会被切断而终止。客户机和其他的服务器会经历一个小小的中断，然后它们的特定请求超时，重新连接重启的服务器，重新请求。
⒋12 数据块备份
如上文所讨论的，每个数据块都会被备份到放到不同机架上的不同服务器上。对不同的名字空间，用户可以设置不同的备份级别。在数据块服务器掉线或是数据被破坏时，MASTER会按照需要来复制数据块。
⒋13 MASTER备份
为确保可靠性，MASTER的状态、 *** 作记录和检查点都在多台机器上进行了备份。一个 *** 作只有在数据块服务器硬盘上刷新并被记录在MASTER和其备份的上之后才算是成功的。如果MASTER或是硬盘失败，系统监视器会发现并通过改变域名启动它的一个备份机，而客户机则仅仅是使用规范的名称来访问，并不会发现MASTER的改变。
42 数据完整性
每个数据块服务器都利用校验和来检验存储数据的完整性。原因：每个服务器随时都有发生崩溃的可能性，并且在两个服务器间比较数据块也是不现实的，同时，在两台服务器间拷贝数据并不能保证数据的一致性。
每个Chunk按64kB的大小分成块，每个块有32位的校验和，校验和和日志存储在一起，和用户数据分开。
在读数据时，服务器首先检查与被读内容相关部分的校验和，因此，服务器不会传播错误的数据。如果所检查的内容和校验和不符，服务器就会给数据请求者返回一个错误的信息，并把这个情况报告给MASTER。客户机就会读其他的服务器来获取数据，而MASTER则会从其他的拷贝来复制数据，等到一个新的拷贝完成时，MASTER就会通知报告错误的服务器删除出错的数据块。
附加写数据时的校验和计算优化了，因为这是主要的写 *** 作。我们只是更新增加部分的校验和，即使末尾部分的校验和数据已被损坏而我们没有检查出来，新的校验和与数据会不相符，这种冲突在下次使用时将会被检查出来。
相反，如果是覆盖现有数据的写，在写以前，我们必须检查第一和最后一个数据块，然后才能执行写 *** 作，最后计算和记录校验和。如果我们在覆盖以前不先检查首位数据块，计算出的校验和则会因为没被覆盖的数据而产生错误。
在空闲时间，服务器会检查不活跃的数据块的校验和，这样可以检查出不经常读的数据的错误。一旦错误被检查出来，服务器会拷贝一个正确的数据块来代替错误的。
43 诊断工具
广泛而细致的诊断日志以微小的代价换取了在问题隔离、诊断、性能分析方面起到了重大的作用。GFS服务器用日志来记录显著的事件（例如服务器停机和启动）和远程的应答。远程日志记录机器之间的请求和应答，通过收集不同机器上的日志记录，并对它们进行分析恢复，我们可以完整地重现活动的场景，并用此来进行错误分析。

　GFS的精彩在于它采用了多种方法，从多个角度，使用不同的容错措施来确保整个系统的可靠性。
　客户端在访问GFS时，首先访问Master节点，获取将要与之进行交互的Chunk Server信息，然后直接访问这些Chunk Server完成数据存取。GFS的这种设计方法实现了控制流和数据流的分离。Client与Master之间只有控制流，而无数据流，这样就极大地降低了Master的负载，使之不成为系统性能的一个瓶颈。Client与Chunk Server之间直接传输数据流，同时由于文件被分成多个Chunk进行分布式存储，Client可以同时访问多个Chunk Server，从而使得整个系统的I/O高度并行，系统整体性能得到提高。

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/zz/10301440.html

什么是系统容错?

发表评论

评论列表（0条）