容错机制怎么构建

容错机制怎么构建,第1张

建立容错机制需要解决的几个问题

什么样的错可以容?科学认定容错内容,是宽容失败、鼓励创新的重要前提。容错是认定动机还是认定结果?是从动机出发,只要是出于公心、出于事业发展和百姓利益、没有谋取私利的所有失误都可以容;还是从结果出发,没有造成特别重大的损失和特别严重后果的可以容?是检视短期成效还是看更长远影响?怎么区分常规性决策与改革创新型决策?特别是如何把改革创新犯下的错误和“拍脑袋”违背程序与规律胡乱决策犯下的错误区分开来,给广大改革创新者吃一颗“定心丸”,等等。这些目前尚无明确的标准和制度安排。

认定错误的部门和程序怎么定?建立容错机制是为鼓励创新、宽容失败提供重要的制度保障。改革创新可能产生的错误由谁来认定,是本单位领导、上级单位、行业专家、群众代表还是市场评价?认定错误的程序是什么,由哪个部门发起,应该包括哪些流程?对具体案例是一事一议还是制定通用标准?是定评价原则还是定具体标准?这些也应该予以一一明确。

如何营造良性的容错氛围?是否容错,容什么错,很大程度上取决于思想观念和社会氛围,当前的社会环境对改革创新失误的宽容度仍有待提高。一方面,失误出现后往往会出现一些不利舆论,有可能影响领导者的决策和对改革创新者的评价。另一方面,改革创新者出现失误,即使不被问责,按照现有的考核评价体系和习惯思维,难免会对个人前途产生一定影响,这样也会阻碍想闯愿试者的激情。

积极推进容错机制的建立和完善

建立和完善容错机制,要按照总书记今年两会期间在黑龙江代表团提出的“三个区分开来”要求,进一步明确容错认定的总原则,把因缺乏经验先行先试出现的失误与明知故犯行为区分开来,把国家尚无明确规定时的探索性试验与国家明令禁止后的有规不依行为区分开来,把为推动改革的无意过失与为谋取私利的故意行为区分开来,保护好广大干部的干事热情。

结合实际制定出台容错机制的制度办法。近期一些省市相继出台了鼓励改革创新、干部容错免责的制度文件。如上海市出台了《上海市人民代表大会常务委员会关于促进改革创新的决定》,对改革创新未能实现预期目标,但勤勉尽责、未牟取私利的,不作负面评价,依法免除相关责任。浙江省委出台了《关于激励干部干事创业治理为官不为的若干意见》,明确建立鼓励创新、宽容失败、允许试错、责任豁免的机制和办法。江西省纪委、省委组织部联合下发了《关于支持、保护和激励党员干部改革创新、担当有为的意见》,明确对改革创新未达到预期效果或造成负面影响和损失的(重大安全责任事故除外),属于不可抗力导致,或无失职行为并同时符合6种相关条件的干部可免予追责。但是从全国范围看,容错机制建设总体仍处于宣传引导阶段。为此,各地区应结合各自实际,不仅要研究制订出台专门办法,对容错机制建设作出制度安排,更要积极在相关行业、区域率先开展试点,为更大范围推广提供参考样本。

科学合理设置容错认定的程序。应建立改革创新重大风险的评估制度,对风险进行分级设定,并实行事前备案制。在决策实施过程中,要加强决策效果的滚动评估,强化过程纠偏。在决策实施完成后,要进行决策成效联合评估、评价,并对决策出现的偏差进行定性评价,确定责任追究的方式,进一步明确组织责任、实施责任、个人责任或免除责任的相应条款。要切实抓好澄清反馈工作,对因深化改革、加快发展得罪人而受到诬告、错告的党员干部,及时澄清事实,消除负面影响;对恶意诽谤中伤他人的,严肃查处,还干部以清白、正社会视听。

分类制定容错机制的配套实施细则。容错机制的出发点是鼓励干部创新有为,落脚点是对创新措施推进者的领导力评价。要根据科学执政、依法执政、民主执政的总体要求,按照公共决策、国有重大改革决策、事业单位服务决策等类别,分别制定容错机制的配套实施细则,在授权体系内进行分级决策、分级评估。公共决策容错制度应以民生和民意提升为核心,国有改革决策容错制度应以竞争力提升为重点,事业单位服务决策容错制度则应以效率和满意度提升为关键点。

以纠错机制促进容错机制的完善。系统性纠错是建立容错机制的重要组成部分。纠错就是在风险发生之后,及时有效地启动相关机制和程序,对产生风险的源头、过程及后果进行科学评估,找出原因,确定性质,重新履行科学论证、征求民意等法定程序,及时予以纠正,把可能造成的损失降到最低。改革创新决策因为是突破固有思维方式、现有制度体系,不确定性、探索性较高,因此需要配套建立决策纠偏制度,制定相应的实行标准、运行流程、监督制约机制等,通过及时有效纠错,引导创新方向,加强决策调控,为改革创新提供制度保障。

营造全社会良好的容错氛围。建立容错机制的前提是全社会范围内对创新精神的认可,以及对创新偏差的容让与纠正。在此过程中,要树立正确的用人导向,及时教育调整为官不为的干部,突出选用担当有为的优秀干部,让干事的干部有奔头、受重用,让不干事的干部没市场、受惩戒,激励更多想作为、能作为、善作为的干部大显身手。同时,组织部门在制订完善党政领导班子年度绩效考核评价体系时,应吸纳和有机结合容错机制的相关内容,激励改革创新者奋勇前行。加强容错文化建设,加强对容错机制的广泛宣传,营造一个宽松、宽容、和谐的干事创业环境,不断激发改革创新者的工作积极性,鼓励敢试、敢闯、敢担当者创新有为。

容错软件的定义:

1。对自身的错误的作用具有屏蔽作用

2。可以从错误状态恢复到正常状态

3。发生错误时,能完成预期的功能

4。在一定程度上具有容错能力

实现容错技术主要是冗余

1。结构冗余

2。信息冗余

3。时间冗余

4。冗余附加技术

世纪80年代,第一代容错技术就开始进入商用领域。美国Stratus(容错公司)在Stratus独特的硬件级容错技术及VOS专有 *** 作系统环境下,采用了Motorola M68000处理器

1993年,Intel I860处理器在Stratus的硬件级容错体系结构中成功应用,在软件环境方面,还能满足业界对开放性要求的Unix *** 作系统FTX,即AT&T UNIX SVR4。

1996年,容错技术得到HP的支持,共同推出Stratus Continuum系列,将Stratus容错结构结合HP PA-RISC对称多处理技术。

进入21世纪以来,制造、中小企业、能源、交通等领域对服务器,特别是中低端IA服务器的需求激增,过去仅仅可以应用在RISC平台、HP-UX环境下的容错产品也面临着新的挑战。另一方面,企业越来越依赖信息系统来完成关键业务的应用,同时他们不可能配备更多的专业人员来进行专职维护。双机热备、集群服务器遇到难题。

如今:NEC通过与美国容错公司多年的合作,于2001年推出了业界第一台基于IA架构、支持Microsoft Win-dows Server 2000标准 *** 作系统环境的容错服务器。NEC的Express5800/ft系列在Windows及Linux平台上的可靠性达到了99999%,这种实时保护技术来源于STRATUS连续处理技术(Fundamentals of Continuous Pro-cessing Design),它包括:

1、LOCKSTEP 技术

LOCKSTEP技术使用相同的、冗余的硬件组件在同一时间内处理相同的指令。LOCKSTEP技术可以保持多个CPU、内存精确的同步,在正确的相同时钟周期内执行相同的指令。该技术保证能够发现任何错误,即使短暂的错误,系统也能在不间断处理和不损失数据的情况下恢复正常运行。

2、安全故障(FAILSAFE)软件

FAILSAFE 软件和LOCKSTEP技术运行一样,可防止很多软件错误和储运耗损。该软件在Windows 2000/2003环境下采用热插拔、内存镜像、负载均衡、多点终止失效、多通道I/O等方式,大大增强了系统连续运行的稳定性。

FAILSAFE可以管理和诊断特征捕获,分析和通报服务器的软件问题,从而允许个人在软件发生错误之前去纠正错误。FAILSAFE软件的下列功能增强了NEC Express5800/ft系统在Windows环境中的可靠性:保护短暂的硬件故障;通过增强的驱动程序预防软件失效;软件问题的捕获、分析及修正;内存数据的连续性维持;丰富的纠错功能可以解决各种不同的错误。为了避免物理撞击等意外故障,安全故障软件还提供了自动重启功能,能够将宕机前CPU与内存数据即时保存下来,最大限度地避免数据的意外丢失。

3、激活服务(ACTIVE SERVICE )

当然,假如容错服务器的硬件发生永久性故障,尽管系统能够正常运行,也必须及时更换硬件才能维持容错的冗余架构。容错服务器都配备了简易直观的图形界面来管理监测工具,(如NECExpress5800/ft提供了ESMPRO 管理软件),能够对服务器中硬件运行及故障状态进行适时监控。

未来

容错技术的应用已经开始从过去的证券、电信等领域进入基础行业,如制造、能源、物流、交通及有着"7×24"不间断运营需求的中小商业团体和政府。NEC为迎合互联网的高速增长,为容错服务器引入了最新的稳定、安全、可升级、功能强大的Linux版本。

容错的未来将会向更高的可用性、更卓越的可维护性发展。调查显示,越来越多的用户开始注重TCO(总拥有成本)而不是初期购买价格,更多的企业决定逐步放弃采用双机热备的方式来维护复杂的集群服务器,转而将目光瞄向具有容错技术的平台或容错服务器平台。

在中国市场,NEC 公司与神州数码的合作在一定程度上弥补了容错服务器在中国市场服务拓展领域的短板。这将引发国内各领域的容错技术与应用的井喷式发展。

网络容错即指网络出现故障或错误时,网络系统可以自动或手动地恢复正常工作。在生活中,网络容错应用十分普遍。比如,在订购商品时,如果网络出现问题,系统会提示"网络出现错误,正在尝试恢复",此时可以等待一段时间再次尝试;在进行在线付款时,如果网络中断,系统会记录交易数据并在网络恢复后自动重新发起交易;又如,在网络会议中,如果某个用户突然离开,系统会自动转换到备用服务上,避免影响整个会议进行。这些应用都是网络容错技术的体现,为用户提供了更加稳定、高效和安全的网络环境。

有备无患的做法,向来都是优质的香港机房拥有的作风,这表现在了电源、带宽线路等方面的冗余配置。尽管机房能够提供服务器在突发情况下正常运行的冗余配置,但是站长要想网站服务器能安安稳稳运行完服务期的话,那么壹基比小喻认为香服务器机房需要拥有以下5点的容错性。

 一、冗余的电源供应

站长需要确保选用的香港机房拥有冗余的电源供应,包括企业级不间断电源、定期检测的备用发电机等。尽管停电可能只会偶尔发生,但是选择到香港机房如果不具备没有冗余电力,这可能导致租用的香港服务器因短时间电力难以恢复的问题而导致网站业务持续中断。因此选择香港机房很重要,精心设计的电力系统会解决本地电源故障、电压变化以及短期和长期停电问题。

二、服务器硬件冗余

硬件非常重要。香港服务器中的硬件设备和网络硬件都应该是以冗余的方式构建。如果您选择的服务商和数据中心足够负责,这些设施都应具备。其中,香港服务器租用,通常都接入多条国际线路,以BGP智能切换最佳路由,保障网络冗余,顺便一提,葵芳的香港服务器租用,已接入中国电信CN2专线直达香港,大陆访问更快更稳定。关于服务器硬件的冗余,一般需要客户付费部署RAID磁盘阵列,可提供更高的数据可靠性。

三、保持软件最新版本和补丁更新

香港服务器中软件需要保持更新,尤其是与安全相关的软件。毕竟,大量的服务中断是由应用程序故障引起的,例如d性负载平衡软件故障等。而且,未及时更新版本和安全补丁,容易被黑客入侵进而导致更严重的损害。

四、服务器硬件故障监控

针对硬件设施提供密切的监控是不可缺少的。站长应当随时保持对服务器硬件和软件的密切关注,并确保有一个系统可以在突发故障时即时提醒您。当然,可靠的香港服务器租用服务商一定会部署这样的实时监控系统。因此站长在选择香港服务器租用时应当确认服务商是否具备这样的部署。

五、降低人为 *** 作的失误率

在引发在线业务停滞的事件中,大多数情况不是由服务器或者数据中心引起的,而是应用程序故障、系统缺陷以及人为错误 *** 作导致的。因此,站长就需要尽可能提升服务器管理水平或者请专业人士来管理服务器。

[摘 要]自动控制系统的控制器冗余\容错问题越来越受到各个企业的重视,对于现代化企业自动化程度越来越高,对控制系统要求就要更高,其关键是控制器的稳定、准确和安全,所以,控制器冗余\容错就显得特别关键和重要。冗余\容错是Tricon控制器最重要的特性,它可以在线识别瞬态和稳态的故障并进行适当的修正。冗余\容错技术提高了控制器的安全能力和可用性,使过程得到安全控制。现就我厂Tricon控制器三重冗余\容错进行小的分析和说明。

[关键词]控制器三重冗余容错Tricon

[中图分类号]TP273[文献标识码]A[文章编号]1007-9416(2010)03-0108-01

我厂的压缩机控制系统采用的是TRICON的控制系统,Tricon通过三重模件冗余结构(TMR)提供容错能力。此系统由三个安全相同的系统通道组成(电源模件除外,该模件是双重冗余的)。每个系统通道独立地执行控制程序,并与其它两个通道并行工作。硬件表决机制则对所有来自现场的数字式输入和输出进行表决和诊断。模拟输入则进行取中值的处理。

因为每一个分电路都是和其它两个隔离的,任一分电路内的任何一个故障都不会传递给其它两个分电路。如果在一个分电路内有硬件故障发生,该故障的分电路就能被其它两个分电路修复。维修工作,包括拆卸和更换故障有分电路故障的故障模件都可以在Tricon在线情况下进行,而不中断过程控制。系统能自行重新配置而执行完全的TMR控制。

对于各个分电路、各模件和各功能电路的广泛的诊断工作能够及时地探查到运行中的故障,并进行指示或报警。诊断还可以把有关故障的信息存储在系统变量内。在发现有故障时, *** 作员可以利用诊断信息以修改控制动作,或者指导其维护过程。

1 工作原理

三重模件冗余(TMR)结构保证了设备的容错能力,并且能在元部件出现硬件故障或者来自内部或外部来源的瞬态故障的情况下提供完好的不间断的控制。

每一个I/O模件内都包容有三个独立的分电路。输入模件上的每一分电路读取过程数据并将这些信息传送给它相应的主处理器。三个主处理器通过一个专用的被称作TriBus的高速总线系统通讯。

每扫描一次,主处理器都通过TriBus与其相邻的主处理器进行通讯,达到同步。TriBus表决数字输入数据、比较输出数据、并将模拟输入数据挎贝至各个主处理器。主处理器执行控制程序并把由控制程序所产生的输出送给输出模件。除对输入数据作表决之外,Tricon在离现场最近的输出模件上完成输出数据的表决,使其尽可能地与现场靠近,以便检测出任何错误并予以修复。

对于每个I/O模件,系统可以支持一个可选的热备模件。如果装有备件,在运行中,如主模件发生故障时,备件投入控制。热备位置也被用于系统的在线修理。

2 主处理器模件

Tricon系统包含三个主处理器模件。每个模件控制系统的独立的一路,并与其它两个主处理器并行工作。

每个主处理器上有一个专用的I/O通讯处理器,用以管理在主处理器和I/O模件之间交换的数据。一条三重I/O总线位于机架的背板上,机架间通过I/O总线电缆连接。

当每个输入模件被询问时,I/O总线的相应的一支就把新的输入数据传递给主处理器。输入数据汇成表存入主处理器内,并存入存储器以备用于硬件表决。

主处理器内的每一单个输入表通过TriBus传到其邻近的主处理器。在此传送过程中,完成硬件表决。TriBus利用一直接存储器存取可编程装置而对三个主处理器之间的数据进行同步、传送、表决、以及比较。如果发现不一致,信号在两个表中是一致的,则对第三个表进行修正。由于取样时间差异而造成的差别可用不同的数据图样进行限制。每个主处理器把数据的必要的修正保持在当地存储器内。任何差异都被标识,并在扫描结束时被Tricon的内部故障分析器来判断某一模件是否存在故障。主处理器把修正过的数据送入控制程序。主微处理器和相邻的主处理器模件一起并行执行控制程序。

我厂采用的是#3008型主处理器,用于存放用户编写的控制程序、SOE1数据、I/O数据、诊断、以及通讯缓冲器。外部电源故障时SRAM可完好地保存用户程序和保持性内存接点,时间为至少六个月。

主处理器模件接受双电源供电,电源母线排列在主机架内。一个电源或电源母线出现故障不会影响系统性能。在发生外部二路电源故障时,SRAM由装在主机架的背板上的电池进行保护。Tricon在没有外部电源的情况下,电池能完整地保持程序和保持性变量,至少可保持六个月。

3 总线系统

三条三重总线系统都蚀刻在机架背板上,三条总线为TriBus、I/O总线、及通讯总线。

TriBus包括三条独立的串联的链路,在4Mband下运行。它在每一扫描开始时使各主处理器同步。然后,每个主处理器将它的数据送入它的上游和下游的主处理器。TriBus完成下列三种功能:

――传输模拟的、诊断的、和通讯的数据

――传输和表决数字输入数据

――对上次扫描的输出数据和控制程序存贮器进行数据比较并对不同之处进行标识。

Tricon容错结构的一个重要特征是,每一个MP使用了同一个数据发送器将数据同时送给上游的和下游的主处理器,这样保证了同样上游处理器和下游处理器接收相同的数据。

每个I/O模件通过其对应的端子板接受现场信号或向现场传送数据。机架相邻的物理槽位视作同一个逻辑槽位。第一个位置上放置工作模件,第二位置放置热备I/O模件。端子板通过背板顶部的Elco插头相边连,同时连接工作和热备的I/O模件。所以,这两个模件接收的是相同的来自端子板的信号。

I/O总线可使信息在I/O模件和主处理器之间传送,速率为375K波特。三重化I/O总线沿着背板的底部敷设。I/O总线的每一分电路在一个主处理器与其相应的I/O模件上的相应的分电路间传递信息。I/O总线通过一组三条I/O总线缆在各机架间的延伸。通讯总线在主处理器和通讯模件之间传输信息,其速率为2 M波特。

4 结语

综上所述,企业对自动化控制系统要求越来越高,迫使控制系统功能也变得越来越强大,特别是控制器功能的极大增强,而其最重要的就是系统的冗余、容错功能,它们保证了系统的安全、稳定。

以上就是关于容错机制怎么构建全部的内容,包括:容错机制怎么构建、容错软件的定义、在生活中网络容错的应用等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zz/10114559.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-05
下一篇 2023-05-05

发表评论

登录后才能评论

评论列表(0条)

保存