要知道,每一个程序系统都不是单独存在的,而是由众多小系统组成的。而今天我们就一起来了解一下,关于系统故障的问题应该如何发现和解决。
故障发现
所谓“故障发现”,就是通过技术手段实时采集系统中每个节点的健康状态,以及每2个节点之间链路的健康状态,包括但不限于调用成功率、响应时间等等。借此代替我们的眼睛去盯着整个系统,一旦低于某个设定的阈值,就触发报警给我们一个提醒。因为当你的系统中存在成百上千的程序时,靠肉眼去找到发生故障的位置,简直是天方夜谭。哪怕找到了,也可能已经产生了巨大的损失。
负责故障发现的解决方案都属于应用性能管理(APM)范畴。我们在部署这个“眼睛”的时候,需要考虑到全方位的覆盖,要包含所有的节点。比如:
在Web方面可以直接利用浏览器提供的导航计时(NavigationTiming)和资源计时(ResourceTiming)接口来采集性能数据,非常方便。
在iOS、Android这种App方面通过源代码插桩的方式进行。比如直接引入采集SDK然后硬编码在源代码中,或者通过AOP框架来进行动态代码注入。代码的注入位置就在每个方法的执行前和执行后。
故障消除
现在已经能够很容易的发现故障了,我们就可以通过综合运用隔离性、横向扩展、代理、负载均衡、熔断、限流、降级等等机制来快速的“掐灭故障”。
分布式系统的规模越大,耦合越严重,各个子系统之间通过网络连接在一起,就如赤壁之战中的曹军连在一起的船舶一样,只要其中一个着火了就会就近蔓延。所以,北京IT培训建议一旦发现某个子系统挂了,就需要尽快切断与它的联系,保证自己能够不受连累,防止雪崩的发生。
我们可以先运用docker之类的技术将每个应用在运行时的环境层面隔离开来。然后,通过横向扩展让每个应用允许被“Copy”,以此来部署多个副本。接着,结合代理和负载均衡让这些副本可以共同对外提供服务,使得每个应用程序本身先具备“高可用”。后的三大防御措施,熔断、限流、降级来快速“掐灭故障”,避免故障在不同的应用程序间扩散。
基本过程可以分为规划、实施、运行和后评估等四个阶段。
规划阶段可以分为信息化战略规划、信息化规范规划、需求管理、项目立项与可行性分析;
“信息化战略规划”是在诊断和评估企业信息化现状的基础上,制定和调整企业信息化的指导纲领,争取企业以最适合的规模、成本去做最适合的信息化工作,其目的在于研究企业的信息化战略如何与企业的业务发展战略进行匹配;
“规范管理”主要从技术、业务、管理等层面对信息化建设进行具体的实施指导,规范建设行为;
“需求管理”是对企业各个层次的管理者、业务部门和最终用户的业务需求进行整理汇总,实现企业业务战略向信息化流程的转变,形成的信息化流程及相应的软件准确实现对企业发展的支撑;
“项目立项与可行性研究”是从技术、经济、管理和开发环境等四个方面着手,研究项目的可能性和必要性;
实施阶段分为IT投资预算管理、设计方案管理、工程实施管理、验收管理;
“IT投资预算管理”与“设计方案管理”一起,共同对可行的信息系统建设的需求进行资金和各类信息资源的设计和管理;
“设计方案管理”不但设计好信息系统实施的各类软、硬件系统,还要设计对应的各个岗位的人力资源角色,为“培训管理”奠定需求的基础,同时它还要设计出对应用系统生产过程控制的测试用例和时间资源进度表;
“设备采购管理”是在“设计方案管理”和“信息化投资预算管理”完成之后,与“工程实施管理”一起共同完成信息系统的建设,但它侧重的是现成设备、软件和服务的采购。“供应商合作伙伴关系管理”为它提供评价和选择;
“工程实施管理”分为两个部分:首先是试验公司的工程实施,之后是“验收管理”的实验公司测试、上线、试运行和终验。在“工程实施”过程中,“需求分析管理”的维护阶段要对需求变更进行版本控制和风险评估,与业务需求提供部门进行协商,保证信息系统实施按期、保质的顺利进行。在工程实施的过程中需要根据“信息化规范管理”保证工程质量。在工程实施过程中,要依据“供应商/合作伙伴关系管理”对厂商进行信用度评估;
“验收管理”与“工程实施管理”进行交互,要依据设计方案管理提供的文档,按信息化规范管理进行验收控制,为“服务支撑”提供完整的信息系统。在验收工作过程中,要依据“需求分析管理”的需求维护,对信息系统进行需求变更,但一定要与企业各个层面进行有效沟通,进行风险评估,以取得各方面的利益平衡;
运行阶段分为服务台管理、服务支持和服务交付管理;
“服务台管理”建立服务台,统一服务标准,统一服务入口,对服务的工单进行监控、考核,并建立服务支撑系统,对服务请求进行电子化管理;
“服务支撑管理”在配置管理的基础上,确定问题管理、故障处理等流程,同时建立各项维护制度;
“服务提供管理”采用服务等级管理SLA的管理理念,实现可用性、能力、持续性等管理,建立维护知识共享数据库,从而保证企业发展的顺利进行;
后评估阶段包括后评估管理。
“后评估管理”是在总结信息系统运行情况下,为下一轮的“信息化战略规划管理”提供数据,依据是“服务支撑”和“服务提供”提供的各类资料,并在运行阶段、依据“需求分析管理”中的需求维护,提出在下一版本信息系统建设中的改进意见。
电气装置内所有的外露可导电部分都连接到一共同的PE线上,如图表F18所示。
在此情况下故障电流路径内没有接地极,这样故障电流将很大,可采用通常的过电流保护电器,即断路器和熔断器。
第一次故障可能发生在电气装置内的远端,而第二次故障则可能发生在电气装置的另一远端。为此当确定过电流保护电器故障动作整定值时,通常取回路阻抗的两倍值。
当IT系统内除3根相线外还有1根中性线时,如果(两个)故障中的一个故障是中性线与地间的故障(在IT系统内四根导线都是与地绝缘的),则将出现最小的短路故障电流。 因此在四线的IT电气装置内必须用相线对中性线的电压来验证短路时是否满足
的要求。
式中:
Uo—— 相线对中性线的电压;
Zc—— 故障回路的故障电流回路阻抗;
Ia—— 跳闸整定电流。
如果未配出中性线,则用以计算故障电流的电压为相间电压,即
最大切断电源时间
IT系统的切断电源时间视不同电气装置外露可导电部分如何互相连接而定。
对于额定电流不大于32 A的给电气设备供电的末端电路,且其外露可导电部分之间相连接,其最大跳闸时间示于图表F13。对于在同一组内外露可导电部分互相连接的其他回路,其最大切断电源时间为5s,这是因为在这些同一组的回路内如果发生两个回路异相接地故障时,其短路电流是与TN系统相同的。
对于额定电流不大于32 A的给电气设备供电的末端回路,且其外露可导电部分系连接于无电气联系的单独的接地极上,其最大切断电源时间列于图表F10,对于外露可导电部分不互相连接的其他回路,其最大切断电源时间为1s,这是因为当发生两个回路异相接地故障时,其中的一个绝缘故障发生在这一个组内,而另一个绝缘故障则发生在另一个组内,这时故障电流将像TT系统那样受到各个接地极电流的限制。
断路器保护
在图表F18所示的情况下必须确定瞬动和短延时过电流跳闸的整定值,上文建议的时间值要求是很易于满足的。
示例:在图表F18所示的情况下,在短路保护中如选用NSX160型断路器,对回路负载端发生的异相接地故障是适用的。
提示:在IT系统内如两个回路发生异相接地故障,是假设它们的导体长度和截面相同,且其PE线的截面和相线截面也相同来进行计算的。在这种情况下,当采用“通用法”进行计算时,回路的回路阻抗将是TN系统条件下一个回路的阻抗计算值的2倍。
计划阶段是整个审计过程的起点。其主要工作包括:
(1)了解被审系统基本情况
了解被审系统基本情况是实施任何信息系统审计的必经程序,对基本情况的了解有助于审计组织对系统的组成、环境、运行年限、控制等有初步印象,以决定是否对该系统进行审计,明确审计的难度,所需时间以及人员配备情况等。
了解了基本情况,审计组织就可以大致判断系统的复杂性、管理层对审计的态度、内部控制的状况、以前审计的状况、审计难点与重点,以决定是否对其进行审计。
(2)初步评价被审单位系统的内部控制及外部控制
传统的内部控制制度是为防止舞弊和差错而形成的以内部稽核和相互牵制为核心的工作制度。随着信息技术特别是以Internet为代表的网络技术的发展和应用,企业信息系统进一步向深层次发展,这些变革无疑给企业带来了巨大的效益,但同时也给内部控制带来了新的问题和挑战。加强内部控制制度是信息系统安全可靠运行的有力保证。依据控制对象的范围和环境,信息系统内控制度的审计内容包括一般控制和应用控制两类。
一般控制是系统运行环境方而的控制,指对信息系统构成要素(人、机器、文件)的控制。它已为应用程序的正常运行提供外围保障,影响到计算机应用的成败及应用控制的强弱。主要包括:组织控制、 *** 作控制、硬件及系统软件控制和系统安全控制。
应用控制是对信息系统中具体的数据处理活动所进行的控制,是具体的应用系统中用来预测、检测和更正错误和处置不法行为的控制措施,信息系统的应用控制主要体现在输入控制、处理控制和输出控制。应用控制具有特殊性,不同的应用系统有着不同的处理方式和处理环节,因而有着不同的控制问题和不同的控制要求,但是一般可把它划分为:输入控制、处理控制和输出控制。
通过对信息系统组织机构控制,系统开发与维护控制,安全性控制,硬件、软件资源控制,输入控制,处理控制,输出控制等方而的审计分析,建立内部控制强弱评价的指标系统及评价模型,审计人员通过交互式人机对话,输入各评价指标的评分,内控制审计评价系统则可以进行多级综合审计评价。通过内控制度的审计,实现对系统的预防性控制,检测性控制和纠正性控制。
(3)识别重要性
为了有效实现审计目标,合理使用审计资源,在制定审计计划时,信息系统审计人员应对系统重要性进行适当评估。对重要性的评估一般需要运用专业判断。考虑重要性水平时要根据审计人员的职业判断或公用标准,系统的服务对象及业务性质,内控的初评结果。重要性的判断离不开特定环境,审计人员必须根据具体的信息系统环境确定重要性。重要性具有数量和质量两个方面的特征。越是重要的子系统,就越需要获取充分的审计证据,以支持审计结论或意见。
(4)编制审计计划
经过以上程序,为编制审计计划提供了良好准备,审计人员就可以据以编制总体及具体审计计划。
总体计划包括:被审单位基本情况;审计目的、审计范围及策略;重要问题及重要审计领域;工作进度及时间;审计小组成员分工;重要性确定及风险评估等。
具体计划包括:具体审计目标;审计程序;执行人员及时间限制等。 做好上诉材料的充分的准备,便可进行审计实施,具体包括以下内容:
(1)对信息系统计划开发阶段的审计
对信息系统计划开发阶段的审计包括对计划的审计和对开发的审计,可以采用事中审计,也可以是事后审计。比较而言事中审计更有意义,审计结果的得出利于故障、问题的及早发现,利于调整计划,利于开发顺序的改进。
信息系统计划阶段的关键控制点有:计划是否有明确的目的,计划中是否明确描述了系统的效果,是否明确了系统开发的组织,对整体计划进程是否正确预计,计划能否随经营环境改变而及时修正,计划是否制定有可行性报告,关于计划的过程和结果是否有文档记录等等。
系统开发阶段包括系统分析、系统设计、代码编写和系统测试三部分。其中涉及包括功能需求分析、业务数据分析、总体框架设计、结构设计、代码设计、数据库设计、输入输出设计、处理流程及模块功能的设计。编程时依据系统设计阶段的设计图及数据库结构和编码设计,用计算机程序语言来实现系统的过程。测试包括动态测试和静态测试,是系统开发完毕,进入试运行之前的必经程序。其关键控制点有:
分析控制点:是否己细致分析企业组织结构;是否确定用户功能和性能需求;是否确定用户的数据需求等。
设计控制点:设计界面是否方便用户使用;设计是否与业务内容相符;性能能否满足需要,是否考虑故障对策和安全保护等。
编程控制点:是否有程序说明书,并按照说明书进行编写;编程与设计是否相符,有无违背编程原则;程序作者是否进行自测;是否有程序作者之外的第三人进行测试;编程的书写、变量的命名等是否规范。
测试控制点:测试数据的选取是否按计划及需要进行,是否具有代表性;测试是否站在公正客观的立场进行,是否有用户参与测试;测试结果是否正确记录等。
(2)对信息系统运行维护阶段的审计
对信息系统运行维护阶段的审计又细分为对运行阶段的审计和对维护阶段的审计。系统运行过程的审计是在信息系统正式运行阶段,针对信息系统是否被正确 *** 作和是否有效地运行,从而真正实现信息系统的开发目标、满足用户需求而进行的审计。对信息系统运行过程的审计分为系统输入审计、通信系统审计、处理过程审计、数据库审计、系统输出审计和运行管理审计六大部分。
输入审计的关键控制点有:是否制定并遵守输入管理规则,是否有数据生成顺序、处理等的防错、保护措施、防错、保护措施是否有效等。
通信系统实施的是实际数据的传输,通信系统中,审计轨迹应记录输入的数据、传送的数据和工作的通信系统。通信系统审计的关键控制点有:是否制定并遵守通信规则,对网络存取控制及监控是否有效等。
处理过程指处理器在接收到输入的数据后对数据进行加工处理的过程,此时的审计主要针对数据输入系统后是否被正确处理。关键控制点有:被处理的数据,数据处理器,数据处理时间,数据处理后的结果,数据处理实现的目的,系统处理的差错率,平均无故障时间,可恢复性和平均恢复时间等。
数据库审计是保障数据库正确行使了其职能,如对数据 *** 作的有效性和发生异常 *** 作时对数据的保护功能(正确数据不丢失,数据回滚以保证数据的一致性)。其关键控制点有:对数据的存取控制及监视是否有效,是否记录数据利用状况,并定期分析,是否考虑数据的保护功能,是否有防错、保密功能,防错、保密功能是否有效等。
输出审计不同于测试阶段的输出审计,此时的输出是在实际数据的基础上进行的,对其进行审计可以对系统输出进行再控制,结合用户需求进行评价。关键控制点有:输出信息的获取及处理时是否有防止不正当行为和机密保护措施,输出信息是否准确、及时,输出信息的形式是否被客户所接受,是否记录输出出错情况并定期分析等。
运行管理审计是对人机系统中人的行为的审计。关键控制点有: *** 作顺序是否标准化,作业进度是否有优先级, *** 作是否按标准进行,人员交替是否规范,能否对预计于实际运行的差异进行分析,遇问题时能否相互沟通,是否有经常性培训与教育等。
维护过程的审计包括对维护计划、维护实施、改良系统的试运行和旧系统的废除等维护活动的审计。维护过程的关键控制点有:维护组织的规模是否适应需要,人员分工是否明确,是否有一套管理机制和协调机制,维护过程发现的可改进点,维护是否得到维护负责人同意,是否对发现问题作了修正,维护记录是否有文档记载,是否定期分析,旧系统的废除是否在授权下进行等。 完成阶段是实质性的整个信息系统审计工作的结束,主要工作有:
整理、评价执行审计业务过程中收集到的证据。在信息系统审计的现代化管理时期,收集到的数据己存储在管理系统中,审计人员只需对其进行分析和调用即可。
复核审计底稿,完成二级复核。传统审计的三级复核制度对信息系统审计同样适用,它是保证审计质量、降低审计风险的重要措施。一级复核是由信息系统审计项目组长在审计过程进行中对工作底稿的复核,这层复核主要是评价已完成的审计工作、所获得的工作底稿编制人员形成的结论;二级复核是在外勤工作结束时,由审计部门领导对工作底稿进行的重点复核。在审计工作办公自动化的今天,二级复核制度同样可以通过网上报送及调用得以实现。
评价审计结果,形成审计意见,完成三级复核,编制审计报告。评价审计结果主要是为了确定将要发表的审计意见的类型及在整个审计工作中是否遵循了独立审计准则。信息系统审计人员需要对重要性和审计风险进行最终的评价。这是审计人员决定发表何种类型审计意见的必要过程,所确定的可接受审计风险一定要有足够充分适当的审计证据支持。签发审计报告之前,应当随工作底稿进行最终(三级)复核,三级复核由审计部门的主任进行,主要复核所采用审计程序的恰当性、审计工作底稿的充分性、审计过程中是否存在重大遗漏、审计工作是否符合事务所的质量要求等。三级复核制度的坚持是控制审计风险的重要手段。审计报告是审计工作的最终成果,审计报告首先应有审计人员对被审系统的安全性、可靠性、稳定性、有效性的意见,同时提出改进建议。
it设备运行无故障报告怎么写首先我们要写清楚设备的一个运行检查的一个报告,以及他的检查负责人检查的一个设备的一个部件以及他的一个具体内容以及的检查日期和负责人的一个无故障报告呢,我们必须呢写清楚,写详细才可以
以上就是关于北京IT培训分享系统故障的解决方法全部的内容,包括:北京IT培训分享系统故障的解决方法、IT风险管控的基本过程分为哪几个阶段、it系统出现一次对地短路故障等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)