此事发生在时间也很微妙,最近银行间市场资金紧张,一些市民怀疑工行的故障与“钱荒”有关,从而引发各界的解读和联想。一位银行IT工作者在社会化问答网站“知乎”上对此事做了解读,并介绍了银行IT背后的故事。
1现代IT系统非常复杂,当系统大到一定的程度,总会有失控的状况。世界上就从来都没有过没错误的复杂程序,问题只在于这个错误你有没有碰上而已。银行的系统是由很多不同软硬件厂商的产品拼在一起运作,复杂程度远超过普通家用电脑,这么简单的家用电脑还会死机呢而且系统复杂到一定程度,就不是人多或者钱多就能完全解决问题的了。
2要尽量不出问题,要钱,很多钱(比如中型银行建设一个过得去的容灾系统要上亿)。但出问题只是“有可能”,花的钱可是实实在在的。换了你是领导,你也不会无限制的向里面投钱。
3稳定运行的最好的办法之一是不对系统进行改造。由于有新的业务要求,系统确实要不停的升级,每次变动对系统的稳定运行都是一个挑战。
因为三个字:大集中。最早之前,银行系统还没联网,一出问题只是某个区或者某个市。最近十多年银行业都在搞大集中:五大行除了中国银行之外的四家都已经完成了大集中。工行是第一家完成的,当年号称9991大集中工程,好像是1999年开始2002年完成。包括工农建交,国开,农发,浦发,华夏,民生等大部分的银行都是双中心运作,一个北京一个上海(交行好像有个中心在武汉,人行好像在无锡)。中国银行很早就集中成五大中心,至今还没弄成双中心。
大集中有很多业务上的好处,但从系统稳定性影响范围来说,就有点“所有鸡蛋都放在同一个篮子”里面的意味,虽然已经是好多好多好多人花好多好多钱去看好这个篮子了,但百密总有一疏,鸡蛋那么密都能孵得出小鸡呢!
以前没有微博没有微信,只要你不是倒霉的用户就不会知道出过问题。以前没有网银没有淘宝,你半夜不会买东西刷卡。好多年前我在某大行省行做升级,凌晨3点多的时候出了大问题,如果8点前搞不定就全省这银行就停业了,6点多的时候是行长站在后面看着我 *** 作,最后7点多搞定。换成了今天压力估计更大了。
因为四个字:历史原因。银行的IT建设从80年代开始,传统的思路还是集中在单台(有的多一台做成双机热备)服务器上跑程序。互联网的IT建设大部分都从21世纪开始,大多采用的是分布式的思路:由多台计算机同时在跑程序,其中一台出了问题影响也没那么大。
银行程序的特点是要稳定,转变模式的风险很大(有的程序部分用的还是20年前的技术)。所以虽然也在慢慢的转,但起码到今天还没转多少。顺便感叹一下改革之难,赞颂一下邓伯伯。
银行IT是中国IT业中最严谨的行业。比如有的银行还要求厂商维护人员不能 *** 作,只能银行员工 *** 作。
大的变更一定会有预案,甚至换个硬盘,改个IP这种做过几百次的 *** 作都会有预案。但预案与真实一般都有相当差距。上面已经提到系统非常复杂,可能出现的问题如果真全部写下来,可能有几百个分支。而且,系统的故障并不会根据你的应急预案来发生。
应急预案的最重要的作用是应付上级监管,根据应急预案搭好可能需要的应急软硬件环境,大致理清概要思路,以及锻炼团队。真有复杂问题,还是靠牛人现场解决的多。
常见的最简单的衡量连续运行系统的整体指标有RTO和RPO,不严谨的说大致就是停业多久和数据丢多少的指标。
大家可以放心存钱在银行。一般出现问题也只是在停业(某个时间的系统不能运行)这个层面,还没到丢数据或者数据错的层面。就算真出了丢数据的问题,准确的数据一般可以从备份中心或者容灾中心里面捞回来。银行系统每天晚上都要对账,会保证数据准确。
先说定位问题的时间:从发现问题上报到IT信息中心(或者在监控系统发现问题),IT中心的人开始查系统,定位故障原因,如果定位不清还要找相关的软硬件人员到场或者远程网络支持(基于安全原因,银行大部分都不能远程网络查看系统,维护人员到数据中心也需要时间,如果还堵车),找出问题的根源,一小时算超快的了。类似你莫名高烧,到底是哪个器官出问题,去医院做检查做判断总需要时间吧
解决问题就更不好说了,其实和大家的电脑一样,往往重启是最有效的方法,但很多业务系统部分出现问题是不能重启的(可能会影响别的业务系统)。至今国外各大厂商的标准维护合同,绝大部分都没有承诺修复时间。
再说容灾系统,强调一个连很多IT人都不清楚的事实:银行容灾系统不会轻易启用整体切换!前面已经说了,IT系统已经这么复杂了,容灾系统相当于再复制一套,复杂性增加了不止2倍。切换起来是非常麻烦,非常伤筋动骨,惊动非常多人力物力,不是碰到大灾大难(比如地震,机房着火,恐怖分子爆炸之类)不会进行切换。
当然平时会进行容灾切换演练,但一般不会拿核心系统来真实切换,原因是有风险。以前也出现过华东某省级行切换到了容灾中心后切不回生产中心的悲催惨剧。最近西北某地农信社成功的把核心生产切到了容灾系统上,比较不简单,不过这毕竟是独立法人的小银行,大行不是这么个玩法。
另外,看到有不少评论说“没人敢担风险切换到灾备节点上”。
随着中国信息化水平发展的加速,IT系统越来越复杂,越来越庞大,公司业务对IT系统的依赖性也日渐提高,IT系统的任何波动和故障,都会直接影响公司业务的正常开展和进行,企业需要具备合理有效的IT运维策略来保证业务系统的正常运作。
一、IT运维管理的现状及问题
信息系统的架构创新不仅仅带来了效率提升、成本下降等管理层面的价值,更是成为了企业加速形成差异化经营、保持核心竞争力优势的关键,而IT系统的运维与管理是企业业务系统的保障,更是企业生存和快速发展的支撑。
公司在信息化水平日益完善的同时,随之而来的是更多的应用系统、软硬件平台和设备等需要维护和管理。如何对结构复杂的IT系统进行有效的监控和管理,已经成为了企业信息化部门非常关注的一个问题。作为IT管理部门,经常被大量的IT故障和问题所困扰,“拆东墙补西墙”的尴尬场景也是常常上演。不论哪一家企业,只要它的员工和IT系统发展到一定的水平,就会不可避免地面临IT系统管理的一系列难题。
IT运维管理工作中可能存在的问题有:
11IT运维管理机制不完善,流程 *** 作不统一
许多企业尚没有建立起稳定和规范的IT运维机制。现有的IT运维流程的 *** 作不规范不统一。如IT事件单提交之后,事件预判和优先级的设定不统一,没有规范性的指导文档,仅以运维工程师的经验判断或约定俗成的主观方式引导IT事件的处理。有识别但不规范,有处理但无管理,有人员但疲于应付,有系统但用不好。因此,“轻规范、重维护”的IT运维管理现状很容易造成因员工技能水平参差不齐带来的IT运维不稳定,直接影响维护体系的效果。简单点说就是还未脱离传统管理思想的束缚。
12过度依赖核心人员,年轻员工成长慢
IT运维管理是一个系统性的技能,在实际工作中积累的的经验始终仅能在小范围内得到传播和继承,这就形成了企业里面的一个特殊景象,同样是IT运维部门,有的员工独挡一面从白天忙到天黑累倒吐血,有的员工经验平平帮不上什么忙反倒悠哉游哉。尤其是IT的使用部门,对于有经验的IT运维人员更加依赖和倚重,这样导致了无论是IT事件性质的识别、优先级的界定,还是问题的分析判断,均汇总至少数核心人员进行处理。所谓大事小事一把抓,这样不仅增加了少数核心人员的工作量,也容易产生工作流程的“瓶颈”,降低运维管理部门整体的工作效率,也会让一些核心员工产生巨大的压力感。
电气装置内所有的外露可导电部分都连接到一共同的PE线上,如图表F18所示。
在此情况下故障电流路径内没有接地极,这样故障电流将很大,可采用通常的过电流保护电器,即断路器和熔断器。
第一次故障可能发生在电气装置内的远端,而第二次故障则可能发生在电气装置的另一远端。为此当确定过电流保护电器故障动作整定值时,通常取回路阻抗的两倍值。
当IT系统内除3根相线外还有1根中性线时,如果(两个)故障中的一个故障是中性线与地间的故障(在IT系统内四根导线都是与地绝缘的),则将出现最小的短路故障电流。 因此在四线的IT电气装置内必须用相线对中性线的电压来验证短路时是否满足
的要求。
式中:
Uo—— 相线对中性线的电压;
Zc—— 故障回路的故障电流回路阻抗;
Ia—— 跳闸整定电流。
如果未配出中性线,则用以计算故障电流的电压为相间电压,即
最大切断电源时间
IT系统的切断电源时间视不同电气装置外露可导电部分如何互相连接而定。
对于额定电流不大于32 A的给电气设备供电的末端电路,且其外露可导电部分之间相连接,其最大跳闸时间示于图表F13。对于在同一组内外露可导电部分互相连接的其他回路,其最大切断电源时间为5s,这是因为在这些同一组的回路内如果发生两个回路异相接地故障时,其短路电流是与TN系统相同的。
对于额定电流不大于32 A的给电气设备供电的末端回路,且其外露可导电部分系连接于无电气联系的单独的接地极上,其最大切断电源时间列于图表F10,对于外露可导电部分不互相连接的其他回路,其最大切断电源时间为1s,这是因为当发生两个回路异相接地故障时,其中的一个绝缘故障发生在这一个组内,而另一个绝缘故障则发生在另一个组内,这时故障电流将像TT系统那样受到各个接地极电流的限制。
断路器保护
在图表F18所示的情况下必须确定瞬动和短延时过电流跳闸的整定值,上文建议的时间值要求是很易于满足的。
示例:在图表F18所示的情况下,在短路保护中如选用NSX160型断路器,对回路负载端发生的异相接地故障是适用的。
提示:在IT系统内如两个回路发生异相接地故障,是假设它们的导体长度和截面相同,且其PE线的截面和相线截面也相同来进行计算的。在这种情况下,当采用“通用法”进行计算时,回路的回路阻抗将是TN系统条件下一个回路的阻抗计算值的2倍。
IT系统为三相三线制带电导体系统,由于IT系统的某相对地短路后另外两相对地电压会升高到接近线电压,若人体触及另外的任意两条相线后,触电电流将流经人体和大地再经接地相线返回电网,此电流很大足以致命,为此IT系统的现场设备必须配备剩余电流动作保护装置RCD。IT接地系统的应用特性如下:
1)能提供较好的供电连续性;
2)IT接地系统可以省略中性线的敷设,减少投资费用;
3)当出现第一次接地故障时发出报警信息, *** 作人员可对系统实施必要的故障定位和故障排除,从而有效地防止了供电中断;
4)当发生第二次异相接地故障时能起动过电流保护装置或RCD剩余电流保护装置切断用电设备的电源。
IT系统若为低压网络较小的系统,只要经常保持绝缘良好,线路对地电容电流也很小,一旦发生接地故障,在故障点处的接地电容电流非常小,这样小的接地故障电流不会造成火灾危险,在接地极上的压降也不会大于50V,处于对人身安全的电压范围内,而且三相的对称性也没有破坏,因此,当发生第一次接地故障后可继续供电。而低压IT系统,一旦一相接地,继续运行的时间没有限制,但必须有接地报警装置,提醒维修人员及时检修,以免发生异相二次接地后,形成与TT系统接地故障同样的结果(两异相接地点的接地极分别独立)或与TN系统接地故障相同的结果(两异相接地点为同一接地极),这样IT系统连续供电的优点就不复存在了。
IT系统应用中要注意之处是,当保护开关断开时,较好连同中性线一同断开,否则庞大的中性线网络对其绝缘不易监控。另外,对于中性点直接接地还是经高阻抗接地这一问题,中性点经高阻抗接地后有其固有优点,例如一旦变压器绝缘损坏,高压窜入低压侧,经接地电阻接地,其危害性减轻。另外,经高电阻接地后,对稳定低压电位也有益,但经过高电阻接地会增加投资,还要专用接地电阻器,不但增加安装的麻烦,还要占据安装空间。
TT、TN、IT表示电气系统(通常指变压器二次侧中性线)及它所供电的设备的外露导电部分采用的接地方式。
前一个字母表示变压器次侧中性线接地方法:T表示中性点接地,I 表示中性点不接地或不直接接地。
后一个字母表示变压器所供电的设备的外露导电部分采用的接地方式:T表示接地,N表示与中性线相连(TN系统还可以分为TN-C,TN-C-S,TN-S)。
为什么没有IN呢
I N中I表示变压器二次侧中性点不接地或不直接接地,换句话说,中性线(N线)的电位不是地电位,可能比较高哦。而第二个字母N表示用电设备的外露导电部分采用接到中性线(即N线)。
为了安全,通常把用电设备的外露导电部分接地,或接N线,因为N线也接了地(TN系统)。而不会把用电设备的外露导电部分接到一个N线没有接地(不是地电位)的"IN"系统,这样会大大增加触电的危险性。而把用电设备的外露导电部分接地,则就是IT系统。所以如果线没有接错,是不应该有“IN”系统的。
这就是为什么没有IN系统的原因了。
要知道,每一个程序系统都不是单独存在的,而是由众多小系统组成的。而今天我们就一起来了解一下,关于系统故障的问题应该如何发现和解决。
故障发现
所谓“故障发现”,就是通过技术手段实时采集系统中每个节点的健康状态,以及每2个节点之间链路的健康状态,包括但不限于调用成功率、响应时间等等。借此代替我们的眼睛去盯着整个系统,一旦低于某个设定的阈值,就触发报警给我们一个提醒。因为当你的系统中存在成百上千的程序时,靠肉眼去找到发生故障的位置,简直是天方夜谭。哪怕找到了,也可能已经产生了巨大的损失。
负责故障发现的解决方案都属于应用性能管理(APM)范畴。我们在部署这个“眼睛”的时候,需要考虑到全方位的覆盖,要包含所有的节点。比如:
在Web方面可以直接利用浏览器提供的导航计时(NavigationTiming)和资源计时(ResourceTiming)接口来采集性能数据,非常方便。
在iOS、Android这种App方面通过源代码插桩的方式进行。比如直接引入采集SDK然后硬编码在源代码中,或者通过AOP框架来进行动态代码注入。代码的注入位置就在每个方法的执行前和执行后。
故障消除
现在已经能够很容易的发现故障了,我们就可以通过综合运用隔离性、横向扩展、代理、负载均衡、熔断、限流、降级等等机制来快速的“掐灭故障”。
分布式系统的规模越大,耦合越严重,各个子系统之间通过网络连接在一起,就如赤壁之战中的曹军连在一起的船舶一样,只要其中一个着火了就会就近蔓延。所以,北京IT培训建议一旦发现某个子系统挂了,就需要尽快切断与它的联系,保证自己能够不受连累,防止雪崩的发生。
我们可以先运用docker之类的技术将每个应用在运行时的环境层面隔离开来。然后,通过横向扩展让每个应用允许被“Copy”,以此来部署多个副本。接着,结合代理和负载均衡让这些副本可以共同对外提供服务,使得每个应用程序本身先具备“高可用”。后的三大防御措施,熔断、限流、降级来快速“掐灭故障”,避免故障在不同的应用程序间扩散。
三相电力系统的每相电压都是U,如果三相负荷平衡,每相对地的电压就是相电压,而三相之间的电压是线电压,其电压值是U的“根号3倍”。在中心点不接地系统中,如有一相接地,大地与接地相同电位,所以其余两个非故障相对地电压就是上述线电压,就是U的“根号3倍”。
以上就是关于点解银行IT那些事 为什么故障的总是你全部的内容,包括:点解银行IT那些事 为什么故障的总是你、IT运维管理当前面临了哪些问题、it系统出现一次对地短路故障等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)