IT运维如何处理大量告警_语言综合

事情做了，没有体现出价值！IT运维不是救火员，也不是背锅侠。

上面这就是疼点！如果做成这样，就是失败。

可以通过如下改善：

1 提升沟通能力和技巧，主要是和老板的沟通，和其它部门的沟通。

2 改变做事情的方式和方法，防范于未然，不要做救火员。做好应急处理预案，不做背锅侠。

你是运维的话可以看看Linux 这个可以试试。建议看看《Linux就该这么学》里面有个专栏是 Linux命令大全(手册) 加入我们的群，一起讨论 Linux就该这么学》

伴着IT在企业中的作用日益明显，IT建设和IT运维同时成为了企业效率的加速。同时，计算机硬件系统和软件系统的运维已成为了各行各业单位，尤其是信息服务部门普遍头痛的事情。本文以下内容总结几个头痛的主要因子，拿出来供大家参考指导，并接下来的系列课题中会对针对这些现状提出改进措施。

现状一：IT运维人员成本偏高

据专业调查，大多数CIO表示最关心的是IT运维成本过高。原因是在过去的5年中,很多企业都实施了很多IT系统,使得IT运行越来越复杂,也越来越难管理。同时，其中有50%的受访CIO认为IT运维成本过高的一个原因是IT运维的自动化做得还不够好,依靠手工流程来管理,不但使到运维效率不高,而且人力成本更是花费惊人。

同时，另一家国际知名调查机构Gartner调查发现,在IT运维成本中,源自技术或产品(包括硬件、软件、网络等)成本其实只占20%,而流程维护成本占40%,运维人员成本占40%。流程维护成本包括日常维护、变更管理、测试成本等;人员成本包括训练、教育、人员流失、招聘成本等。

从图中，我们可以看出， “流程维护”类和“运维人员”两者都与软性方面的成本相关非常紧密。而且三者的关系可以用下图来表示：

备注：C类成本的大小很大程度取决于B和D类。

现状二：处在“救火式”的IT运维控制

国内在IT运维过程中,IT员工大多数只是处在被动低效率手工救火的状态,只有当事件已经发生并已造成业务影响时才能发现和着手处理。这种被动“救火”会导致：①IT运维人员终日忙碌，IT运维人员日常大部分时间和精力是处理一些简单重复的问题;②IT运维本身质量很难提高;③再加上故障预警机制的不完善,往往是故障发生后或报警后才会进行处理,不但事倍功半而且故障还常常会出现恶性连锁反应;④IT部门和业务部门对IT运维的服务满意度都不高。

现状三：简单的自动化程度起了“反作用”

尽管IT运维管理的技术在不断进步,但实际上很多IT运维人员并没有真正解脱出来，主要原因是自动化不高而导致的。技术虽然能够获取IT设备、服务器、网络流量,甚至数据库的警告信息,但成千上万条警告信息堆积在一起根本没法判断问题的根源在哪里。还有,许多企业的更新管理绝大多数工作都是手工 *** 作的。即使一个简单的系统变更或更新往往都需要运维人员逐一登录每台设备进行手工变更,当设备数量达至成百上千时,其工作量之大可想而知。而这样的变更和检查 *** 作在IT运维中往往每天都在进行,占用了大量的运维资源。因此,实现运维管理工作的自动化对企业来说已迫在眉睫。

就如图中一样，所有信息(杂乱)都从各个地方被收集到了这个圆圈(容量不变)里面，信息进去后不能主动流出来。可能会出现的情况：这个圆圈容器装满后会爆破，或者是溢出来;圆圈的运行速度会慢慢降下来，从而导致信息输入的速度也会变慢。

现状四：本是同家兄弟，却不经常来往

这个问题主要是发生在拥有许多子公司的企业，每个子公司的系统都是独立的，下面主要以国内银行业为例。以前国内的银行业没有搞集中建设，每家银行的各个地方分行都单独建设和维护自己的核心业务系统，都各自配备开发人员和维护人员。

同时在运行维护方面，对故障的解决，完全依靠运行维护部门的工程师的上门服务。不管问题大小，工程师都要来回去现场解决。遇到一些技术难度大的问题，如果工程师的水平高，处理起来就快;如果水平低，甚至花上几个小时，可能也解决不了。

虽然国内银行业的IT运行维护管理水平，有点接近国外80年代末90年代初银行业的水平，银行IT结构上都采用了大集中模式。从硬件设备上来看，国内银行不比别人差，甚至还有些领先，但IT运维管理还没达到国外当时的水平，尤其是呼叫中心、客户服务方面。”

结束语

从上面三个现状来看，主要是有关软性方面的。的确如此，国内借着近十几年高速发展，硬件方面的发展取得了重大进步，某些方面的水平甚至是超过了国外的水平，并且IT硬件的生产厂商也是出现了很多与国外厂商同等秀舞的水平，如华为、中兴等。但是往往是硬件易学，知识技巧难寻。这不仅与国内教育环境有关外，还与知识经验的继承有关。

管理要动态匹配业务需求

IT部门还会经常联合HR、法务等部门一起做跨部门的沟通，面对的对象是各部门的管理层，让他们理解企业的IT策略。

一、在运维的过程中，需要记住一个原则：如果报警发给了一个不能短期内解决问题的人。那么应该反思这个报警是否有合理的必要。

二、告警信息，需要定制分发，制定告警策略，重点需要关注以下几个方面原则。

哪些业务需要告警？

哪种故障需要告警？

告警等级如何划分？

故障依赖关系如何定义？

告警信息如何汇集？

如何做到精准有效的告警？

最终的目的就是少收告警信息，自动处理故障，自动恢复服务，当然，这是一条漫长的路。

如果不解决以上问题，将会被告警信息所淹没，最终如题主所言，影响运维工作。

对于监控的告警信息，处理的好，将会提高我们的故障响应速度，处理的不好，会影响我们的工作情绪，适得其反。试想，当一天收到1000封告警信息，是否还会去逐一查看监控告警信息？是否还能分辨是否重大故障，还是一般故障？

对于误报，漏报，会让人对信息的警觉性放松，时间久了，还会导致对接收监控信息有反感。所以，对于监控告警信息的发送，是一件特别慎重的事情。总结一下，对于监控告警信息，我们有以下的需求：

1基于业务类型，将告警信息发送给相应的业务用户，例如IDC人员，WEB运维，CDN运维，网络运维，不同的人员管理不同的设备，因此需要把故障发送给相关用户处理。

2基于故障级别，对一个故障，将不同的故障级别发送给不同用户，例如5分钟内的故障发送给运维一线人员，10分钟发送给运维部门主管，30分钟发送给运维部门经理。重特大故障发送部门相关领导。

3基于时间发送，比如业务维护期，告警无需发送。

4故障的相关依赖关系，当A服务发生故障时，发送一般告警，当A，B服务故障时候，发送业务故障告警。

5对出现故障的服务尝试用相关命令或者脚本进进行 *** 作处理，尝试自动恢复，例如重启服务，重启服务器等。

RIIL 区别于一般的软件厂商，通过软件+服务+咨询+培训一站式交付模式，致力于提供匹配客户需求的解决方案，让客户能够真正把产品用起来，实实在在感受产品带来的价值

RIIL 区别于一般的软件厂商，依托锐捷强大平台，拥有遍布全国的销售、售前支持及售后保障网络，为客户提供便捷有力的本地化原厂服务

RIIL 在软件产品方面具备面向管理者、基于业务、可视化管理的特征，其中IT健康指数、业务雷达等创新管理功能拥有国家专利保护

RIIL 在全国具备大量的成功案例，南北车集团、中石油、清华大学、华南师范大学以及政府一半以上部委等等500多个优质行业客户都是RIIL的忠实用户

以上就是关于IT运维的痛点在哪儿怎么解决呢全部的内容，包括:IT运维的痛点在哪儿怎么解决呢、IT运维的管理现状、IT运维如何处理大量告警等相关内容解答，如果想了解更多相关内容，可以关注我们，你们的支持是我们更新的动力！

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/langs/8874355.html

IT运维如何处理大量告警

发表评论

评论列表（0条）