二、告警信息,需要定制分发,制定告警策略,重点需要关注以下几个方面原则。
哪些业务需要告警?
哪种故障需要告警?
告警等级如何划分?
故障依赖关系如何定义?
告警信息如何汇集?
如何做到精准有效的告警?
最终的目的就是少收告警信息,自动处理故障,自动恢复服务,当然,这是一条漫长的路。
如果不解决以上问题,将会被告警信息所淹没,最终如题主所言,影响运维工作。
对于监控的告警信息,处理的好,将会提高我们的故障响应速度,处理的不好,会影响我们的工作情绪,适得其反。试想,当一天收到1000封告警信息,是否还会去逐一查看监控告警信息?是否还能分辨是否重大故障,还是一般故障?
对于误报,漏报,会让人对信息的警觉性放松,时间久了,还会导致对接收监控信息有反感。所以,对于监控告警信息的发送,是一件特别慎重的事情。总结一下,对于监控告警信息,我们有以下的需求:
1基于业务类型,将告警信息发送给相应的业务用户,例如IDC人员,WEB运维,CDN运维,网络运维,不同的人员管理不同的设备,因此需要把故障发送给相关用户处理。
2基于故障级别,对一个故障,将不同的故障级别发送给不同用户,例如5分钟内的故障发送给运维一线人员,10分钟发送给运维部门主管,30分钟发送给运维部门经理。重特大故障发送部门相关领导。
3基于时间发送,比如业务维护期,告警无需发送。
4故障的相关依赖关系,当A服务发生故障时,发送一般告警,当A,B服务故障时候,发送业务故障告警。
5对出现故障的服务尝试用相关命令或者脚本进进行 *** 作处理,尝试自动恢复,例如重启服务,重启服务器等。
RIIL 区别于一般的软件厂商,通过软件+服务+咨询+培训一站式交付模式,致力于提供匹配客户需求的解决方案,让客户能够真正把产品用起来,实实在在感受产品带来的价值
RIIL 区别于一般的软件厂商,依托锐捷强大平台,拥有遍布全国的销售、售前支持及售后保障网络,为客户提供便捷有力的本地化原厂服务
RIIL 在软件产品方面具备面向管理者、基于业务、可视化管理的特征,其中IT健康指数、业务雷达等创新管理功能拥有国家专利保护
RIIL 在全国具备大量的成功案例,南北车集团、中石油、清华大学、华南师范大学以及政府一半以上部委等等500多个优质行业客户都是RIIL的忠实用户
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)