自2017年Gartner明确提出AIOps智能运维以来,国内众多云计算技术、互联网大数据、运维管理方式的厂商都发布了AIOps解决方案,但殊不知这些实践活动大多是针对特殊IT自然环境和应用领域的智能系统解决方案,无法用于其他行业或公司,也限制了公司客户对AIOps的认知能力和尝试。
作为国内刚刚开始探索AIOps智能运维的独立解决方案服务商,Smart在过去两年已经成功为数十家不同制造业和应用领域的知名企业实施智能运维,积累了多种智能运维应用领域和解决方案,率先完成了AIOps智能运维的实用化、场景化和产品化。在接下来的一段时间里,大家将详细介绍云智慧AIOps智能运维服务平台的智能报警、根本原因分析、智能预测分析等商品管控模块,以及在不同客户场景下的应用价值。期待为大家正确认识和选择AIOps提供参考。
在整个IT系统运行过程中,会产生大量的系统日志数据信息和监控数据信息。这些数据信息既考虑了互联网大数据的特点,也隐藏了业务流程的巨大价值。所以公司的AIOps实践活动大多是从智能报警开始的。今天,人们将详细介绍智能报警的第一阶段——报警抑制。
报警抑制的典型应用领域
国内知名企业的IT软件系统庞大复杂,机器设备总数众多。每一个小小的IT问题,往往都会引起“警报飓风”。说白了,预警飓风是指系统软件在短时间内引发的大量预警信息。这些信息有的是由一定的相互因素造成的,它们之间有一定的关系,有的则与它们无关。
根据某知名企业在云智慧服务项目中的特点分析,当发生报警飓风时,平均每分钟报警信息800条,运维人员每天收到的报警信息多达2万条,导致运维人员疲于处理众多报警信息,不得不花费大量时间排查解决问题,大大降低了运维效率。除此之外,由于他们无法在第一时间找到根本原因问题,导致解决常见故障的时间被延迟,这通常会给业务流程的运行带来潜在风险。
发动机压缩比达到90%时的报警抑制特性
基础运维监控产品都是按照固定的阈值启动告警。这种监测方法经常会遇到诸如报警错误、漏报、警告飓风等问题。,严重影响运维人员的工作效率。智能AIOps智能运维服务平台的告警抑制商品。对于大量冗余的告警信息,按照优化算法和固定标准方法进行告警信息的精简和合并,在保证关键告警内容(即不减少关键告警内容)的前提下,抑制告警信息的总数,为运维人员展现合理的告警信息内容。
智能云运维服务平台的告警抑制步骤
减少由同一告警源引起的重复消息的整个过程称为告警减少。报警减少是报警抑制的前提和基础。根据告警减少,重复告警可以减少70-80%,在这个阶段,告警消息被生成为告警。接下来,将不同告警源引起的告警按照标准和优化算法进一步合并的全过程称为告警合并或告警收敛。根据警告组合,可以将警告消息的引擎压缩比提高到80%~90%。
下面通过几个案例来说明云智能运维服务平台的告警抑制步骤。
示例1:警报减少
客户端使用Zabbix监控网络服务器BJ_Pay_ngix_1,监控CPU负载,监控频率为10s。13:24启动CPU负载报警,持续8分钟未修复,导致全周期重复报警信息50条。根据云智能运维服务平台的告警抑制,将50条消息精简为一条告警,可以按照时间轴查询全生命周期内的告警传播状态。
示例:报警组合(报警聚合)
服务器BJ_Web服务1引起了CPU和运行内存利用率的告警,同集群的BJ_Web服务项2也引起了CPU和运行内存利用率的告警。根据告警归约,转换为4个告警,集群中的所有告警根据告警组合合并为1个告警恶性事件。自然也可以按照业务流程线将业务流程告警、APM告警等告警组合起来,然后按照时间轴查询几个告警之间的顺序,分析判断告警的根本原因。
是云智能AIOps的智能运维服务平台的告警抑制功能的基本概念。该产品不仅可以连接云智能现有的报警源,如监控宝、透视宝,还可以根据RESTAPI、代理、URL回调函数连接热门监控器Zabbix、Nagios的报警数据信息,或者根据客户满意度定制特殊报警源的连接。此外,客户还可以配备各种抑制标准,设置恶性事件通知的分发对策,获得更高的引擎压缩比和更快的智能报警。
如今,云智慧AIOps的智能运维服务平台的告警抑制产品,根据线上自然环境,已经在金融行业、航空空公司、房地产、制造、税务企业等多个制造行业进行了认证。因为客户类型和业务管理系统的不同,具体压缩系数可以达到95%,保证具体内容零损失。
报警抑制的经典案例
一个大中型集团公司有关键的系统软件,如网上商城、协同办公系统、财务软件等。,涉及到很多地方的几个主机房,几十个应用子系统。频繁的告警信息对运维工作有很大的影响。为防止这种影响,集团公司运维人员只是暂时关闭了几个系统软件的显示器。但这种方式造成了业务管理系统和基础自然环境的监控者缺乏,无法合理即时的控制所有运维自然环境的运行。
根据对历史时间内常见故障的分析,智能技术工程师将公司的常见故障分为几种类型:
闪烁:常见故障发生后可快速修复。
重复:单个目标的一个或几个指标值不断报警。
类别常见故障:某个区域或某个集群发生某个类别的常见故障,类别内的几个目标短时间内有其他告警。
当产生以上几种告警时,运维人员必须在第一时间分辨出常见的故障类型,以便快速准确定位。根据智能云运维服务平台的部署,采用RESTAPI、Agnetcollection等方式连接各个视频监控系统,统一汇总整合报警消息。然后进行合理的报警抑制解决方案,大大减少了恶性报警事件总数和报警推送频率,提高了报警公告的精准度。
一个常见故障发生后,某省一个大数据中心短时间内出现上万条报警信息,经过还原组合,压制成几十条报警和不超过10个恶性事件,压缩系数在95%以上。云智能运维服务平台部署三个月以来,公司运维人员每天接到的报警总数从平均182个下降到25个。此外,所有 *** 作和维护组的平均接管时间(MTTA)和平均处理时间(MTTR)都大大减少了。
注:在Gartner2018年7月13日发布的《2018年中国ICT炒作周期》中,云智能成为AIOps行业的样本厂商。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)