统一监控平台,说到底本质上也是一个监控系统,监控的基本能力是必不可少的,回归到监控的本质,先梳理下整个监控体系:
① 监控系统的本质是通过发现故障、解决故障、预防故障来为了保障业务的稳定。
② 监控体系一般来说包括数据采集、数据检测、告警管理、故障管理、视图管理和监控管理6大模块。而数据采集、数据检测和告警处理是监控的最小闭环,但如果想要真正把监控系统做好,那故障管理闭环、视图管理、监控管理的模块也缺一不可。
一、数据采集
1、采集方式
数据采集方式一般分为Agent模式和非Agent模式;
Agent模式包括插件采集、脚本采集、日志采集、进程采集、APM探针等
非Agent模式包括通用协议采集、Web拨测、API接口等
2、数据类型
监控的数据类型有指标、日志、跟踪数据三种类型。
指标数据是数值型的监控项,主要是通过维度来做标识。
日志数据是字符型的数据,主要是从中找一些关键字信息来做监控。
跟踪型数据反馈的是跟踪链路一个数据流转的过程,观察过程中的耗时性能是否正常。
3、采集频率
采集频率分秒级、分钟级、随机三种类型。常用的采集频率为分钟级。
4、采集传输
采集传输可按传输发起分类,也可按传输链路分类。
按传输发起分类有主动采集Pull(拉)、被动接收Push(推)
按传输链路分类有直连模式、Proxy传输。
其中Proxy传输不仅能解决监控数据跨网传输的问题,还可以缓解监控节点数量过多导致出现的数据传输的瓶颈,用Proxy实现数据分流。
5、数据存储
对于监控系统来说,主要有以下三种存储供选择
① 关系型数据库
例如MySQL、MSSQL、DB2;典型监控系统代表:Zabbix、SCOM、Tivoli;
由于数据库本身的限制,很难搞定海量监控的场景,有性能瓶颈,只在传统监控系统常用
② 时序数据库
为监控这种场景设计的数据库,擅长于指标数据存储和计算;例如InfluxDB、OpenTSDB(基于Hbase)、Prometheus等;典型监控系统代表:TICK监控框架、 Open-falcon、Prometheus
③ 全文检索数据库
这类型数据库主要用于日志型存储,对数据检索非常友好,例如Elasticsearch。
二、数据检测
1 数据加工
① 数据清洗
数据清洗比如日志数据的清洗,因为日志数据是非结构化的数据,信息密度较低,因此需要从中提取有用的数据。
② 数据计算
很多原始性能数据不能直接用来判断数据是否产生异常。比如采集的数据是磁盘总量和磁盘使用量,如果要检测磁盘使用率,就需要对现有指标进行一个简单的四则运算,才能得到磁盘使用率。
③ 数据丰富
数据丰富就是给数据打上一些tags标签,比如打上主机、机房的标签,方便进行聚合计算。
④ 指标派生
指标派生指的是通过已有的指标,通过计算得出新的指标。
2 检测算法
有固定规则和机器学习算法。固定算法是较为常见的算法,静态阈值、同比环比、自定义规则,而机器学习主要有动态基线、毛刺检测、指标预测、多指标关联检测等算法。
无论是固定规则还是机器学习,都会有相应的判断规则,即常见的< > >=和and/or的组合判断等。
三、告警管理
1 告警丰富
告警丰富是为了后续告警事件分析做准备,需要辅助信息去判断该怎么处理、分析和通知。
告警丰富一般是通过规则,联动CMDB、知识库、作业历史记录等数据源,实现告警字段、关联信息的丰富;通过人工打Tags也是一种丰富方式,不过实际场景下由于人工成本高导致难以落地。
2 告警收敛
告警收敛有三种思路:抑制、屏蔽和聚合
① 抑制
即抑制同样的问题,避免重复告警。常见的抑制方案有防抖抑制、依赖抑制、时间抑制、组合条件抑制、高可用抑制等。
② 屏蔽
屏蔽可预知的情况,比如变更维护期、固定的周期任务这些已经知道会发生的事件,心里已经有预期。
③ 聚合
聚合是把类似或相同的告警进行合并,因为可能反馈的是同一个现象。比如业务访问量升高,那承载业务的主机的CPU、内存、磁盘IO、网络IO等各项性能都会飙升,这样把这些性能指标都聚合到一块,更加便于告警的分析处理。
3 告警通知
① 通知到人
通过一些常规的通知渠道,能够触达到人。
这样在没有人盯屏的时候,可以通过微信、短信、邮件触发到工作人员。
② 通知到系统
一般通过API推送给第三方系统,便于进行后续的事件处理
另外还需要支持自定义渠道扩展(比如企业里有自己的IM系统,可以自行接入)
四、故障管理
告警事件必须要处理有闭环,否则监控是没有意义的。
最常见还是人工处理:值班、工单、故障升级等。
经验积累可以把人工处理的故障积累到知识库里面,用于后续故障处理的参考。
自动处理,通过提取一些特定告警的固化的处理流程,实现特定场景的故障自愈;比如磁盘空间告警时把一些无用日志清掉。
智能分析主要是通过故障的关联分析、定位、预测等AI算法,进一步提升故障定位和处理的效率;
1 视图管理
视图管理也属于增值性功能,主要是满足人的心理述求,做到心中有底,面向的角色很多(领导、管理员、值班员等)。
大屏:面向领导,提供全局概览
拓扑:面向运维人员,提供告警关联关系和影响面视图
仪表盘:面向运维人员,提供自定义的关注指标的视图
报表:面向运维人员、领导,提供一些统计汇总报表信息,例如周报、日报等
检索:面向运维人员,用于故障分析场景下的各类数据检索
2 监控管理
监控管理是企业监控落地过程中的最大挑战。前5个模块都是监控系统对外提供的服务功能,而监控管理才是面向监控系统自身的管理和控制,关注真正落地的过程的功能呈现。主要有以下几个方面:
配置:简单、批量、自动
覆盖率:监控水平的衡量指标
指标库:监控指标的规范
移动端:随时随地处理问题
权限:使用控制
审计:管理合规
API:运维数据最大的来源,用于数据消费
自监控:自身稳定的保障
为了实现上述监控六大基础能力模块,我们可以按如下架构设计我们的统一监控平台。
主要分三层,接入层,能力层,功能层。
接入层主要考虑各种数据的接入,除了本身Agent和插件的采集接入,还需要支持第三方监控源的数据接入,才能算一个完整的统一监控平台。
能力层主要考虑监控的基础通用能力,包含数据采集模块、数据存储模块、数据加工模块、数据检测模块、AI分析模块。
功能层需要贴近用户使用场景,主要有管理、展示两类功能,在建设的过程中可以不断丰富功能场景。
另外,考虑到数据的关联关系,为未来的数据分析打下基础,监控和CMDB也需要紧密联动,所有的监控对象都应该用CMDB进行管理,另外,还可以配置驱动监控为指导理念,实现监控的自动上下线,告警通知自动识别负责人等场景,简化监控的维护管理。
为了统一监控平台能够在企业更好的落地,我们需要配备对应的管理体系,其中最重要的是指标管理体系。
指标管理体系的核心理念:
监控的指标体系是以CMDB为骨架,以监控指标为经脉,将整个统一监控平台的数据有机整合起来。
贯穿指标的生命周期管理,辅以指标的管理规范,保障监控平台长久有序的运行。
从企业业务应用的视角出发,一般将企业监控的对象分为6层,也可以根据企业自己的情况进行调整:
基础设施层
硬件设备层
*** 作系统层
组件服务层
应用性能层
业务运营层
根据武汉好地科技公司整理,运维服务成熟度模型有四个等级,分别是:四级(基本级)、三级(拓展级)、二级(改进级)、一级(提升级),其中一级最高,四级最低。申请条件:四级申请需从事运维服务业务满一年以上,三级申请需要运维服务业务满二年以上,二级申请需三级获证时间满一年以上或拥有系统集成资质一级或者二级的企业,且运维业务满一年以上可以直接申请,一级申请需要二级获证时间满一年,且是系统集成资质一级企业。也就是说您有可能直接申请二级、三级或者四级、但是不能直接申请一级。我们可以用“有没有、全不全、好不好、精不精”来初步记住这四个级别。
运维,一般专指互联网运维,是互联网企业的技术部门之一;对网络、服务器、服务的生命周期各个阶段进行运营和维护,使公司在成本、稳定性、效率上达到一定的平衡状态。
互联网运维工作,以服务为中心,以稳定、安全、高效为三个基本点,确保公司的互联网业务能够 7×24 小时为用户提供高质量的服务。运维人员对公司互联网业务所依赖的基础设施、基础服务、线上业务进行稳定性加强,进行日常巡检发现服务可能存在的隐患,对整体架构进行优化以屏蔽常见的运行故障,多数据中接入提高业务的容灾能力。通过监控、日志分析等技术手段,及时发现和响应服务故障,减少服务中断的时间,使公司的互联网业务符合预期的可用性要求,持续稳定地为用户提供服务。在安全方面,运维人员需要关注业务运行所涉及的各个层面,确保用户能够安全、完整地访问在线业务。
想了解更多有关运维的详情,推荐选择达内教育。该机构具有丰厚的师资力量,优秀的教学体系,教学质量突出,实战讲师,经验丰富,理论知识+学习思维+实战 *** 作,打造完整学习闭环。该机构独创TTS80教学系统,并设有企业双选会。达内的OMO教学模式,全新升级,线上线下交互学习,直播学,随时学,随时问,反复学,学习安排更便捷。→感兴趣的话点击此处,免费学习一下
在一个公司内,IT部门一般是为公司其他业务部门提供IT服务,通常是成本中心,非盈利中心。作为成本中心有两个方面需要重点考虑,一方面,需要考虑投入产出比;另一方面,IT部门一般技术力量也不强。从这两个方面考虑,IT部门有充分的理由考虑将部分或者全部的IT工作外包给更专业的公司去处理,让专业的人处理专业的事。
哪些可以外包
上面根据业务的核心程度和技术力量来进行区分哪些IT工作可以外包,对于部分外包的情况可以根据开发的主要流程进一步来确定:
上图中对于运营维护都建议IT部门直接处理,而不是外包,这不是说不能进行外包,而是强调IT部门对运维工作要有绝对的把控,因为这是IT服务好坏的一个底线,可以采用外包代维,但是关键部分,包括流程管控,安全管理等等必须抓紧抓牢。
外包模式
根据外包方多少来区分,外包又有单方外包和多方外包:
单方外包: 将IT业务整体打包外包给一家公司,包括开发、测试、运维整个流程,实行大包干。这种情况优点是可以全面利用承包方的资源,如果选择的是优秀的承包商可以短时间提升IT部门的服务水平。缺点是缺少竞争,长期看可能被承包商“绑架”,另外,让承包方大包干会导致管理、技术方面过多依赖承包方,IT部门内部人员能力下降。
多方外包: 将IT业务根据一定的业务逻辑进行分割,譬如区分CRM、计费、物流、客服等模块,不同模块外包给不同的承包方。这种情况优点是多家参与,服务能力有比较,并且有一定的竞争。缺点是有问题时会出现多家扯皮,另外各个系统之间很多接口需要多方确定,开发和维护需要协调的工作比较多。
一般不是非常重要的系统可以采用单方外包,重要的系统最好还是采用多方外包,不要将鸡蛋放到一个篮子里。
外包的风险和应对
1、信息安全风险高
IT系统处理公司业务信息,其中包括一些公司敏感信息,包括公司的生产经营数据、客户敏感信息、系统核心资源信息等等。这些信息内部人员掌握一般信息安全比较可控,毕竟是内部自己人,如果外包人员全面接触到,信息安全风险会非常高,譬如倒卖用户敏感信息。这种情况下管理上需要加强信息安全流程管控、技术上通过单点登录、4A安全审计等方式方法来提升信息安全水平。
2、人员能力下降
在外包情况下自有人员是甲方,外包人员是乙方,很多事情由乙方外包处理,并且外包具体职责有时也并不十分清晰,人都是有惰性的,长期可能导致甲方人员将本该自己处理的事情都委托乙方处理,就像家里请了个保姆,时间长了主人扫地、做饭都不会了。
3、服务质量下降
一般外包商刚合作时会很积极配合工作,服务质量很高,但是随着接触越来越多,内部人员对开发、运维等把控不够专业和深入,特别是外包合同对外包服务质量的规定如果不是很科学的情况下,外包的服务质量会下降。为应对这种情况需要在合同中明确外包合同的服务质量(SLA),并且明确奖惩方式,另外内部必须有一支对外包出去的业务(包括开发、运维等流程)非常熟悉的骨干队伍,防止被外包商”忽悠“。
外包是一把双刃剑,用的好提升自己功力,用的不好也可能会伤到自己,自己必须有相应的能力来驾驭这把剑!
企业资源管理ERP:在线ERP是针对物资资源管理(物流)、人力资源管理(人流)、财务资源管理(财流)、信息资源管理(信息流)集成一体化的企业管理软件
WISSIP平台在线ERP与传统ERP软件有9大优势:
1独有的缺货缺料表功能:销售缺货、生产缺料会根据虚拟库存生成缺货表和缺料表;通过缺货表、缺料表可以知道订货量是多少,现在尚欠多少,还需要采购生产多少,在表中可自动生成采购单,方便采购员及时采购
2独有对账单功能:对帐单为企业月结对帐提供了非常方便准确的解决方案, *** 作员只需要输入客户或供应商的名称,选择对帐时间范围,系统将会自动整理出当前客户或者供应商在选定时间范围内的来往交易记录,结合应收应付还可以准确的把握对帐合计金额、已付金额,尚欠金额
3收款明细功能:将进销存与财务无缝的结合在一起,在收款过程中填写收款记录时,系统将每一笔收款记录的类别和明细整理到财务系统中;收款员在流水帐查询中,只需要点查询按钮即可当天或者某时间范围内的现金、支票、刷卡等金额以及明细金额;同样财务也可以输入收款员的名字查询到当前收款员的收款明细方便对帐
4生产成本核算功能:wissip平台在线ERP软件的多层物料清单包括了生产人工费以及原料费的生产成本核算,在销售报价过程中,只需要根据当前成品调出对应的生产成品物料清单,根据客户的需求调节物料清单明细(包括人工费与不同的原料成本费),则立刻核算出其生产成本
5计划物料功能:根据物料清单系统会自动生存计划物料清单;通过计划物料清单可以知道需要物料是多少,现在尚欠多少物料,还需要采购多少物料,然后计划物料明细汇总为汇总物料清单,然后根据尚欠物料多少自动生成采购单,方便采购员及时采购原料
6订单处理功能:针对每种订单的每个阶段设定了完善的状态说明,引导 *** 作员在处理订单的时候可以多次反复的进行订单处理行为,这样的 *** 作习惯以人为本,使软件 *** 作更贴切于实际的企业流程
7仓库盘点功能:仓库盘点功能提供了类似于财务结转的盘点 *** 作,将每次盘点结算的实际库存与软件库存跟进实时进出表校正库存数量,然后通过盘点结转 *** 作将正确的库存结余结转到新的仓库期间中,同时自动生成仓库结转汇总报表,这样避免了错误的库存数量累积过多无法管理
8客户管理功能:客户管理系统根据跟单员的权限绑定了相应的客户信息,如一般跟单员,只可以查询到自己的客户;主管则可以管理、分配所有的客户;同时系统还可以根据客户的重要程度、行业类别、跟进情况进行归类统筹管理等
9客户跟进功能:客户跟进管理为每一个客户的跟进设定了提醒时间备忘,跟单员可以根据客户的重要程度,安排好每次跟单的内容和时间;系统还为每个客户动态绑定了互动跟单讨论区域,跟单员可以将每次的跟单记录在互动讨论区域内;这样每次跟单都能参考之前的跟单记录,把跟单工作有效的串联起来;这样主管可以根据客户互动讨论区了解到每个跟单员的跟单情况,当客户交接的时候,新的跟单员也可以根据以往跟单记录了解到所有的跟单内容
以上就是关于如何做好运维监控全部的内容,包括:如何做好运维监控、itss认证流程和条件、运维是做什么的等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)