随着云计算、 5G 等新型信息通信技术应用深入,电信行业在面临网络转型及重构挑战的同时也在探寻通过 IT 运维提升效率、优化成本的解决方案,以提升企业竞争力。因此,电信行业正在面临架构容器化演进、自动化向智能化转型、构建企业级能效中台、一体化运营体系以及内化 IT 研发能力等应用现状。
目前运营商都有要求应用部署在指定 PaaS 平台的趋势,基于以上背景提出研发轻量级运维平台的思路,通过运维平台把微服务管控(SCP)、调用链跟踪(iTracing)等核心运维能力集成到一起,提供全息监控能力,实现运维过程中异常现象“事先预警”、问题过程中能够“事中缓解”、问题发生后能提供手段还原问题场景辅助“事后分析”的全流程覆盖。
轻量级智慧运维平台目标
篇幅所限,本次先介绍智慧运维平台中全息监控相关内容。
02 全息监控>>>>需求场景
系统问题的事前预警、事中缓解、事后分析是问题发展过程的“三段论”,希望通过将产品运行的关键环节进行显性化的展示,在此基础上辅助一定的运维手段,尽量在问题的事前阶段捕捉到相关的预警信息并告知对应责任人,将问题消弭于无形,“系统无障”是我们的终极目标。这些要求,意味着需要随时掌控系统自身运行状态以及业务承载信息。因此,对系统实时监控并以可观测的方式进行展示,就成了基础架构的必备“技能”。
>>>>解决方案
全息监控的根本原理是利用全息数字建模技术,对海量信息提取真正有价值的部分,实现主屏、业务屏、组件屏、服务探测屏的多维度分析,通过提供丰富图形模板进行展示,设置各类型告警任务、异常情况,方便快速发现问题、解决问题。
全息监控技术方案示意
在本方案中,可从业务、应用、接口服务、技术组件、虚拟资源等多层面进行全栈式监控,快速接入各业务系统,协助业务系统沉淀行业指标规范,适配各类 paas 环境,支持轻量级部署。具备业务健康度分析能力,能定期输出运营报表,实现业务生产流程数据透明化大屏展示,为运营决策提供依据,从业务维度感知系统运行态势,持续优化服务,提升系统性能,改进业务流程,提升用户满意度。
>>>>业务目标
全息监控的应用场景广泛,可以对单个应用/组件、业务流程、业务场景进行监控展示。
全息监控大屏业务目标规划流程
全息监控大屏应用流程如上图,在该流程中,核心步骤为“2、明确监控目标”,其它所有步骤都为它服务。通常来说,监控目标大概有这几种:
1) 展示形象,着重点在说明应用/组件建设效果,可通过全息监控大屏提供先进的可视化运维管理能力。
2) 展示业务承载状态,着重点在对业务数据的观测,通过实时呈现应用业务指标数据以了解业务开展情况、业务运行是否发生异常(业务请求数/业务成功率/业务失败率等出现剧烈波动),以便在必要的时候及时进行人工介入。这个目标适合业务时效性要求高的场景,比如线下受理类业务、实时生效类业务等。
3) 展示技术支撑能力,着重点在对技术能力的观测,通过实时呈现组件当前技术指标,以说明被监控对象当前处于什么状态(空载/空闲/忙碌/过载/瘫痪等),业务支撑能力是否发生变化(主机 CPU/内存使用率过高、数据库慢查询数变多/表空间空闲率极低、Redis 连接数过高/被阻塞的连接个数大于 0 等),以便在必要的时候及时进行人工介入。这个目标适合对硬件设备、数据库、分布式组件等的监控,比如主机、Mysql、Redis、MQ、ZK 等。
在实际项目落地过程中,可以根据实际情况确定希望通过全息监控大屏实现的监控目标,目标可以是上述的一种,也可以是数种的组合,具体的以可投入预算和资源决定。
>>>>系统亮点
全息监控组件优点总结
整体来说,全息监控在实际生产应用过程中起着重要作用,大致总结了它的几个特点:
-
交付简单,使用方便
极简部署:提供极简部署工具,部署进度可视化。
开箱即用:应用、组件屏、接口服务屏等无需过多配置,无需修改业务代码即可接入使用,非侵入式数据采集。
-
业务接入速度快
内置指标体系丰富:根据业务系统提供的指标体系,提供指标图表库,通过一键部署快速生成各类通用监控屏,开箱即用。
指标配置简单:通用指标(主机容器、IaaS 资源指标、组件指标、应用健康指标、应用所依赖组件健康探测指标、通用服务监控指标等)无需配置,既取即用;特定业务指标少量配置即可满足。
大屏配置简单:自带组件屏、服务监控探测屏,开箱即用;监控主屏、业务屏少量配置即可展示。
-
展示能力多元化
图表展示:提供折线、柱状、饼图、雷达、地图等丰富图形组件,支持各类指标的展示。
流程展示:提供可视化流程配置,包括流程节点、数据来源(url)、流程布局、告警参数等,支撑各类业务流程。
自定义报表:除提供 Oracle、Mysql、Redis、MQ 等通用组件运行情况报表外,还可根据业务要求快速定制个性化报表。
-
监控范围全
立体全业务监控:提供从前端、应用服务、中间件到云资源的一站式立体运维监控,运维更高效。
全流程可视化监控:汇总业务各环节信息,端到端展示业务流程。
-
诊断报告输出效率高
业务系统接入监控后,从 IaaS 资源、PaaS 组件、应用、服务等多层维度诊断,快速输出诊断报告。
03 应用实战以某项目为例,按照不同的角色和关注点建设“家宽交付流程监控大屏”。系统主要分为前端与后端,前端进行数据展示,后端进行数据采集、加工清洗、指标统计。支持数据实时采集、实时加工、实时展示,业务流程出现问题进行实时告警,对数据的展示进行时间段的偏移,实时偏移量最多不超过 1 小时;支持数据按照月数据进行展示环比比较分析。
>>>>业务指标采集
指标采集数据流
在本案例中,监控大屏所需指标由大数据平台汇总各业务系统数据后生成,并通过实时接口提供给大屏使用。
>>>>业务效果
业务端到端全流程说明:业务受理->网络数据制作->安装工单调度->首响预约->现场施工->竣工确认->归档计费。
家宽交付流程大屏视图
1) 圆圈里的是本环节的总量,本环节的总量=蓝色图示(流出工单)+红色图示(卡单量),例如业务受理总量为 18650,流出工单量为 18600,卡单量为 50(卡单量为本环节的卡单量,未流入到下一环节里)。
2) 圆圈显示的是主要指标中的部分指标,圆圈的流出工单量用蓝色标识,卡单量用橙色标识,卡单量、超时首响工单、待安装工单、超时工单的数值当大于配置的阈值时流程箭头变黄色,当大于更高的阈值则流程箭头变红色同时出现透明的三角感叹号。
3) 各个业务流程环节下的柱状图为 120 柱,是以当前时间按照每 5 分钟一个时间单位向前偏移 120 个 5 分钟的数据进行展示,柱状图的上部红色区域代表的是主流程下的红色图例,蓝色区域代表的是主流程下的蓝色图例,以现场施工为例,柱状图红色区域表示待安装工单,蓝色区域表示已安装工单,柱状图默认为从左到右进行滚动。
4) 左下角显示各主要指标和辅助指标,各指标间可切换,每个指标都有配置一个基准值,如果当前值大于基准值则当前值显示为红色,指标后有小箭头表示该指标可往下钻取,查看指标明细,没有小箭头的指标无数据钻取功能。
5) 右下角分对指标分地域和时间维度展示,地域维度展示指定地域的下级地域,例如选择全省,则地域下对应各个地市,选择某个地市则对应地市下的区县;时间纬度展示主要是按照开始时间和结束时间进行选择,时间维度下不展示具体的时间刻度,只展示量的刻度,量的刻度可配置。
6) 鼠标移动到维度趋势图上可以看到当前的量(需要移动到对应的柱状上或折线点上),如果时间刻度选择一天,则折线图上只展示一个点。
7) 点击下载按钮可下载当前指标全量明细数据,数据筛选条件为“地域”或者“选择的时间+地域”。
8) 指标数据统计周期默认为 5 分钟。
>>>>系统间业务拉通
对于业务相关的大屏,考虑到要纵向打通业务系统、横向拉通各业务环节,相对复杂一些,需要运维平台和业务系统一起参与、共同建设。在共建过程中,运维平台提供数据采集方案和工具,业务指标展示工具;业务系统提出业务大屏展示要求,业务场景涉及到的业务模块及模块间的关系,业务指标数据源等。
网格配送业务监控大屏
>>>>平台及组件
针对底层平台和公共组件的监控大屏基本属于集成运维平台后开箱即用,比如 JVM、Druid、Zookeeper、RocketMq、Redis、Oracle、主机(CPU/内存)、主机网络等的监控,这些组件的指标采集和展示大屏都已经内置在运维平台产品里面,项目部署的时候只需要修改相应的配置即可。
全息监控内置的 NGINX 组件监控大屏
04 智慧运维平台后续演进思路智慧运维平台后续演进思路
智慧运维平台产品研发不是一锤子买卖,需要紧跟技术升级、业务演进的脚步,不断对运维能力进行增补和完善以适应各种新生事物出现。
运维,永远在路上。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)