当前,随着企业数字业务的快速发展和业务量的攀升,企业信息系统架构的升级变迁,以及企业多套业务系统的在线运营,各类监控组件和应用系统间的关系错综复杂,系统运维的难度也急剧增加,且面临着巨大挑战。
在传统运维方式下,数据规模大且离散,数据治理和全面分析能力薄弱且依赖于经验和规则,运维十分被动,解决问题效率非常低下,运维的实用性大打折扣,难以满足当前主动运营的要求。
具体来说有以下几点:
发现问题难:企业在经年累月中布局了诸多监控工具,但是监控手段阈值的设定单一,且一般都是静态阈值,而指标和告警的异常却是多样化的,这样就会造成大量的误报漏报现象。此外,目前绝大多数的监控工具,缺乏趋势预测能力,使得运维局面非常被动,导致发现问题十分困难。
根因定位难:发现问题时一般都是对问题进行定性分析,可能了解到某一告警对应的指标波动是值得关注的,但是并不能因此确定造成这种现象具体根因。而且目前的监控工具,大多缺乏综合根因定界及定位分析的手段,即便对监控进行了集中管理,也难以通过单纯的几种指标进行根因定位。
数据治理难:当数字化建设进行到一定程度的时候,被管理对象的数据量相应的也是水涨船高,数据数量大、类别多且非常分散,很难通过某一指标体系来衡量系统的健康度,也没有一个统一的视角去判断数据质量的好坏优劣。
运营分析难:现有的大多数基础监控工具,多数都是从自己的管理阈例如系统管理、网络管理出发看待问题,缺乏端到端的分析能力,没办法以业务视角从综合运营分析的角度,去看待多样化指标对系统的影响。
而智能运维是一种全新的数字化运维能力,也将是数字化转型的必备能力。智能运维相对于传统运维模式而言,能够在运维数据治理、业务数字化风险、运维人力成本和业务侧影响力四个方面有本质的效能提升。
智能运维相对于传统运维模式而言,能够在四个方面有本质的效能提升:
运维数据治理。通过高性能实时处理的数据平台广泛采集、处理和分析数字化业务运行过程中的多样化运维数据,包括告警、指标、日志、配置以及运维工单等类别,不仅提升了运维大数据的治理能力,优化了数据质量,而且为进一步激活运维数据的价值打下了良好基础;
业务数字化风险。使运维人员不仅提升了历史运维数据的分析能力并且能够对实时数据进行异常检测和问题预判,有效降低数字化业务的运行风险,提升可用性、稳定性;
运维人力成本。使真正意义上的跨域根因定位成为可能,降低对专业运维人员经验技能的依赖,迅速缩短故障排查时间并有效降低人力成本;
业务侧影响力。以业务视角利用多元化数据提高运营分析和决策能力,比如端到端的分析业务交易状态,提供给业务、客服部门及时反馈和决策支持依据,充分增强业务影响力;
智能运维发展正如火如荼,Gartner预见其为下一代运维,认为到2022年将有近50%的企业用户部署智能运维。虽然目前不少企业已经在积极投入建设,也还有一些企业处在迷茫阶段,对这种趋势不太清晰,借用著名作家威廉吉布森的话,“未来已来,只是分布不均。”
ITIL与IT运维管理的关系
TIL诞生于国外,当时是需要针对部门人数众多,对业务保障要求高的电信、金融等行业的IT和业务进行有序化,透明化的管理,所以诞生了ITIL标准。ITIL标准的核心思想是通过将IT管理流程化,提高工作人员的工作效率,提高IT服务质量,更好的让IT系统为业务提供服务,从而为业务系统的稳定运行保驾护航。
在企业IT管理的早期,更侧重于对网络、硬件等设备的管理。那时的IT管理就是通过某种方式对网络进行管理,使网络能正常高效地运行。早期的这种IT管理是NSM的阶段,主要的面向目标就是底层的基础网络设备。NSM系统是对网络中的底层设备进行实时的,统一的监控,当网络中出现了问题或者即将出现问题的时候,NSM向网络管理者提出故障定位和报警,这样做无疑大大方便了网络管理员的工作。但是,NSM系统对于网络上运行的各种业务系统以及业务系统的用户只能做一些简单的管理,这个时期的IT管理,可称之为网络运维管理阶段,这时候的IT管理人员称之为网络管理员,简称网管。
随着企业IT系统的日益成熟和复杂,企业的关注点已从单点管理到综合管理角度的转变,从关注单一网络到对业务系统的关注。原因在于,越来越多的企业意识到,业务系统涉及环节逐渐增多,单一的网络运维管理已经不足以满足管理需求,需要落实如何保障业务系统的各个环节。在满足对IT资源进行统一管理,降低运行成本、提高突发事件应对能力、提高服务质量和效率的基础上,更需要保障业务系统的正常运行,才可以保证IT投资的价值体现。同时,在国内IT管理领域,伴随着用户IT规模的扩大、IT技术的发展和用户需求的提高,原有的网络管理系统已经远远不能满足当前的用户需求。
因此,当前国内用户迫切需要一款能够对整个IT资源进行统一管理,解决IT资源所面临的种种困难,同时更要做到对业务系统有效保障并提出改进意见的平台。
在这样一个前提下,IT运维管理的概念和产品被国内知名的网络运维管理厂商率先推出。可以说,它的出现就是对当前用户需求的一种有效诠释。这个时期的IT管理,被称之为IT运维管理,这时候的IT管理人员称之为IT运维人员。
(记者 毛江华)嫦娥一号卫星拉开了中华民族奔月的序幕,在中国航天科技人员花费3年多时间搭建奔月天路的历程中,IT无所不在。其中,星际计算机(卫星的数据管理分系统)将在38万公里外的浩瀚宇宙中管控嫦娥,这颗“大脑”是怎样炼成的?它又是如何指引嫦娥揽月的?
2007年11月7日8时34分,当嫦娥一号卫星490牛顿的大马力发动机关闭之后,北京航天飞行控制中心的大屏幕上显示,卫星目标轨道和现实轨道完全重合,嫦娥一号正式进入了距离月球200公里高度的工作轨道。
这一刻,距嫦娥一号发射324小时又31分钟。中华民族千年的奔月梦想终于拉开了实现的序幕。从10月24日起,嫦娥一号在奔月天路上,一次又一次地实现目标,在尽情释放着全球华人强烈的民族自豪感的同时,也检验着中国的科技实力。
同所有的卫星一样,嫦娥一号是大量科技关键技术的集成,在它的设计、研发、制造、发射和工作的过程中,IT是它最基本的一个DNA,无处不在。与其他卫星不一样的是,嫦娥将在远离地球38万公里外的浩瀚宇宙中工作(此前中国发射的最远的卫星距地球7万公里),条件相当复杂,而且极有可能与地面失去联系。
因此,嫦娥必须实现高可靠的自主管理,这给其IT“大脑”――星际计算机(卫星内部的数管分系统)带来了前所未有的挑战。这颗“大脑”必须在任何恶劣的环境中都能够冷静、准确地处理问题,发放指令。IT“大脑”是怎样炼成的?它又是如何指引嫦娥揽月的呢?
“大脑” 这样练成
11月14日,记者在中国空间技术研究院发现,除了副主任设计师张猛应约在办公室接受采访外,嫦娥一号数据管理分系统的大部分工作人员仍在控制中心现场紧张地观测卫星的一举一动。
“在嫦娥卫星未来一年的工作中,现场24小时还是不能离开人。不过,嫦娥上天,意味着我们最艰难、最痛苦的时间已经熬过去了。” 张猛告诉记者,在嫦娥上天工作后,他们实施的是“三班倒”,而在此前的设计、研制和测试阶段,他们经常是“一班倒”。
数据管理分系统也就是人们通常所说的星际计算机,就是将卫星测控任务综合在一个以计算机系统为主的系统中,用以实现卫星遥测、遥控、程控、星载自主控制、校时等整星控制和管理功能,是卫星的“大脑”和“中枢神经”。
那么,同其他卫星的大脑相比,嫦娥的“大脑”有何特别之处呢?张猛告诉记者,在打造嫦娥“大脑”的过程中,“我们有继承,也有发展。”从技术的体系架构上来说,继承了以往“神五”、“神六”,采用二级分布式容错计算机系统。但作为第一颗绕月卫星,其安全性和可靠性的要求都很高,为了适应38万公里外的复杂的使用条件,这颗“大脑”还采取了一些不同于一般卫星的设计。
由于地月间距离遥远,测控信号的空间衰减增大,“为了降低误码率,提高卫星下行遥测信道的抗干扰能力,嫦娥一号卫星的数管系统不仅将单码率改为多码率,增加了一种编码方式。”张猛说,“还在卫星的自主管理功能上进行了大幅度的增强。”
据记者了解,对卫星的管理方式有两种,人员管理和自主管理。人员管理就是通过地面发指令。但这种方式有条件限制,它要求地面测控能看到天上的卫星,而且要求通信通道不能出任何问题。而嫦娥卫星是在遥远浩瀚的月球附近运动的,情况非常复杂,必须考虑到它在某些时候有可能与地面失去联系的情况。如果没有自主管理,或者自主管理能力不够强的话,卫星在碰到意外情况时就有可能出现问题。
尽管中国空间技术研究院有着很强大的技术实力和丰富的卫星研制经验,但自主研制绕月飞行卫星却是第一次,而自主研制如此“高可靠”的卫星智能“大脑”更是头一回。 回忆起嫦娥“大脑”3年多的研制过程,张猛坦言: “留下了很多难忘的记忆片段。尤其是在艰难的前期初样阶段。”
由于数据管理系统连接着卫星内的其他8个分系统,甚至和整个“嫦娥工程”的5个大系统都要协同工作,沟通和测试的难度可想而知。“在卫星各个部件的研制初期,数据管理分系统可以说是问题不断。”张猛告诉记者。
因为硬件生产、软件开发以及测试设备研制均是同期进行,软件运行调试要依赖硬件设备,分系统联试要依赖测试设备,但各部件都在研制初期,运行都不稳定,会出现各种意想不到的故障和问题,各方问题搅在一起,增大了故障定位和解决的难度。另外由于软件需求不断变化,数管软件总处于不断更改中,而整星电测又离不开数管平台,导致数管软件一度成为整星研制的短板。
在那段时间里,数据管理分系统的设计师和工程师们加班加点,超负荷运转到晚上一两点是常事。有一回,张猛和数据管理分系统的骨干们居然连轴运转了50多个小时没有合眼。
当时是做热真空实验,也就是把卫星放在一个大“罐子”里,模拟太空的各种冷热环境做实验,总共要做20多天。在实验进行到10多天的时候,突然出现了一个奇怪的现象,卫星“大脑”的自主管理出现异常。如果这个问题严重的话,就意味着前面的所有工作都白做了,实验必须推倒重来。当时数控管理分系统还在同时做另外一项测试,张猛等技术骨干们此前已经熬了一个通宵了,在凌晨一两点的时候赶到现场研究怎样排除问题。
尽管可以借助计算机系统本身来进行检索,但有些数据误差必须通过肉眼来分析和判断,于是他们一条一条地对前10几天运行的数万条数据进行排查。一天一夜之后,总算找到了问题的症结所在。“可以解决,不必推倒重来!”兴奋的心情几乎使这些航天精英们忘却了自己已经连续作战超过了两天两夜。
在记者的印象中,在一些工作强度很大的高科技公司里,譬如微软公司、思科公司等,会给技术精英们配备心理教师或心理热线,学习“释放压力”。我们的航天精英们是否也是如此呢?张猛说他们也去参加过一些“心理释压”的课程。
“但那是理论,作为一位航天的IT工作者,一个代码下去、一个硬件下去,所关系的就是一个国家的重大工程。能轻松得了吗?”张猛说,“但是,整个团队在一起克服困难,所带来的幸福感和成就感是无法比拟的!”
看来,“特别能吃苦,特别能奉献,特别能攻关,特别能战斗”的航天精神真的不只是一句 口号 ,它贯穿在嫦娥卫星研制工作的每一个细节处,而嫦娥的“大脑”就是在这样一个氛围下炼就的。
指引嫦娥揽月
记者了解到,在嫦娥的探月过程中,除了数据管理分系统外,卫星的制导、导航与控制系统(简称GNC)也是由一个计算机系统和众多敏感器构成的分系统,它主要负责卫星在不同阶段找到自己的运行方向。
嫦娥在奔月过程中的22种姿态的变化和控制、卫星对月定向的3次近月制动、太阳帆板对日定向跟踪、定向天线对地定向,都是通过计算机系统对众多敏感器下指令来完成的。
据不完全统计,嫦娥“大脑”(数据管理系统)和GNC系统的计算机,所下达的指令多达数千条。不过,最让张猛津津乐道的,不是这些复杂的指令,而是嫦娥“大脑”强大的自主管理能力。“当卫星和地球失去联系的时候,数据管理分系统可以自主管理热控、补给卫星能源。”
据张猛介绍,热控本身就是一个分系统,但各个系统之间彼此有交叉。热控系统的组成主要包括了热控涂层、隔热材料、电加热器、传感器、热管等。鉴于热设计边界的条件复杂,热系统较多地采用了主动控温设计。而嫦娥“大脑”(数据管理分系统)则掌管着加热器的通断控制。
即使是在嫦娥一号卫星和地面失去联系的紧急状态下,嫦娥的“大脑”也能够自主地对加热器进行控制。因为在嫦娥一号卫星内,遍布着众多的探热设备,它们能将感受到的各个点的温度,自动送到计算机里面去。计算机对这些温度数据进行识别和处理,当温度偏低时,计算机软件就会自动发出指令,将加热控制器的开关接上; 当温度偏高时,计算机软件也会自动发出指令,将加热控制器的开关断开。
在配合供配电分系统的能源控制上,嫦娥的“大脑”也能做出英明的决策。据了解,嫦娥一号卫星在上天前,就已经充满了能源。在嫦娥卫星的飞行和工作过程中,能源消耗量很大,计算机可以判断是否需要补充。张猛告诉记者,嫦娥卫星的两个“翅膀”能将太阳能转化成为电能,并将其贮存起来,当嫦娥的“大脑”判断能源不足时,已储存的能源就会向各个分系统供电。
“一个人仅仅依靠大脑,不能单独完成工作目标。同样的,数据管理分系统作为嫦娥一号的‘大脑’,也不能独立完成工作目标。”张猛反复强调,“嫦娥卫星所有工作目标的实现,都必须依靠卫星内部各个分系统互相协作,共同完成。与此同时,没有嫦娥工程其他4大系统的支持,嫦娥一号也不可能实现绕月飞行。”
张猛举了一个例子。如果不出意外,11月中下旬,嫦娥一号卫星将向地球传回月球的图像。“到时,我们也会通过嫦娥的‘大脑’下一条指令,嫦娥一号将在38万公里外的遥远太空播放30首歌曲,而我们在地球上可以清清楚楚地听见。” 张猛说,“这一看似简单的工作,也包含着各个系统的共同协作。”
据了解,嫦娥一号卫星播放的歌曲,是通过一个特殊的存储器,将地面录制的音乐作品带到卫星上。在卫星绕月时,接收到数管分系统的指令后,利用这个存储设备和卫星上的传输设备,从遥远的太空将这些音乐传回地面。地面接收系统可以把这些音乐接收下来,通过数字信号,通过遍布全国城乡、边陲的收音机、电视机以及网络,传送来自遥远太空的音乐盛典。
链接:
嫦娥一号的九大分系统
结构分系统: 相当于嫦娥一号的“身板和骨架”,为其他各分系统的仪器设备提供安装位置和工作空间。
数据管理分系统: 嫦娥一号的“大脑”,用以实现卫星遥测、遥控、程控、星载自主控制、校时等整星控制和管理功能。
制导、导航与控制分系统: 嫦娥一号的“小脑”,兼有部分“大脑功能”,负责对探测器飞行路线和探测器姿态进行修正、测量和控制,对太阳能电池帆板和有效载荷进行指向控制 。
电源分系统: 嫦娥一号的“心脏和血液”,由太阳能电池帆板、蓄电池和功率调节器等组成。
热控分系统: 温度调节系统,由传感器、热控部件等组成。
测控和数据传输分系统:主要功能是完成探测器的跟踪、测轨、遥测、遥控和数据传输任务。
推进分系统: 嫦娥一号的动力系统,包括火箭发动机、推进剂存储箱和各种管路等。它根据制导、导航与控制系统的指令,开关各类发动机。
科学探测仪器分系统: 完成科学探测数据的采集、储存处理任务,完成有效载荷的在轨管理。
定向天线分系统: 为数传下行信道和遥测下行信道提供满足任务要求的天线增益。
IT运维管理面临的难题有哪些
现在的北京IT外包市场内需极大且离岸外包需求也在不断扩展,北京IT外包执行额收入比重看似在增加,但北京IT外包行业存在的缺陷如果不想办法解决,这大好形势随时会被多变的市场反转。HR在接到需求之后——进行人才匹配——与软件工程师师进行项目相关沟通——想方设法压低工程师的期望薪资,从而获得高额利润。这样的流程过于繁琐导致人才匹配效率太低。
IT运维管理面临的难题有哪些
全国少有的对接北京IT外包服务和企业需求平台的互联网平台,他们发展快速,IT外包专业,服务态度好,拥有超前的发展眼光。他们之所以能在短时间内飞速发展,是因为看到了传统北京IT外包效率低的本质:缺乏平台。
一直以来,传统北京IT外包行业都缺乏一个信息发布的平台,没有平台,需求信息无法汇集,人才资源无法整合,效率难以提高。
互联网发展的脚步仍在加速,北京IT外包行业需要更多的创新才能满足多元化的企业需求,更快速的人才匹配才是软件外包行业的发展方向。海宇勇创只是一个开拓,互联网和大数据能创造价值的远不止这些,希望这样的新型北京IT外包企业越来越多,这样才能开创IT外包行业的新时代。
以上就是关于传统企业IT运维管理中主要存在哪些问题全部的内容,包括:传统企业IT运维管理中主要存在哪些问题、ITIL和IT运维治理到底有什么关系、IT行业的人大脑都是要高速运转 [IT“大脑”指引嫦娥揽月]等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)