伴着IT在企业中的作用日益明显,IT建设和IT运维同时成为了企业效率的加速。同时,计算机硬件系统和软件系统的运维已成为了各行各业单位,尤其是信息服务部门普遍头痛的事情。本文以下内容总结几个头痛的主要因子,拿出来供大家参考指导,并接下来的系列课题中会对针对这些现状提出改进措施 。
现状一:IT运维人员成本偏高
据专业调查,大多数CIO表示最关心的是IT运维成本过高。原因是在过去的5年中,很多企业都实施了很多IT系统,使得IT运行越来越复杂,也越来越难管理。同时,其中有50%的受访CIO认为IT运维成本过高的一个原因是IT运维的自动化做得还不够好,依靠手工流程来管理,不但使到运维效率不高,而且人力成本更是花费惊人。
同时,另一家国际知名调查机构Gartner调查发现,在IT运维成本中,源自技术或产品(包括硬件、软件、网络等)成本其实只占20%,而流程维护成本占40%,运维人员成本占40%。流程维护成本包括日常维护、变更管理、测试成本等;人员成本包括训练、教育、人员流失、招聘成本等。
从图中,我们可以看出, “流程维护”类和“运维人员”两者都与软性方面的成本相关非常紧密。而且三者的关系可以用下图来表示:
备注:C类成本的大小很大程度取决于B和D类。
现状二:处在“救火式”的IT运维控制
国内在IT运维过程中,IT员工大多数只是处在被动低效率手工救火的状态,只有当事件已经发生并已造成业务影响时才能发现和着手处理。这种被动“救火”会导致:①IT运维人员终日忙碌,IT运维人员日常大部分时间和精力是处理一些简单重复的问题;②IT运维本身质量很难提高;③再加上故障预警机制的不完善,往往是故障发生后或报警后才会进行处理,不但事倍功半而且故障还常常会出现恶性连锁反应;④IT部门和业务部门对IT运维的服务满意度都不高。
现状三:简单的自动化程度起了“反作用”
尽管IT运维管理的技术在不断进步,但实际上很多IT运维人员并没有真正解脱出来,主要原因是自动化不高而导致的。技术虽然能够获取IT设备、服务器、网络流量,甚至数据库的警告信息,但成千上万条警告信息堆积在一起根本没法判断问题的根源在哪里。还有,许多企业的更新管理绝大多数工作都是手工 *** 作的。即使一个简单的系统变更或更新往往都需要运维人员逐一登录每台设备进行手工变更,当设备数量达至成百上千时,其工作量之大可想而知。而这样的变更和检查 *** 作在IT运维中往往每天都在进行,占用了大量的运维资源。因此,实现运维管理工作的自动化对企业来说已迫在眉睫。
就如图中一样,所有信息(杂乱)都从各个地方被收集到了这个圆圈(容量不变)里面,信息进去后不能主动流出来。可能会出现的情况:这个圆圈容器装满后会爆破,或者是溢出来;圆圈的运行速度会慢慢降下来,从而导致信息输入的速度也会变慢。
现状四:本是同家兄弟,却不经常来往
这个问题主要是发生在拥有许多子公司的企业,每个子公司的系统都是独立的,下面主要以国内银行业为例。以前国内的银行业没有搞集中建设,每家银行的各个地方分行都单独建设和维护自己的核心业务系统,都各自配备开发人员和维护人员。
同时在运行维护方面,对故障的解决,完全依靠运行维护部门的工程师的上门服务。不管问题大小,工程师都要来回去现场解决。遇到一些技术难度大的问题,如果工程师的水平高,处理起来就快;如果水平低,甚至花上几个小时,可能也解决不了。
虽然国内银行业的IT运行维护管理水平,有点接近国外80年代末90年代初银行业的水平,银行IT结构上都采用了大集中模式。从硬件设备上来看,国内银行不比别人差,甚至还有些领先,但IT运维管理还没达到国外当时的水平,尤其是呼叫中心、客户服务方面。”
结束语
从上面三个现状来看,主要是有关软性方面的。的确如此,国内借着近十几年高速发展,硬件方面的发展取得了重大进步,某些方面的水平甚至是超过了国外的水平,并且IT硬件的生产厂商也是出现了很多与国外厂商同等秀舞的水平,如华为、中兴等。但是往往是硬件易学,知识技巧难寻。这不仅与国内教育环境有关外,还与知识经验的继承有关。
管理要动态匹配业务需求
IT部门还会经常联合HR、法务等部门一起做跨部门的沟通,面对的对象是各部门的管理层,让他们理解企业的IT策略。
一、看需求。有些客户想在提升运维管理系统的同时,也将ITSS标准也给过了。所以在选择的时候就要兼顾ITSS标准的过关性和运维服务管理的落地性。这两者不冲突,但有些软件厂家为了强调落地使用,在对一些定制客户软件的基础上进行修改,完善成了通用版的。虽然很多企业也能拿来使用,但对ITSS标准的契合度就大打折扣。所以在选择运维管理系统的时候,一定要做好充分的调查,对运维管理系统的过关性和落地性进行深入分析。
二、看价格。现在市面上的运维管理系统种类繁多,产品价格自然也大不相同。但在产品功能上,相差的不大。这就需要在选择产品的功能和价格上取平衡,选择一个性价比最高的产品。这对需要对市面上的运维管理系统做一个摸排和筛选,选择一个自己公司能承受的。
三、看质量。即使是说现在产品相差不多,但在细节上仍然是有差别的。比如一般的运维管理系统仅仅有知识库这样的一个功能,方便搜索查询之前的知识,这完全满足ITSS对知识库的要求。但云雀运维平台光知识库就分三种:项目知识库、公司知识库、通用知识库。而每一个细分的知识库里面,也有对该知识库的专属功能。其他的类似于监控管理、视图管理、配置管理等每一家软件都不相同,选择的时候可以根据自己的应用情况进行选择。
四、看案例。软件最终是要落地使用的,如果有同类型客户的使用案例作为参考。在自己选择的时候就会更有倾向性。我们也可以按照软件厂商提供的厂家信息进行调查,询问出那些客户的真实感觉,作为购买的依据。
希望可以帮到你,谢谢!
IT监控类或者IT运维流程类的产品工具上线运行一段时间之后,一年会产生十几万、甚至几十万的海量数据,包括告警数据、工单数据等IT运维大数据,需要从这些海量数据中获取更有效、更直接、更有价值的分析数据,更快速、有效的提取有意义的决策依据同样需要工具系统来满足运维大数据的IT数据挖掘、IT数据钻取需求。
RIIL
Insight目前是国内首款定位于IT管理领域的大数据决策分析系统产品,通过建立多维数据分析模型进行信息提取、统计分析并提出决策依据,是IT运维管理领域的BI。系统通过IT运营管理、IT部门绩效管理、可视化项目管理、资产管理、业务关系管理、供应商软件管理等自定义维度的运行数据进行分析,可快速获取运维管理各方面的直观准确数据,诊断分析问题根源,预判数据走势,洞察全局运维动态。
(1)建立自动化运维管理平台
IT运维自动化管理建设的第一步是要先建立IT运维的自动化监控和管理平台。通过监控工具实现对用户 *** 作规范的约束和对IT资源进行实时监控,包括服务器、数据库、中间件、存储备份、网络、安全、机房、业务应用和客户端等内容,通过自动监控管理平台实现故障或问题综合处理和集中管理。例如,在自定义周期内进行自动触发完成对IT运维的例行巡检,形成检查报告。包括自动运行维护,以完成对系统补丁的同步分发与升级、数据备份、病毒查杀等工作。
(2)建立故障事件自动触发流程,提高故障处理效率
所有IT设备在遇到问题时要会自动报警,无论是系统自动报警还是使用人员报的故障,应以红色标识显示在运维屏幕上。然后IT运维人员只需要按照相关知识库的数据,一步一步 *** 作就可以。因此,企业需要事先建立自动工单式流程管理,当设备或软件发生异常或超出预警指标时会触发相关的事件,同时触发相关工单处理流程给相关IT运维人员。IT运维人员必须在指定时间内完成流程所规定的环节与工作,以提高IT运维响应问题的效率。
(3)建立规范的事件跟踪流程,强化运维执行力度
IT运维自动化管理建设时,首先需要建立故障和事件处理跟踪流程,利用表格工具等记录故障及其处理情况,以建立运维日志,并定期回顾从中辨识和发现问题的线索和根源。事实上许多实践也证明,建立每种事件的规范化处理和跟踪指南,可以减少IT运维 *** 作的随意性和强化运维的执行力度,在很大程度上可降低故障发生的概率。同时,用户还应可以通过自助服务台、电话服务台等随时追踪该故障请求的处理状态。
(4)设立IT运维关键流程,引入优先处理原则
设立IT运维关键流程,引入优先处理原则是指要求CIO定义出IT运维的每个关键流程,不仅仅是定义流程是什么,还包括要指出每个关键流程对企业有什么影响和意义。同时,在设置自动化流程时还需要引入优先处理原则,例行的事按常规处理,特别事件要按优先级次序处理,也就是把事件细分为例行事件和例外关键事件。
总之,实现IT运维的自动化管理是指通过将IT运维中日常的、大量的重复性工作自动化,把过去的手工执行转为自动化 *** 作。自动化是IT运维工作的升华,IT运维自动化不单纯是一个维护过程,更是一个管理的提升过程,是IT运维的最高层次,也是未来的发展趋势。
采用何种远维方案可谓见仁见智,并且不同的公司有不同的安全需求和硬件前提。毫无疑问,远程维护不同于本地运维采用什么样的远维方案应该有一个基本的原则。安全和方便应该是选择远维方案的出发点。
远维首先要保证安全性,不管是内网还是外网的远控要保证控制端与被控端的唯一性。也就是说,要预防第三端的介入,杜绝“第三人”的参与。要做到这一点,在被控端要做好安全部署(比如关闭多余端口、IP过滤、控制列表等),以防未经授权的恶意控制。另外,远控方式的安全性也要保证(比如对数据进行加密等),以防“中间人”的嗅探。
远维的方便性这个很好理解,也是IT人员追求的目标。方便性应该包括两个方面的含义,一是 *** 作上的便利,能够以最快的速度实施远程维护,二是远维较少受外界因素的限制(比如地理位置、软硬件设备等),可以随时随地的进行远维。选择方便的远维方案,不仅提高了工作效率,而且保证了假日的质量。
在网络的基础设施建设完成之后,整个网络处于运行状态,IT部门采用相关的管理方法,对运行环境(包括物理网络,软硬件环境等)、业务系统等进行维护管理,这种IT管理的工作简称为IT运维管理。
第一、设备管理:对网络设备、服务器设备、 *** 作系统运行状况进行监控,对各种应用支持软件如数据库、中间件、群件以及各种通用或特定服务的监控管理,如邮件系统、DNS、WEB等的监控与管理;
第二、数据/存储/容灾管理:对系统和业务数据进行统一存储、备份和恢复;
第三、业务管理:包含对企业自身核心业务系统运行情况的监控与管理,对于业务的管理,主要关注该业务系统的CSF(关键成功因素Critical Success Factors)和KPI(关键绩效指标Key Performance Indicators);
第四、目录/内容管理:该部分主要对于企业需要统一发布或因人定制的内容管理和对公共信息的管理;
第五、资源资产管理:管理企业中各IT系统的资源资产情况,这些资源资产可以是物理存在的,也可以是逻辑存在的,并能够与企业的财务部门进行数据交互;
第六、信息安全管理:该部分包含了许多方面的内容,目前信息安全管理主要依据的国际标准是ISO17799,该标准涵盖了信息安全管理的十大控制方面,36个控制目标和127种控制方式,如企业安全组织方式、资产分类与控制、人员安全、物理与环境安全、通信与运营安全、访问控制、业务连续性管理等;
第七、日常工作管理:该部分主要用于规范和明确运维人员的岗位职责和工作安排、提供绩效考核量化依据、提供解决经验与知识的积累与共享手段。
IT运行维护管理的每一个子系统中都包含着十分丰富的内容,实现完善的IT运维管理是企业提高经营水平和服务水平的关键。
以上就是关于IT运维的管理现状全部的内容,包括:IT运维的管理现状、如何选择IT运维管理系统、IT管理领域的大数据运维、数据处理和数据挖掘应该怎么做等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)