IT运维服务都有哪些分类?

IT运维服务都有哪些分类?,第1张

计算机技术在企业中的应用越来越广泛,从最初的简单计算到初级办公,到现在的大型应用系统,计算机应用越来越来越深入到企业的各个方面,企业对计算机应用系统的依存度越来越高。而基础网络系统(网络设备、线路、服务器、桌面电脑等)则是计算机应用系统的运行保障,就好比是高速公路,路通则信息通,因而基础网络系统的运行情况对现代企业各项活动开展起着非常重要的作用。为了应对基础网络的运维,各企业应用多种管理手段、技术手段对IT运维进行提升,比如划分职能科室(组)、职能人员(网络管理员、网络安全员、系统管理员、数据库管理员、现场管理等岗位)是管理手段,应用ITSM(IT服务流程管理)、桌面安全管理、网管、活动目录服务等系统是技术手段。其中有的职能重复,有的系统交叉,本文以的笔者所在企业IT运维现状为背景,探讨IT运维的发展模式,旨在优化大型企业IT运维模式,更好地为企业服务。

1 IT运维现状分析

不同企业IT运维方式大不相同。由于不同地域,不同行业计算机应用发展水平不同,造成不同企业的管理模式大不相同,比如银行系统,由于计算机普及应用较早,地域分布较广,计算机应用及运维发展较快;而某些大型企业,由于管理者偏重主营产品,忽视在IT基础设施及应用系统上的投入,因而IT运维服务处于较低水平。

同一个企业IT运维方式也存在差别。同一企业,如果规模较大,二级单位较多,由于管理方式差别,运维模式也有较大不同。比如有些企业维护人员多,有些少,有些企业采用传统方式运维,有些企业则重视应用先进的管理系统等,这些原因造成同一企业内部的差别。

2 理顺思路,建立合适的IT运维架构

IT运维的目的

IT运维的目的主要有三个:第一个是提供一个稳定高效的基础网络平台,为各种计算机应用系统的正常运行提供保障;第二个是为客户提供满意的服务,使客户端与计算机相关的故障能快速地得到解决;第三个是节省人力,提高工作效率,快速处理基础网络的故障。正是基于这样的目的,所以企业在基础网络方面不断加大投入,在管理上不断创新。

分析企业目前各个应用系统

基础网络是为应用服务的,所以我们可以分出哪些系统是属于基础网络的,哪些系统是属于企业应用类的,比如某大型企业的信息系统中,ERP、MES、LIMS等系统是属于应用服务类系统,直接面对终端用户,而网管系统、桌面安全、ITSM、数据存储备份等则是属于基础网络类的,其中ITSM是直接为用户提供服务接口的,其它则是作为IT基础管理系统。对于应用服务类的系统我们要分析其可能故障,并理清解决的流程;对于基础网络类的系统,我们则要将其置于流程之中,理清如何协作才能更好地为用户层的应用系统服务。

建立合适的IT运维架构

传统的运维框架很简单,基本是负责人制,碰到运维方面的问题时由负责人分配工作,这样的方式初期运作简单高效,但随着企业规模的扩大及计算机应用的普及,传统作业方式受很多因素影响,比如分配工作难、耗费人力多、处理问题能力要求高、工作量大等,所以企业迫切需要新的IT运维模式。

某大型国有企业,对基础IT运维相当重视,近几年相继在各分公司推广部署桌面安全系统、防病毒系统、网管系统等,各分公司也针对企业实际情况上做了一些很好的系统,比如某大型企业应用的ITSM系统、上网行为管理系统,这些系统之间有些重复,但各有侧重,那么如何使各系统有机结合,建立一个合适的IT运维框架则是必要的。笔者从某大型企业IT运维现状出发,提出一种IT运维架构,仅供讨论,如图1所示。

图1中ITSM为用户服务接口,内控则是管理接口,用户端的问题进入ITSM系统后,按问题分类或业务分工进入相应的基础网络系统或应用系统处理,各系统也需要分别建立相应的运维架构,比如防病毒系统可以建立。

图1 IT运维架构

如图2所示的运维架构。经各系统处理完后反馈给用户并进行归档,内控则对整个运维过程进行规范化控制。

图2 防病毒体系的三级运维架构

3 优化结构,建立合适的运维流程

分析IT运维需要处理的各种问题。IT运维所需处理的故障种类很多,硬件故障还是软件故障、内部网故障还是外部网故障、系统问题还是病毒问题、用户端问题还是服务器端问题,网络设备问题还是应用系统问题等,列出工作中已遇到过的问题以及可能出现的的问题,通过分析,然后再来建立我们的流程,是建立合理流程的依据。

结合组织结构,建立合适的运维流程。IT部门一般按专业划分科室,比如网络、系统、应用开发、工业控制等,这种划分是以水平层面来管理的,传统管理模式基本都是这种方式,而新的基础IT运维系统要求以专业及技术水平来进行竖直层面的分工,比如ITSM要求一线处理现场基础问题,二线处理复杂问题,经理处理全局问题及疑难问题,从而对不同层次提出了不同的技术要求,因此企业需要在水平与竖直两个层面上找到一个平衡点,来建立合适的管理模式。结合企业实际情况,经过结构优化后,建立各个系统的运维流程,图1的运维架构显示,各个系统之间是相对独立而又相互联系,因此相应的流程必定是相对独立而又相互联系的。

4 防患于未然,注重日常管理工作

建立各系统的管理办法、推广预知维修思维。正如象设备维修由最初的事后维修发展到预知维修模式一样,IT运维模式同样要注重预知维修,即是在问题出现之前,根据一些监测系统(比如网管系统)、日志记录系统等发现异常现象,将故障消灭在萌芽状态。现代企业对计算机信息系统的依赖性越来越高,要求也越来越高,比如某大型企业的MES、ERP、IC卡等系统,要求7 X 24 h工作,任何一次小小的故障都可能造成巨大的经济损失,因此减少信息系统故障率是非常重要的。要做到预知维修,具体到工作中就是要建立各个系统的管理办法,其中要包括异常监测和应急处理等内容,一些关键系统必须有日报,周报或月报。ITSM系统中的常见故障和经验汇总功能即是预知维修思维应用在现代管理上的体现。

建立完善的文档资料。网络系统里的资料再详细,也有出故障甚至丢失的可能,维护良好的文档对于IT运维很有帮助。资料整理除了要求全面,清晰外,还需要满足两个原则,一个是动态更新,过时的资料会误导对事情的了解及判断;第二个是让一个新人能看明白,完全不了解情况的新人(具备专业知识)通过资料能了解现状,则说明这是一份高质量的资料。比如,企业网络连接的文档资料,好的文档的关键不是把每个连接到各个图形的工作站(假设保持最新信息)都进行归档,而是把注意力集中到网络互联(拓扑、交换机和路由器)、服务器、网关和防火墙上。路由器和交换机没有必要用图形(类似设备的图形)表示,用简单的几何形状(如五边形、圆、方块和矩形)表示即可。例如,总使用一个八边形表示一个核心层交换机、用五边形表示汇聚层交换机、用正方形表示接入层交换机。

5 分清责任,建立相应的激励制度

不同的岗位工作方式不同,比如有的现场维护,有的远程处理;不同的技术水平要求不同的待遇,比如ITSM系统中一线技术人员与事件经理责任不同,待遇应该不同,因此企业应当推出相应的奖罚、晋升制度,以激励员工进步。本文着重于运维模式,对此不作进一步探讨。

6 结语

企业为优化生产、提高工作效率、减少成本,采用多种基础网络维护系统和生产应用系统,达到上述目的的同时,也对IT运维模式提出了更高的要求,新的运维模式要求一个清晰的运维架构和合理的工作流程, 同时更要注重日常管理工作和激励机制,这样才能更好地为企业服务。但企业在适应新的系统过程中,必然会出现一些问题,比如员工心态难适应、组织结构难协调、奖罚制度难改变等,这对很多企业是一个挑战。

何谓IT运维管理?在了解这个概念之前,我们首先需要了解一下什么是IT管理?

天天客服IT运维管理中心专家龙少文解释:IT管理是在信息化运营阶段通过运维管理制度的规范,IT管理系统工具的支持,引导和辅助IT管理人员对各种IT资源进行有效的监控和管理,保证整个IT系统稳定、可靠和永续运行,为业务部门提供优质的IT服务,以较低的IT运营成本追求业务部门较高的满意度。

简而言之,可以理解IT运维管理为:在网络的基础设施建设完成之后,整个网络处于运行状态,IT部门采用相关的管理方法,对运行环境(包括物理网络,软硬件环境等)、业务系统等进行维护管理,我们把这种IT管理的工作简称为IT运维管理。

IT运维管理包含内容

IT运维是IT管理的核心和重点部分,也是内容最多、最繁杂的部分,主要用于IT部门内部日常运营管理,涉及的对象分成两大部分,即IT业务系统和运维人员。其管理内容又可细分为七个子系统:

第一、设备管理:对网络设备、服务器设备、 *** 作系统运行状况进行监控,对各种应用支持软件如数据库、中间件、群件以及各种通用或特定服务的监控管理,如邮件系统、DNS、Web等的监控与管理;

第二、数据/存储/容灾管理:对系统和业务数据进行统一存储、备份和恢复;

第三、业务管理:包含对企业自身核心业务系统运行情况的监控与管理,对于业务的管理,主要关注该业务系统的CSF(关键成功因素CriticalSuccessFactors)和KPI(关键绩效指标KeyPerformanceIndicators);

第四、目录/内容管理:该部分主要对于企业需要统一发布或因人定制的内容管理和对公共信息的管理;

第五、资源资产管理:管理企业中各IT系统的资源资产情况,这些资源资产可以是物理存在的,也可以是逻辑存在的,并能够与企业的财务部门进行数据交互;

第六、信息安全管理:该部分包含了许多方面的内容,目前信息安全管理主要依据的国际标准是ISO17799,该标准涵盖了信息安全管理的十大控制方面,36个控制目标和127中控制方式,如企业安全组织方式、资产分类与控制、人员安全、物理与环境安全、通信与运营安全、访问控制、业务连续性管理等;

第七、日常工作管理:该部分主要用于规范和明确运维人员的岗位职责和工作安排、提供绩效考核量化依据、提供解决经验与知识的积累与共享手段IT运行维护管理的每一个子系统中都包含着十分丰富的内容,实现完善的IT运维管理是企业提高经营水平和服务水平的关键。

IT运维管理面临的难题

IT运维管理是一门探讨如何提高网络应用性能的课题,怎样利用网络管理做到企业IT基础设施建设的管理、合理分配网络资源、保障生产业务、对网络规划和新业务上马提供支撑,而其最核心的目的是保障企业生产业务。

日常IT运维管理面临诸多难题,具体体现在以下多个方面:

网络设备

在企业IT基础设施的搭建过程中,底层的网络设备厂商和类型多样且复杂。随之而来的问题是:如何将不同厂商的网络和应用管理产品在界面级、消息

级和数据级集成起来实现统一管理?如何让IT管理员了解到整个网络全局的运行情况、发展趋势和可能存在的故障隐患点,以便及时采取相应措施,实现事前管

理。

拿曾经碰到过的一个典型客户来说,它的网络中有11种厂商的路由交换设备,还有存储设备,安全设备,UPS等。同时还拥有:小型机,服务器等,上层的业务系统有OA和CRM等。这样大而复杂的一个网络环境,该怎么管呢?

科学的运维管理思路告诉我们,首先需要解决的是对IT基础设施的管理,管理范围要能覆盖到机房所有硬件设备。这一点是前提和基础。其次,才是对各种应用系统做到很好的监控。最后,才能为业务系统提供足够的保障。

网络流量

在绝大多数的企业网络中,存在不同程度的网络延迟,造成重要业务和应用时断时续,这直接成为企业业务的杀手。另外,网络的带宽也是企业关心的重

点。比如,哪个时间段很拥挤,哪个时间段很空闲,有没有规律,怎么样去调查拥塞的原因,网络带宽都是被谁占用了,是被哪些客户端、哪些应用或者异常应用所

占用了。这些都是摆在每一个企业运维管理领域中很实际的问题。

 该如何很好的解决这些问题呢?

根据多年的运维管理经验得出,对于这种情况,需要采用流量分析的方式。通过对出口流量或者监控对象进行采集,进行24小时实时的监控和分析,可

以对流量进行多角度多层次的挖掘分析,比如按照流量、数据包个数、连接数、协议等类别分析当前网络的负载情况,为网络的优化配置提供参考。通过报表分析展

现流量特征,让IT管理员明白流量被谁、被何种应用、被何种异常行为占用得怎么样。

IT运维管理怎么样帮助IT管理员判断和控制安全问题,也就是作为与防病毒、防火墙、IPS等安全产品不同的角色,从网络的整体情况要能够判断未知的安全问题,并提供修复方案,

在不影响正常网络运行状况下将安全问题防患于未然。如果IT管理员能针对异常行为的特征建立自动告警,在某些安全攻击出现前发现故障隐患,并提供连动的判

断和处理机制,这样IT管理员可以及时采取了措施避免业务遭受损失。如果能在对问题特征自动告警的同时,自动记录问题的原始数据以供事后分析,这样IT管

理员可以再现数据异常行为、捕捉网络数据异动入侵记录,对症下药制订策略防止问题的再次发生。

业务系统

针对日益复杂的业务系统,现有的运维管理系统更多的强调的是功能的展现。比如,从业务主机负载、数据库服务器负载、数据库、中间件、应用系统、

网际流量、进程状况等等不同角度实施联合监控,强调的是性能参数指标的多少,或者是界面的美观程度。当然,这是落实业务系统管理环节所采用的方法。

但事实上,作为企业自身来说,无论采用哪种监控也好,IT管理手段或者运维管理系统也罢,其核心总是需要围绕保障和改进企业的业务系统。

 这就提出一个问题,如何来保障又如何改进企业的业务系统呢?

首先,需要了解清楚业务系统所涉及的具体环节,针对每一个环节进行管理落实。按照科学运维管理的建设思路,分为:用户-网络-硬平台-软平台-

业务系统这五个环节。需要从这五个环节所涉及到的五个方面去做工作。这五个方面分别是:全局的性能管理、故障和事件管理、资源的使用状况管理、安全管理和

数据分析管理。其次,通过性能和历史数据的反映,又可以做到对业务系统提供改进决策的指导。

当然,对于如何保障和改进业务系统这个问题,目前业界众说纷纭,没有统一的标准。但有一点是肯定的,就是需要从企业用户的角度出发,通过明确的管理思路作为指引,使用软件+服务的方式和企业用户共同探索和研究,最终达到对业务的保障和改进。

当前IT运维管理的任务

在企业网络运维早期,IT运维管理侧重于网络、硬件等设备。随着业务系统涉及的环节日益增多,单一的网络管理已经不足以满足管理需求,越来越多的企业已经将关注点从单一网络转变到当前的业务系统,落实保障业务系统的各个环节成为重中之重。

因此,我认为,当前国内用户最关心的莫过于如何保障业务系统的正常运行。IT运维系统应该从业务角度切入,以业务为导向,通过对整个业务系统的关注,落实业务系统的各个环节,从而来达到保证业务系统稳定运行和透明化管理的目的。

IT运维服务可以分为IT基础设施运维服务、IT应用系统运维服务、安全管理服务、网络接入服务、内容信息服务和综合管理服务等等,这些服务内容又可以细分具体的功能。比如:IT基础设施运维服务对IT基础设施进行监视、日常维护和维修保障,服务涉及的基础设施包括网络系统、主机系统、备份系统、终端系统、安全系统、机房动力及环境等等。对这方面有疑问的话,可以找专业的公司去咨询了解看看,目前国内应用性能管理服务的公司有听云,听云可以提供IT运维服务,而且经过13年技术深耕和市场培育,已成为中国应用性能管理(APM)行业领军企业。

一、IT营运管理方法论现今的企业为了强化自己在这个新世纪的竞争力,导入了ERP系统、供应链系统、CRM系统、决策支持系统、知识管理系统等等,这些系统最后都要进到企业的IT营运体系中。当我们透视解决方案生命周期时,可以看到,所有的解决方案最后都要进到企业的IT营运体系中,为企业员工所使用。如果IT的整个营运管理做得不好,那这些花大钱建置起来的系统再好功能再强也没有用,因为使用者根本无法顺利地使用它们。某大型电子公司,共运行了四十多个应用系统,当他的信息主管被问到,哪一个系统最重要时,他回答:「IT的营运与管理最重要!唯有好的IT营运管理,才能让公司上上下下好好的用每一个系统。」这个见解实在是一针见血。既然IT营运管理非常重要,那么如何提供好的IT 服务,对IT 主管或CIO 而言当然是非常重要的课题。答案是采用更新的技术或添购功能更强的设备吗?在1999 及2000年Gartner Group 广泛访问企业CIO 有关服务或应用程序无法使用(downtime) 的原因。结果大家最常认定会出问题的技术或产品(包括硬件、软件、网络、电力失常及天灾等),其实只占了20%,那么占大宗的是什么呢?我想你已经猜到了,作业程序(Process) 失误就占了40%,另外作业人员(People) 疏失也占了40%。作业流程失误包括变更管理(Change Management) 没有做好、超载、没有测试等等程序上的错误或不完整。作业人员疏失包括忘了做某些事情、训练不足、备份错误或安全疏忽等等。Gartner Group 这份访查结果正是80/20 法则的再次印证。我们常想要把系统的可用度提高,当然就是要花大钱购买标榜可提高可用度的硬件或软件。孰不知这个部分事实上只占了系统停机原因的20%。如何做好IT 服务管理,首要工作当然是加强流程和作业人员管理,因为那才是造成系统无法使用的主要原因- 两个原因加起来共占80%!我们常听人家说大型主机(Mainframe) 的 系统比较稳定可靠,所以经过了这么多年还是有许多企业愿意花大钱继续一年年采用。其实真的是它的系统软硬件更好吗?恐怕并不尽然。我们知道,大型主机系统 有着一套完整清楚的系统运作规范可遵循,人员在训练时花在运作程序方面的心力绝对不亚于系统软硬件,甚至是更多。有了严谨的程序,加上完整的人员训练,自 然就可以把那80%的系统停机风险降到最低。那么是否有方法论,可以用来建构企业内IT 服务管理而且是主要IT 厂商都支持的呢?

二、什么是ITILITIL(Information Technology Infrastructure Library)是信息系统运营与服务管理标准,用于定义IT部门管理工作中需要的各个工作程序(Process),以及各个工作程序之间的相互关系。在跨国公司IT经理中素有"IT界MBA"之称。80年代中期,英国政府部门发现提供给其的IT服务质量不佳,于是要求当时的政府计算机和电信局(CCTA),启动一个项目对此进行调查,并开发一套有效的和可进行财务计量的IT资源使用方法以供本国的政府部门和私有部门使用。同时,这种方法还应该是独立于厂商的并且可适用于不同规模、不同技术和业务需求的组织。这个项目的最终成果是一套公开出版的IT服务管理指南,即ITIL(Information Technology Infrastructure Library)。虽然ITIL当初只是为英国政府开发的,但是在90年代初期,它很快就在欧洲其它国家和地区流行起来。到90年代中期,ITIL成为了事实上的欧洲IT服务管理标准。90年代后期,ITIL又被引入到美国、南非和澳大利亚等国家和地区。2001年英国标准协会(BSI)在国际IT服务管理论坛(itSMF)年会上正式发布了以ITIL为基础的IT服务管理英国国家标BS15000。2002年BS15000被提交给国际标准化组织(ISO),申请成为IT服务管理国际标准。国际标准组织已接受这个申请,并为此设立了一个专门工作组。该标准有望在2006年前后生效,可以说,ITIL已是事实上的国际IT服务管理标准。ITIL的目的是帮助企业降低IT运营管理成本,并且提高IT服务水平,提高业务部分的满意度。

三、ITIL的核心思想ITIL它并不是一套理论模式,它所根据的是最佳的实际经验。其中的许多经验不但广为人知,而且有无数的IT机构都是采用它来提升IT服务的效率及加强IT部门间的横向沟通。这套方法论历经了十数年的考验,证明它是最被IT业界广为接受的一套经营IT经验指南,等于是IT管理的业界标准。ITIL将IT的工作分为两大类:分别为《服务支持》(《Service Support》)和《服务提供》(《Service Delivery》Service Support针对的是一般系统的运作部分,目的是让使用者可以顺利存取到IT服务。其中包括Service Desk、事件处理与追踪、问题处理与追踪、系统变更、系统配置设定的记录与维护,以及版本的发行与控管。第二大类Service Delivery则是针对IT部门对客户提供信息服务时应有的工作程序。其中包括服务层级的约定与管理、IT服务的财务管理、系统可用度管理、系统容量的测量与未来规划、灾难情况的业务持续运作规划与系统复原。《服务支持》(《Service Support》包括如下流程:

1 事件管理(Incident Management): 识别偶发的事件。

2 问题管理(Problem Management):对服务台识别的偶发事件的潜在原因加以诊断,安排改正IT基础设施的错误并进行问题预防指导。

3 变动管理(Change Management):变动管理过程确保使用标准方法和规程有效且迅速处理所有变动。变动管理旨在提高组织的日常运作水平。

4 配置管理(Configuration Management):识别、控制、维护和检验现有的包括基础设施和服务在内的IT资产。

5 发布管理(Release Management):通过控制软件、硬件的发行和版本确保信息系统资产的安全,并消除不同版本引起的潜在问题。 《服务提供》(《Service Delivery》)包括如下流程:

1 服务水平管理(Service Level Management):服务水平管理的目标是通过协调IT用户和提供者双方的观点,实现特定的、一致的、可测量的服务水平,以为客户节省成本、提高用户生产率。

2 可用度管理(Availability Management):可用性管理的目标是优化IT基础设施的性能,它的服务和支持的组织。可用性管理导致成本节省的、持续的服务可用性水平,这种服务可用性确保业务满足其目标。

3 能力管理(Capacity Management):使组织在危机出现时管理资源并提前预测需要的额外的能力。它描述了计划、实施和运行该过程必需的规程。

4 持续性管理(Continuity Management):在尽量少的中断客户业务情况下,提供IT服务,并在IT系统出现问题时,以可控的方式恢复。

5 财务管理(Financial Management):确定IT服务的成本核算,设定预算,监督预算执行情况,根据提供的服务收取费用。 针对ITIL管理流程的具体实现,ITIL标准又将实现工具分为三类:Process Management Tools—过程管理工具Analysis Tools—分析工具Execution Tools—执行工具 四、XX银行IT管理规划建议全面实施ITIL模式对任何IT企业都至关重要,但在实施时通常需要循序渐进,并且要从最急迫需要解决问题处入手。最重要的是要采用统一的符合ITIL标准的信息架构。另外,在实施前,切记先记录下现有环境数据,以便随着时间的流逝来衡量成效。我们建议xx银行将规划分为:短期目标,中期目标,长期目标三个阶段实施,从而构建符合ITIL标准的IT服务和管理平台。短期目标:达到目的1)立符合ITIL标准的统一的信息架构(altiris notification server)

2) 保证统一的配置管理数据库(Configuration Management Database)

3)实现变更管理、配置管理、问题管理变更管理(Change Management)为何要做变更管理呢?这里举两个因为变更管理没做好而蒙受重大损失的例子来说明。2001 6 ,NASDAQ当机长达半天,原因是 *** 作人员做了一个未经测试的变更动作,结果导致整个系统停机。同样也是在2001年6月,NYSE在半夜做了一个软件变更的变更动作,导致部份系统当机,无法完成股票买卖交易。这两件事都上了报纸及新闻头条,包括华尔街日报、CNN 及CNBC等等。这反映出了变更管理真的很重要,一旦没有做好它,企业的关键任务(Mission Critical)系统就会受到影响。以银行业为例,只要是IT部门当机一小时,其导致的结果可能是全体员工要花上数倍或甚至是数十倍的时间来补救,而且因为分行里客户大排长龙,负面报导上了晚间新闻及报纸,企业形象受损的损失更是无法估计。这也可以说明为何企业CIO 把变更管理视为第一要务。为进行变化管理,IT组织中应该有变更管理员(Change Manager)及CAB(Change Advisory Board)的编制。变更管理员是全程负责监督RFC从提出到结案整个过程的人。CAB代表是变更咨询委员会。配置管理:在公司内,通常会做所谓的资产管理(Asset Management),也就是把每项公司资产是何年何月何日购入、哪一个会计科目、负责人是谁等信息记载在数据库中,这是一般传统的资产管理方式。但是实际经验显示,如果用这种方式来管理IT相关资产,包括硬件、软件、网络等等,结果会因为记录的信息太过简化而衍生出许多问题。IT资产的管理所必须记录的信息要比一般资产多得多。目前有经验的IT部门都有一套方式来记录IT资产。但是IT资产的管理难道就只是详尽记录它的型号版本等等这些规格信息而已吗?其实这是不够的,还要包含该项资产所有的配置设定,以及它与其它IT资产之间的相互影响关系。这些配置都会输入到所谓的「配置管理数据库」(CMDBConfiguration Management Database)中。准确而完整的CMDB是相当重要的。因此要有一个机制来提供这个信息,这个机制就是配置管理(Configuration Management)。配置管理可存取并提供IT资产正确信息和这些资产间的关系,还能提供对系统的影响及趋势分析,降低未经授权软件的使用情形,以及控制所使用的IT资产。问题管理问题管理的目标就是要找出事件或问题发生的真正原因,并找出对策或步骤来解决问题。我们常说要对症下药。没有针对原因来解决问题,可能可以让服务暂时还可以使用,但如果错误原因没有被消除的话,将来还是会发生问题,事件还会再重复发生─ 进而再度影响IT服务的提供。这 也就是为什么要有问题管理的原因。唯有找到原因,才能解决问题,避免同样的问题一而再,再而三的发生。问题管理分成两个部分,一个是被动的部分─等事件通 报变成问题,再来分析问题,找出问题发生原因,加以诊断,再提出解决方法及步骤。一个是主动的部分,分析趋势,事前先找出可能潜在的问题,主动提出解决方 法及步骤,预防问题将来发生。

4) 对应altiris工具

配置管理Configuration Management 过程管理工具/分析工具/执行工具

Altiris Architecture- altiris notification server 建立统一的信息管理架构

Altiris Inventory solution 资产管理

Altiris web reports 报表分析功能

Asset Control solution 固定资产管理,建立最完整统一的资产信息及相关联信息

变化管理Change Management 分析工具

Altiris Inventory solution 资产管理

Asset Control solution 固定资产管理

Altiris web report 报表分析功能

Application Metering Solution 应用软件管理

执行工具

Altiris software delivery 软件部署与升级管理

Altiris client management suite 客户端 *** 作系统部署、升级;软件的部署与升级;微软补丁自动安全管理;远程控制等。

问题管理Problem management及事件管理 Incident management 分析工具

Altiris Inventory solution IT 资产管理

Asset Control solution 固定资产管理

Altiris web report 报表分析功能

Application Management Solution 应用管理

执行工具

Altiris Deployment Solution 系统部署、升级和管理

Application Management Solution 应用管理

Carbon Copy Solution 远程控制

中期目标:达到目的:实现事件管理、持续性管理(Continuity Management)、可用度管理在现今全球化经济社会下,可用度及IT服务持续性管理可说是最举足轻重的两个重要程序。营运服务能否持续每天24 小时,一周7天地正常运作,变得愈来愈重要。可用度能左右顾客满意度,并且能快速的影响企业整体声誉及业务是否成功。IT服务持续性管理程序是要确保正常可用的解决方案发生问题后,依然能够持续提供另一个等级的IT服务给客户。从这个观点来看,可用度管理及IT服务持续性管理的关系非常密切。这两个管理程序都是试图减小IT服务的可用度危机。可用度管理的焦点主要是集中在处理日常可能出现会影响到可用度的危机,如果无对应的反制措施或反制措施没有办法完全涵盖或应付时,这些危机就由应变计划及IT服务持续管理程序来处理。IT服务持续管理程序分做3 个步骤。第一步是取得Service Level Agreement,然后分析及找出每层的危机,将IT服务分成下列层级:服务、应用软件、中介软件、 *** 作系统、硬件、网络、环境、外在影响因素。第二步是提出这些紧急状况的解决方法;这包括两个部分:第一个部分是Failover,第二个部分是Recovery。Failover 包括有几种选择:Cold Standby、Warm Standby 及Hot Standby。第三步则是制作应变计划。对应altiris方案:

服务水平管理(Service Level Management) 过程管理工具/分析工具/执行工具

Altiris helpdesk Solution 建立统一的service desk

持续性管理(Continuity Management) 分析工具

Altiris Site Monitor Solution 网络站点监控模块

Altiris Monitor Solution 服务器监控模块

Application Metering Solution 应用监控模块

执行工具

Altiris Recovery Solution 恢复模块

长期目标:达到目的:IT财务管理分析(Financial Management)

IT财务管理分析Financial Management) 过程管理工具/分析工具/执行工具

Altiris Contract Management Solution 合同管理

Altiris TCO Management Solution IT 总体拥有成本分析

当前,随着企业数字业务的快速发展和业务量的攀升,企业信息系统架构的升级变迁,以及企业多套业务系统的在线运营,各类监控组件和应用系统间的关系错综复杂,系统运维的难度也急剧增加,且面临着巨大挑战。

在传统运维方式下,数据规模大且离散,数据治理和全面分析能力薄弱且依赖于经验和规则,运维十分被动,解决问题效率非常低下,运维的实用性大打折扣,难以满足当前主动运营的要求。

具体来说有以下几点:

发现问题难:企业在经年累月中布局了诸多监控工具,但是监控手段阈值的设定单一,且一般都是静态阈值,而指标和告警的异常却是多样化的,这样就会造成大量的误报漏报现象。此外,目前绝大多数的监控工具,缺乏趋势预测能力,使得运维局面非常被动,导致发现问题十分困难。

根因定位难:发现问题时一般都是对问题进行定性分析,可能了解到某一告警对应的指标波动是值得关注的,但是并不能因此确定造成这种现象具体根因。而且目前的监控工具,大多缺乏综合根因定界及定位分析的手段,即便对监控进行了集中管理,也难以通过单纯的几种指标进行根因定位。

数据治理难:当数字化建设进行到一定程度的时候,被管理对象的数据量相应的也是水涨船高,数据数量大、类别多且非常分散,很难通过某一指标体系来衡量系统的健康度,也没有一个统一的视角去判断数据质量的好坏优劣。

运营分析难:现有的大多数基础监控工具,多数都是从自己的管理阈例如系统管理、网络管理出发看待问题,缺乏端到端的分析能力,没办法以业务视角从综合运营分析的角度,去看待多样化指标对系统的影响。

而智能运维是一种全新的数字化运维能力,也将是数字化转型的必备能力。智能运维相对于传统运维模式而言,能够在运维数据治理、业务数字化风险、运维人力成本和业务侧影响力四个方面有本质的效能提升。

智能运维相对于传统运维模式而言,能够在四个方面有本质的效能提升:

运维数据治理。通过高性能实时处理的数据平台广泛采集、处理和分析数字化业务运行过程中的多样化运维数据,包括告警、指标、日志、配置以及运维工单等类别,不仅提升了运维大数据的治理能力,优化了数据质量,而且为进一步激活运维数据的价值打下了良好基础;

业务数字化风险。使运维人员不仅提升了历史运维数据的分析能力并且能够对实时数据进行异常检测和问题预判,有效降低数字化业务的运行风险,提升可用性、稳定性;

运维人力成本。使真正意义上的跨域根因定位成为可能,降低对专业运维人员经验技能的依赖,迅速缩短故障排查时间并有效降低人力成本;

业务侧影响力。以业务视角利用多元化数据提高运营分析和决策能力,比如端到端的分析业务交易状态,提供给业务、客服部门及时反馈和决策支持依据,充分增强业务影响力;

智能运维发展正如火如荼,Gartner预见其为下一代运维,认为到2022年将有近50%的企业用户部署智能运维。虽然目前不少企业已经在积极投入建设,也还有一些企业处在迷茫阶段,对这种趋势不太清晰,借用著名作家威廉吉布森的话,“未来已来,只是分布不均。”

互联网的基础设施总共有七个关键十分的组件:

(1)互联网网络。互联网网络可以连接上物联网的传感器和执行器。传感器是测量的设备,执行器则是控制和采取措施的设备。

(2)互联网通信总线。互联网的基础设施会进行总线的集成来将网络链接到数据聚合平台。企业和公司可以选用公共总线来管理和保护物联网流量,而不是建立多个不同连接。

(3)分析和汇总平台。传感器和执行器的数据在分析和汇总平台被集中,可以在边缘计算设备或云平台上进行分析。(4)互联网平台网络。平台网络将分析和聚合平台连接到其他平台网络,这些平台不仅基于云计算。这些平台网络于低延迟的硬连线连接服务以及WAN交换运营商和直接云连接技术。

(5)聚合和可视化平台。数据和分析平台通常基于云计算,包括可视化、数据管理和数据分析工具。

(6)管理和控制系统。该控制系统为企业技术人员提供物联网组件与网络平台间的交互的视图。

(7)网络安全。互联网基础设施的组件集成在网络安全平台和框架中,这与物联网用例中一致。

以上就是关于大企业应该如何高效管理自己的IT系统全部的内容,包括:大企业应该如何高效管理自己的IT系统、互联网化架构下的it系统运维有哪些难点、IT运维服务都有哪些分类等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!

欢迎分享,转载请注明来源:内存溢出

原文地址: https://outofmemory.cn/langs/8843213.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-04-22
下一篇 2023-04-22

发表评论

登录后才能评论

评论列表(0条)

保存