IT运维管理需要注意什么

IT运维管理需要注意什么,第1张

运维(Operation and maintenance)一般是指对大型组织已经建立好的网络软硬件的维护,其中传统的运维是指信息技术运维(IT运维)。所谓IT运维管理,是指单位 IT 部门采用相关的方法、手段、技术、制度、流程和文档 等,对IT 运行环境(如软硬件环境、网络环境等)、IT 业务系统和 IT 运维人员进行的综合管理。

随着信息化进程的推进,运维管理将覆盖对整个组织运行,进行支持的管理信息系统涵盖的所有内容,除了传统的IT运维,还拓展了业务运维和日常管理运维。其参与的对象也从IT部门和人员,拓展到组织的管理层和各部门,及其相关的业务骨干。运维的最终结果是对软件运行中各种性能的维护。

运维以技术为基础,通过技术保障产品提供更高质量的服务。运维工作的职责及在业务中的位置决定了运维工程师需要具备更加广博的知识和深入的技术能力:

1,扎实的计算机基础知识,包括计算机系统架构, *** 作系统,网络技术等;

2,通用应用方面需要了解 *** 作系统、网络、安全,存储,CDN,DB等,知道其相关原理;

3,编程能力,小到运维工具的开发大到大型运维系统/平台的开发都需要有良好的编程能力;

4,数据分析能力:能够整理、分析系统运行的各项数据,从中发现问题及找到解决方向;

5,丰富的系统知识,包括系统工具、典型系统架构、常见的平台选型等;

6,综合利用工具和平台的能力;

7,运维工作的复杂性对这个岗位的运维工程师们的软素质也提出了要求:时间管理能力,特别是碎片化时间的处理能力;沉稳的心态,面对紧急情况时需要处变不惊;沟通能力、团队协作,运维工作跨部门、跨工种工作很多,需善于沟通、并且团队协作能力要强;

8,工作中需胆大心细:胆大才能创新、不走寻常路,特别对于运维这种新的工种,更需创新才能促进发展;心细,运维工程师是最高线上权限者,需要谨慎心细。

随着互联网的高速发展、网站规模越来越大、架构越来越复杂,互联网公司对运维工程师的需求越来越急迫,同时,对运维所涉及的知识面、专业点非常广,对从业人员素质也要求非常高,运维工作在大型互联网公司也越来越重要。对有经验的运维人员,更是受企业的欢迎。随着5G时代的到来,互联网越来越普遍的运用,对运维人员的需求也会随之增加。所以,现在看来,IT运维工程师的发展前景是非常好的。

经过几十年的发展,it行业在当前互联网技术的推动下,进入了一个资源高度整合的时代,即系统化和智能化的时代。运行维护服务也将向组织化、标准化、专业化、智能化方向发展。

相比其它相关行业发展来说,IT运维服务的智能化管理更具得天独厚的优势,因为IT系统设计本身问题就是一个基于企业数字化、数据化和网络化的,而这几个方面要素恰恰是一切智能化的基础。

手工——机器——自动化——智能化,这种生产方式的演进,其目的就是逐步用机器取代人工,最大限度地把人从繁复的、非创造性的劳动中解放出来,以提高生产质量、降低生产成本。智能化对于IT运维服务来说,同样具有非凡的划时代意义。它不仅能大幅度地降低服务成本、提高服务质量的稳定性,还为商业竞争构筑越来越高的技术门槛。

在长期的运维管理实践中,人们开发出各种运维管理工具,如信息安全系统、负载均衡系统、上网行为系统、网络监控系统、运维审计系统、日志审计系统等等。越来越多诸如此类系统的出现,标志着运维管理进入类似制造业的机器生产时代。下一个阶段的发展趋势应该是将这些系统在业务流程和数据上进行整合,朝着自动化与智能化方向挺进。以便更大程度地取代人工,消除人工服务所带来的非标准和质量不稳定的隐患,并进一步地提高服务效率、降低服务成本。

智能化是建立在大数据基础上的,首先要解决的是运维数据的智能采集。根据客户单位的业务需求,确定运维服务的总体目标,明确需要收集哪些数据?是怎么收集这些数据的?收集这些数据的方法是什么?如何确定不同类型数据的采集频率?如何分类和存储数据?

其次是大数据挖掘。设计运维数据分析模型,从海量历史数据中准确找出IT系统存在的问题。以监控系统为例,大部分客户都购买了网络监控系统,证明实际工作中存在这样的刚性需求。但实际上,大多数客户并没有很好地使用这个系统,主要是因为这些系统在数据准确性上并不理想,对大数据的分析和提取也比较薄弱。由于营销的需要,监控系统开发商把主要精力都放在新功能的开发和数据的展示上,对数据的准确性及分析挖掘缺乏深入研究,因而使得监控系统的实用性大打折扣。

然后是如何集成各种 *** 作工具和它们生成的数据的问题。如何将各种运行维护管理工具集成为一个智能化的运行维护管理平台,充分发挥其整体价值。对于需要人工干预的事件,还需要与服务流程管理系统进行接口,以实现人机服务的集成,实现服务流程的智能化。与运维的组织化、标准化、专业化一样,智能化运维也是运维服务行业发展的大趋势。 谁能顺应这一趋势,把握这个发展机遇,谁就赢得了未来!

本文摘要节选自来源于

>

2020年IT运维市场前景分析

2019年10月29日,第一财经刊发了关于《工信部:加强5G、人工智能、工业互联网、物联网等新型基础设施建设》一文,其中指出,推动新型IT基础设施建设。加强5G、人工智能、工业互联网、物联网等新型IT基础设施建设,扩大高速率、大容量、低延时网络覆盖范围,鼓励企业通过内网改造升级实现人、机、物互联,为企业提供有力的信息网络支撑,让企业IT基础设施成为企业发展之路上的护航者。由此可以看出,国家对企业IT基础设施建设的重视之深,而我们IT运维人员将是这次IT基础设施建设的主力军。

IT运维是企业项目开发后保证业务系统正常运行的必备工作之一,如何满足企业对在线业务系统高可靠、低延时、大容量、零故障等要求或在终端用户无感知情况下处理运维过程中存在的各种各样的突发性问题,是IT运维人员必会的技能,但是如此优秀的IT运维人员几乎一将难求。

既然,IT运维人员对于国家相关部门大力支持的IT基础设施建议那么重要,那么我们IT运维人员都需要拥有哪些能力或IT运维工作内容有哪些呢?

1、IT基础设施运维自动化

由于企业要求IT基础设施能够做到高可靠、低延时、大容量、零故障等,那就需要IT运维人员对底层硬件设备进行用心维护,硬件不出故障才能保证上层业务系统的稳定、高效地运行。

2、IT基础设施之上在线业务系统上线

企业在线业务系统是企业对内或对外提供服务的重要途径,IT运维人员在业务系统开发后,能够准确及时上线业务系统是对其业务能力的重要考核标准之一。

3、IT基础设施及在线业务系统监控自动化

对企业IT基础设施及在线业务系统进行有效监控,能够IT运维人员及时获知硬件或业务系统状态,以此判断硬件或业务系统有效服务能力,对硬件或业务系统故障做到即时反馈,即时处理,不影响企业对内或对外提供服务。

4、IT基础设施及在线业务系统日志处理自动化

对企业IT基础设施及IT在线业务系统进行日志处理(收集、分析、监控、趋势图展示等),获知硬件使用或业务系统中用户行为,以此预测下一周期内硬件或业务系统资源可用情况,及时应对用户访问波峰。

5、在线业务系统发布自动化

使用业界先进工具实现在线业务系统代码发布自动化,打破传统IT运维 "领域隔离",实现真正的一键式发布业务系统,加快系统部署速度,实现用户无感知升级或回滚 *** 作等。

6、IT基础设施平台升级

传统的企业IT基础设施平台对企业在线业务系统需要底层硬件平台的高响应、高可靠、大容量等能力反应不及时或不彻底的情况时有发生,这就需要我们IT运维人员能够对传统的企业IT基础设施平台进行升级,把传统的企业IT基础设施平台升级为云平台,由云平台的高响应、高速度、低延时、大容量等能力为业务系统稳定运维保驾护航。

7、在线业务系统迁移至云平台

传统的企业IT基础设施平台升级为云平台后,需要IT运维人员能够把运行在传统的企业IT基础设施平台之上的业务系统迁移至云平台。

8、云平台运行维护(升级)

云平台运行过程中,需要IT运维人才时刻进行监控、对于云平台突发情况进行处理。

9、IT运维自动化系统开发

由于企业IT基础设施运维过程中,涉及多业务、多场景、多平台等,IT运维人员在运维过程中亟需一套本企业的IT运维管理系统,但是由于每家企业的IT基础设施异样性,导致市场上无法采购标准化系统进行应用,大多数情况下由本企业IT运维人员根据企业自身情况进行开发。

10、业务系统海量数据分析及展示

企业在运营过程中产生大量的业务类数据,并且此类数据对于生产、运营等有利于决策,因此IT运维人员需要对企业内部或行业内的数据进行收集、分析、展示等,最终为企业运营提供决策参考依据。

以上为我们为罗列的IT运维人员能力要求或工作内容,下面我们再来了解一下2020年IT运维市场规模,2020年有越来越多的企业开始拥抱互联网,借助互联网开展“无接触”式业务,特别是在2020年初“新冠”疫情的影响下,公司为了生存开启了全员在线办公及业务全天侯在线处理等,这也就为企业打开了企业在线常态化;让更多的工作借助互联网完成,据权威机构公布称:"这一切将产生约100万相关技术开发岗位及约10万IT运维岗位,至2024年,IT运维行业市场容量将呈现出逐年增长态势,到2024年IT运维管理行业市场规模将达到38328亿元。"

2020年IT运维行业技术展望

企业对于IT运维人员要求越来越“T型”化,其中包含更深层次的专业化,自动化以及智能化,因此在2020年全球大多数的企业都在以行业标杆(例如:谷歌、亚马逊、阿里等)为榜样,着力发展企业自身的如下方向:

1、云计算

云服务器是由云服务厂商提供的性能卓越、稳定可靠、d性扩展的IaaS(Infrastructure as a Service)级别云计算服务。云服务器免去了采购IT硬件的前期准备,让企业像使用水、电、天然气等公共资源一样便捷、高效地使用服务器,实现计算资源的即开即用和d性伸缩。

2、DevOps

DevOps使企业项目开发者与企业项目开发后IT运维人员、测试人员、产品经理、客户等直接发生了连接关系,让项目各方能够进行更好地结合,把以住只关注自身业务转移到整个交付过程,甚至关注到最终服务上,DevOps已经成熟,其在2020年将成为每一位IT运维人员必备技能之一。

3、AIOps

IT运维内容没有变,但是IT运维方式在发生改变,AIOps将为我们IT运维人员“解放”双手,让我们可以花费更少的时间在IT基础设施及IT业务系统监控、日志、安全等工作上,把业务重心投放到企业IT基础设施及IT业务系统发展、运营、服务决策上。

4、SaaS

SaaS(Software-as-a-Service)是企业提供应用、开发、IT运维等全套服务的一种形式,由于其不再需要用户有任何IT基础设施的投入,可以大大降低企业IT成本,获得更优质的服务。

5、边缘计算

随着5G技术大面积应用,更多的边缘设备需要对接到云平台,并享受近十年云计算行业发展的红利,但是如果生硬地把物联网设备与云计算平台对接,将会为云计算平台带来非常大的数据量的同时,也会影响到物联网边缘设备的数据处理能力,因此我们可以考虑把云计算技术向边缘设备进行延伸,这就是我们所说的边缘计算,IT运维人员将主导边缘计算的成云能力。

6、Serverless

ServerLess,为一种无服务模式,目的让企业不再关注IT基础设施,由IT运维人员提供IT基础设施后,多企业可以共享同一IT基础设施平台,企业可以摊销更多IT基础设施成本。

2020年黑马程序员IT运维工程师学习路线图

1、Linux *** 作系统基本功

Linux系统安装、配置,基本命令,VIM编辑器,Linux自有服务,权限管理,YUM包管理,开源项目上线部署。

2、Linux系统服务

网络基础(重点难点TCP/UDP)、sshd服务(scp/rsync)、文件共享服务(ftp/nfs/samba)、DNS域名服务、LAMP编译安装、rsyslog、Linux分区+LVM逻辑卷+(软硬RAID)

3、Shell、MySQL

Shell脚本编程、MySQL从入门到精通(DBA方向)

4、商城系统上线部署

Nginx概述、LNMP环境搭建、MySQL读写分离、LB负载均衡(Nginx/LVS/HAProxy)、NoSQL(Memcached、Redis、MongoDB)、存储、企业级商城系统架构实战。

5、配置自动化

配置自动化(Ansible/SaltStack)、监控(Zabbix/Promethus)、日志分析(ELK、KafKa)、CI/CD(Git、GitLab、Jenkins)

6、运维安全与调优

运维安全(防火墙、CA认证、***)

应用软件调优(Web应用调优)

系统调优(系统+内核)

7、运维云计算

Hadoop、KVM虚拟化、公有云运维(阿里云)、私有云运维(OpenStack)、Docker容器、Kubernetes(K8S)容器编排工具

8、Python运维开发方向

Python运维基础、Python面向对象、Django框架、Python CMDB项目开发

附件为2020版黑马程序员Linux云计算+运维开发学习路线图:

在一个公司内,IT部门一般是为公司其他业务部门提供IT服务,通常是成本中心,非盈利中心。作为成本中心有两个方面需要重点考虑,一方面,需要考虑投入产出比;另一方面,IT部门一般技术力量也不强。从这两个方面考虑,IT部门有充分的理由考虑将部分或者全部的IT工作外包给更专业的公司去处理,让专业的人处理专业的事。

哪些可以外包

上面根据业务的核心程度和技术力量来进行区分哪些IT工作可以外包,对于部分外包的情况可以根据开发的主要流程进一步来确定:

上图中对于运营维护都建议IT部门直接处理,而不是外包,这不是说不能进行外包,而是强调IT部门对运维工作要有绝对的把控,因为这是IT服务好坏的一个底线,可以采用外包代维,但是关键部分,包括流程管控,安全管理等等必须抓紧抓牢。

外包模式

根据外包方多少来区分,外包又有单方外包和多方外包:

单方外包: 将IT业务整体打包外包给一家公司,包括开发、测试、运维整个流程,实行大包干。这种情况优点是可以全面利用承包方的资源,如果选择的是优秀的承包商可以短时间提升IT部门的服务水平。缺点是缺少竞争,长期看可能被承包商“绑架”,另外,让承包方大包干会导致管理、技术方面过多依赖承包方,IT部门内部人员能力下降。

多方外包: 将IT业务根据一定的业务逻辑进行分割,譬如区分CRM、计费、物流、客服等模块,不同模块外包给不同的承包方。这种情况优点是多家参与,服务能力有比较,并且有一定的竞争。缺点是有问题时会出现多家扯皮,另外各个系统之间很多接口需要多方确定,开发和维护需要协调的工作比较多。

一般不是非常重要的系统可以采用单方外包,重要的系统最好还是采用多方外包,不要将鸡蛋放到一个篮子里。

外包的风险和应对

1、信息安全风险高

IT系统处理公司业务信息,其中包括一些公司敏感信息,包括公司的生产经营数据、客户敏感信息、系统核心资源信息等等。这些信息内部人员掌握一般信息安全比较可控,毕竟是内部自己人,如果外包人员全面接触到,信息安全风险会非常高,譬如倒卖用户敏感信息。这种情况下管理上需要加强信息安全流程管控、技术上通过单点登录、4A安全审计等方式方法来提升信息安全水平。

2、人员能力下降

在外包情况下自有人员是甲方,外包人员是乙方,很多事情由乙方外包处理,并且外包具体职责有时也并不十分清晰,人都是有惰性的,长期可能导致甲方人员将本该自己处理的事情都委托乙方处理,就像家里请了个保姆,时间长了主人扫地、做饭都不会了。

3、服务质量下降

一般外包商刚合作时会很积极配合工作,服务质量很高,但是随着接触越来越多,内部人员对开发、运维等把控不够专业和深入,特别是外包合同对外包服务质量的规定如果不是很科学的情况下,外包的服务质量会下降。为应对这种情况需要在合同中明确外包合同的服务质量(SLA),并且明确奖惩方式,另外内部必须有一支对外包出去的业务(包括开发、运维等流程)非常熟悉的骨干队伍,防止被外包商”忽悠“。

外包是一把双刃剑,用的好提升自己功力,用的不好也可能会伤到自己,自己必须有相应的能力来驾驭这把剑!

在IT服务管理和运维自动化这个领域,业界近年来的发展比较快。从IT服务管理(ITSM)、数据中心自动化(DCA)到开发运营一体化(DevOps),相关概念和理论不断涌现。从IBM、BMC、HP等传统厂商各类工具产品纷纷面世到Puppet、Ansible、Saltstack等开源解决方案风起云涌,各类工程实践也是精彩纷呈。

说到运维分为哪几种,首先有必要先讨论一下运维的定义。通常我们把运维的含义界定为数据中心各专业技术岗位的日常运维工作,具体而言,就是各专业技术岗位人员与各类软硬件运维对象进行交互 *** 作的活动。

所以在过去,运维是个专业密集型、知识密集型工作,直到今天,它在一定程度上还是劳动密集型工作。从运维行业的发展趋势来看,运维工作从早期的人工运维,到自动化运维,如今已走向了智能运维。现在,越来越多的企业意识到,智能运维是一种全新的数字化运维能力,企业基于已有的运维数据,通过机器学习方式从而解决自动化运维无法解决的问题,这也将是数字化转型的必备能力。因为智能运维能够帮助企业快速发现异常、有效诊断问题根因、以业务为导向地进行运营分析和决策、持续有力地提升运维数据质量。

现在,智能运维发展正如火如荼,Gartner预见其为下一代运维,认为到2022年将有近50%的企业用户部署智能运维。

其实这个过程和手机的发展历史很像。一开始我们惊喜的称呼iPhone为“智能手机”,而今天再没有人叫它“智能手机”因为这就是手机该有的样子。所以运维也是如此,在企业数字化转型大潮中,“智能”是运维本该有的样子。

内容来源于国内领先的智能运维AIOps落地解决方案供应商擎创科技。

采用何种远维方案可谓见仁见智,并且不同的公司有不同的安全需求和硬件前提。毫无疑问,远程维护不同于本地运维采用什么样的远维方案应该有一个基本的原则。安全和方便应该是选择远维方案的出发点。

远维首先要保证安全性,不管是内网还是外网的远控要保证控制端与被控端的唯一性。也就是说,要预防第三端的介入,杜绝“第三人”的参与。要做到这一点,在被控端要做好安全部署(比如关闭多余端口、IP过滤、控制列表等),以防未经授权的恶意控制。另外,远控方式的安全性也要保证(比如对数据进行加密等),以防“中间人”的嗅探。

远维的方便性这个很好理解,也是IT人员追求的目标。方便性应该包括两个方面的含义,一是 *** 作上的便利,能够以最快的速度实施远程维护,二是远维较少受外界因素的限制(比如地理位置、软硬件设备等),可以随时随地的进行远维。选择方便的远维方案,不仅提高了工作效率,而且保证了假日的质量。

IT运维所涉及的知识面,还是比较广的,而且这个是一个提供技术支持的职位,俗称救火队员,平时看似比较清闲,实则为了避免出现各种险情,还是在紧锣密鼓的学习和研究更合理的架构,但是一旦遇到问题,都是特别棘手,而且影响面极为广泛的问题或者事故。从公司角度来说,可分为对内服务和对外服务。

对内服务就是常说的网管,网管职位属于万金油,首先知识面得广,不同公司会对网管有不同的要求,但是主要的还是保证办公网的网络正常,为了支撑这个网络正常,除了要有网络知识(调试网络设备,堆叠技术,防火墙技术,流控工具,动手搞定水晶头,懂得光线原理,能够规划局域网,DMZ概念等等),还要有一定的服务器管理知识(DHCP、DNS、时间服务器,WEB服务器,FTP服务器等等),甚至可能还需要懂一些监控工具,以保证局域网在发生问题的时候,可以第一时间知道,并收集数据有助于排查问题,而且随着人员数量的扩充或者异地建立办公区,多地办公区之间的通信和安全也是网管的一个职责,这些也只是网管的日常工作而已。

上面说到了这个职位就像救火员,当有了问题之后需要第一时间冲上去,并快速解决问题,这样能体现出网管的重要性。但是会很累,因为事故是突发性的,这样很耗费人力物力财力,与其这样被动等待等待挨打,不如主动出击找出隐患并提前处理,这个就是网管的另一个职责,要么在专修之前考虑好扩容或者网络容灾的问题,要么就是在日常巡检中,发现可能导致异常的隐患,提前提出做好预案以及解决方案,才能因对万一。这就需要网管有多年的经验,而且不仅要懂得网络和服务器相关知识,还应该了解强弱电,通风冷却,这两方面能力主要是在装修的时候,体现出来的。让无论是大机房还是小机房都可以帮正其运转正常。

以上只是运维的一个对公司内部提供支撑的职责,其实还有很多内容,在这里先不一一阐述。如果感兴趣的朋友咱们可以在进行深入的沟通。

以上就是关于对运维工作的理解全部的内容,包括:对运维工作的理解、IT运维工程师发展前景好吗、IT运维管理需要注意什么等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!

欢迎分享,转载请注明来源:内存溢出

原文地址: https://outofmemory.cn/langs/8776181.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-04-21
下一篇 2023-04-21

发表评论

登录后才能评论

评论列表(0条)

保存