在IT服务管理和运维自动化这个领域,业界近年来的发展比较快。从IT服务管理(ITSM)、数据中心自动化(DCA)到开发运营一体化(DevOps),相关概念和理论不断涌现。从IBM、BMC、HP等传统厂商各类工具产品纷纷面世到Puppet、Ansible、Saltstack等开源解决方案风起云涌,各类工程实践也是精彩纷呈。
说到运维分为哪几种,首先有必要先讨论一下运维的定义。通常我们把运维的含义界定为数据中心各专业技术岗位的日常运维工作,具体而言,就是各专业技术岗位人员与各类软硬件运维对象进行交互 *** 作的活动。
所以在过去,运维是个专业密集型、知识密集型工作,直到今天,它在一定程度上还是劳动密集型工作。从运维行业的发展趋势来看,运维工作从早期的人工运维,到自动化运维,如今已走向了智能运维。现在,越来越多的企业意识到,智能运维是一种全新的数字化运维能力,企业基于已有的运维数据,通过机器学习方式从而解决自动化运维无法解决的问题,这也将是数字化转型的必备能力。因为智能运维能够帮助企业快速发现异常、有效诊断问题根因、以业务为导向地进行运营分析和决策、持续有力地提升运维数据质量。
现在,智能运维发展正如火如荼,Gartner预见其为下一代运维,认为到2022年将有近50%的企业用户部署智能运维。
其实这个过程和手机的发展历史很像。一开始我们惊喜的称呼iPhone为“智能手机”,而今天再没有人叫它“智能手机”因为这就是手机该有的样子。所以运维也是如此,在企业数字化转型大潮中,“智能”是运维本该有的样子。
内容来源于国内领先的智能运维AIOps落地解决方案供应商擎创科技。
运维的职责覆盖了产品从设计到发布、运行维护、变更升级及至下线的生命周期,各个阶段的职责包括:
1、产品发布前
这个阶段运维工程师的职责是参与设计并把有关运维准入,主要包括:
(1) 产品的业务熟悉;
(2) 产品架构设计的合理性评估,包括是否存在单点,是否可容错,是否有强耦合等,同时需要提供产品设计的合理性建议以使产品能够满足上线发布并稳定运行的基本要求;
(3) 资源评估,包括所需的服务器资源、网络资源以及资源的分布等,同时把相关产品对资源预算申请的合理性,控制服务成本;
(4) 资源就位,将申请的服务器及基础环境/域名准备就位。
2、产品发布
这个阶段运维工程师负责发布的具体工作,将具体的软件和系统/硬件资源整合形成产品并对外提供服务。
对于已在线服务的更新也属于发布范畴,这个时候的产品发布一般要保障在线发布,在不中断对外服务的情况下完成产品的升级。对于大型复杂的变更也存在中止服务部署完成后再重新提供服务的情况,但这种情况需要运维工程师通过尽可能的技术手段来避免。
3、产品运行维护
这个阶段的主要工作包括:
(1) 监控:对服务运行的状态进行实时的监控,随时发现服务的运行异常和资源消耗情况;输出重要的日常服务运行报表以评估服务/业务整体运行状况,发现服务隐患;
(2) 故障处理:对服务出现的任何异常进行及时处理,尽可能避免问题的扩大化甚至中止服务。这之前运维工程师需要针对各类服务异常,如机房/网络故障、程序bug等问题制定处理的预案,问题出现时可以自动或手动执行预案达到止损的目的。
除了日常小故障外,运维工程师还需要考虑产品不同程度受损情况下的灾难恢复,包括诸如地震等不可抗力导致大规模机房故障、在线产品被删除等对产品造成致命伤害的情况。
容量管理:包括服务规模扩张后的资源评估、扩容、机房迁移、流量调度等规划和具体实施。
4、产品性能/成本优化
产品对外提供服务最重要的一点是用户体验,用户体验中非常重要的是产品的可用性和响应速度。而如何用最合理的资源(如机器、带宽等)支持产品提供高可用和高速度的用户体验,这也是运维工程师的重要职责。
5、产品下线
发展良好的互联网产品将始终在线对外提供服务,但互联网产品快速迭代,也存在相当多孵化的产品最后被淘汰的情况,这些产品都需要做下线处理,这个过程运维工程师主要做好资源回收的工作,将机器/网络等资源回收后纳入资源池中供其它服务使用。
IT运维工程师岗位职责为满足公司的快速发展,提升业务部门网络办公效率,提升IT服务意识,IT运维工程师按照SLA协议承诺受理公司用户提交的IT服务请求,包括用户使用网络、服务器、电脑终端及周边设备等设施过程中软硬件维护、事件处理、 *** 作指导、资讯指导等,提供规范、稳定、持续、高质量的IT可用资源和服务。
一、分担部门KPI指标,实现部门SLA承诺
1、事件管理通过主动积极服务或热线电话和邮箱受理等公司用户提交的IT服务请求;及时记录所有用户的事件,保证记录完整率达标;在SLA承诺的时间内响应用户的事件,响应及时率达标; 对用户事件进行规范的分类、分级,并按事件级别不同要求进行响应和处理;在承诺的时间内处理用户事件,或按规范传递给高一级技术支持,保证事件处理及时率达标;综合运用服务规范、沟通技巧和专业技能处理用户事件,并记录处理过程及方案,保证事件处理平均时间达标; 规范跟踪用户事件的处理进展,最终关闭事件或提交BUG立项,保证事件解决率达标;定期抽样回访用户和汇总用户意见,进行自我批判和持续改善用户满意度,保证用户满意度达标,用户投诉率在承诺范围以内;承诺日平均事件处理数量,主动接管处理事件,高峰期需要灵活调整事件平均处理时长; 运维值班人员按规范跟踪突发事件以及通报相关人员,保证跟踪正确率达标;对本岗负责的事件跟踪处理,根据事件处理经验,提出合理化建议,将各类隐患消除在可控范围内;养成良好工作习惯,做到事前有计划、事中有控制、事后有反馈、完成有记录;
2、配置管理 IT资产配置管理:对IT资产生命周期进行管理,包括分类统计、预购、选购审核、转移审核、报废审核,保证配置管理正确率达标;建设案例库:累积和提炼工程师的事件处理经验制作成案例,并持续丰富运维案例库供查询,案例覆盖已知事件的比率达标,不断提高运维工程师工作效率; IT系统配置信息管理:定期更新网络及应用系统描述信息及技术支持信息配置,保证最新;
3、问题管理对事件进行统计分析,找出疑难、重复发生的事件,纳入问题管理流程,分析问题产生的根本原因,确定可能解决的方案,需要修改网络或应用系统配置时提交变更申请触发变更管理流程。
4、发布管理运维值班人员按规范统一发布信息部网络及应用系统正式公告、变更公告、特殊公告等,正确率达标;
二、其他运维工作承担新员工导师工作,辅导新员工快速熟悉公司文化、环境、工作岗位及提升技能,为新员工顺利通过试用期提供保障;持续反省自身的工作、总结工作中存在的不足和可改善之处,积极对部门运作提出改善建议; 积极参加公司重点应用项目的培训并按事件管理规范提供支持,如SAP、OA系统等;应部门发展需要在不影响现有工作的基础上主动承担其他项目支持,如网络、服务器,程控交换机等;共享个人的技术经验,主持运维内部讲座; 积极参加信息部各类培训,有计划地进行自我学习,不断提升自身专业技能;对重点维护设备进行定期巡检并记录,巡检及时率和正确率达标;
三、其他工作担任IT讲师,应其他部门邀请提供IT技能培训,提高其他部门办公人员的IT *** 作 水平; 贯彻执行公司理念,积极完成上级分配的临时任务;
以上就是关于(转)IT:从运维到运营全部的内容,包括:(转)IT:从运维到运营、《凤凰项目一个IT运维的传奇故事》epub下载在线阅读全文,求百度网盘云资源、IT运维管理包含哪些内容等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)