运维一般是指对大型组织已经建立好的网络软硬件的维护,其中传统的运维是指信息技术运维(IT运维)。所谓IT运维管理,是指单位IT 部门采用相关的方法、手段、技术、制度、流程和文档等,对IT运行环境(如软硬件环境、网络环境等)、IT业务系统和IT运维人员进行的综合管理。随着信息化进程的推进,运维管理会覆盖对整个组织运行,进行支持的管理信息系统涵盖的所有内容,除了传统的IT运维,还拓展了业务运维和日常管理运维。业务运维面向整个组织提供各业务系统的问题受理、响应、处理和转交等方面的服务;日常管理运维面向整个组织提供针对各业务系统的运行状态和需求变化和不同的记录、跟踪、保存、分析方面的管理
一: 运维工程师要保证线上系统地稳定,这是运维人员的核心价值 ,围绕这个展开,是一个非常大的话题,后面细化\x0d\ \x0d\ 二:基础建设:安全,质量,效率,成本 是运维人员可以展开运维工作的四大方面。围绕着这四个方面,我们需要制定规范,流程,建设对应的系统保证效率,标准化提升效率等等\x0d\ 质量: 立体化监控系统;测速,备份容灾等等\x0d\ 效率: 提升运维效率的系统建设,标准化机器初始化,软件安装标准化,监控标准化等等,提升效率,批量部署脚本等等\x0d\ 安全:互联网安全,系统支持,cgi扫描等等\x0d\ 成本:预算制定等等,合理优化部署,平衡成本与体验\x0d\ \x0d\ 三:基础建设升华:一切以用户价值为依归\x0d\ 1:异地部署 ,异地容灾\x0d\ 2:柔性可用 ,柔性可损\x0d\ 3:全网调度 ,实现成本与 用户体验的平衡\x0d\ 4:优化用户体验:提升速度\x0d\ 四:从一个项目上看运维人员的工作分解\x0d\ 1:项目初期介入,提对应运维需求,需要运维工程师预计运营时可能需要的数据,可以从两个方向考虑:A监控;B评估系统好坏的运维指标,如接口调用数据,用户访问速度等等,提出对应需求,开发在设计时实现,方便上线后运维采集这些数据做系统评估。 这个阶段要了解系统架构,评估运维上是否合理。是否方便部署,运维风险有哪些,从哪些层面可以避免,做好容灾,cache数据丢数,db down掉等的评估以及应对方案设计,全网调度方案等。\x0d\ 2:项目开发阶段,这个阶段运维也要参与其中,了解对应运维需求开发的完成情况\x0d\ 3:项目测试发布: 运维负责运营环境的搭建,发布上线,并监控线上系统稳定\x0d\ 4:项目发布后:保证对应监控,备份,容灾等对应工作完成\x0d\ 5:项目运营阶段:及时对告警进行处理,对系统发展趋势做好评估,扩容等,预估可能的运营风向,并做好对应的应对措施\x0d\ 6:相关演习\x0d\ 7:做好系统优化,提升用户体验\x0d\ \x0d\ 五:从运维人员面对的周边角色做 运维人员的工作分解\x0d\ 1:上游战略依从:理解公司发展方向,调整运营战略\x0d\ 2;开发\x0d\ 3:测试\x0d\ 4:QA\x0d\ 5:老板等
运维的职责覆盖了产品从设计到发布、运行维护、变更升级及至下线的生命周期,各个阶段的职责包括:
1、产品发布前
这个阶段运维工程师的职责是参与设计并把有关运维准入,主要包括:
(1) 产品的业务熟悉;
(2) 产品架构设计的合理性评估,包括是否存在单点,是否可容错,是否有强耦合等,同时需要提供产品设计的合理性建议以使产品能够满足上线发布并稳定运行的基本要求;
(3) 资源评估,包括所需的服务器资源、网络资源以及资源的分布等,同时把相关产品对资源预算申请的合理性,控制服务成本;
(4) 资源就位,将申请的服务器及基础环境/域名准备就位。
2、产品发布
这个阶段运维工程师负责发布的具体工作,将具体的软件和系统/硬件资源整合形成产品并对外提供服务。
对于已在线服务的更新也属于发布范畴,这个时候的产品发布一般要保障在线发布,在不中断对外服务的情况下完成产品的升级。对于大型复杂的变更也存在中止服务部署完成后再重新提供服务的情况,但这种情况需要运维工程师通过尽可能的技术手段来避免。
3、产品运行维护
这个阶段的主要工作包括:
(1) 监控:对服务运行的状态进行实时的监控,随时发现服务的运行异常和资源消耗情况;输出重要的日常服务运行报表以评估服务/业务整体运行状况,发现服务隐患;
(2) 故障处理:对服务出现的任何异常进行及时处理,尽可能避免问题的扩大化甚至中止服务。这之前运维工程师需要针对各类服务异常,如机房/网络故障、程序bug等问题制定处理的预案,问题出现时可以自动或手动执行预案达到止损的目的。
除了日常小故障外,运维工程师还需要考虑产品不同程度受损情况下的灾难恢复,包括诸如地震等不可抗力导致大规模机房故障、在线产品被删除等对产品造成致命伤害的情况。
容量管理:包括服务规模扩张后的资源评估、扩容、机房迁移、流量调度等规划和具体实施。
4、产品性能/成本优化
产品对外提供服务最重要的一点是用户体验,用户体验中非常重要的是产品的可用性和响应速度。而如何用最合理的资源(如机器、带宽等)支持产品提供高可用和高速度的用户体验,这也是运维工程师的重要职责。
5、产品下线
发展良好的互联网产品将始终在线对外提供服务,但互联网产品快速迭代,也存在相当多孵化的产品最后被淘汰的情况,这些产品都需要做下线处理,这个过程运维工程师主要做好资源回收的工作,将机器/网络等资源回收后纳入资源池中供其它服务使用。
IT运维工程师岗位职责为满足公司的快速发展,提升业务部门网络办公效率,提升IT服务意识,IT运维工程师按照SLA协议承诺受理公司用户提交的IT服务请求,包括用户使用网络、服务器、电脑终端及周边设备等设施过程中软硬件维护、事件处理、 *** 作指导、资讯指导等,提供规范、稳定、持续、高质量的IT可用资源和服务。
一、分担部门KPI指标,实现部门SLA承诺
1、事件管理通过主动积极服务或热线电话和邮箱受理等公司用户提交的IT服务请求;及时记录所有用户的事件,保证记录完整率达标;在SLA承诺的时间内响应用户的事件,响应及时率达标; 对用户事件进行规范的分类、分级,并按事件级别不同要求进行响应和处理;在承诺的时间内处理用户事件,或按规范传递给高一级技术支持,保证事件处理及时率达标;综合运用服务规范、沟通技巧和专业技能处理用户事件,并记录处理过程及方案,保证事件处理平均时间达标; 规范跟踪用户事件的处理进展,最终关闭事件或提交BUG立项,保证事件解决率达标;定期抽样回访用户和汇总用户意见,进行自我批判和持续改善用户满意度,保证用户满意度达标,用户投诉率在承诺范围以内;承诺日平均事件处理数量,主动接管处理事件,高峰期需要灵活调整事件平均处理时长; 运维值班人员按规范跟踪突发事件以及通报相关人员,保证跟踪正确率达标;对本岗负责的事件跟踪处理,根据事件处理经验,提出合理化建议,将各类隐患消除在可控范围内;养成良好工作习惯,做到事前有计划、事中有控制、事后有反馈、完成有记录;
2、配置管理 IT资产配置管理:对IT资产生命周期进行管理,包括分类统计、预购、选购审核、转移审核、报废审核,保证配置管理正确率达标;建设案例库:累积和提炼工程师的事件处理经验制作成案例,并持续丰富运维案例库供查询,案例覆盖已知事件的比率达标,不断提高运维工程师工作效率; IT系统配置信息管理:定期更新网络及应用系统描述信息及技术支持信息配置,保证最新;
3、问题管理对事件进行统计分析,找出疑难、重复发生的事件,纳入问题管理流程,分析问题产生的根本原因,确定可能解决的方案,需要修改网络或应用系统配置时提交变更申请触发变更管理流程。
4、发布管理运维值班人员按规范统一发布信息部网络及应用系统正式公告、变更公告、特殊公告等,正确率达标;
二、其他运维工作承担新员工导师工作,辅导新员工快速熟悉公司文化、环境、工作岗位及提升技能,为新员工顺利通过试用期提供保障;持续反省自身的工作、总结工作中存在的不足和可改善之处,积极对部门运作提出改善建议; 积极参加公司重点应用项目的培训并按事件管理规范提供支持,如SAP、OA系统等;应部门发展需要在不影响现有工作的基础上主动承担其他项目支持,如网络、服务器,程控交换机等;共享个人的技术经验,主持运维内部讲座; 积极参加信息部各类培训,有计划地进行自我学习,不断提升自身专业技能;对重点维护设备进行定期巡检并记录,巡检及时率和正确率达标;
三、其他工作担任IT讲师,应其他部门邀请提供IT技能培训,提高其他部门办公人员的IT *** 作 水平; 贯彻执行公司理念,积极完成上级分配的临时任务;
以上就是关于运维,这东西具体怎么做全部的内容,包括:运维,这东西具体怎么做、运维工程师的工作内容有哪些、运维的工作内容有哪些等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)