IDC机房维护工作都有哪些

IDC机房维护工作都有哪些,第1张

数据中心运维可以分为两大类,其一是基础设施运维,其二是基础环境运维(IaaS类)
下文逐步分解:
一、基础设施运维:
11机房管理方面:
111机房人员出入管理(管理工具如:出入人员管理流程含出入申请审批等)
112机房设备出入管理(管理工具如:设备出入申请,设备双电要求最重要的是机房设备台账)
113机房承重(通过控制入室设备重量可以降低承重风险)
114机房环境温、湿管理(通过巡检记录加以管理)
115机房电力管理(通过巡检记录加以管理)
116机房的监控管理(通过进出机房人员的数量与111章节内的人员出入做比对)
117机房线缆管理即网线(含存储线等)、光纤和电源线管理(其内容主要围绕着横平竖直,捆扎带松紧,电源线长度预留等)
执行以上内容的人员素质不需要很高,但是,注意,管理以上执行者的领导(领队、带头人)在选择时至关重要。
工作执行中,本着不需要执行者“动脑”作为工作原则,即,制作完美的SOP,完整的交接班制度和可落地的工作流程及问题处理流程即可驱动
PS:特别注意夏天,空调工作效率会降低,注意,撰写应急预案
12机房容灾方面
制定机房应急预案,其中重点包括但不限于,空调故障时应急预案,单路电力故障时应急预案,环境温湿度高时应急预案等
二、基础环境运维:
基础环境运维实际可以分为周期性工作和非周期性工作,指导思想来自ITSM(itil)
名词解释:
周期性工作
服务请求
事件处理
变更管理
问题-风险跟踪记录
21 周期性工作
所谓的周期性工作,指的是周期的、重复的工作,比如:配置备份、账户回顾、配置回顾、更新各类系统的 *** 作手册等等。别小看周期性的工作,其实它是运维工作权值较高的工作内容,怎么将周期性的工作合理而有效的运转起来呢?我们工作中将周期性工作纳入运维日历,将重复性的工作条带化规范化,通过制作SOP,检查SOP执行情况,执行团队反馈SOP使用情况,跟进SOP优化情况,进行周期性的、重复性工作的执行指导。 ----以上内容不知道有没有说透,要是没有请留言。
22非周期性工作(主要含服务请求、事件处理、变更管理、问题-风险跟踪记录)
本章节内容,主要围绕着流程、SOP、PDCA进行展开,那么咱们现在需要名词定义
定义,服务请求、事件处理、变更管理,问题-风险跟踪记录,如果学习或了解过ITSM的工程师对以上的名字并不陌生,我也是,我认真的学习过上面的内容,我的同事、朋友也学习过,但是我们在在针对以上名词进行探讨的时候却发生了很大的奇异,所谓的奇异就是我们各自理解的不一致,而且这个现象困扰了我们很久,举个例子,领导让我在AD上创建一个账号,让我来做时,这个 *** 作其实是很简单的,但是我应该走什么流程呢?
“执行者不需要动脑子”,通过这句话我恍然顿悟了,边界不清那么咱们就定义边界,怎么定义呢,这时候就引入了工作分类表,就是说,将运维工作量化,制作服务请求分类表,事件分类表,变更分类表,然后按照机房管理的内容照章工作即可----以上内容不知道有没有说透,要是没有请留言。
以上内容由 付林 提供

我们知道,服务器是给各类平台/系统提供全天候服务的,所以基本上服务器都是全年7x24小时不间断运行。在这样长时间的运行下,服务器是需要定期维护的,以便及时发现潜在的问题,就像人类一样,需要定期体检。

服务器的维护也涉及多个方面,需要哪些维护及维护目的是啥呢?我给大家总结一下:

1、系统升级、补丁修复:

服务器系统用得最多的就是WindowsServer、Linux,不管是哪种系统,都存在一定缺陷的,所以当有漏洞曝出时我们要第一时间进行修复,防止被黑客利用。

总体上而言,Linux较WindowsServer更稳定。

2、服务器运行状态检查:

我们每周至少一次要登录服务器检查其运行情况,比如说:

查看服务器负载大不大,负载大时直接影响服务器的稳定性;

磁盘使用率,有些程序异常时会写入大量日志,导致服务器磁盘占满;

内存消耗是否正常;

带宽使用是否正常,带宽占满会导致别人请求服务时加载过慢;

另外还要重点查看各类日志,判断是否有人恶意攻击等行为。

不少人买了服务器后就扔在那里,很少管理,时间一长可能就被人黑了。

3、应用服务检查:

服务器上会部署相关服务,如WEB服务。我们主要检查:

服务进程是否正常,是否进程异常被系统Kill;

目录及文件权限是否正常,是否被上传恶意文件;

4、硬件检查维护:

服务器各硬件在长时间的运行下,都会慢慢老化。而在所有部件中,硬盘损坏情况是比较常见的。当然了,硬件检查这个工作不是我们来进行的,而是机房管理人员会协助我们做检查,因为服务器都是托管在远程机房,我们无法直接检查。

这里需要注意,电力稳定因素要考虑,我们之前托管的机房还断过几次电,这种情况下特别损伤硬件寿命。

在一个机房,一要知道机房的拓扑结构,二,要知道每一个设置所发挥的作用。

当机房大面积出问题的时候,要理性的判断出是哪个环节出了毛病。

交换机的管理和使用。WIN2003和LINUX的安装。

当机房有攻击的时候,怎么用最好,最快的方法解决棘手问题。以上很重要

经常遇到的是,做系统,重启服务器。

常用数据库的安排和调试,常用软件安装。

网站程序等。

idc机房维护的主要职责是保障机房设备正常运行,通过对机房环境支撑系统、监控设备、计算机主机设备定期检测、维护和保养,保障机房设备运行稳定,通过保养延长设备生命周期,降低故障率。确保机房在突发事故导致硬件设备故障,影响机房正常运作情况下,可及时得到设备供应商或机房服务维护人员的产品维修和技术支持,并快速解决故障。

既然已经放机柜里了而且也有专用空调降温的话,别的倒也不需要作了,不可能让他密封不透气!不过有一点,时间长了一定要将机器停机,这个时间一般是半年,就看你们那得环境有多恶劣了!将交换机里的主板、模块、还有电源模块,服务器里的板卡、电源上的尘土一定要清干净。因为时间越长积的土越多,芯片的热散不出去,由于设备的大部分热量都是由芯片产生的!所以长时间使用很容易造成芯片提前老化!还有一个细节就是,光机柜的风扇转不行,经常看看机器本身的散热风扇转不转!如果不转了,那后果很严重的!


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zz/12645171.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-27
下一篇 2023-05-27

发表评论

登录后才能评论

评论列表(0条)

保存