1总则
11目的
为更好的应对机房停电此类突发事件,提高处理各类停电事件的能力,建立健全可靠的应急机制,最大限度地降低各类停电事件对公司各部门的影响,参照《XXXX数据中心突发事件应急处理程序V21》,特制定《XXXX 机房停电事件应急预案》(以下简称预案)。
12工作原则
(1)预防为主。立足安全防护,加强预警,重点保护公司重要系统信息,数据安全。
(2)快速反应。发生突发事件时,《XXXX数据中心突发事件应急处理程序V21》,及时获取充分而准确的信息,迅速处置,最大程度地减少突发事件影响。
(4)坚持“统一领导、协调配合、明确责任、坚守岗位”的原则。
13适用范围
所有机房临时停电,突发停电以及较长时间停电的事件。
2组织机构及职责
21组织机构(联系人名单及每半年更新一次)
规划运营:主要联系人及:
IT 主要联系人及
Helpdesk:分机:XXXX。(7 X 24工作)
各主要设备供应商联系人及:
22各组织机构职责
1)规划运营部门应尽可能及时通知所有部门停电信息,且准备好应急措施,若需要柴油发电机工作应提前检查柴油机性能,输出电压是否稳定以及柴油等辅助设备是否充足。
2)IT部门应及时做好停电应急措施,通知各相关部门做好重要数据备份,并通知到机房设备供应商,同时做好拉闸限电的准备。为保障停电期间和恢复供电后机房所有设备正常运行,IT所有相关人员在此期间必须保持随时待命状态。
3)机房设备供应商应做好相关设备技术支持工作,若是计划内停电,应提前对机房设备做好停电应急方案,且在停电至恢复供电,所有设备恢复正常期间保持随时待命状态,重要关键设备,须有技术支持人员现场侯命;突发临时停电应尽可能做好远程技术支持工作。
3 IT部门应急预案
31机房长时间停电应急预案
⑴ 接到长时间停电通知后,应询问停电原因及具体停电时间并及时通过System Helpdesk发布或电话通知停电公告,要求各部门尽可能在停电前停止业务、保存数据,关闭所有能关闭的用电设备。
⑵ 根据停电时间长短情况,协同规划运营部门部署应急措施,检查应急设备是否正常,若时间条件许可模拟停电测试应急设备性能。
(3) 对机房设备用电做好统计,做好拉闸限电预案。
(4) 各相关技术支持人员部署到位,确保停电期间重要系统和设备运行正常,以及恢复供电后所有系统,设备运行正常。
(5)通知相关部门,停电期间加强对存在安全隐患的设备及区域的巡查(如电梯间,水房等),保障公司人员和财产安全。
(6) 机房管理人员详细记录事件原因及此期间采取的应急措施,备案。
32 机房突发性临时停电应急预案
(1)相关人员发现突发性停电时应立即报告部门领导,及时了解停电原因及停电时间,并立即检查机房UPS及其它设备是否运行正常,检查各系统是否运行正常,同时查询机房设备相关记录,计算UPS当前状况下可供电时间,并向相关部门领导汇报。具体事件 *** 作流程参照《XXXX数据中心突发事件应急处理程序V21》执行。
(2)告知各业务部门停电相关信息,判断停电时间长短做好相应应急措施,提醒各部门做好数据备份以防万一。
(3)通知相关部门检查存在重大安全隐患的设备运行情况(譬如电梯,水房等),保障公司人员和财产安全。
(4)通知IT部门机房管理人员及机房设施相关人员进入紧急待命状态。
(5)恢复正常后,查明停电原因,记入机房安全管理日志。
4 培训和演习
41培训
IT运维部门及机房相关人员每年至少开展一次机房停电等突发事件处理的培训,提高机房管理人员及其相关人员的应急能力。
42预案演习
各应急组织机构每年至少安排一次演练,通过演练发现应急工作体系和工作机制以及各备用设备,系统存在的问题,不断完善应急预案,提高应急处理能力。
5 附则
51预案更新
本预案结合演练和实施情况,及时进行修订和完善。
52责任与奖惩
各应急机构对在应急事件处置中作出突出贡献的集体和个人,提出表扬和奖励;对玩忽职守,造成不良影响或严重后果的,按有关规定提出处理意见,并追究其责任。
53制定和解释
本预案由IT 运维部门制定并解释。
54本预案实施或生效时间
本预案制定后提交部门讨论,审批通过后执行。如何做好服务器的日常维护北京浩然泰同科技与你谈谈IT人员必须知道的服务器日常维护,以下这些细节要留意:
电缆连接
服务器进行电缆连插拔时,设备应当处理关机状态,如果是带电进行电缆连接,可能会对设备造成无法预料的损坏。
开关机顺序
1、开机:先打开总电源,再打开计算机机柜电源,打开外部设备电源(如磁盘阵列、磁带库等),待外部设备自检完成后,最后打开主机电源。
2、关机:关闭 *** 作系统,关闭主机电源,关闭外设电源,最后再关闭其他设备电源和机柜电源。
服务器基本维护常识
1、每天查看服务器状态,查看内容包括服务器CPU占用、服务器内存占用、服务器硬盘占用,数据库状态,数据表状态等。
2、留意服务器各个指示灯的状态,每日检测服务器系统软件版本更新信息,并对检测内容生成报告。
3、查看系统收集的日志。系统日志记录着系统中硬件、软件和系统问题的信息,同时还可以监视系统中发生的事件。用户可以通过它来检查错误发生的原因,或者寻找受到攻击时攻击者留下的痕迹。
4、系统定期自动备份数据,建议用户不要仅局限于线上备份,线下的备份一样重要,这一步骤虽然看似多余,但是一旦服务器内部出现硬件故障导致数据整体丢失,那么线下的数据就是最后的救命稻草。
5、留意系统参数调解情况变量和路径,网络参数设置调解等,及时留意服务器硬盘空间使用情况,若少于10%,要及时清理硬盘的日志文件。
6、每月服务器登录密码更换一次,每月对服务器安全等级评测,及时发现安全漏洞,并对系统进行修补。
7、定期检测机房供电情况。机房内的电源和插座为机房设备专用,非机房设备不得使用机房电源。检测机房内UPS电源是否稳定,并做好记录,UPS巡检记录落实到个人。
8、控制机房的温度和湿度。机房温度控制在20-25℃以内,湿度控制在45-55%之间。
9、做好服务器的静电、防雷、防尘等措施。机柜、设备接地,避免雷击或者静电对机房设备的损坏。定期清理灰尘,按照机房内部、机房外部、机房设备内部合理清洁。
为了避免服务器不稳定出现连接速率慢,又或随时宕机,影响企业的工作效率,所以服务器的日常维护十分重要。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)