1总则
11目的
为更好的应对机房停电此类突发事件,提高处理各类停电事件的能力,建立健全可靠的应急机制,最大限度地降低各类停电事件对公司各部门的影响,参照《XXXX数据中心突发事件应急处理程序V21》,特制定《XXXX 机房停电事件应急预案》(以下简称预案)。
12工作原则
(1)预防为主。立足安全防护,加强预警,重点保护公司重要系统信息,数据安全。
(2)快速反应。发生突发事件时,《XXXX数据中心突发事件应急处理程序V21》,及时获取充分而准确的信息,迅速处置,最大程度地减少突发事件影响。
(4)坚持“统一领导、协调配合、明确责任、坚守岗位”的原则。
13适用范围
所有机房临时停电,突发停电以及较长时间停电的事件。
2组织机构及职责
21组织机构(联系人名单及每半年更新一次)
规划运营:主要联系人及:
IT 主要联系人及
Helpdesk:分机:XXXX。(7 X 24工作)
各主要设备供应商联系人及:
22各组织机构职责
1)规划运营部门应尽可能及时通知所有部门停电信息,且准备好应急措施,若需要柴油发电机工作应提前检查柴油机性能,输出电压是否稳定以及柴油等辅助设备是否充足。
2)IT部门应及时做好停电应急措施,通知各相关部门做好重要数据备份,并通知到机房设备供应商,同时做好拉闸限电的准备。为保障停电期间和恢复供电后机房所有设备正常运行,IT所有相关人员在此期间必须保持随时待命状态。
3)机房设备供应商应做好相关设备技术支持工作,若是计划内停电,应提前对机房设备做好停电应急方案,且在停电至恢复供电,所有设备恢复正常期间保持随时待命状态,重要关键设备,须有技术支持人员现场侯命;突发临时停电应尽可能做好远程技术支持工作。
3 IT部门应急预案
31机房长时间停电应急预案
⑴ 接到长时间停电通知后,应询问停电原因及具体停电时间并及时通过System Helpdesk发布或电话通知停电公告,要求各部门尽可能在停电前停止业务、保存数据,关闭所有能关闭的用电设备。
⑵ 根据停电时间长短情况,协同规划运营部门部署应急措施,检查应急设备是否正常,若时间条件许可模拟停电测试应急设备性能。
(3) 对机房设备用电做好统计,做好拉闸限电预案。
(4) 各相关技术支持人员部署到位,确保停电期间重要系统和设备运行正常,以及恢复供电后所有系统,设备运行正常。
(5)通知相关部门,停电期间加强对存在安全隐患的设备及区域的巡查(如电梯间,水房等),保障公司人员和财产安全。
(6) 机房管理人员详细记录事件原因及此期间采取的应急措施,备案。
32 机房突发性临时停电应急预案
(1)相关人员发现突发性停电时应立即报告部门领导,及时了解停电原因及停电时间,并立即检查机房UPS及其它设备是否运行正常,检查各系统是否运行正常,同时查询机房设备相关记录,计算UPS当前状况下可供电时间,并向相关部门领导汇报。具体事件 *** 作流程参照《XXXX数据中心突发事件应急处理程序V21》执行。
(2)告知各业务部门停电相关信息,判断停电时间长短做好相应应急措施,提醒各部门做好数据备份以防万一。
(3)通知相关部门检查存在重大安全隐患的设备运行情况(譬如电梯,水房等),保障公司人员和财产安全。
(4)通知IT部门机房管理人员及机房设施相关人员进入紧急待命状态。
(5)恢复正常后,查明停电原因,记入机房安全管理日志。
4 培训和演习
41培训
IT运维部门及机房相关人员每年至少开展一次机房停电等突发事件处理的培训,提高机房管理人员及其相关人员的应急能力。
42预案演习
各应急组织机构每年至少安排一次演练,通过演练发现应急工作体系和工作机制以及各备用设备,系统存在的问题,不断完善应急预案,提高应急处理能力。
5 附则
51预案更新
本预案结合演练和实施情况,及时进行修订和完善。
52责任与奖惩
各应急机构对在应急事件处置中作出突出贡献的集体和个人,提出表扬和奖励;对玩忽职守,造成不良影响或严重后果的,按有关规定提出处理意见,并追究其责任。
53制定和解释
本预案由IT 运维部门制定并解释。
54本预案实施或生效时间
本预案制定后提交部门讨论,审批通过后执行。题主是否想询问“vcenter休眠了的原因是什么?”。
1、检查vCenterServer所在的物理或虚拟服务器是否处于休眠状态。
2、检查vCenterServer服务是否已启动。数据中心机房突然断电的处理方法有一般分两种。
1、如果数据中心机房中配置了UPS,市电断电后,那么UPS就会启动电池放电,通过UPS逆变器给后端设备提供不间断电。如果断电很长的话,那么在电池放完电前可启动前端的发电机给后端设备供电。这种配置了UPS的机房,后端设备可以不间断供电。
2、如果数据中心机房中没有配置UPS,市电断电后,那么就只能启动机房配置的发电机,通过ATS切换来给后端设备供电。这种没有配置UPS的机房,停电后只能中间断下电,之后再通过发电机供电。如果vCenter 7管理界面无法打开并持续打圈,可能有以下一些原因:
1 网络连接问题:检查你的网络连接是否正常,尤其是vCenter服务器与客户端之间的网络连接。确保vCenter服务器和客户端在同一个网络中,并且没有任何防火墙阻止了它们之间的连接。
2 vCenter服务故障:检查vCenter服务是否正在运行,并确保它的状态正常。如果vCenter服务无法启动或崩溃,可能需要重新安装或修复vCenter。
3 浏览器缓存问题:清除浏览器的缓存和Cookie,然后尝试重新登录。另外,尝试使用不同的浏览器来访问vCenter管理界面,看是否能够解决该问题。
4 vCenter版本兼容性问题:确保vCenter版本与其他相关组件(如ESXi主机)的版本兼容。如果版本不兼容,可能需要升级或降级vCenter以解决该问题。
如果以上方法都无法解决问题,建议联系VMware技术支持获取进一步的帮助。虚机状态无法改变,任务停止在启动过程中、比如还有删除快照的时候感觉好像进程 是死在那里,任务列表显示 Power on virtual machine:in progress 一直不结束,虚拟机的各种按钮都是灰色的,仅有电源按钮处于按下的状态,无法对此虚拟机进行任何 *** 作。
以及出现Vcenter 自动断开的情况。
一般原因是由于ESX上与VC/VIC通讯的服务有故障,VM状态混乱
如果是服务有故障
那么尝试重启hostd和vpxa服务。
Hostd服务负责管理ESX上的大部分 *** 作,vpxa服务是管理代理,用于处理主机和客户端之间的通讯,客户端包括vCenter Server和任何连接到ESX的VI client。
重启hostd服务,service mgmt-vmware restart。
重启vpxa服务,service vmware-vpxa restart。
VM状态混乱:
vmware-cmd vmfs/volume/vmfslabel/vmname/vmnamevmx stop
vmware-cmd vmfs/volume/vmfslabel/vmname/vmnamevmx start
如果命令无法执行, 强制关闭该VM的进程
ps -ef | grep <vmname> (注意确定VM的PID)
kill -9 pid
然后按正常方法启动VM
载入如果出现VC的通信故障或者VC无法连接,登录到VC主机
重启VC服务
这里再提一个技巧,如果你是SERVER2008的系统,将上述服务设置延时启动(自动)可以解决有时候VC无法连接到数据库的问题,特别是VC和SQL装在一台服务器上的情况,建议安装VC时候将VC和SQL分开安装。
虚拟机与物理服务器的差别突出了解决虚拟机问题的特殊挑战。在物理服务器重新启动之前,你可以切断电源作为最后的手段解决问题。不过这个策略不适合虚拟机,因为它只有虚拟电源开关。有一些工具包可以帮助预防问题或使检修过程更容易。在这篇文章中,TechTarget中国的特约虚拟化专家Eric Siebert将讨论这些工具包,并逐步解释怎么样修理各种常见的问题。
VMware工具
你自己所熟悉的第一套工具是VMware的工具。VMware工具是一套增强型驱动和应用程序,安装在虚拟机 *** 作系统上。最好的做法是要养成一个习惯——随时安装VMware工具以确保虚拟机的最佳性能和稳定性。并且安装任何升级补丁到ESX后(一些ESX补丁偶尔也需要更新到VMware工具),要反复查看以确信你运行的是最新版本的VMware工具。在VMware Infrastructure客户端的虚拟机窗口上有一栏,这一栏显示了每台虚拟机VMware工具的状况——是否运行正常、是否过期或未安装。
虚拟机文件类型
作为检修过程的一部分,你需要了解所有不同的文件类型。我们来看看这些与虚拟机相关的文件:
nvram file——这个文件包含了虚拟机的CMOS/BIOS。
vmdk files——这些是磁盘文件,为虚拟机里的每个虚拟硬驱动创建的。使用vmdk扩展名的文件有以下三种类型:
–flatvmdk file——这是为每个虚拟硬驱动创建的真实的原始文件。
vmdk file——这是磁盘描述文件,描述了虚拟磁盘文件的大小和形状。
–deltavmdk file——这是一个特定的文件,当你对虚拟机进行快照时创建的(也是REDO重做日志)。
vmx file——这个文件是虚拟机最初配置文件。当你创建一台虚拟机并进行硬件配置时,这些信息存储在这个文件里。
vswp file——这是虚拟机swap交换文件(早期的ESX版本在每台主机上都有SWAP文件),这个文件允许ESX服务器增加新的虚拟swap空间。
vmss file——这个文件创建于虚拟机暂停模式下,用于保存暂停时的状态。
log file——这是记录虚拟机活动日志的文件,用于检修虚拟机故障。
vmxf file——这是文本格式的附加配置文件,为同一组虚拟机创建。
vmsd file——这个文件用于存储关于快照的元数据和信息。
vmsn file——这个是快照状态文件,存储了使用快照时虚拟机当时运行状态的信息。
日志文件
了解了虚拟机文件类型,我们来看看日志文件。日志文件是解决虚拟机问题的最好途径。当问题发生时,这是你首先需要检查的。
最重要的文件是Vmwarelog file。这是ESX服务器上的虚拟机主要的日志文件,位于工作目录。Vmwarelog通常是目前的工作日志,旧的日志文件以数字上的增加来表示,例如,vmware-1log。
在ESX主机上,你也需要检查/var/log/vmkernel和 /var/log/vmware/hostd日志,以查看是否与虚拟机故障有关。有时,重新启动ESX主机上的主机服务将解决棘手的虚拟机问题。对于更多的常见问题,有很多技术可以解决。下面讲到一些这样的问题。
问题一:不能关闭虚拟机
其实是不能用虚拟电源控制器关闭虚拟机。你可以采用命令行的方法试着手动地注销虚拟机。下面列举了好几种方法。在决定采用重新启动ESX主机之前,试试这些方法。
1通常尝试的第一种方法是使用vmware-cmd命令行。
登陆服务控制台
键入“vmware-cmd –l”得到所有虚拟机及其路径的列表
键入“vmware-cmd //vmx getstate”查看虚拟机状态
强制关闭“vmware-cmd //vmx stop hard”
再次检查虚拟机状态,现在应该是关闭着的
键入“vmware-cmd //vmx start”启动虚拟机
2第二种选择是手动注销虚拟机,通过找到虚拟机进程标识符(pid)并使用注销命令终止它。
登陆服务控制台
键入“vmware-cmd –l”得到所有虚拟机及其路径的列表
键入“vmware-cmd //vmx getstate”查看虚拟机状态
键入“ps -ef | grep”
第二栏显示虚拟机vmkload_app的进程标识符pid,你也可以输入“ps –eaf”查看所有的运行进程
键入“kill -9 pid”
重新查看虚拟机状态,现在应该是关着的
键入“vmware-cmd //vmx start”启动虚拟机
3最后一种方法是使用vm-support命令强制关闭虚拟机
登陆服务器控制台
键入“vm-support –x”或“cat /proc/vmware/vm//names”,选择你要关闭的虚拟机标识符
键入“vm-support –X”注销虚拟机及生成内核转储(core dumps)
提示你是否保存虚拟机屏幕截图,发送NMI到虚拟机并发送终止命令。你需要点击确定按纽来注销虚拟机。整个过程需要5到10分钟运行。这将在目录里创建一个报告存档(tar archive)。
问题二:不能启动虚拟机
另一个常见问题可能是不能启动虚拟机。这种情况发生在主机服务器没有虚拟机要使用的足够资源。例如,如果虚拟机有一个内存预留设置(memory reservation),ESX主机没有足够的物理内存来满足要求,虚拟机就不能启动。如果发生这样的情况,你可以选择删除虚拟机的内存预留,把虚拟机迁移到另一台有更多剩余物理内存的主机上,或者选择把现有主机上的物理内存空出来。
同样,当虚拟机启动时,需要在ESX主机上的虚拟机工作目录里创建一个vswp文件,这个文件与分配给虚拟机的RAM(减去任何内存预留)大小一样。如果你的ESX主机没有足够硬盘空间的话,也不能启动虚拟机。工作区设置的内存预留大小与分配给RAM大小一样,所以vswp文件尺寸将是0字节。不过,你要注意在VMFS(虚拟机文件系统)卷上预留额外的磁盘空间给日志、swap交换文件和快照等,这一点很重要。
问题三:虚拟机由于 *** 作系统损坏遇到启动错误
如果虚拟机由于 *** 作系统损坏或错误配置在启动时出现问题,解决这个问题的方法是添加它的虚拟磁盘到另一个运行着的虚拟机,因此,你能访问驱动并作出必要的修理。为了修理有问题的虚拟机,你要确保这台虚拟机是关闭着的。下一步是添加额外的驱动到工作着的其他虚拟机并浏览有问题的虚拟机的磁盘文件。启动工作着的虚拟机。现在,你能访问有问题的虚拟机的驱动以作出任何改变和改正。从工作着的虚拟机移除驱动,添加到有问题的虚拟机,然后试着重新启动。
问题四:普遍的虚拟机 *** 作系统问题
为了检修虚拟机 *** 作系统的问题,我创建了一个ISO文件工具包,包含有用的检修应用程序,它能很快地启动虚拟机的CD-ROM并能用来修理(或启动)虚拟机。我使用的一些ISO文件包括下面几种:
Sysinternals工具——检修Windows服务器问题的好工具。
Gparted——基于Linux的磁盘分区编辑器。
Knoppix——基于Linux的CD盘,包罗许多工具很应用程序。
Ultimate Boot CD——包含许多系统修理和测试工具的CD盘。
UBCD4Win——基于Windows的CD盘,包罗许多系统修理和测试工具。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)