CNFG 发生硬件配置错误。
DASD 发生硬盘驱动器错误。
FAN 风扇发生故障,或者是运行过慢,或者是
已卸下风扇。TEMP 指示灯可能也会点
亮。
LINK 保留。
LOG 已将错误消息写入系统事件日志。查看IMM 系统事件日志和系统错误日志,获取有关错误的信息。
MEM 当只有MEM 指示灯点亮时,才表示发生
了内存错误。
当MEM 指示灯和CNFG 指示灯都点亮
时,表示内存配置无效。
O V E R SPEC
由于某个电源通道上出现电源超负荷情
况,所以关闭了服务器。电源功率超过最
大额定值。
PS 电源发生故障。
RAID RAID阵列出错。
SP 服务处理器(IMM)发生故障。
TEMP 系统温度已超出阈值级别。发生故障的风
扇会导致TEMP 指示灯点亮。
VRM 模块。
serveraid manger,在Windows下安装,下载最新版本即可,老一点的版本可能需要安装后重启服务器可看到阵列信息1、电源故障:服务器电源本身存在故障或损坏,无法正常供电,导致系统无法正常工作。可以尝试更换电源来解决问题。
2、过热:服务器在长时间运行过程中会产生大量热量,如果散热不良或温度过高,就可能出现设备过热的情况,从而导致故障灯亮起。可以检查散热器、风扇等组件是否正常,并及时清理灰尘等污垢。
3、磁盘故障:硬盘存在物理或逻辑故障,导致数据读写异常或丢失,从而引发系统故障。可以通过磁盘工具对硬盘进行检测和修复,或者更换磁盘来解决问题。
4、内存故障:内存条存在故障或不兼容,导致系统无法正常读取和处理数据,从而造成故障。可以将内存条重新插拔,或者更换内存条来解决问题。
在处理上述问题时,需要根据服务器型号和故障情况进行具体分析和处理,建议寻求专业技术人员的帮助和指导,避免 *** 作不当造成更大的损失。同时,还需注意定期对服务器进行维护和保养,加强硬件的检测和更新,以确保服务器的稳定性和安全性。服务器软件故障是在服务器故障中占有比例最高的部份,约占70%,解决的过程必须更加深思熟虑。导致服务器出现软件故障的原因有很多,最常见的是服务器BIOS版本太低、服务器的管理软件或服务器的驱动程序有BUG、应用程序有冲突及人为造成的软件故障。下面分别举例说明各类软件故障的维修方法。
有一台HP LH6000R服务器,配置为双PIII XEON 700带2M高速缓存的CPU、512M内存。开机后,系统日志报电压调节模块异常(VRM)的错误,报错的信息是:“Voltage Regulator Module (VRM) over/under-voltage 288V/0V”。从表面来看,极有可能是服务器的电压调节模块或其它硬件出现故障,极容易导致维护人员认为是硬件故障。维护人员立刻使用其它LH6000R上的硬件来测试,发现即使使用新的配件,此服务器依然报VRM错。就在一筹莫展的时候,维修工程师带来了最新的CPU管理板(CPU Management Control)的固件(FIRMWARE),于是升级了CPU管理板块的FIRMWARE后,服务器恢复立即正常。
FIRMWARE升级方法是,在服务器的NAVIGATOR(导航光盘)中提取CPU管理板(CMC)FIRMWARE的刷新程序,程序为FLASHEXE,然后将从网上下载的LH6KCBIN(CPU管理板的FIRMWARE)拷贝到一张DOS启动盘上,用这张盘启动服务器。然后在DOS下运行”FLASH /CMC A:LH6KCBIN”,刷新完成后重新启动服务器后即可。这种升级方法也适合刷新系统BIOS等,只是FLASH命令的参数不同以及更新FIRMWARE及BIOS文件名不同,参数请参考服务器的说明。
任何一款服务器的FIRMWARE及BIOS都会有不同的BUG,因为BUG在所难免,所以我们不能错误地认为服务器的BIOS程序就很完善,而应该经常更新服务器的FIRMWARE及BIOS,只是在升级之前应该小心谨慎,错误的升级方法会导致严重的后果。
目前流行的中高档服务器都拥有强大的管理程序,为客户提供了方便的管理途径;服务器也拥有各种 *** 作系统下的驱动程序,方便了客户在各种 *** 作系统中的使用。但是,世上任何一款程序都会有一些BUG,这些BUG将影响用户使用。但是服务器厂商总是会在第一时间内开发出新的程序,客户只需要及时更新这些程序就可以避免这类故障。
当服务器的软件故障为此类时,表现的现象也不尽相同。一般来说,管理程序BUG会导致系统速度变慢,CPU占用率变高,无法正常使用某些功能等;驱动程序的BUG会导致死机、与某些软件有冲突,磁盘工作不稳定等。查看管理程序是否出错的最好的办法就是在系统中首先禁止此类管理工具,再观察服务器是否还是异常。由于管理工具是随着系统启动而启动的,所以应首先避免它的启动。以WINDOWS NT4为例,就首先在管理工具服务中禁用某些服务器软件服务,再修改注册表中的启动项即可。如果是驱动程序有问题的话,就以安全模式进入系统,看是否正常。但是需要注意的是,在安全模式中,系统速度变慢是正常的(特别是磁盘I/O方面)。
服务器的管理人员就应该经常在服务器网站上下载最新的管理工具程序及驱动程序。这样会减少很大一部份软件故障的发生。
相比之下,软件冲突造成的故障判断比较困难,需要管理人员有比较丰富的经验以及敏锐的观察力。
曾经有一位朋友告诉我说,他有一台浪潮的服务器无法安装SQL SERVER 2000,已经重装N次NT了,排除是系统故障。而这唯一的服务器又将作为非常重要数据库服务器,因此非常着急。于是我陪着朋友去了他的公司查看。
这台服务器所在的机房是非常标准、完善的机房,我检查了这台服务器的情况,发现并没有硬件上的故障,于是排除了光驱读盘力差的可能。但是,朋友刻的SQL SERVER 2000光盘引起了我的怀疑,我让他拿出了正版的SQL SERVER安装,结果还是不行。
在安装的过程中,没有出现丝毫错误,可就是在运行的时候会自动退出,没有任何提示。但是,我在管理工具中的事件查看器的系统日志中却发现了一条信息:windataexe导致一个无效的数据溢出。Windata是朋友自己编写的一个程序,而且是随 *** 作系统启动而启动的程序。我立即结束掉这个进程后,再运行SQL一切正常。
对于此类软件故障, *** 作员最好先查看有关的日志,看看系统中是否有可疑的进程。目前的服务器无论是高端还是低端,对于SQL等标准程序的支持是相当可靠的,所以排除的重点就是结束可疑进程。
还有一种软件故障是人为因素造成的,它一般是人为误 *** 作(包括没按 *** 作流程的 *** 作)、意外关机(包括电源突然不供电)或非正常关闭应用程序造成的。
人为误 *** 作因素只要加强管理都可以避免此类故障发生。在这里就详细说明意外关机或非正常关闭程序造成故障的方法。
正常关闭系统程序非常重要,尤其是WEB服务器。我的一个朋友就是因为没有正常关闭系统程序而经历了一次数据损坏甚至丢失的经历。我的朋友是使用的HP web hosting server appliance,因此我向他提供了一些使用规则。
这些方法对于服务器的维护非常有效,主要包括了正确的关闭系统程序、怎样避免数据丢失以及非正常关闭系统后的恢复方法。下面以我朋友的HP web hosting server appliance为例(使用的是UNIX,但思路对于其它 *** 作系统均有效)。
正确关机的过程包括通过按动Power键来使系统断电,你应该一直按住电源开关持续几秒钟才能使系统进入正常的关闭过程中。
另外,为了避免数据丢失,你应该按照如下的步骤 *** 作:
· 经常备份Web Hosting Server Appliance的数据,可以通过网络管理界面来完成。
· 安装第二块硬盘并与原来的硬盘设置成镜像,
一旦Server Apliance未能正确关闭,并无法重起,请按如下 *** 作恢复:
1 当appliance已经断电时,连接一条非modem的串口线(可在机盒中找到)到背面的控制口上。
2 连接串口线的另一头到一台运行Windows的PC的串口上。
3 运行超级链接程序(HyperTerminal),并设置端口的参数为19200, n-8-1, Flow control - None 你可以看到appliance的控制提示,并要求你输入管理员口令。
4 重起appliance,等到提示“LILO boot:”,按住Tab键5秒钟,直到提示变为“boot:”。
5 敲入"emergency"并回车。此时需要耐心等待几分钟。然后,登录提示又将出现,此时,LCD屏又能正常工作了。
6 在LCD屏上选择一个随机的密码(此密码只是用于紧急恢复时用)
翻至Defaults… 并按右箭头键选中。
翻至Root Password…并按右箭头键选中。
翻至Random 并按右箭头键选中,会提示一个随机产生的密码。
记下此密码。
翻至Yes并按右箭头键选中,系统密码会立刻更改。
7 回到超级链接的控制屏,登录appliance,用"root"用户名和刚才的密码,此时会出现“#”提示。
8 为修复分区,请按如下方法 *** 作:
对于sa1100,按顺序输入:
[…]#: fsck /dev/hda5
[…]#: fsck /dev/hda6
[…]#: fsck /dev/hda7
对于sa1120,按顺序输入:
[…]#: fsck /dev/sda5
[…]#: fsck /dev/sda6
[…]#: fsck /dev/sda7
当所有的分区都被修复后,应回到“#”提示符下。
9 输入“reboot”重新启动系统。
如果系统仍无法启动,请记录下控制屏显示的内容并求助技术支持。
对于服务器的软件故障,只要平时管理员注意维护,应该是可以避免的。华为服务器h02故障处理方法如下:
1、先诊断外部,后诊断内部。诊断故障时,应先排除外部的因素,如电源中断、对接设备故障等。
2、先诊断网络,后诊断网元。根据网络拓扑图,分析网络环境是否正常、互连设备是否发生故障,准确定位出是网络中哪个网元发生故障。
3、先高速部分,后低速部分。从告警信号流中可以看出,高速信号的告警会引起低速信号的告警,在故障诊断时,应先排除高速部分的故障。—、服务器出现宕机的原因
1运行环境出现问题,机房断电导致的服务器断电(欠压,过载,波动)、机房温度过高,散热不良、资源冲突、DirectX文件的损坏、系统不完善等等原因而造成服务器宕机。
⒉服务器不堪负重,最常见的如磁盘空间耗尽、访问值过大、程序中毒、遭受攻击等大规模高消耗服务器资源情况。
3由于主备数据不—致导致的复制问题。
4性能问题,运维运行糟糕的SQL或Schema和索引设计等。
二、服务器宕机应该从哪些方面检查呢
①硬件
(1)检查硬件是否有冲突;
(2)对比服务器电源所负载的功率判断电源是否出现故障;
(3)扫描硬盘表面检查是否有坏道;
(4)通过错误报告和 *** 作系统的报错信息来判断;
(5)使用替换法判断主板、CPU、SCSI/RAID卡或其他PCI设备是否出现故障。
②软件
(1)检查 *** 作系统的系统日志,可以通过系统日志来判断部分造成死机的原因;
(2)在判断硬件没有故障后,考虑系统软件的BUG和漏洞原因;
(3)如果是因为软件使用不当或系统工作压力过大,可以适当降低服务器的工作压力;
(4)电脑病毒。
以上就是有关服务器宕机的原因有哪些,应该从哪些方面检查的知识介绍。
在想解决处理办法之前要知道服务器宕机的两种形态:假死机和死机
假死机(非蓝屏死机)是由于硬件资源暂时性地被消耗殆尽,因而无法对外部指令进行响应的现象, 通常是网站处于访问高峰期,带宽等资源跑满,这时只需要等待一定的时间,待服务器腾出更多的硬件资源即可恢复正常。
而死机,如果通过ping测试服务器,键盘切换数字锁定键(NumLock)或大写锁定键(Caps Lock)功能, 显示器无画面输出,或者鼠标光标没有任何反应则表明服务器硬件故障。
再了解服务器出现宕机的常见原因 :
1在运行环境的问题中,最普遍的问题时磁盘空间耗尽。
2在性能问题中,最普通的服务器宕机原因确实是运行很糟糕的SQL, 但也不一定都是这个原因,比如也有很多问题是由于服务器Bug或错误的行为导致的。
3糟糕的Schema和索引设计是第二大影响性能的问题。
4复制问题通常由于主备数据不一致导致。
5数据丢失问题通常由于drop table的错误 *** 作导致,并总是便随着缺少可用备份的问题。
如何查看服务器宕机的原因:
a、是否是应用程序导致内存溢出或者泄露,out of memory导致
b、是否是进程过多或者不断创建,耗尽资源导致
c、是否是数据库程序死锁,连接数过多导致
d、是否是应用程序异常导致
e、是否是流量负载过大导致
f、 是否是遭受黑客入侵攻击导致
g、是否是误 *** 作导致
服务器宕机自行解决办法:
1要即时发现服务器宕机的问题。时间就是金钱,这是不变的真理。我们要第一时间, 发现宕机的问题,服务器宕机时,为了避免造成不必要的损失,要尽早通知IDC服务商解决相关问题。
2最好准备2个服务器空间,他们存放的内容相同,而ip不同,并且机房的地理位置不同。这样2个区域的服务器, 能够做到有效异地容灾备份。发现宕机问题后,可以迅速的通过修改>服务器死机原因
服务器死机故障比较难以判断,一般分为软件和硬件两个方面。下面是我整理的服务器死机的解决方法,希望对你有帮助!
1、软件故障:首先查看 *** 作系统的系统日志,可以通过系统日志来判断部分造成死机的原因;电脑病毒的原因;系统软件的bug或漏洞造成的`死机,这种故障需要在判断硬件无故障后做出,而且需要软件提供商提供帮助;软件使用不当或系统工作压力过大,可以请客户适当降低服务器的工作压力来看看是否能够解决。
2、硬件故障:硬件冲突;电源故障或电源供电不足,可以通过对比计算服务器电源所有的负载功率的值来作出判断;硬盘故障(通过扫描硬盘表面来检查是否有坏道);内存故障(可以通过主板BIOS中的错误报告和 *** 作系统的报错信息来判断);主板故障(使用替换法来判断);CPU故障(使用替换法);板卡故障(一般是SCSI/RAID卡或其他pci设备也有可能造成系统死机,可用替换法判断处理)
注意:系统死机故障需要在处理完后需要在一段时间内进行一定压力的拷机测试来尽一步检查故障是否彻底解决。 ;
服务器常见故障处理
网络管理员90%的工作往往是诊断和解决各种各样的故障。为了说明诊断网络故障的一般过程,本文例举了几种故障情形,有的是常见的小问题,有的是比较艰巨的挑战。当你遇到类似的问题时,就可以按照本文例子的介绍,先问自己几个简单的问题,逐步隔离问题所在,最后找到真正的问题根源。
故障一、找不到验证密码的域服务器
毫无疑问,你也一定遇到过这样的情形:当你坐在一台工作站之前准备登录网络,Windows却报告说找不到用来验证密码的域服务器。要解决这个故障,首先要确定问题到底出在网络、工作站还是服务器上。从下面几个问题开始:
→哪些地方改变了最近是否改动过网络,而这些改动可能导致当前的问题有没有添加新的服务器、拆除原有的服务器、改动过交换机或HUB有没有添加或减少域控制器、将成员服务器提升为DC(域控制器)或者相反
→其他工作站也存在类似的问题吗
→服务器正在运行吗
经过检查,你发现此前工作站一直顺利地运行,其他工作站没有遇到类似的问题,服务器也正常。根据故障现象,基本上可以确定故障出在工作站本身。接下来要确定工作站的那个地方出了故障,试试下面几个问题:
→工作站能够Ping到服务器吗
→工作站获得了一个IP地址吗
检测表明,工作站能够Ping到服务器,但Ping *** 作有时超时,这表明工作站和服务器之间只有断断续续的通信。在命令行上执行ipconfig/renew命令,多执行几次,工作站有时会更新IP地址,有时不会。这是工作站和服务器之间断续通信的症状。
现在将问题工作站的网络连接和另一台工作站的对换一下,新工作站在问题工作站的位置上也不能连接网络,而问题工作站却能从另一个网络位置顺利地连接网络。现在已经很清楚:问题工作站所在位置的电缆或Hub出了问题。
拆下故障位置上网络电缆连接Hub的那一端,将它接到另一个Hub上,故障依旧。现在可以肯定电缆就是引起故障的罪魁祸首了。
故障二、Windows服务不能启动
在一台Windows2000服务器上,部分服务设置成不用本地的系统帐户启动。一次重新启动Windows2000服务器之后,发现这些服务没有启动,必须手工打开服务,重新输入密码,然后启动服务。每次重新输入密码,都收到消息说:<用户名字>已被授予作为服务登录的权限。
要解决该故障,首先回答下面几个问题:
→哪些地方改变了是否有人修改了服务器
→这个服务以前能够启动吗
→用户名称和密码正确吗
查询修改记录发现,该服务器是一个DC,不久之前还是域控制器组织单元(OU,OrganizationalUnit)的成员。在移出该OU之前,这些服务一直能够顺利启动。另外,用来启动这些服务的用户名称和密码都是合法的。进一步研究发现,域控制器OU的成员有一些特殊的权限,其中包括作为服务登录的权限。当出现问题的服务器移出该OU时,服务器失去了那些权限。现在要做的是恢复服务器的权限。
要将权限授予服务器,请按照如下步骤 *** 作:
→在管理控制台(MMC)中打开活动目录用户和计算机管理单元,再打开域控制器OU的“属性”对话框。
→在组策略页中,点击“默认域控制器策略”,然后点击“编辑”,打开组策略管理器。
→依次扩展计算机配置/Windows设置/安全设置,再扩展“本地策略”,然后点击“用户权利指派”。
→在右边的窗格中,右击“作为服务登录”,选择菜单“安全”。
→把用来启动服务的用户帐户加入到策略(图一),完成后点击“确定”。
;欢迎分享,转载请注明来源:内存溢出
评论列表(0条)