服务器硬件常见故障有哪些

服务器硬件常见故障有哪些,第1张

常见服务器硬件故障排查判断:
服务器常见故障的诊断与解决:服务器故障排除第一部分 服务器故障排除的基本原则性问题服务器故障排除一、服务器开机黑屏故障排查1检查供电环境,零-火;零-地电压?2检查电源指示灯,如果亮,正常吗?3按下电源开关时,键盘上指示灯亮吗?风扇全部转动吗?4是否更换过显示器,更换另一台显示器。5去掉增加内存6去掉增加的CPU7去掉增加的第三方I/O卡8检查内存和CPU插的是否牢靠9 Clear CMOS10更换主要备件,如系统板,内存和CPU服务器故障排除二、服务器故障排除的基本原则1尽量恢复系统缺省配置a:硬件配置:去除第三方厂商备件和非标配备件;b:资源配置:清除CMOS,恢复资源初始配置;c: BIOS,F/W,驱动程序:升级最新的BIOS,F/W和相关驱动程序;d: TPL:扩展的第三方的I/O卡属于该机型的硬件兼容列表(TPL)吗?2从基本到复杂a:系统上从个体到网络:首先将存在故障的服务器独立运行,待测试正常后再接入网络运行,观察故障现象变化并处理。b:硬件上从最小系统到现实系统:指从可以运行的硬件开始逐步到现实系统为止。c:软件上从基本系统到现实系统:指从基本 *** 作系统开始逐步到现实系统为止。3交换对比a:在最大可能相同的条件下,交换 *** 作简单效果明显的部件;b:交换NOS载体,既交换软件环境;c:交换硬件,既交换硬件环境;d:交换整机,既交换整体环境;服务器故障排除三、服务器故障排除需要收集哪些信息?服务器信息:1机器型号2机器序列号(S/N:如:NC00075534)3Bios版本4是否增加其它设备,如网卡,SCSI卡,内存,CPU5硬盘如何配置,是否做阵列,阵列级别6安装什么 *** 作系统及版本(Windows Server, Netware, Sco, others)

网络故障诊断的概述

计算机网络遍及世界各个角落,在给人们带来诸多便利的同时也带来了很多烦恼,下面是我搜索整理的关于网络故障诊断的概述,欢迎参考阅读,希望对大家有所帮助!想了解更多相关信息请持续关注我们应届毕业生培训网!

一、网络故障

1网络故障诊断

网络故障诊断以网络原理、网络配置和网络运行的知识为基础。从故障现象出发,以网络诊断工具为手段获取诊断信息,确定网络故障点,查找问题的根源,排除故障,恢复网络正常运行。

网络故障通常有以下几种可能:物理层中物理设备相互连接失败或者硬件及线路本身的问题;数据链路层的网络设备的接口配置问题;网络层网络协议配置或 *** 作错误;传输层的设备性能或通信拥塞问题;上三层网络应用程序错误。诊断网络故障的过程应该沿着OSI七层模型从物理层开始向上进行。首先检查物理层,然后检查数据链路层,以此类推,设法确定通信失败的故障点,直到系统通信正常为止。

2局域网或广域网分析仪在内的多种工具

网络故障以某种症状表现出来,故障症状包括一般性的(象用户不能接入某个服务器)和较特殊的(如路由器不在路由表中)。对每一个症状使用特定的故障诊断工具和方法都能查找出一个或多个故障原因。

3一般故障排除

一般故障排除模式如下:第一步,当分析网络故障时,要确定故障的具体现象,然后确定造成这种故障现象的原因的类型。第二步,广泛的从网络管理系统、协议分析跟踪、路由器诊断命令的输出报告或软件说明书中收集有用的信息。第三步,根据收集到的情况考虑可能的故障原因。第四步,根据最后的可能的故障原因建立一个诊断计划。第五步,执行诊断计划,认真做好每一步测试和观察,直到故障症状消失。第六步,每改变一个参数都要确认其结果。

二、网络故障分层诊断技术

1物理层及其诊断

物理层的故障主要表现在设备的物理连接方式是否恰当;连接电缆是否正确;MODEM、CSU/DSU等设备的配置及 *** 作是否正确。

2数据链路层及其诊断

查找和排除数据链路层的故障,需要查看路由器的配置,检查连接端口的共享同一数据链路层的封装情况。每对接口要和与其通信的设备有相同的封装。通过查看路由器的配置检查其封装情况。

3网络层及其诊断

排除网络层故障的基本方法是:沿着从源到目标的路径,查看路由器路由表,同时检查路由器接口的IP地址。如果路由没有在路由表中出现,应该通过检查来确定是否已经输入适当的静态路由、默认路由或者动态路由。然后手工配置一些丢失的路由,或者排除一些动态路由选择过程的故障,包括RIP或者IGRP路由协议出现的故障。

三、路由器接口故障排除

1串口故障排除

串口出现连通性问题时,分析它的屏幕输出报告内容。串口报告可能组合有以下几种:1串口运行、线路协议运行,这是完全的工作条件。该串口和线路协议已经初始化,并正在交换协议的存活信息。2串口运行、线路协议关闭,这个显示说明路由器与提供载波检测信号的设备连接,表明载波信号出现在本地和远程之间,但没有正确交换连接两端的协议存活信息。可能的故障发生在路由器配置问题、调制解调器 *** 作问题、租用线路干扰或远程路由器故障,数字式调制解调器的时钟问题,通过链路连接的两个串口不在同一子网上,都会出现这个报告。3串口和线路协议都关闭,可能是电信部门的线路故障、电缆故障或者是调制解调器故障。4串口管理性关闭和线路协议关闭,如果信息包丢失有规律性增加,表明通过该接口传输的通信量超过接口所能处理的`通信量。解决的办法是增加线路容量。查找其他原因发生的信息包丢失,查看输出报告中的输入输出保持队列的状态。

2以太接口故障排除

以太接口的典型故障问题是:带宽的过分利用;碰撞冲突次数频繁;使用不兼容的类型。可以查看该接口的吞吐量、碰撞冲突、信息包丢失、和类型的有关内容等。

1)通过查看接口的吞吐量可以检测网络的利用。如果网络广播信息包的百分比很高,网络性能开始下降。光纤网转换到以太网段的信息包可能会淹没以太口。互联网发生这种情况可以采用优化接口的措施,禁用快速转换,并且调整缓冲区和保持队列。

2)两个接口试图同时传输信息包到以太电缆上时,将发生碰撞。以太网要求冲突次数很少,不同的网络要求是不同的,一般情况发现冲突每秒有3、5次就应该查找冲突的原因了。碰撞冲突产生拥塞,碰撞冲突的原因通常是由于敷设的电缆过长、过分利用、或者“聋”节点。以太网络在物理设计和敷设电缆系统管理方面应有所考虑,超规范敷设电缆可能引起更多的冲突发生。

3)如果接口和线路协议报告运行状态,并且节点的物理连接都完好,可是不能通信。引起问题的原因也可能是两个节点使用了不兼容的类型。解决问题的办法是重新配置使用相同类型。如果要求使用不同类型的同一网络的两个设备互相通信,可以在路由器接口使用子接口,并为每个子接口指定不同的封装类型。

四、物理故障与逻辑故障

1物理故障

物理故障指的是设备或线路损坏、插头松动、线路受到严重电磁干扰等情况。比如说,网络管理人员发现网络某条线路突然中断,首先用ping或fping检查线路在网管中心这边是否连通。

另一种情况,比如两个路由器Router直接连接,这时应该让一台路由器的出口连接另一台路由器的入口,而这台路由器的入口连接另一路由器的出口才行。当然,集线器Hub、交换机、多路复用器也必须连接正确,否则也会导致网络中断。

2逻辑故障

逻辑故障中最常见的情况就是配置错误。配置错误可能是路由器端口参数设定有误,或路由器路由配置错误以至于路由循环或找不到远端地址,或者是路由掩码设置错误等。

逻辑故障的另一类就是一些重要进程或端口关闭,以及系统的负载过高。这时只需重新启动该端口,就可以恢复线路的连通了。还有一种常见情况是路由器的负载过高,表现为路由器CPU温度太高、CPU利用率太高,以及内存剩余太少等,如果因此影响网络服务质量。

五、结论

网络发生故障是不可避免的。网络建成运行后,网络故障诊断是网络管理的重要技术工作。搞好网络的运行管理和故障诊断工作,提高故障诊断水平需要注意以下几方面的问题:认真学习有关网络技术理论;清楚网络的结构设计,包括网络拓朴、设备连接、系统参数设置及软件使用;了解网络正常运行状况、注意收集网络正常运行时的各种状态和报告输出参数;熟悉常用的诊断工具,准确的描述故障现象。

;

怎么排除服务器中RAID5故障

但是,对HP的一些老服务器(如HP LH6000)数据的恢复与新服务器(如HP ProLian系列服务器)的数据恢复是不同的。所以不同的服务器对RAID 5故障的处理也是不同的。曾接触过两台服务器因意外断电而造成的RAID 5阵列卡数据故障,由于采用了不同的策略而解决了问题。

故障修复

一台是HP LH6000的服务器,4块18GB的硬盘做成RAID 5磁盘阵列,其阵列卡是NetRaid;另一台是HP ProLian ML370服务器,4块146GB的硬盘做成RAID 5磁盘阵列,其阵列卡是Smart Array 642并带有热备份硬盘(Hot Spare)。两者 *** 作系统都为Window 2000,数据库是Server 2000。

HP LH6000的故障如下: 一块硬盘红灯闪亮,机器还在正常运行,但没有多久,系统就不能正常运行,这时才发现另一块硬盘的红灯也在闪亮。

解决办法如下:

1启动服务器,自检至阵列时按Ctrl+M进入NetRaid管理程序。查看阵列信息,发现硬盘状态为Failed,运用修改配置将一硬盘强行设置成OnLine。重新启动服务器,在进入系统前的硬件自检时无效,启动失败。

2启动服务器,自检至阵列时按Ctrl+M进入NetRaid管理程序。选择磁盘阵列,将原来OnLine挂起来的硬盘手工Fail掉,然后再把另一块Failed的硬盘手工设置成OnLine,重新启动服务器就可以进入系统了。

3查看系统及数据库都运行正常后,再进阵列配置工具把Failed的硬盘手工设置成Rebuild,100%完成重建后再重启服务器,所有的阵列及系统都恢复原状了。

另一台运行ERP系统的服务器(HP ProLiant ML370),由4块146GB热插拔硬盘通过RAID卡(Smart array阵列卡)配置成一台具有RAID 5级的磁盘阵列。其中一块硬盘在运行过程中突然出现故障。服务器RAID 5自动启用热备份硬盘(Hot Spare),对损坏硬盘进行逻辑替代。整个硬盘的数据访问任务仍然完整地运行在原来的读写进程序列中,应用程序和数据库没有发生影响。

通过HP自带的ACU工具查看硬盘状态进行检查,发现红灯示警的硬盘处于脱机状态。如果HP ProLiant服务器中的Raid 5有两块硬盘出现亮红灯时,表明系统已经崩溃,数据库也就不能访问,但系统不会自动关机。当第二块硬盘亮红灯后,用常规的手段是不能恢复数据的,只有付费找专业的第三方数据恢复公司恢复数据。

因此,对惠普老型号HP LH6000系列服务器来说,阵列的设计方面与现在HP ProLiant系列服务器的阵列有很多不同。就 *** 作方法看,HP LH6000服务器的阵列 *** 作方法有很多可选项,包括阵列失败后可以重新删除阵列并重建等,初始化也是手工选择的。但是HP ProLiant系列服务器阵列的初始化是在配置阵列后自动在后台执行的,所以ProLiant系列服务器在阵列出错后是不能重配阵列的。

HP LH6000服务器会因其他意外的原因导致阵列中的磁盘出现掉线现象,可让维护人员手工选择用Online或Offline、Rebuild等来恢复数据。但是现在的HP ProLiant系列服务器在阵列中不会再出现像老的服务器那样有磁盘掉线的现象,所以硬盘亮红灯的时候,这块硬盘基本上是损坏了需要更换。当然可以选择热插拔硬盘来重建(Rebuild),看硬盘还能不能再用一段时间。

做好技术后备

从以上两个例子可以看出,同一品牌、不同系列的服务器因其内含技术的不同,其Raid 5磁盘故障的排除也是不同的。但经过重建(Rebuild)数据后,数据被拯救了,从中可以得出以下经验:

我们认为任何先进的技术手段都不是万无一失的。如果要确保数据安全,就一定要做好备份工作,最好每天做一次数据库的异地备份。至少备用一块新硬盘。需要指出的是,加入阵列的硬盘必须大于或等于故障硬盘的容量。

如果条件允许,推荐“RAID 5+热备盘”的阵列创建方案。这样在数据丢失前,我们有两次更换硬盘的机会。对于一般的应用,只用RAID 5即可,可以同时提供数据的存取性能、可靠性和最大的磁盘空间。

管理员必须经常观察阵列的状态,包括查看磁盘阵列的**警告灯和管理软件里的驱动器状态。出现故障,及时排除。无论是什么级别的阵列,在排除故障前,都应做好数据备份。

;


欢迎分享,转载请注明来源:内存溢出

原文地址: https://outofmemory.cn/zz/10777659.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-11
下一篇 2023-05-11

发表评论

登录后才能评论

评论列表(0条)

保存