服务器死机原因

服务器死机原因,第1张

服务器死机原因

服务器死机故障比较难以判断,一般分为软件和硬件两个方面。下面是我整理的服务器死机的解决方法,希望对你有帮助!

1、软件故障:首先查看 *** 作系统的系统日志,可以通过系统日志来判断部分造成死机的原因;电脑病毒的原因;系统软件的bug或漏洞造成的`死机,这种故障需要在判断硬件无故障后做出,而且需要软件提供商提供帮助;软件使用不当或系统工作压力过大,可以请客户适当降低服务器的工作压力来看看是否能够解决。

2、硬件故障:硬件冲突;电源故障或电源供电不足,可以通过对比计算服务器电源所有的负载功率的值来作出判断;硬盘故障(通过扫描硬盘表面来检查是否有坏道);内存故障(可以通过主板BIOS中的错误报告和 *** 作系统的报错信息来判断);主板故障(使用替换法来判断);CPU故障(使用替换法);板卡故障(一般是SCSI/RAID卡或其他pci设备也有可能造成系统死机,可用替换法判断处理)

注意:系统死机故障需要在处理完后需要在一段时间内进行一定压力的拷机测试来尽一步检查故障是否彻底解决。 ;

网络故障诊断的概述

计算机网络遍及世界各个角落,在给人们带来诸多便利的同时也带来了很多烦恼,下面是我搜索整理的关于网络故障诊断的概述,欢迎参考阅读,希望对大家有所帮助!想了解更多相关信息请持续关注我们应届毕业生培训网!

一、网络故障

1网络故障诊断

网络故障诊断以网络原理、网络配置和网络运行的知识为基础。从故障现象出发,以网络诊断工具为手段获取诊断信息,确定网络故障点,查找问题的根源,排除故障,恢复网络正常运行。

网络故障通常有以下几种可能:物理层中物理设备相互连接失败或者硬件及线路本身的问题;数据链路层的网络设备的接口配置问题;网络层网络协议配置或 *** 作错误;传输层的设备性能或通信拥塞问题;上三层网络应用程序错误。诊断网络故障的过程应该沿着OSI七层模型从物理层开始向上进行。首先检查物理层,然后检查数据链路层,以此类推,设法确定通信失败的故障点,直到系统通信正常为止。

2局域网或广域网分析仪在内的多种工具

网络故障以某种症状表现出来,故障症状包括一般性的(象用户不能接入某个服务器)和较特殊的(如路由器不在路由表中)。对每一个症状使用特定的故障诊断工具和方法都能查找出一个或多个故障原因。

3一般故障排除

一般故障排除模式如下:第一步,当分析网络故障时,要确定故障的具体现象,然后确定造成这种故障现象的原因的类型。第二步,广泛的从网络管理系统、协议分析跟踪、路由器诊断命令的输出报告或软件说明书中收集有用的信息。第三步,根据收集到的情况考虑可能的故障原因。第四步,根据最后的可能的故障原因建立一个诊断计划。第五步,执行诊断计划,认真做好每一步测试和观察,直到故障症状消失。第六步,每改变一个参数都要确认其结果。

二、网络故障分层诊断技术

1物理层及其诊断

物理层的故障主要表现在设备的物理连接方式是否恰当;连接电缆是否正确;MODEM、CSU/DSU等设备的配置及 *** 作是否正确。

2数据链路层及其诊断

查找和排除数据链路层的故障,需要查看路由器的配置,检查连接端口的共享同一数据链路层的封装情况。每对接口要和与其通信的设备有相同的封装。通过查看路由器的配置检查其封装情况。

3网络层及其诊断

排除网络层故障的基本方法是:沿着从源到目标的路径,查看路由器路由表,同时检查路由器接口的IP地址。如果路由没有在路由表中出现,应该通过检查来确定是否已经输入适当的静态路由、默认路由或者动态路由。然后手工配置一些丢失的路由,或者排除一些动态路由选择过程的故障,包括RIP或者IGRP路由协议出现的故障。

三、路由器接口故障排除

1串口故障排除

串口出现连通性问题时,分析它的屏幕输出报告内容。串口报告可能组合有以下几种:1串口运行、线路协议运行,这是完全的工作条件。该串口和线路协议已经初始化,并正在交换协议的存活信息。2串口运行、线路协议关闭,这个显示说明路由器与提供载波检测信号的设备连接,表明载波信号出现在本地和远程之间,但没有正确交换连接两端的协议存活信息。可能的故障发生在路由器配置问题、调制解调器 *** 作问题、租用线路干扰或远程路由器故障,数字式调制解调器的时钟问题,通过链路连接的两个串口不在同一子网上,都会出现这个报告。3串口和线路协议都关闭,可能是电信部门的线路故障、电缆故障或者是调制解调器故障。4串口管理性关闭和线路协议关闭,如果信息包丢失有规律性增加,表明通过该接口传输的通信量超过接口所能处理的`通信量。解决的办法是增加线路容量。查找其他原因发生的信息包丢失,查看输出报告中的输入输出保持队列的状态。

2以太接口故障排除

以太接口的典型故障问题是:带宽的过分利用;碰撞冲突次数频繁;使用不兼容的类型。可以查看该接口的吞吐量、碰撞冲突、信息包丢失、和类型的有关内容等。

1)通过查看接口的吞吐量可以检测网络的利用。如果网络广播信息包的百分比很高,网络性能开始下降。光纤网转换到以太网段的信息包可能会淹没以太口。互联网发生这种情况可以采用优化接口的措施,禁用快速转换,并且调整缓冲区和保持队列。

2)两个接口试图同时传输信息包到以太电缆上时,将发生碰撞。以太网要求冲突次数很少,不同的网络要求是不同的,一般情况发现冲突每秒有3、5次就应该查找冲突的原因了。碰撞冲突产生拥塞,碰撞冲突的原因通常是由于敷设的电缆过长、过分利用、或者“聋”节点。以太网络在物理设计和敷设电缆系统管理方面应有所考虑,超规范敷设电缆可能引起更多的冲突发生。

3)如果接口和线路协议报告运行状态,并且节点的物理连接都完好,可是不能通信。引起问题的原因也可能是两个节点使用了不兼容的类型。解决问题的办法是重新配置使用相同类型。如果要求使用不同类型的同一网络的两个设备互相通信,可以在路由器接口使用子接口,并为每个子接口指定不同的封装类型。

四、物理故障与逻辑故障

1物理故障

物理故障指的是设备或线路损坏、插头松动、线路受到严重电磁干扰等情况。比如说,网络管理人员发现网络某条线路突然中断,首先用ping或fping检查线路在网管中心这边是否连通。

另一种情况,比如两个路由器Router直接连接,这时应该让一台路由器的出口连接另一台路由器的入口,而这台路由器的入口连接另一路由器的出口才行。当然,集线器Hub、交换机、多路复用器也必须连接正确,否则也会导致网络中断。

2逻辑故障

逻辑故障中最常见的情况就是配置错误。配置错误可能是路由器端口参数设定有误,或路由器路由配置错误以至于路由循环或找不到远端地址,或者是路由掩码设置错误等。

逻辑故障的另一类就是一些重要进程或端口关闭,以及系统的负载过高。这时只需重新启动该端口,就可以恢复线路的连通了。还有一种常见情况是路由器的负载过高,表现为路由器CPU温度太高、CPU利用率太高,以及内存剩余太少等,如果因此影响网络服务质量。

五、结论

网络发生故障是不可避免的。网络建成运行后,网络故障诊断是网络管理的重要技术工作。搞好网络的运行管理和故障诊断工作,提高故障诊断水平需要注意以下几方面的问题:认真学习有关网络技术理论;清楚网络的结构设计,包括网络拓朴、设备连接、系统参数设置及软件使用;了解网络正常运行状况、注意收集网络正常运行时的各种状态和报告输出参数;熟悉常用的诊断工具,准确的描述故障现象。

;

你说的这个应该是IBM服务器的故障与诊断功能,例如IBM X3650M3服务器前面带有一个光通路诊断面板,机器内如果有某一个零部件损坏或者即将损坏,面板上对应的灯就会亮黄灯。
ps1 指示灯:当此指示灯发亮时,表明电源1 出现故障。
ps2 指示灯:当此指示灯发亮时,表明电源2 出现故障。
temp 指示灯:当此指示灯发亮时,表明系统温度超出阈值级别。
风扇指示灯:当此指示灯点亮时,表明散热风扇或电源风扇出现故障或运行太慢。风扇发生故障还会导致over temp 指示灯发亮。
vrm 指示灯:当此指示灯发亮时,表明微处理器托盘上的某个vrm 出现故障。
cpu 指示灯:当此指示灯发亮时,表明某个微处理器出现故障。
pci 指示灯:当此指示灯发亮时,表明某个pci 总线发生错误。
mem 指示灯:当此指示灯发亮时,表明发生内存错误。
dasd 指示灯:当此指示灯发亮时,表明某个热插拔硬盘驱动器出现故障。
nr 指示灯:当此指示灯发亮时,表明存在两个电源但电源并不冗余。
nmi 指示灯:当此指示灯发亮时,表明出现一个不可屏蔽中断(nmi)。
sp 指示灯:当此指示灯发亮时,表明服务处理器遇到错误。
exp 指示灯:当此指示灯发亮时,表明某个连接的i/o 扩展单元出现故障。
log 指示灯:当此指示灯发亮时,表明您应该查看事件日志或remote supervisor
adapter ii 日志以获取有关非最佳条件的信息。
over spec 指示灯:当此指示灯发亮时,表明对电源的需求超过了指定的电源供应。
remind 按钮:按下此按钮可重新设置 *** 作员信息面板上的系统错误指示灯并将服务器置于提醒方式。在提醒方式下,故障并没有清除但系统错误指示灯会闪烁(每2 秒闪烁一次)而不是持续发亮;如果出现另一个系统错误,则系统错误指示灯将会持续发亮。

—、服务器出现宕机的原因
1运行环境出现问题,机房断电导致的服务器断电(欠压,过载,波动)、机房温度过高,散热不良、资源冲突、DirectX文件的损坏、系统不完善等等原因而造成服务器宕机。
⒉服务器不堪负重,最常见的如磁盘空间耗尽、访问值过大、程序中毒、遭受攻击等大规模高消耗服务器资源情况。
3由于主备数据不—致导致的复制问题。
4性能问题,运维运行糟糕的SQL或Schema和索引设计等。
二、服务器宕机应该从哪些方面检查呢
①硬件
(1)检查硬件是否有冲突;
(2)对比服务器电源所负载的功率判断电源是否出现故障;
(3)扫描硬盘表面检查是否有坏道;
(4)通过错误报告和 *** 作系统的报错信息来判断;
(5)使用替换法判断主板、CPU、SCSI/RAID卡或其他PCI设备是否出现故障。
②软件
(1)检查 *** 作系统的系统日志,可以通过系统日志来判断部分造成死机的原因;
(2)在判断硬件没有故障后,考虑系统软件的BUG和漏洞原因;
(3)如果是因为软件使用不当或系统工作压力过大,可以适当降低服务器的工作压力;
(4)电脑病毒。
以上就是有关服务器宕机的原因有哪些,应该从哪些方面检查的知识介绍。
在想解决处理办法之前要知道服务器宕机的两种形态:假死机和死机
假死机(非蓝屏死机)是由于硬件资源暂时性地被消耗殆尽,因而无法对外部指令进行响应的现象, 通常是网站处于访问高峰期,带宽等资源跑满,这时只需要等待一定的时间,待服务器腾出更多的硬件资源即可恢复正常。
而死机,如果通过ping测试服务器,键盘切换数字锁定键(NumLock)或大写锁定键(Caps Lock)功能, 显示器无画面输出,或者鼠标光标没有任何反应则表明服务器硬件故障。
再了解服务器出现宕机的常见原因 :
1在运行环境的问题中,最普遍的问题时磁盘空间耗尽。
2在性能问题中,最普通的服务器宕机原因确实是运行很糟糕的SQL, 但也不一定都是这个原因,比如也有很多问题是由于服务器Bug或错误的行为导致的。
3糟糕的Schema和索引设计是第二大影响性能的问题。
4复制问题通常由于主备数据不一致导致。
5数据丢失问题通常由于drop table的错误 *** 作导致,并总是便随着缺少可用备份的问题。
如何查看服务器宕机的原因:
a、是否是应用程序导致内存溢出或者泄露,out of memory导致
b、是否是进程过多或者不断创建,耗尽资源导致
c、是否是数据库程序死锁,连接数过多导致
d、是否是应用程序异常导致
e、是否是流量负载过大导致
f、 是否是遭受黑客入侵攻击导致
g、是否是误 *** 作导致
服务器宕机自行解决办法:
1要即时发现服务器宕机的问题。时间就是金钱,这是不变的真理。我们要第一时间, 发现宕机的问题,服务器宕机时,为了避免造成不必要的损失,要尽早通知IDC服务商解决相关问题。
2最好准备2个服务器空间,他们存放的内容相同,而ip不同,并且机房的地理位置不同。这样2个区域的服务器, 能够做到有效异地容灾备份。发现宕机问题后,可以迅速的通过修改>硬盘,这是服务器内最重要的东西,它也可能会出现故障,那么硬盘故障前的表现是怎么样的呢

1、故障提示。也就是我们常说的,硬盘自我监测、分析错误报告。在其控制的磁头、磁盘、电路等部件发生与预存的安全值发生冲突的时候,就会自动发生警告信息。而当出现这个故障提示的时候,我们就改引以为戒,尽快分析和处理。

2、硬盘无法识别。启动时,时不时的显示硬盘无法识别,或者即便能识别,但是系统显示无法显示硬盘,这就是物理故障的前兆。这个时候,我们就需要对重要数据进行转移,而后进行检测维修。

3、系统运行出错。服务器运行过程中,不断出现程序错误的状况,而且磁盘扫描问题,停滞、甚至死机。这个时候,就代表硬盘发生故障了,当然了,也可能是因为安装系统故障的原因,在我们排除软件问题后,就能确定是硬盘故障,需要进行检修。

4、运行报错。扫描磁盘,发现错误,甚至显示出现坏道。这个时候则表示硬盘部件问题,出现了坏道,我们需要将其进行隔离,保证正常使用。

5、初始化死机。初始化即死机,虽然不排除其他部件发生问题的可能性,比如内存问题、风扇问题、系统中毒等等,但是,最可能还是因为硬盘故障的问题,需要进行相关分析

升级原则
1 服务器升级的目的是解决系统某一方面的瓶颈,但是升级的结果不能造成新的系统瓶颈。
升级时应该考虑针对的是服务器哪一方面的瓶颈,但是从应用来说,不能因为简单的升级某一部件,而造成其他性能的瓶颈。简单举一个例子,单CPU服务器可以配置256MB内存,但是如果双CPU服务器配置256MB内存,内存肯定会成为系统的瓶颈。
2 服务器升级的前提是系统硬件配置可以提供用户升级的空间。
服务器的升级是在服务器硬件配置有升级能力的前提下进行的,所以在网络规划的初期,网管人员应该对应用的需求和增长有一个初期的估计,在选择机型时,为今后的扩展预留一定的空间。
3 升级必须针对具体的应用,而不是简单的增加硬件。
服务器的应用往往是专机专用,一台服务器主要针对一种应用,这样当服务器出现性能上的瓶颈时,升级应该是针对这种应用的升级,而不是针对某一种部件。不能认为简单升级单一硬件就可以满足应用对性能的需求。
升级故障及其解决
升级可分为在线升级和离线升级。
1 在线升级:系统在不关机的情况下,升级某一部件,系统不受任何影响。在IA架构服务器上,热插拔硬盘的升级和RAID级别的迁移是不用系统重新启动的。
2 离线升级:系统需要关机,升级需要在不带电的情况下进行。这主要指CPU、内存的升级。例如CPU的升级,无论是扩展CPU还是更换CPU,都建议系统重新安装。扩展CPU时候,尤其单CPU扩展到多CPU,系统需要重新安装SMP内核,这样对于UNIX系统来说需要升级系统内核重新编译,对于Windows系统来说,则需要重新安装 *** 作系统。又比如内存的升级,内存增加后,系统性能参数和数据库应用参数必须进行调整。
升级案例
一台单CPU的数据库应用服务器(支持双CPU系统),随着数据量的增加和客户端人数的增加,系统需要升级,安装的是Unixware *** 作系统,如何进行?
根据用户的应用分析,需要升级系统中的很多部件,如:CPU、内存、硬盘等。这样的话升级应该包括以下几个步骤:
1 备份系统数据(防止误 *** 作导致系统数据丢失)。
2 断电,离线状态下实现硬件的升级,安装CPU、内存和硬盘,注意保证硬件的规格和原主板硬件的规格一致。
3 重新启动 *** 作系统,增加CPU的License。
4 利用RAID的特性,整合新加入的硬盘。


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zz/13035924.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-29
下一篇 2023-05-29

发表评论

登录后才能评论

评论列表(0条)

保存