由于硬件故障造成宕机的原因有哪些?该如何处理?_服务器

—、服务器出现宕机的原因
1运行环境出现问题，机房断电导致的服务器断电(欠压，过载，波动)、机房温度过高，散热不良、资源冲突、DirectX文件的损坏、系统不完善等等原因而造成服务器宕机。
⒉服务器不堪负重，最常见的如磁盘空间耗尽、访问值过大、程序中毒、遭受攻击等大规模高消耗服务器资源情况。
3由于主备数据不—致导致的复制问题。
4性能问题，运维运行糟糕的SQL或Schema和索引设计等。
二、服务器宕机应该从哪些方面检查呢
①硬件
(1)检查硬件是否有冲突;
(2)对比服务器电源所负载的功率判断电源是否出现故障;
(3)扫描硬盘表面检查是否有坏道;
(4)通过错误报告和 *** 作系统的报错信息来判断;
(5)使用替换法判断主板、CPU、SCSI/RAID卡或其他PCI设备是否出现故障。
②软件
(1)检查 *** 作系统的系统日志，可以通过系统日志来判断部分造成死机的原因;
(2)在判断硬件没有故障后，考虑系统软件的BUG和漏洞原因;
(3)如果是因为软件使用不当或系统工作压力过大，可以适当降低服务器的工作压力;
(4)电脑病毒。
以上就是有关服务器宕机的原因有哪些，应该从哪些方面检查的知识介绍。
在想解决处理办法之前要知道服务器宕机的两种形态：假死机和死机
假死机(非蓝屏死机)是由于硬件资源暂时性地被消耗殆尽，因而无法对外部指令进行响应的现象，通常是网站处于访问高峰期，带宽等资源跑满，这时只需要等待一定的时间，待服务器腾出更多的硬件资源即可恢复正常。
而死机，如果通过ping测试服务器，键盘切换数字锁定键(NumLock)或大写锁定键(Caps Lock)功能，显示器无画面输出，或者鼠标光标没有任何反应则表明服务器硬件故障。
再了解服务器出现宕机的常见原因：
1在运行环境的问题中，最普遍的问题时磁盘空间耗尽。
2在性能问题中，最普通的服务器宕机原因确实是运行很糟糕的SQL，但也不一定都是这个原因，比如也有很多问题是由于服务器Bug或错误的行为导致的。
3糟糕的Schema和索引设计是第二大影响性能的问题。
4复制问题通常由于主备数据不一致导致。
5数据丢失问题通常由于drop table的错误 *** 作导致，并总是便随着缺少可用备份的问题。
如何查看服务器宕机的原因：
a、是否是应用程序导致内存溢出或者泄露，out of memory导致
b、是否是进程过多或者不断创建，耗尽资源导致
c、是否是数据库程序死锁，连接数过多导致
d、是否是应用程序异常导致
e、是否是流量负载过大导致
f、是否是遭受黑客入侵攻击导致
g、是否是误 *** 作导致
服务器宕机自行解决办法：
1要即时发现服务器宕机的问题。时间就是金钱，这是不变的真理。我们要第一时间，发现宕机的问题，服务器宕机时，为了避免造成不必要的损失，要尽早通知IDC服务商解决相关问题。
2最好准备2个服务器空间，他们存放的内容相同，而ip不同，并且机房的地理位置不同。这样2个区域的服务器，能够做到有效异地容灾备份。发现宕机问题后，可以迅速的通过修改>计科专业从事嵌入式软件开发多年，最近因为公司需要搞后台研发，经常选择升级的时机放在凌晨，而且大型的数据处理也是放在这个时间段内，经常发生的服务器宕机也是在这个时段。都是在用户使用少的时候开始折腾，折腾的次数多也就容易出现服务器问题。由于做的是物联网设备，在工作中遇到的宕机主要有这么几种情况，对大量数据的 *** 作导致CPU占比在一段时间内骤增从而导致数据接收模块出问题，导致系统监控出现问题，很多设备信息检测不到了。

对数据库的 *** 作太频繁导致效率的下降，也是影响系统性能很重要的一部分，其实服务器也是普通电脑的构成，主要的资源是CPU和内存，这两个因素无论是哪种都有可能导致系统的崩盘，如果是CPU被占满了，系统的反应会变得异常缓慢，时间长了可能还会慢慢缓过劲来，内存如果占满了那么会导致系统的崩溃，直接运行不下去了，其实宕机核心点不会跑出这两种因素。

现在就常见的服务器宕机问题做个归纳总结：

1磁盘空间被占满，现在程序员运行的时候都习惯于带上log打印，如果时间长了加上没有清理的机制早晚会出问题，这个错误在平时运行过程中经常出现，如果使用的云计算服务器通常在系统崩盘之前都会发个短信，通知你的系统处于崩溃的边缘。

2并发性能问题，如果多个人同时 *** 作一个数据库或者数据块，会导致系统假死状态，这种属于争抢CPU资源问题，可以通过增加硬件配置以及优化软件代码的效率去解决，数据量如何足够大就可以考虑分布式的管理

3数据受损或者被破坏导致系统崩盘，所以常见的做法是都会配置备份盘，出现问题抓紧拿到备份盘来顶上，现在公司使用的是阿里云的服务器，稳定性相比之前好太多了，中间换过电信云，腾讯云虽然价格低点，最后受不了直接换成阿里云，再也不想换回去了，数据的稳定性永远是第一位的。

4，一些没有必要的误 *** 作，很多时候是因为程序员或者运维人员的误 *** 作大致服务器大面积的宕机，这种事件在很多云服务提供商身上都发生过，根本层面还是管理问题。后台管理的任何细节都有可能

服务器宕机查找问题的几个线索：

1看看服务器是不是存在内存泄漏问题，有些时候重启机器开始还能正常运行弄了一段时间之后就会变得非常缓慢，十有八九都是内存的问题

2是否有黑客入侵造成，有些非常关键重要的数据也是黑客最感兴趣的，一般来讲这种概率不是很高

3是不是数据库死锁导致的，访问量过大导致，连接数过多造成的。

服务器宕机一旦发生就会引起用户的无数的投诉，无论在什么情况下稳定永远是第一位，现在大的功能升级除非已经百分百验证成功，否则引起的后果不堪设想。

希望能帮到你。

之前我们单位夜晚有一台设备down了，这台设备做的堆叠，而不是备份，所有下联线路全部连接在主设备上。结果当晚凌晨，主设备的电源模块损坏了！这你能看出规律吗？我也想知道为什么它偏偏凌晨损坏了！

所以说，偶然性事件，不能说大部分！

但是夜间割接倒是正常，选择在用户最少的时候做可能影响业务的必要事情是常识。

虽说在凌晨的时候，使用系统的用户非常少，但是服务器在这个时候要做的工作可能一点儿也没有少：
再说一个很久以前看到的，同行们分享的服务器宕机的经历，有些经历非常之神奇，大家就当段子看吧（为了方便，我就按照第一人称来讲述）。

我们服务的甲方是一家医院，机房就在医院的楼中，最近机房的服务器经常性的发生宕机，公司的工程师去了几次也没有发现问题；后来公司被折腾的没办法了，决定让一个工程师晚上住在机房，看看半夜机房中究竟发生了什么事儿，想着就算找不到原因，也能在服务器宕机后第一时间重启。

后来发现原因，到了凌晨三四点的时候，机房门打开了，进来一个值夜班的小护士，看了一眼说：“又没有人，开着空调不浪费电么？”然后就把机房的空调关掉了，然后气温上升
我将持续分享Java开发、架构设计、程序员职业发展等方面的见解，希望能得到你的关注。
偶发性的，可以能是你浅意识的，因为这种问题印像最深刻，可能认为比较多，通过做记录去试下。
宕机一般分5种情况：

1、程序上出了问题导致程序崩溃。

2、cpu\\Gpu 、内存占满了。

3、硬盘空间满了

4、数据库表空间满了

5、机房温度过高
以上是个人在运维过程中所遇到的问题，做的总结性回答

这里需要说明一下，服务器宕机是什么意思呢？我们日常说的“宕机”中的“宕”其实指的是英文“down”，宕机表示当前服务器或服务无响应或者不在线状态。

服务器的宕机可分为人为控制的宕机、不可控的宕机。这两者有什么区别呢，下面来具体说明一下：

1、人为可控的宕机行为

服务器长时间的运行可能会带来一些（非致命性）问题，又或者我们需要对服务器进行软/硬件的升级维护时，可能需要停机或者重启 *** 作。这种情况下的宕机是可控的，在我们的计划之内。

2、不可控宕机行为

这种因素就很多了，比如说服务器突然蓝屏、服务异常崩溃、突然断电断网了，这时候服务(器)就无法正常提供服务，这些都是不可控因素导致的。

而在我们的日常运维工作中，计划性的宕机维护一般都选择在半夜来做这些事，为什么呢，原因主要有这几点：
1、减少对用户的影响

凌晨大家基本上都休息了，用户量较白天来说小得多，所以选择在此时进行系统及硬件的维护导致的宕机对用户的影响较小，就算有影响也只是影响小部分用户。

2、有足够的时间来处理故障

在凌晨进行维护，就算有问题，技术人员也有足够的时间（比如说：00~05点）去处理故障。如果换成在日间维护，服务(器)宕机1小时以上投诉单全都过来了，压力很大的。

服务器宕机是指服务器因为一些原因导致服务器无法正常运行，造成网络断开，无法正常使用网络。服务器宕机一般都发生在凌晨，为什么会出现这种情况呢？像我们公司是从事科技互联网设备生产的，为了不影响正常生产，系统升级的时候一般都是在凌晨，而且很多的数据处理也放在这个时候，服务器在这个时候也容易出现问题，具体分析有以下几种原因：
1 系统在升级或处理大的数据时，硬盘空间被占满，如果没有人能及时清理磁盘空间，服务器就会出现卡顿的问题造成宕机。

2如果是多台设备同时在 *** 作，使用这一个数据库，会引起系统假死的现象，这个是属于抢占CPU的资源造成的，会导致服务器不堪自负，网站访问量猛增，程序中毒遭到很多的应用都在消耗服务器，最终死机无法响应。
3由于凌晨维护人员减少，会出现断电，温度过高等等环境因素的影响，使服务器死机等等，不过这种情况是很少见的，因为现在机房都有发电机备用避免停电造成的数据丢失，温度也是采用的恒温系统。

4有的企业为了节省服务器的费用，会租用较低配置的服务器来从事很多的工作，使服务器超负荷运转，结果是可以预料得到的，宕机就会经常发生。

5服务器宕机一般和内存有很大的关系，有些服务器运行了一段时间后速度就变慢了，基本上就是内存出现问题，要检查一下内存是否存在泄漏的问题。
服务器宕机会出现一系列的问题，造成的损失也是无法估量的，只有平时定期做好维护，在凌晨的时候也要注意掌握使用状况才能避免宕机，无论在任何时候，服务器的稳定运转才是最重要的。

服务器应用软件在运行过程中状态很稳定，一般不会发生问题。宕机发生在凌晨概率高的原因是：一是功能升级、硬件更换多在凌晨，导致问题发生概率高；二是批量执行多在凌晨，瞬间资源消耗很大，数据问题、硬件资源问题、甚至处理逻辑问题都容易导致宕机。另外，如果是联机交易出了问题，很容易被发现，不会让系统宕机。

原理其实很简单：这就如同我们白天忙碌着很多事物性的工作，就如同搬运工一样，不停的搬运物品入库，只有在物品都搬运完了的时候，我们才能开始整理这些物品，整理仓库，。

其二，服务器在白天的时候，其实都在实时处理数据的“搬运工”状态，只有在实时性数据处理工作（搬运工作）完成以后，才有机会或才能腾出手来去做数据的归纳和整理。所以，服务器的宕机时间，通常会发生在使用率最低的时间段。仅此。

正常跑稳的业务，一般很难因为正常业务 *** 作造成服务器宕机的。服务器资源问题大部分情况下是可预测，可控制的。

最容易造成宕机的事情，反而是开发/运维的不当 *** 作造成的。比如更换服务器硬件，升级/安转os程序包，发布新代码，批量更新数据等等，这些事一般都是半夜业务量小的时候做。

因为凌晨是最困得时候，服务器一打盹就宕机了。

“宕机”的拼音读法为：dàng ji。宕机属于计算机的术语，指电脑或者服务器不能正常工作。口语中我们简单地把停掉机器叫做down机，转换为汉字是“宕机”，不过多数人都叫做“当机”/“死机”，虽然不规范但却流行。

down就是up的反义，就是计算机不能正常工作了，包括一切原因而导致出现的死机。

通俗一点来说，宕机我们完全可以理解为服务器或者电脑出现故障，导致了无法正常工作。相信我们在浏览一些不知名的网站，有的时候出现无法访问的问题，那么这种现象都可以叫服务器宕机。

B站回应崩了：部分服务器机房发生故障

周二 ( 7 月 13 日 ) 晚间有消息称，B 站出现服务器宕机事故。消息传来之后，哔哩哔哩股价短线走低，涨幅收窄至 3%。

稍早前，有多位网友反映，B 站网页端和移动端均出现加载失败现象，有网友一开始还以为是手机或者信号的问题。

针对昨晚哔哩哔哩全平台崩溃一事官方现回应称，B 站的部分服务器机房发生故障，造成无法访问。技术团队随即进行了问题排查和修复，现在服务已经陆续恢复正常。

除此之外，官方未对任何服务器方面或技术方面的细节进行讲解。

服务器宕机，指 *** 作系统无法从一个严重系统错误中恢复过来，或系统硬件层面出问题，以致系统长时间无响应，而不得不重新启动计算机的现象。服务器宕机属于电脑运作的一种正常现象，任何电脑都会出现这种情况。可能是由于外部电源功率不足，造成一些老显示器或一些耗电功率大的显示器不能正常启动。

解决方法：

对于服务器频繁出现宕机情况就要注意了检查服务器是否存在负载量过大，服务器散热存在问题等等情况。再针对这样的情况一项一项来解决，这样才能保证服务器尽可能长时间正常运行。

对于一般服务器宕机，我们可以采用重启服务器的方式来解决。正常重启服务器可以清除内存碎片，重新优化应用软件，中断无用的端口，缓解CPU压力，加快服务器运行速度等等。

对于服务器租用用户来说，服务器宕机是非常值得重视的问题，如果租用的服务器经常出现宕机情况的话，一定要及时通知服务商，让服务器查明具体情况，问题过于严重甚至可以要求跟换服务器或者更换服务器供应商。

服务器简介：

服务器是一种高性能计算机，作为网络的节点，存储、处理网络上80%的数据、信息，因此也被称为网络的灵魂。

服务器指一个管理资源并为用户提供服务的计算机软件，通常分为文件服务器、数据库服务器和应用程序服务器。运行以上软件的计算机或计算机系统也被称为服务器。

相对于普通PC来说，服务器在稳定性、安全性、性能等方面都要求更高，因此CPU、芯片组、内存、磁盘系统、网络等硬件和普通计算机有所不同，在质量与处理器数据性能上更出色。

可能是服务器性能原因导致宕机。
1、在性能问题中，服务器故障的最常见原因是SQL工作不正常，但不确定是否如此。还有其他选择。例如，某些问题是由服务器错误或错误行为引起的。此外，糟糕的模式和索引设计是第二大性能问题。
2、服务器是计算机的一种，它比普通计算机运行更快、负载更高、价格更贵。服务器在网络中为其它客户机（如PC机、智能手机、ATM等终端甚至是火车系统等大型设备）提供计算或者应用服务。服务器具有高速的CPU运算能力、长时间的可靠运行、强大的I/O外部数据吞吐能力以及更好的扩展性。

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/zz/13092988.html

由于硬件故障造成宕机的原因有哪些?该如何处理?

发表评论

评论列表（0条）