服务器突然宕机,各位帮忙看看是什么原因

服务器突然宕机,各位帮忙看看是什么原因,第1张

服务器宕机,一般是两种情况:1机房的硬件出问题了;2服务器遭遇攻击了。被攻击可以问供应商要实时流量监测,看一下攻击有多大!选择服务器做依据。宕机频繁的话可以换供应商了。租中韩美服务器找展翼小T

UCE错误。华为服务器bmc日志内存故障通常是因为DIMM4内存条发生UCE错误导致的,需要用户立即进行检查拔插或者更换故障DIMM4内存条即可。DIMM中文名叫双列直插式存储模块,是指奔腾CPU推出后出现的新型内存条,它提供了64位的数据通道。

bmc故障处理电路、方法、装置、电子设备及存储介质
技术领域
1本申请涉及通信技术领域,尤其涉及一种bmc故障处理电路、方法、装置、电子设备及存储介质。
背景技术:
2目前,常规的服务器主板上均配置一个bmc控制器,此控制器能够实现服务器的远程监控,但是一旦bmc控制器故障,服务器将无法接收远程监控指令且无法管理服务器内部部件,造成服务器瘫痪死机。
3因此,需要解决因bmc故障导致服务器死机的问题。
4上述内容仅用于辅助理解本申请的技术方案,并不代表承认上述内容是现有技术。
技术实现要素:
5为了解决上述问题,本申请提供一种bmc故障处理电路、方法、装置、电子设备及存储介质,该电路在bmc故障时,实现cpld对服务器的管理和配置,进而实现bmc故障下通过cpld链路管理服务器的功能。
6本申请第一方面公开一种bmc故障处理电路,所述bmc故障处理电路包括cpu及待管理部件、bmc和cpld;其中,
7bmc与cpld相连;
8cpu及待管理部件与电子切换开关的一端相连,电子切换开关的另一端与所述bmc或者所述cpld相连。
9在一种实施方式中,所述cpld确定所述bmc故障,所述cpld控制所述电子切换开关的一端与所述cpld相连。
10在一种实施方式中,所述cpld确定所述bmc正常,所述cpld控制所述电子切换开关的一端与所述bmc相连。
11本申请第二方面公开一种bmc故障处理方法,所述bmc故障处理方法应用于如第一方面任意一项中的bmc故障处理电路中,所述bmc故障处理方法包括:
12cpld判断bmc是否故障;
13cpld根据bmc是否故障,控制电子切换开关的一端与所述bmc相连或者所述cpld相连。
14本申请第三方面公开一种bmc故障处理装置,所述bmc故障处理装置包括如第一方面任意一项中的bmc故障处理电路,所述bmc故障处理装置包括故障检测单元和处理单元;其中,
15所述故障检测单元,用于通过cpld检测bmc是否故障;
16所述处理单元,根据所述故障检测单元的检测结果,控制电子切换开关的一端与所述bmc连接或者所述cpld连接。
17本申请第四方面公开了一种电子设备,所述电子设备包括存储器和处理器;其中,所述存储器和所述处理器通过总线相互之间通信,所述存储器存储可被所述处理器执行的程序指令,所述处理器调用所述程序指令,执行如第二方面所述的方法。
18本申请第五方面公开了一种计算机存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序被计算机处理器执行时实现如第二方面所述的方法。
19本申请的电路在bmc故障时,实现cpld对服务器的管理和配置,进而实现bmc故障下通过cpld链路管理服务器的功能;从而解决bmc故障时造成服务器无法远程监控以及瘫痪死机的问题。
附图说明
20此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。
21图1为现有技术中的一种bmc连接电路结构示意图;
22图2为本申请实施例提供的一种bmc故障处理电路结构示意图;
23图3为本申请实施例提供的一种bmc故障处理方法流程示意图;
24图4为本申请实施例提供的一种bmc故障处理装置结构示意图。
具体实施方式
25为了更清楚的阐释本申请的整体构思,下面结合说明书附图以示例的方式进行详细说明。
26本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的顺序在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。
27此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
28本申请中cpld,特指服务器主板上已有的cpld控制器,常规作用是负责服务器电源上电管理;bmc(baseboard management controller),负责服务器的部件管理和远程监控;服务器是计算机的一种,比普通计算机运行更快、负载更高。
29图1中是现有技术。通讯信号线为多个信号线组,在该架构方案中,如果bmc发生故障,则服务器无法实现远程监控,bmc将服务管理部分部件,服务器将会瘫痪死机。
30故本说明书公开了一种bmc故障处理电路,所述bmc故障处理电路包括cpu及待管理部件、bmc和cpld。如图2所示。
31bmc与cpld相连;cpu及待管理部件与电子切换开关的一端相连,电子切换开关的另一端与所述bmc或者所述cpld相连。
32在一个示例中,所述cpld确定所述bmc故障,所述cpld控制所述电子切换开关的一端与所述cpld相连。
33在一个示例中,所述cpld确定所述bmc正常,所述cpld控制所述电子切换开关的一端与所述bmc相连。
34如图2中,通讯信号线为多个信号线组,对应的切换开关也有多个,实现对通讯信号线组的切换,本说明书以1个切换控制信号进行说明。cpld通过bmc故障信号线判断bmc是否发生故障,如果bmc未发生故障,则控制切换开关使得cpu及待管理部件的通讯信号线连接至bmc控制器;如果bmc发生故障,则控制电子切换开关使得cpu及待管理部件的通讯信号线连接至cpld,由cpld进行服务器的管理和配置以及外接以太网接口实现服务器的远程监控。
35此时,把服务器cpu与主要部件原有接入bmc的通讯信号经信号切换开关分出另外一组通讯支路至cpld;bmc正常工作时,信号切换开关切换通讯通道至bmc;如果bmc故障,cpld控制信号切换开关切换通讯通道至cpld,由cpld接管管理和配置服务器的功能。
36本申请的电路在bmc故障时,实现cpld对服务器的管理和配置,进而实现bmc故障下通过cpld链路管理服务器的功能;从而解决bmc故障时造成服务器无法远程监控以及瘫痪死机的问题。也就是,本申请增加系统链路通道,防止bmc处由于单一设备故障造成的服务器系统瘫痪,增加系统容错能力,提高服务器稳定性。
37本说明书的方案改变以往的仅能通过bmc管理和配置服务器的方式,增加通过cpld控制器管理和配置服务器的方式,解决bmc控制器故障带来的服务器无法远程监控以及瘫痪死机的问题。相当于增加服务器管理和配置的方式,通过cpld建立起另外一个服务器管理和交互的通道,对bmc起到冗余备份的作用。
38此时,在现有主板cpld控制器的基础上扩展通讯接口,实现cpld对服务器的管理和配置,进而实现bmc故障下通过cpld链路简单管理服务器的功能。由于cpld配置和管理服务器没有bmc管理那么完善,实现一些必要的远程维护和设备管理配置即可,以免耽误服务器使用;后续再详细检修或更换bmc控制器。
39本说明书还公开了一种bmc故障处理方法,所述bmc故障处理方法应用于如上所述的bmc故障处理电路中,所述bmc故障处理方法包括步骤s301

s302。
40s301、cpld判断bmc是否故障。
41s302、cpld根据bmc是否故障,控制电子切换开关的一端与所述bmc相连或者所述cpld相连。
42在一个示例中,若cpld确定bmc故障,则所述cpld控制电子切换开关的一端与所述cpld相连。
43在一个示例中,若cpld确定bmc正常,则所述cpld控制电子切换开关的一端与所述bmc相连。
44上述方法实施例中,与上述电路实施例中相同或相近之处,不再赘述。
45本说明书还公开了一种bmc故障处理装置,所述bmc故障处理装置包括如上所述的bmc故障处理电路,所述bmc故障处理装置包括故障检测单元和处理单元。如图4所示。
46故障检测单元,用于通过cpld检测bmc是否故障;
47处理单元,根据所述故障检测单元的检测结果,控制电子切换开关的一端与所述bmc连接或者所述cpld连接。
48在一个示例中,当所述故障检测单元确定所述bmc故障时,所述处理单元控制电子
切换开关的一端与所述cpld连接;或当所述故障检测单元确定所述bmc正常时,所述处理单元控制电子切换开关的一端与所述bmc连接。
49上述装置实施例中,与上述电路实施例中相同或相近之处,不再赘述。
50本说明书还公开了一种电子设备,所述电子设备包括存储器和处理器。所述存储器和所述处理器通过总线相互之间通信,所述存储器存储可被所述处理器执行的程序指令,所述处理器调用所述程序指令,执行如上所述的方法。
51本说明书还公开了一种计算机存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序被计算机处理器执行时实现如上所述的方法。
52本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
53专业人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
54以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

可能是服务器性能原因导致宕机。
1、在性能问题中,服务器故障的最常见原因是SQL工作不正常,但不确定是否如此。还有其他选择。例如,某些问题是由服务器错误或错误行为引起的。此外,糟糕的模式和索引设计是第二大性能问题。
2、服务器是计算机的一种,它比普通计算机运行更快、负载更高、价格更贵。服务器在网络中为其它客户机(如PC机、智能手机、ATM等终端甚至是火车系统等大型设备)提供计算或者应用服务。服务器具有高速的CPU运算能力、长时间的可靠运行、强大的I/O外部数据吞吐能力以及更好的扩展性。

—、服务器出现宕机的原因
1运行环境出现问题,机房断电导致的服务器断电(欠压,过载,波动)、机房温度过高,散热不良、资源冲突、DirectX文件的损坏、系统不完善等等原因而造成服务器宕机。
⒉服务器不堪负重,最常见的如磁盘空间耗尽、访问值过大、程序中毒、遭受攻击等大规模高消耗服务器资源情况。
3由于主备数据不—致导致的复制问题。
4性能问题,运维运行糟糕的SQL或Schema和索引设计等。
二、服务器宕机应该从哪些方面检查呢
①硬件
(1)检查硬件是否有冲突;
(2)对比服务器电源所负载的功率判断电源是否出现故障;
(3)扫描硬盘表面检查是否有坏道;
(4)通过错误报告和 *** 作系统的报错信息来判断;
(5)使用替换法判断主板、CPU、SCSI/RAID卡或其他PCI设备是否出现故障。
②软件
(1)检查 *** 作系统的系统日志,可以通过系统日志来判断部分造成死机的原因;
(2)在判断硬件没有故障后,考虑系统软件的BUG和漏洞原因;
(3)如果是因为软件使用不当或系统工作压力过大,可以适当降低服务器的工作压力;
(4)电脑病毒。
以上就是有关服务器宕机的原因有哪些,应该从哪些方面检查的知识介绍。
在想解决处理办法之前要知道服务器宕机的两种形态:假死机和死机
假死机(非蓝屏死机)是由于硬件资源暂时性地被消耗殆尽,因而无法对外部指令进行响应的现象, 通常是网站处于访问高峰期,带宽等资源跑满,这时只需要等待一定的时间,待服务器腾出更多的硬件资源即可恢复正常。
而死机,如果通过ping测试服务器,键盘切换数字锁定键(NumLock)或大写锁定键(Caps Lock)功能, 显示器无画面输出,或者鼠标光标没有任何反应则表明服务器硬件故障。
再了解服务器出现宕机的常见原因 :
1在运行环境的问题中,最普遍的问题时磁盘空间耗尽。
2在性能问题中,最普通的服务器宕机原因确实是运行很糟糕的SQL, 但也不一定都是这个原因,比如也有很多问题是由于服务器Bug或错误的行为导致的。
3糟糕的Schema和索引设计是第二大影响性能的问题。
4复制问题通常由于主备数据不一致导致。
5数据丢失问题通常由于drop table的错误 *** 作导致,并总是便随着缺少可用备份的问题。
如何查看服务器宕机的原因:
a、是否是应用程序导致内存溢出或者泄露,out of memory导致
b、是否是进程过多或者不断创建,耗尽资源导致
c、是否是数据库程序死锁,连接数过多导致
d、是否是应用程序异常导致
e、是否是流量负载过大导致
f、 是否是遭受黑客入侵攻击导致
g、是否是误 *** 作导致
服务器宕机自行解决办法:
1要即时发现服务器宕机的问题。时间就是金钱,这是不变的真理。我们要第一时间, 发现宕机的问题,服务器宕机时,为了避免造成不必要的损失,要尽早通知IDC服务商解决相关问题。
2最好准备2个服务器空间,他们存放的内容相同,而ip不同,并且机房的地理位置不同。这样2个区域的服务器, 能够做到有效异地容灾备份。发现宕机问题后,可以迅速的通过修改>可以简单的理解为死机服务器是硬件设备而且是全年二十四小时不间断运行的通常负载量也较大所以时间一长就容易出现宕机的情况只要不是太频繁就是完全正常的一般常用服务器的人都知道每隔一段时间定期手动重启下机器对机器的性能有很大帮助而且可以避免宕机的情况毕竟服务器也是硬件长期运行中间也应该有个喘气的过程


欢迎分享,转载请注明来源:内存溢出

原文地址: https://outofmemory.cn/zz/12758980.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-27
下一篇 2023-05-27

发表评论

登录后才能评论

评论列表(0条)

保存