linux – 评估不可纠正的ECC错误和回退方法

linux – 评估不可纠正的ECC错误和回退方法,第1张

概述我运行的服务器刚刚遇到过我之前没遇到过的错误.它发出一些哔哔声,重新启动,并在启动屏幕(B IOS显示其徽标并开始列出信息的部分)卡住了错误: Node0: DRAM uncorrectable ECC Error Node1: HT Link SYNC Error 硬重置后系统启动正常,还没有报告edac-util上的任何内容. 我的研究告诉我,即使ECC内存和系统处于理想状态,仍然可能出现无法 我运行的服务器刚刚遇到过我之前没遇到过的错误.它发出一些哔哔声,重新启动,并在启动屏幕(B IOS显示其徽标并开始列出信息的部分)卡住了错误:

Node0: DRAM uncorrectable ECC Error

Node1: HT link SYNC Error

硬重置后系统启动正常,还没有报告edac-util上的任何内容.

我的研究告诉我,即使ECC内存和系统处于理想状态,仍然可能出现无法纠正的错误,并且很可能在系统的生命周期中发生错误;一些报告建议至少每年一次或更早.

服务器使用多个ECC模块运行CentOS 6.5.我已经在尝试诊断哪个模块抛出错误,以评估这是一个错误还是宇宙射线等不可避免的结果.

我的研究还表明,当系统像这样停止时,无法写入日志,并且唯一可行的方法是将系统连接到另一个系统,并通过串行端口写出日志.

除了通常的edac-util,memtest,压力测试和预防性替换之外,在解决这个错误时还有什么我应该考虑的吗?

我无法在我搜索的任何CentOS日志中找到任何此崩溃的记录,这与我认为无法将此错误记录到本地磁盘相关.该错误仅在自动重启后由BIOS报告给我.是否建议始终将系统日志写入串行以记录这些类型的错误?

使用单一系统是否可以避免这种故障,或者只能使用昂贵的企业解决方案?

在单个生产服务器的这些故障情况下,我该怎么做才能提供后备措施;例如,生产服务器本身不跨越多台机器,但可以存在后备服务器.

解决方法 嗯,这不是一个完全集成的系统,如HP,Dell或IBM服务器,因此这种故障的监控和报告不会出现或保持一致.

使用我管理的系统,磁盘最常出现故障,其次是RAM,电源,风扇,系统板和cpu.

记忆可能会失败……你无能为力.

见:Is it necessary to burn-in RAM for server-class hardware?

由于您无法真正防止ECC错误和RAM故障,因此请为此做好准备.保留备件.可以物理访问您的系统并维护组件的保修.我绝对不会在环境中引入“预防性替代”.其中一些是你硬件的功能……你有IPMI吗?有时硬件日志会在那里结束.

这是更好的服务器硬件的增值之一.以下是来自HP Proliant DL580 G4服务器的片段,其中超出了RAM的ECC阈值,然后进入禁用的DIMM ……然后最终服务器崩溃(ASR)并在停用坏DIMM的情况下重新启动自身.

0004 Repaired       22:21  12/01/2008 22:21  12/01/2008 0001LOG: Corrected Memory Error threshold exceeded (Slot 1,Memory Module 1)0005 Repaired       20:41  12/06/2008 20:43  12/06/2008 0002LOG: POST Error: 201-Memory Error Single-bit error occured during memory initialization,Board 1,DIMM 1. Bank containing DIMM(s) has been Disabled.0006 Repaired       21:37  12/06/2008 21:41  12/06/2008 0002LOG: POST Error: 201-Memory Error Single-bit error occured during memory initialization,DIMM 1. Bank containing DIMM(s) has been Disabled.0007 Repaired       02:58  12/07/2008 02:58  12/07/2008 0001LOG: POST Error: 201-Memory Error Single-bit error occured during memory initialization,DIMM 1. Bank containing DIMM(s) has been Disabled.0008 Repaired       19:31  12/08/2009 19:31  12/08/2009 0001LOG: ASR Detected by System ROM
总结

以上是内存溢出为你收集整理的linux – 评估不可纠正的ECC错误和回退方法全部内容,希望文章能够帮你解决linux – 评估不可纠正的ECC错误和回退方法所遇到的程序开发问题。

如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/yw/1040032.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-05-24
下一篇 2022-05-24

发表评论

登录后才能评论

评论列表(0条)

保存