linux – L3缓存中的ECC错误 – 关键与否?

linux – L3缓存中的ECC错误 – 关键与否?,第1张

概述在 Linux服务器(8x四核AMD 8378)上,我收到以下错误: [Hardware Error]: MC4_STATUS[-|CE|MiscV|-|AddrV|CECC]: 0x9c294c00001d018b[Hardware Error]: Northbridge Error (node 4): ECC error in L3 cache tag.[Hardware Error]: 在 Linux服务器(8x四核AMD 8378)上,我收到以下错误:
[HarDWare Error]: MC4_STATUS[-|CE|MiscV|-|AddrV|CECC]: 0x9c294c00001d018b[HarDWare Error]: northbrIDge Error (node 4): ECC error in L3 cache tag.[HarDWare Error]: cache level: L3/GEN,tx: GEN,mem-tx: SNP[HarDWare Error]: Machine check events logged

这种情况在上个月发生了三次,但从未发生过(服务器运行3年).

从快速谷歌搜索,似乎这是一个严重的问题.

但是,供应商支持技术人员说:

I have seen these errors MANY times,and unless you are overclocking your cpu – or have had a fan failure or similar – it is VERY unlikely to be a processor
problem. It is more likely that the kernel is misreporting the error.

那么 – 这是一个严重的错误,我应该订购新的部件(更换cpu?)或忽略它?

非常感谢.

解决方法 最佳实践:尽可能保留自己的备件.

至于机器检查异常,这些由硬件报告;内核只是将消息传递给您,以便您可以在硬件问题失控之前采取措施并导致真正的灾难.

我能够找到内核“误报”机器检查异常的唯一实例如下. In this case,这是导致问题的处理器中的一个缺陷,而不是内核.

Intel Xeon processor E7 family processors have an issue in which some c-state Transitions can cause false correctable Machine Check Exception (MCE) errors to be reported from MCE bank 6 to the user. On some E7 processor family systems,this resulted in “floods” of MCE errors. This patch disables MCE error reporting for bank 6.

一句话:听起来像供应商试图避免更换有缺陷的硬件.

总结

以上是内存溢出为你收集整理的linux – L3缓存中的ECC错误 – 关键与否?全部内容,希望文章能够帮你解决linux – L3缓存中的ECC错误 – 关键与否?所遇到的程序开发问题。

如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/yw/1041067.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-05-24
下一篇 2022-05-24

发表评论

登录后才能评论

评论列表(0条)

保存