疑难解答 – 如何调查意外的Linux服务器关闭?

疑难解答 – 如何调查意外的Linux服务器关闭?,第1张

概述在使用Debian 6的raid 10中使用4xSSD的新Xeon 55XX服务器中,我在服务器构建后的两周内经历了2次随机关闭.在关闭之前查看带宽日志并不表示任何异常.服务器负载通常非常低(大约1)并且远远地并置.当服务器发生故障时,似乎没有停电. 我知道我查看/ var / log但不确定我应该调查哪些日志以及我应该寻找什么.所以感谢你的提示. 首先,我必须问:“停工”?你的意思是机器重新启动 在使用Debian 6的raID 10中使用4xSSD的新Xeon 55XX服务器中,我在服务器构建后的两周内经历了2次随机关闭.在关闭之前查看带宽日志并不表示任何异常.服务器负载通常非常低(大约1)并且远远地并置.当服务器发生故障时,似乎没有停电.

我知道我查看/ var / log但不确定我应该调查哪些日志以及我应该寻找什么.所以感谢你的提示.

解决方法 首先,我必须问:“停工”?你的意思是机器重新启动或实际停止吗?如果它停止,则它可能是错误配置的(可能在B IOS中)或某些东西正在主动关闭机器(即初始化0).

如果没有,您的主要候选者将是/ var / log / syslog和/var/log/kern.log,因为您的问题听起来像内核恐慌或软件触发的硬件故障.当然,如果服务器运行某些服务(例如apache)也可能给你一个线索.

通常,在这种情况下,会生成日志条目,但由于计算机遇到困难,因此无法将条目写入磁盘.如果该盒子是共同的,那么它很可能是由colo伙伴连接到串行控制台.如果我在上面的日志中找不到任何可疑的东西,那就是我要看的地方.

如果计算机未连接到串行控制台且日志中没有任何内容,您可能需要考虑通过网络将syslog发送到其他框.也许网络接口可以存活更长时间,并且可以在syslog服务器上读取日志消息.看看rsyslog或syslog-ng.

更新:

我同意下面的@Johann.停机的最可能原因是处理器温度监视器.尝试通过lmsensors或smartctl(通常最简单)检查/绘制框中的温度.我发现collectd在跟踪大量变量的过程中是无与伦比的.它可以同时执行IPMI和lm-sensors以及hddtemp.此外,一些BIOS:es log temperature halt events.

总结

以上是内存溢出为你收集整理的疑难解答 – 如何调查意外的Linux服务器关闭?全部内容,希望文章能够帮你解决疑难解答 – 如何调查意外的Linux服务器关闭?所遇到的程序开发问题。

如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。

欢迎分享,转载请注明来源:内存溢出

原文地址: https://outofmemory.cn/yw/1044586.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-05-24
下一篇 2022-05-24

发表评论

登录后才能评论

评论列表(0条)

保存