我知道我查看/ var / log但不确定我应该调查哪些日志以及我应该寻找什么.所以感谢你的提示.
解决方法 首先,我必须问:“停工”?你的意思是机器重新启动或实际停止吗?如果它停止,则它可能是错误配置的(可能在B IOS中)或某些东西正在主动关闭机器(即初始化0).如果没有,您的主要候选者将是/ var / log / syslog和/var/log/kern.log,因为您的问题听起来像内核恐慌或软件触发的硬件故障.当然,如果服务器运行某些服务(例如apache)也可能给你一个线索.
通常,在这种情况下,会生成日志条目,但由于计算机遇到困难,因此无法将条目写入磁盘.如果该盒子是共同的,那么它很可能是由colo伙伴连接到串行控制台.如果我在上面的日志中找不到任何可疑的东西,那就是我要看的地方.
如果计算机未连接到串行控制台且日志中没有任何内容,您可能需要考虑通过网络将syslog发送到其他框.也许网络接口可以存活更长时间,并且可以在syslog服务器上读取日志消息.看看rsyslog或syslog-ng.
更新:
我同意下面的@Johann.停机的最可能原因是处理器温度监视器.尝试通过lmsensors或smartctl(通常最简单)检查/绘制框中的温度.我发现collectd在跟踪大量变量的过程中是无与伦比的.它可以同时执行IPMI和lm-sensors以及hddtemp.此外,一些BIOS:es log temperature halt events.
总结以上是内存溢出为你收集整理的疑难解答 – 如何调查意外的Linux服务器关闭?全部内容,希望文章能够帮你解决疑难解答 – 如何调查意外的Linux服务器关闭?所遇到的程序开发问题。
如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)