测试环境的Ambari进程老是无关无故挂掉,看程序日志也什么都看不出。
查看/var/log/messages日志文件,发现如下日志:
Out of memory: Kill process 31960 (java) score 32 or sacrifice child Killed process 31960 (java) total-vm:8276748kB, anon-rss:1085284kB, file-rss:0kB, shmem-rss:0kB java invoked oom-killer: gfp_mask=0x201da, order=0, oom_score_adj=0 java cpuset=/ mems_allowed=0 CPU: 7 PID: 8580 Comm: java Kdump: loaded Not tainted 3.10.0-862.el7.x86_64 #1 Hardware name: VMware, Inc. VMware Virtual Platform/440BX Desktop Reference Platform, BIOS 6.00 07/28/2017
然后查看 /var/run/ambari-server/ambari-server.pid文件,ambari的进程id也正好是31960 。
看起来是系统内存不足导致内核直接杀进程了。
参考文章:https://blog.csdn.net/whatday/article/details/107845356
然后看了下这台机确实部署的东西有点多:除了ambari server,ResouceManame、NodeManager、DataNode、zk等,还有MySQL,都在这台机上。
查看监控,ambari挂掉的这个时间段,cpu使用都到100%了
看yarn的日志,这个时间点好多任务在执行
先把这台机NodeManager关掉,再观察几天还会不会挂
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)