如何优雅地使用Linux系统OOM ( Out Of Memory Killer)_系统运维

Linux内核根据服务器上当前运行应用的需要来分配内存。因为这通常是预先发生的，所以应用并不会使用所有分配的内存。这将会导致资源浪费，Linux内核允许超分内存以提高内存使用效率。Linux内核允许超分内存，比如总共8G内存，可以分给10个进程各1G，这通常没问题。但问题发生在太多应用一起占用内存，有8个进程各占了1G，剩下两个进程要喝西北风了。

由于内存不足，服务器有崩溃的风险。The server runs the risk of crashing because it ran out of memory。为了防止服务器到达这个临近状态，内核中有一个OOM Killer杀手进程。To prevent the server from reaching that critical state, the kernel also contains a process known as the OOM Killer。内核利用这个杀手进程开始屠杀那些非必要进程，以便服务器正常运行。The kernel uses this process to start killing non-essential processes so the server can remain operational.

当你认为这一切都不是问题时，因为OOM Killer只杀掉那些非必要的，不是用户需要的进程。举例，两个应用(Apache和MySQL)通常先被杀掉，因为占用大量的内存。但这将导致一个web网站立马瘫痪了。

当尝试找到为什么一个应用程序或进程被OOM killer杀掉时，有很多地方可以找到一个进程如何被杀掉以及被杀掉的原因。

$ grep -i kill /var/log/messages*

host kernel: Out of Memory: Killed process 5123 (exampleprocess)

The capital K in Killed tells you that the process was killed with a -9 signal, and this typically is a good indicator that the OOM Killer is to blame.

$ free -lh

The -l switch shows high and low memory statistics, and the -h switch puts the output into gigabytes for easier human readability. You can change this to the -m switch if you prefer the output in megabytes.

同时该命令会给出Swap内存使用信息。注意：free命令给出某个时刻得数据，需要多执行几次才能知道内存动态的占用情况。

$ vmstat -SM 10 20

20次，每次间隔10秒给出内存使用情况。

top 默认输出CPU的使用情况，不过你可以在top后再按下shift + M，你将得到内存的使用情况。

配置文件/etc/sysctl.conf：

sysctl vm.panic_on_oom=1

sysctl kernel.panic=X

echo “vm.panic_on_oom=1” >>/etc/sysctl.conf

echo “kernel.panic=X” >>/etc/sysctl.conf

大多数情况下，内存不足时每次都重启是不合适的。

既可以保护一些重要进程不被OMM killer杀掉，又可以让不重要的进程更容易杀掉:

echo -15 >/proc/(PID)/oom_adj (不被杀)

echo 10 >/proc/(PID)/oom_adj (更易杀)

pstree -p | grep "process" | head -1

在某些情况下，豁免进程可能导致意外的行为变化，取决于系统和资源配置。假如内核无法杀死一个占用大量内存的进程，将杀死其他进程，包括那些重要的 *** 作系统进程。

由于OOM killer可调节的有效范围在-16到+15之间，设置为-17将豁免一个进程，因为在OOM killer调节范围之外。通常的规则是这个参数越大越容易被杀死豁免一个进程的命令是

echo -17 >/proc/(PID)/oom_adj

警告：不建议用于生产环境。

假如重启，修改进程优先级，豁免一个进程不足够好，有个风险的选项：将oom killer 功能关闭。

这一选项参数将有如下影响：

4.1) 严重的内核恐慌kernel panic

4.2) 系统挂住system hang-up

4.3) 一个完整的系统崩溃system crash

为什么关闭有风险呢呢？该功能避免自己因资源而跑飞了。如果你关闭此功能，将不能避免内存耗尽。考虑此项时请极度慎重。

sysctl vm.overcommit_memory=2

echo “vm.overcommit_memory=2” >>/etc/sysctl.conf

有两种方法可以解决这个问题

1、如果可能，请升级到64位系统。

这是最好的解决办法，因为所有的内存都将成为low memory。如果你在这种情况下耗尽了low memory，那就真的是out of memory了。

2、如果受限于必须使用32位系统，最好的解决办法是使用hugemem内核。

这种内核以不同的方式分割low/high memory，而且在大多数情况下会提供足够多的low memory到high memory的映射。在大多数案例中，这是一个很简单的修复方法：安装hugemem kernel RPM包，然后重启即可。

如果运行hugemem内核也不可能，你可以尝试将/proc/sys/vm/lower_zone_protection 的值设置为250甚至更多。这将让内核愿意保护low memory，从而在分配内存时多考虑从high memory分配。据我所知，此选项从2.6.x内核才开始可用。必要的是，您可能需要通过一些实验来找到您系统环境中最适合的值。可以使用下面方法快速的设置和检查改值：

# cat /proc/sys/vm/lower_zone_protection

# echo "250" >/proc/sys/vm/lower_zone_protection

在 /etc/sysctl.conf 中加入设置，以便启动就生效：

vm.lower_zone_protection = 250

作为最后的努力，你可以关闭oom-killer。这个选项可以导致系统挂起，所以请小心使用（风险自负）！

查看当前oom-killer的状态：

# cat /proc/sys/vm/oom-kill

关闭/打开oom-killer：

# echo "0" >/proc/sys/vm/oom-kill

# echo "1" >/proc/sys/vm/oom-kill

当进程该被oom-killer杀死却没有被杀死时，相关信息会记录到 /var/log/messages:

"Would have oom-killed but /proc/sys/vm/oom-kill is disabled"

OOM_killer是Linux自我保护的方式，当内存不足时不至于出现太严重问题，有点壮士断腕的意味

在kernel 2.6，内存不足将唤醒oom_killer，挑出/proc/<pid>/oom_score最大者并将之kill掉

为了保护重要进程不被oom-killer掉，我们可以：echo -17 >/proc/<pid>/oom_adj,-17表示禁用OOM

我们也可以对把整个系统的OOM给禁用掉：

sysctl -w vm.panic_on_oom=1 （默认为0，表示开启）

sysctl -p

值得注意的是，有些时候 free -m 时还有剩余内存，但还是会触发OOM-killer，可能是因为进程占用了特殊内存地址

平时我们应该留意下新进来的进程内存使用量，免得系统重要的业务进程被无辜牵连

可用 top M 查看最消耗内存的进程，但也不是进程一超过就会触发oom_killer

参数/proc/sys/vm/overcommit_memory可以控制进程对内存过量使用的应对策略

当overcommit_memory=0 允许进程轻微过量使用内存，但对于大量过载请求则不允许(默认）

当overcommit_memory=1 永远允许进程overcommit

当overcommit_memory=2 永远禁止overcommit

ref:http://www.2cto.com/os/201309/247081.html

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/yw/7352989.html

如何优雅地使用Linux系统OOM ( Out Of Memory Killer)

发表评论

评论列表（0条）