Linux系统CPU内存使用率过高的问题排查_系统运维

服务器出现由内存问题引发的故障，例如系统内部服务响应速度变慢、服务器登录不上、系统触发 OOM（Out Of Memory）等。通常情况下当实例内存使用率持续高于90%时，可判断为实例内存使用率过高。CPU/内存使用率过高的问题原因可能由硬件因素、系统进程、业务进程或者木马病毒等因素导致。笔者以前写过一篇文章- Linux 下的 60 秒分析的检查清单，适用于任何性能问题的分析工作，这一篇文章是关于CPU/内存使用率的具体的排查思路总结。执行 top 命令后按 M ，根据驻留内存大小进行排序，查看 “RES” 及 “SHR” 列是否有进程占用内存过高。按 P，以 CPU 占用率大小的顺序排列进程列表，查看是否有进程占用cpu过高。如果有异常进程占用了大量 CPU 或内存资源，记录需要终止的进程 PID，输入k，再输入需要终止进程的 PID ，按 Enter。另外说明一下，top 运行中可以通过 top 的内部命令对进程的显示方式进行控制，最常用的是M和P。 CPU 空闲但高负载情况，Load average 是 CPU 负载的评估，其值越高，说明其任务队列越长，处于等待执行的任务越多。执行ps -axjf命令，查看进程状态，并检查是否存在 D 状态进程。D 状态指不可中断的睡眠状态，该状态进程无法被杀死，也无法自行退出。若出现较多 D 状态进程，可通过恢复该进程依赖资源或重启系统进行解决。 Linux 系统通过分页机制管理内存的同时，将磁盘的一部分划出来作为虚拟内存。而 kswapd0 是 Linux 系统虚拟内存管理中负责换页的进程。当系统内存不足时，kswapd0 会频繁的进行换页 *** 作。换页 *** 作非常消耗 CPU 资源，导致该进程持续占用高 CPU 资源。执行top命令，找到 kswapd0 进程。观察 kswapd0 进程状态，若持续处于非睡眠状态，且运行时间较长并持续占用较高 CPU 资源，执行 vmstat ，free，ps 等指令，查询系统内进程的内存占用情况，重启系统或终止不需要且安全的进程。如果 si，so 的值也比较高，则表示系统存在频繁的换页 *** 作，当前系统的物理内存已经不能满足您的需要。 si 表示每秒从交换区写入内存的大小(单位:kb/s) ， so 每秒从内存写到交换区的大小。执行cat/proc/meminfo |grep-i shmem命令查看共享内存。 buddy可以以页为单位获取连续的物理内存了，即4K为单位。slab负责需要频繁的获取/释放并不大的连续物理内存，比如几十字节。执行cat /proc/meminfo | grep -i SUnreclaim命令查看slab 内存。标准的 4KB 大小的页面外，内存大页管理内存中的巨大的页面，处理较少的页面映射表，从而减少访问/维护它们的开销。执行cat /proc/meminfo | grep -iE "HugePages_Total|Hugepagesize" 查看内存大页。内存使用率计算： (Total - available)100% / Total （Total - Free - Buffers - Cached - SReclaimable + Shmem）* 100% / Total cat /proc/meminfo查看信息含义：

Concepts overview — The Linux Kernel documentation

Linux中的内存管理是一个复杂的系统，经过多年的发展，它包含越来越多的功能，以支持从 MMU-less microcontrollers 到 supercomputers 的各种系统。

没有MMU内存管理的系统被称为 nommu ，它值得写一份专门的文档进行描述。

尽管有些概念是相同的，这里我们假设MMU可用，CPU可以将虚拟地址转换为物理地址。

计算机系统中的物理内存是有限资源，即便支持内存热插拔，其可以安装的内存也有限的。物理内存不一定必须是连续的；它可以作为一组不同的地址范围被访问。此外，不同的CPU架构，甚至同架构的不同实现对如何定义这些地址范围都是不同的。

这使得直接处理物理内存异常复杂，为了避免这种复杂性，开发了 虚拟内存（virtual memory） 的概念。

虚拟内存从应用软件中抽象出物理内存的细节，只允许在物理内存中保留需要的信息 （demand paging） ，并提供一种机制来保护和控制进程之间的数据共享。

通过虚拟内存，每次内存访问都访问一个 虚拟地址 。当CPU对从系统内存读取（或写入）的指令进行解码时，它将该指令中编码的虚拟地址转换为内存控制器可以理解的物理地址。

物理内存被切分为 页帧 page frames 或 页 pages 。页的大小是基于架构的。一些架构允许从几个支持的值中选择页大小；此选择在内核编译时设置到内核配置。

每个物理内存页都可以映射为一个或多个 虚拟页（virtual pages） 。映射关系描述在 页表（page tables） 中，页表将程序使用的虚拟地址转换为物理内存地址。页表以层次结构组织。

最底层的表包含软件使用的实际内存页的物理地址。较高层的表包含较低层表页的物理地址。顶层表的指针驻留在寄存器中。

当CPU进行地址转换的时候，它使用寄存器访问顶级页表。

虚拟地址的高位，用于顶级页表的条目索引。然后，通过该条目访问下级，下级的虚拟地址位又作为其下下级页表的索引。虚拟地址的最低位定义实际页内的偏移量。

地址转换需要多次内存访问，而内存访问相对于CPU速度来说比较慢。为了避免在地址转换上花费宝贵的处理器周期，CPU维护着一个称为 TLB （Translation Lookaside Buffer）的用于地址转换缓存（cache）。通常TLB是非常稀缺的资源，需要大内存工作应用程序会因为TLB未命中而影响性能。

很多现代CPU架构允许页表的高层直接映射到内存页。例如，x86架构，可以通过二级、三级页表的条目映射2M甚至1G内存页。在Linux中，这些内存页称为 大页（Huge） 。大页的使用显著降低了TLB的压力，提高了TLB命中率，从而提高了系统的整体性能。

Linux提供两种机制开启使用大页映射物理内存。

第一个是 HugeTLB 文件系统，即 hugetlbfs 。它是一个伪文件系统，使用RAM作为其存储。在此文件系统中创建的文件，数据驻留在内存中，并使用大页进行映射。

关于 HugeTLB Pages

另一个被称为 THP (Transparent HugePages) ，后出的开启大页映射物理内存的机制。

与 hugetlbfs 不同，hugetlbfs要求用户和/或系统管理员配置系统内存的哪些部分应该并可以被大页映射；THP透明地管理这些映射并获取名称。

关于 Transparent Hugepage Support

通常，硬件对不同物理内存范围的访问方式有所限制。某些情况下，设备不能对所有可寻址内存执行DMA。在其他情况下，物理内存的大小超过虚拟内存的最大可寻址大小，需要采取特殊措施来访问部分内存。还有些情况，物理内存的尺寸超过了虚拟内存的最大可寻址尺寸，需要采取特殊措施来访问部分内存。

Linux根据内存页的使用情况，将其组合为多个 zones 。比如， ZONE_DMA 包含设备用于DMA的内存， ZONE_HIGHMEM 包含未永久映射到内核地址空间的内存， ZONE_NORMAL 包含正常寻址内存页。

内存zones的实际层次架构取决于硬件，因为并非所有架构都定义了所有的zones，不同平台对DMA的要求也不同。

多处理器机器很多基于 NUMA （Non-Uniform Memory Access system - 非统一内存访问系统）架构。在这样的系统中，根据与处理器的“距离”，内存被安排成具有不同访问延迟的 banks 。每个 bank 被称为一个 node ，Linux为每个 node 构造一个独立的内存管理子系统。 Node 有自己的zones集合、free&used页面列表，以及各种统计计数器。

What is NUMA?

NUMA Memory Policy

物理内存易失，将数据放入内存的常见情况是读取文件。读取文件时，数据会放入 页面缓存（page cache） ，可以在再次读取时避免耗时的磁盘访问。同样，写文件时，数据也会被放入 页面缓存 ，并最终进入存储设备。被写入的页被标记为 脏页（dirty page） ，当Linux决定将其重用时，它会将更新的数据同步到设备上的文件。

匿名内存 anonymous memory 或 匿名映射 anonymous mappings 表示没有后置文件系统的内存。这些映射是为程序的stack和heap隐式创建的，或调用mmap（2）显式创建的。通常，匿名映射只定义允许程序访问的虚拟内存区域。读，会创建一个页表条目，该条目引用一个填充有零的特殊物理页。写，则分配一个常规物理页来保存写入数据。该页将被标记为脏页，如果内核决定重用该页，则脏页将被交换出去 swapped out 。

纵贯整个系统生命周期，物理页可用于存储不同类型的数据。它可以是内核内部数据结构、设备驱动DMA缓冲区、读取自文件系统的数据、用户空间进程分配的内存等。

根据内存页使用情况，Linux内存管理会区别处理。可以随时释放的页面称为 可回收（reclaimable） 页面，因为它们把数据缓存到了其他地方（比如，硬盘），或者被swap out到硬盘上。

可回收页最值得注意的是 页面缓存 和 匿名页面 。

在大多数情况下，存放内部内核数据的页，和用作DMA缓冲区的页无法重用，它们将保持现状直到用户释放。这样的被称为 不可回收页（unreclaimable） 。

然而，在特定情况下，即便是内核数据结构占用的页面也会被回收。

例如，文件系统元数据的缓存（in-memory）可以从存储设备中重新读取，因此，当系统存在内存压力时，可以从主内存中丢弃它们。

释放可回收物理内存页并重新调整其用途的过程称为 (surprise!) reclaim 。

Linux支持异步或同步回收页，取决于系统的状态。

当系统负载不高时，大部分内存是空闲的，可以立即从空闲页得到分配。

当系统负载提升后，空闲页减少，当达到某个阈值（ low watermark ）时，内存分配请求将唤醒 kswapd 守护进程。它将以异步的方式扫描内存页。如果内存页中的数据在其他地方也有，则释放这些内存页；或者退出内存到后置存储设备（关联脏页）。

随着内存使用量进一步增加，并达到另一个阈值- min watermark -将触发回收。这种情况下，分配将暂停，直到回收到足够的内存页。

当系统运行时，任务分配并释放内存，内存变得碎片化。

虽然使用虚拟内存可以将分散的物理页表示为虚拟连续范围，但有时需要分配大的连续的物理内存。这种需求可能会提升。例如，当设备驱动需要一个大的DMA缓冲区时，或当THP分配一个大页时。

内存地址压缩（compaction ） 解决了碎片问题。

该机制将占用的页从内存zone的下部移动到上部的空闲页。压缩扫描完成后，zone开始处的空闲页就并在一起了，分配较大的连续物理内存就可行了。

与 reclaim 类似， compaction 可以在 kcompactd守护进程中异步进行，也可以作为内存分配请求的结果同步进行。

在存在负载的机器上，内存可能会耗尽，内核无法回收到足够的内存以继续运行。

为了保障系统的其余部分，引入了 OOM killer 。

OOM killer 选择牺牲一个任务来保障系统的总体健康。选定的任务被killed，以期望在它退出后释放足够的内存以继续正常的 *** 作。

swap是一块磁盘空间或者一个本地文件/proc/sys/vm/swappiness 可以设置服务器使用 swap 的积极程度。取值范围为0-100，值越大，越积极使用swap，更倾向于回收匿名页值越小，越消极使用swap，更倾向于回收文件页。即使swap设置为0，当剩余内存+文件页小于页高阈值（ pages_high ）的时候，也会发生swap Linux有专门的内核线程 kswapd0 定期回收内存，为了衡量内存的使用情况， kswapd0 定义了三个内存阈值：页最小阈值 pages_min 、页低阈值 pages_low 和页高阈值 pages_high ，剩余内存使用 pages_free 表示。kswapd0 定期扫描内存的使用情况，并根据剩余内存和这三个阈值的关系进行内存回收 *** 作。pages_free <pages_min ：进程可用内存耗尽，只有内核才可以分配内存pages_min <pages_free <pages_low ：内存压力较大， kswapd0 会执行内存回收，直到剩余内存大于高阈值为止pages_low <pages_free <pages_high ：内存有一定压力，但还可以满足新内存请求pages_free >pages_high ：剩余内存较多，没有内存压力。这些阈值可以通过内核选项来 proc/sys/vm/min_free_kbytes 间接设置。 min_free_kbytes 设置了页最小阈值（ pages_min ）。 pages_low=pages_min*5/4 , pages_high=pages_min*3/2 /etc/security/limits.conf通过这个配置文件可以对每个登录的会话进行限制，这种限制不是全局的，也不是永久的，只在会话期间起作用。通常，对单个用户的限制优先级高于对用户组的限制可以使用以下方式限制内存使用语法<domain><type><item><value> 详见 limits.conf(5) - Linux man page /proc/sys/vm/overcommit_memory 控制内核使用虚拟内存的模式，可以设置为以下值

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/yw/8594124.html

Linux系统CPU内存使用率过高的问题排查

发表评论

评论列表（0条）