详解Linux系统内存知识及调优方案_系统运维

内存是计算机中重要的部件之一，它是与CPU进行沟通的桥梁。计算机中所有程序的运行都是在内存中进行的，因此内存的性能对计算机的影响非常大。内存作用是用于暂时存放CPU中的运算数据，以及与硬盘等外部存储器交换的数据。只要计算机在运行中，CPU就会把需要运算的数据调到内存中进行运算，当运算完成后CPU再将结果传送出来，内存的运行也决定了计算机的稳定运行。对于整个 *** 作系统来说，内存可能是最麻烦的的设备。而其性能的好坏直接影响着整个 *** 作系统。

我们知道CPU是不能与硬盘打交道的，只有数据被载入到内存中才可以被CPU调用。cpu在访问内存的时候需要先像内存监控程序请求，由监控程序控制和分配内存的读写请求，这个监控程序叫做MMU(内存管理单元)。下面以32位系统来说明内存的访问过程：

32位的系统上每一个进程在访问内存的时候，每一个进程都当做自己有4个G的内存空间可用，这叫虚拟内存(地址)，虚拟内存转化成物理内存是通过MMU来完成的。为了能够从线性地址转换成物理地址，需要page table(页表)的内存空间,page table要载入到MMU上。为了完成线性地址到物理地址的映射，如果按照1个字节1个字节映射的话，需要一张非常大的表，这种转换关系会非常的复杂。因此把内存空间又划分成了另外一种存储单元格式，通常为4K。在不同的硬件平台上，它们的大小一般是不一样的，像x86 32位的有4k的页而64位的有4k页，2M页，4M页，8M页等等，默认都是4k的。每一个进程一般而言都有自己的页路径和页表映射机制，不管那一个页表都是由内核加载的。每一个进程只能看到自己的线性地址空间，想要增加新的内存的时候，只能在自己的线性地址空间中申请，并且申请后一定是通过 *** 作系统的内核映射到物理地址空间中去找那么一段空间，并且告诉线性地址空间准备好了，可以访问，并且在page table中增加一条映射关系，于是就可以访问物理内存了，这种叫做内存分配。但是新的申请一定是通过 *** 作的内核到物理内存中去找那么一段空间，并且告诉线性地址空间好了，可以建设映射关系，最终page table建立映射关系。

这反映了上述描述过程的大体情况。可以看到每一个用户程序都会有自己的页表，并且映射到对应的主存储器上去。

根据上述文字和图表的描述可以发现2个问题：

1.每个进程如果需要访问内存的时候都需要去查找page table的话，势必会造成服务器的性能底下

2.如果主存储器的内存满了以后，应用程序还需要调用内存的时候怎么办

对于第一个问题，我们就需要借助TLB(Translation Lookaside Buffer)翻译后备缓冲器。TLB是一个内存管理单元，它可以用于改进虚拟地址到物理地址转换速度的缓存。这样每次在查找page table的时候就可以先去TLB中查找相应的页表数据，如果有就直接返回，没有再去查找page table，并把查找到的结果缓存中TLB中。TLB虽然解决了缓存的功能，但是在那么page table中查找映射关系仍然很慢，所以又有了page table的分级目录。page table可以分为1级目录，2级目录和偏移量

但是一个进程在运行的时候要频繁的打开文件，关闭文件。这就意味着要频繁的申请内存和释放内存。有些能够在内存中缓存数据的那些进程，他们对内存的分配和回收更多，那么每一次分配都会在页表中建立一个对应项。所以，就算内存的速度很快，大量频繁的同一时间分配和释放内存，依然会降低服务器的整体性能。当然内存空间不够用的时候，我们称为oom(out of memory,内存耗尽)。当内存耗尽的时候，，整个 *** 作系统挂了。这种情况下我们可以考虑交换分区，交换分区毕竟是由硬盘虚拟出来的内存，所以其性能与真正的内存相比，差了很多，所以要尽力避免使用交换分区。有物理内存空间的时候尽量保证全部使用物理内存。cpu无论如何是不能给交换内存打交道的，它也只能给物理内存打交道，能寻址的空间也只能是物理内存。所以当真正物理内存空间不够用的时候，会通过LRU算法把其中最近最少使用的内存放到交换内存中去，这样物理内存中的那段空间就可以供新的程序使用了。但是这样会引发另外的一个问题，即原来的进程通过page table寻找的时候，那一段空间的数据已经不属于它了。所以此刻cpu发送通知或者异常告诉这个程序，这个地址空间已不属于它，这个时候可能会出现2种情况：

1.物理内存有可用的空间可用：这个时候cpu会根据以前的转换策略会把交换分区中的那段内存重新送到物理内存中去，但是转换过来的空间地址不一定会是以前的那一段空间地址，因为以前的那一段空间地址可能已经被别人使用了。

2.物理内存没有可用的空间可用：这个时候依然会使用LRU算发把当前物理地址空间上最近最少使用的空间地址转换到交换内存中去，并把当前进程需要的这断在交换空间中的内存送到物理内存空间中去，并且重新建立映射关系。

上述通知或者异常出现的情况，通常叫做缺页异常。缺页异常也分为大异常和小异常两种。大异常就是访问的数据内存中没有，不的不去硬盘上加载，无论是从交换内存中还是直接从磁盘的某个文件系统上，反正需要从硬盘上去加载，这种异常加载需要很长时间。小异常就是进程之间通过共享内存，第二个进程访问的时候，查看本地的内存映射表没有，但是其它进程已经拥有了这个内存页，所以可以直接映射，这种异常加载需要的时间一般很短。

在 *** 作系统开机的时候，每一个io设备都会像cpu申请一些列的随机端口，这种端口叫做io端口。在IBM PC体系结构中，I/O地址空间一共提供了65,536个8位的I/O端口。正是这些io端口的存在，cpu可以与io设备进行读写交互的过程。在执行读写 *** 作时，CPU使用地址总线选择所请求的I/O端口，使用数据总线在CPU寄存器和端口之间传送数据。I/O端口还可以被映射到物理地址空间：因此，处理器和I/O设备之间的通信就可以直接使用对内存进行 *** 作的汇编语言指令(例如，mov、and、or等等)。现代的硬件设备更倾向于映射I/O，因为这样处理的速度较快，并可以和DMA结合起来使用。这样io在和内存传数据的时候就不需要通过cpu，cpu把总线的控制权交给DMA，每次io传数据的时候就调用DMA一次，就把cpu给解放了出来。当数据传输完了以后，DMA通知给cpu中断一次。DMA在运行的时候对整个总线有控制权限，当cpu发现有其它进程需要使用总线的时候，二者就会产生争用。这个时候，在总线控制权的使用上，CPU和DMA具有相等的权限。只要CPU委托给了DMA，就不能随意的收回这个委托，就要等待DMA的用完。

如果没有其它进程可以运行，或者其它进程运行的时间非常短，这个时候CPU发现我们的IO仍然没有完成，那就意味着，CPU只能等待IO了。CPU在时间分配里面有个iowait的值，就是CPU在等待IO花费的时间。有些是在同步调用过程中，CPU必须要等待IO的完成否者CPU可以释放IO的传输在背后自动完成，CPU自己去处理其它的事情。等硬盘数据传输完成以后，硬盘只需要像CPU发起一个通知即可。CPU外围有一种设备，这个设备叫做可编程中断控制器。每一个硬件设备为了给CPU通信，在刚开机的时候，在BIOS实现检测的时候，这个设备就要到可编程中断控制器上去注册一个所谓的中断号。那么这个号码就归这个硬件使用了。当前主机上可能有多个硬件，每一个硬件都有自己的号码，CPU在收到中断号以后，就能够通过中断相量表查找到那个硬件设备进行中断。并且就由对应的IO端口过来处理了。

CPU正在运行其它进程，当一个中断请求发过来的时候，CPU会立即终止当前正在处理的进程，而去处理中断。当前CPU挂起当前正在处理的进程，转而去执行中断的过程，也叫做中断切换。只不过，这种切换在量级别上比进程切换要低一些，而且任何中断的优先级通常比任何进程也要高，因为我们指的是硬件中断。中断还分为上半部和下半部，一般而言，上半部就是CPU在处理的时候，把它接进来，放到内存中，如果这个事情不是特别紧急(CPU或者内核会自己判断)，因此在这种情况下，CPU回到现场继续执行刚才挂起的进程，当这个进程处理完了，再回过头来执行中断的下半部分。

在32位系统中，我们的内存(线性地址)地址空间中，一般而言，低地址空间有一个G是给内核使用的，上面3个G是给进程使用的。但是应该明白，其实在内核内存当中，再往下，不是直接这样划分的。32位系统和64位系统可能不一样(物理地址)，在32位系统中，最低端有那么10多M的空间是给DMA使用的。DNA的总线宽度是很小的，可能只有几位，所以寻址能力很有限，访问的内存空间也就很有限。如果DMA需要复制数据，而且自己能够寻址物理内存，还可以把数据直接壮哉进内存中去，那么就必须保证DMA能够寻址那段内存才行。寻址的前提就是把最低地址断M，DA的寻址范围内的那一段给了DMA。所以站在这个角度来说，我们的内存管理是分区域的。

在32位系统上，16M的内存空间给了ZONE_DMA(DMA使用的物理地址空间)从16M到896M给了ZONE_NORMAL(正常物理地址空间)，对于Linux *** 作系统来说，是内核可以直接访问的地址空间从896M到1G这断空间叫做"Reserved"(预留的物理地址空间)从1G到4G的这段物理地址空间中，我们的内核是不能直接访问的，要想访问必须把其中的一段内容映射到Reserved来，在Reserved中保留出那一段内存的地址编码，我们内核才能上去访问，所以内核不直接访问大于1G的物理地址空间。所以在32位系统上，它访问内存当中的数据，中间是需要一个额外步骤的。

在64位系统上，ZONE_DAM给了低端的1G地址空间，这个时候DMA的寻址能力被大大加强了ZONE_DAM32可以使用4G的空间而大于1G以上给划分了ZONE_NORMAL,这段空间都可以被内核直接访问。所以在64位上，内核访问大于1G的内存地址，就不需要额外的步骤了，效率和性能上也大大增加，这也就是为什么要使用64位系统的原因。

在现在的PC架构上，AMD,INTER都支持一种机制，叫做PEA(物理地址扩展)。所谓PAE。指的是在32位系统的地址总线上，又扩展了4位，使得32位系统上的地址空间可以达到64G。当然在32为系统上，不管你的物理内存有多大，单个进程所使用的空间是无法扩展的。因为在32位的系统上，线性地址空间只有4个G，而单个进程能够识别的访问也只有3个G。

linux的虚拟内存子系统包含了以下几个功能模块：

slab allocator,zoned buddy allocator,MMU,kswapd,bdflush

slab allocator叫做slab分配器

buddy allocator又叫做buddy system，叫做伙伴系统，也是一种内存分配器

buddy system是工作在MMU之上的，而slab allocator又是工作在buddy system之上的。

设置为小于等于1G，在数据库服务器应该劲量避免使用交换内存

3.在应用服务器上，可以设置为RAM*0.5，当然这个是理论值

如果不的不使用交换内存，应该把交换内存放到最靠外的磁道分区上，因为最外边的磁盘的访问速度最快。所以如果有多块硬盘，可以把每块硬盘的最外层的磁道拿一小部分出来作为交换分区。交换分区可以定义优先级，因此把这些硬盘的交换内存的优先级设置为一样，可以实现负载均衡的效果。定义交换分区优先级的方法为编辑/etc/fstab：

/dev/sda1 swap swap pri=5 0 0

/dev/sdb1 swap swap pri=5 0 0

/dev/sdc1 swap swap pri=5 0 0

/dev/sdd1 swap swap pri=5 0 0

四.内存耗尽时候的相关调优参数

当Linux内存耗尽的时候，它会杀死那些占用内存最多的进程，以下三种情况会杀死进程：

1.所有的进程都是活动进程，这个时候想交换出去都没有空闲的进程

2.没有可用的page页在ZONE_NORMAL中

3.有其它新进程启动，申请内存空间的时候，要找一个空闲内存给做映射，但是这个时候找不到了

一旦内存耗尽的时候， *** 作系统就会启用oom-kill机制。

在/proc/PID/目录下有一个文件叫做oom_score,就是用来指定oom的评分的，就是坏蛋指数。

如果要手动启用oom-kill机制的话，只需要执行echo f>/proc/sysrq-trigger即可，它会自动杀掉我们指定的坏蛋指数评分最高的那个进程

可以通过echo n >/proc/PID/oom_adj来调整一个进程的坏蛋评分指数。最终的评分指数就是2的oom_adj的值的N次方。假如我们的一个进程的oom_adj的值是5，那么它的坏蛋评分指数就是2的5次方。

如果想禁止oom-kill功能的使用可以使用vm.panic_on_oom=1即可。

五.与容量有关的内存调优参数：

overcommit_memory,可用参数有3个，规定是否能够过量使用内存：

0：默认设置，内核执行启发式的过量使用处理

1：内核执行无内存的过量使用处理。使用这个值会增大内存超载的可能性

2：内存的使用量等于swap的大小+RAM*overcommit_ratio的值。如果希望减小内存的过度使用，这个值是最安全的

overcommit_ratio:将overcommit_memory指定为2时候，提供的物理RAM比例，默认为50

六.与通信相关的调优参数

常见在同一个主机中进行进程间通信的方式：

1.通过消息message2.通过signal信号量进行通信3.通过共享内存进行通信，跨主机常见的通信方式是rpc

以消息的方式实现进程通信的调优方案：

msgmax:以字节为单位规定消息队列中任意消息的最大允许大小。这个值一定不能超过该队列的大小(msgmnb)，默认值为65536

msgmnb:以字节为单位规定单一消息队列的最大值(最大长度)。默认为65536字节

msgmni:规定消息队列识别符的最大数量(及队列的最大数量)。64位架构机器的默认值为198532位架构机器的默认值为1736

以共享内存方式实现进程通信的调优方案：

shmall:以字节为单位规定一次在该系统中可以使用的共享内存总量(单次申请的上限)

shmmax:以字节为单位规定每一个共享内存片段的最大大小

shmmni:规定系统范围内最大共享内存片段。在64和32位的系统上默认值都是4096

七.与容量相关的文件系统可调优参数：

file-max:列出内核分配的文件句柄的最大值

dirty_ratio:规定百分比值，当脏数据达到系统内存总数的这个百分比值后开始执行pdflush,默认为20

dirty_background_ratio:规定百分比值，当某一个进程自己所占用的脏页比例达到系统内存总数的这个百分比值后开始在后台执行pdflush，默认为10

dirty_expire_centisecs:pdlush每隔百分之一秒的时间开启起来刷新脏页，默认值为3000，所以每隔30秒起来开始刷新脏页

dirty_writeback_centisecs:每隔百分之一秒开始刷新单个脏页。默认值为500，所以一个脏页的存在时间达到了5秒，就开始刷新脏

八.linux内存常用的观察指标命令：

Memory activity

vmstat [interval] [count]

sar -r [interval] [count]

Rate of change in memory

sar -R [interval] [count]

frmpg/s:每秒释放或者分配的内存页，如果为正数，则为释放的内存页如果为负数，则为分配的内存页

bufpg/s:每秒buffer中获得或者释放的内存页。如果为正数则为获得的内存页，为负数。则为释放的内存页

campg/s:每秒cache中获得或者释放的内存页。如果为正数则为获得的内存页，为负数。则为释放的内存页

Swap activity

sar -W [interval] [count]

ALL IO

sar -B [interval] [count]

pgpgin/s:每秒从磁盘写入到内核的块数量

pgpgout/s:每秒从内核写入到磁盘的块数量

fault/s:每秒钟出现的缺页异常的个数

majflt/s:每秒钟出现的大页异常的个数

pgfree/s:每秒回收回来的页面个数

主要用于企业服务器端，下面详细介绍Linux有哪些岗位、主要的工作内容及职业发展，希望对你有所帮助。

1） Linux运维岗位及工作内容

互联网Linux运维工程师是一个融合多学科(网络、系统、开发、数据库、安全、存储等)的综合性技术岗位，甚至还需要沟通、为人处世、培训、销售、管理等非技术能力，这给运维工程师提供了一个广阔的发展空间。

2) Linux运维工程师岗位职责

一般从企业入门到中级Linux运维工程师的工作大致有：挑选IDC机房及带宽、购买物理服务器或云服务、购买及使用CDN服务、搭建部署程序开发及用户的访问系统环境(例如:网站运行环境)、对数据进行备份及恢复、处理网站运行中的各种故障（例如：硬件故障、软件故障、服务故障、数据损坏及丢失等）、对网站的故障进行监控、解决网站运行的潜在安全问题、开发自动化脚本程序提高工作效率、规划网站架构、程序发布流程和规范，制定运维工作制度和规范、配合开发人员部署及调试产品研发需要的测试环境、代码发布等工作需求，公司如果较小可能还会兼职网管、网络工程师、数据库管理员、安全工程师、技术支持等职责。

涉及到的Linux平台上的运维工具有：Linux系统,Linux基础命令,Nginx,Apache,MySQL,PHP,Tomcat,Lvs,Keepalived,SSH,Ansible,Rsync,NFS,Inotify,Sersync,Drbd,PPTP,OpenVPN,NTP,Kickstart/Cobbler,KVM,OpenStack,Docker,，K8S，Mongodb,Redis,Memcached,Iptables,SVN,GIT,Jenkins,网络基础,Shell/Python开发基础等，除此之外还可能涉及到交换机、路由器、存储、安全、开发等知识。

运维工程师还包括一些低端的岗位，例：网络管理员、监控运维、IDC运维，值班运维

职业发展方向：Linux运维工程师、系统架构师、数据库工程师、运维开发工程师、系统网络安全工程师、运维经理、运维总监

3) Linux中级运维工程师应用软件阶段。

Linux系统,Linux基础命令,Nginx,Apache,MySQL,PHP,Tomcat,Lvs,Keepalived,SSH,Ansible,Rsync,NFS,Inotify,Sersync,Drbd,PPTP,OpenVPN,NTP,Kickstart/Cobbler,KVM,OpenStack,Docker,Mongodb,Redis,Memcached,Iptables,SVN,GIT,Jenkins,网络基础,Shell/Python开发基础

4)Linux运维架构师岗位职责

运维架构师是运维工程师的高级阶段，并没有明确的岗位界限区分，运维架构师一般来说是除了对运维工程师应用的开源工具熟练掌握之外，更多的是用思想来运维了，即DevOps的落地，各种企业运行过程中的解决方案提出和执行，例如：根据公司的现状可以设计各类运维解决方案的能力：

1、自动化代码上线（SVN/GIT+Jenkins+MVN）解决方案；

2、云计算部署架构及Docker微服务架构方案；

3、服务自动化扩容方案（KVM/OpenStack/Docker+Ansible+Zabbix）；

4、10万并发的网站架构、秒杀系统的架构及解决发你个案；

5、多IDC机房互联方案、全网数据备份解决方案、账号统一认证方案；

6、数据库、存储及各重要服务节点的集群和高可用方案。

7、各网络服务的极端优化方案、服务解耦/拆分。

8、运维流程、制度、规范等的建设和推行。

9、沟通能力、培训能力、项目管理、业务需求分析及落地执行力等。

这里仅举几个例子，实际工作中会有更多，运维架构师的工作，其实就是解决企业中的用户访问量不断增大带来的痛点，最终达到高效、优质的为客户提供网站及业务服务。

总的来说：Linux运维架构师更多的是根据企业日益增长的访问量需求，利用若干运维工具组合加上经验思想，形成解决业务需求方案的阶段，当然也不排除对运维工具进行二次开发以及可视化展示运维数据的阶段（开发软件平台），这个阶段涉及的工具会非常多，几乎市面好用的开源工具都在备选之列，在一线城市互联网公司的薪资范围15000-50000/月。

职业方向：高级数据库工程师、运维开发工程师、运维经理、运维总监、技术总监

运维架构师：将多个工具组合，加上思想经验，形成方案，用思想和经验赚钱的阶段。

技术的提升仅是量的积累，思想的提升才是质的飞跃！——老男孩

5)数据库运维工程师

众所周知，数据几乎是所有企业的生命线，所以数据库工程师的地位和薪水一般会比普通运维工程师高一些，主要工作内容就是保证数据库数据的安全以及高效地为用户提供各种服务。工作内容主要有：数据库环境搭建、数据库优化、数据库

理解Linux的IO模型之前，首先要了解一些基本概念，才能理解这些IO模型设计的依据

*** 作系统使用虚拟内存来映射物理内存，对于32位的 *** 作系统来说，虚拟地址空间为4G（2^32）。 *** 作系统的核心是内核，为了保护用户进程不能直接 *** 作内核，保证内核安全， *** 作系统将虚拟地址空间划分为内核空间和用户空间。内核可以访问全部的地址空间，拥有访问底层硬件设备的权限，普通的应用程序需要访问硬件设备必须通过 系统调用 来实现。

对于Linux系统来说，将虚拟内存的最高1G字节的空间作为内核空间仅供内核使用，低3G字节的空间供用户进程使用，称为用户空间。

又被称为标准I/O，大多数文件系统的默认I/O都是缓存I/O。在Linux系统的缓存I/O机制中， *** 作系统会将I/O的数据缓存在页缓存（内存）中，也就是数据先被拷贝到内核的缓冲区（内核地址空间），然后才会从内核缓冲区拷贝到应用程序的缓冲区（用户地址空间）。

这种方式很明显的缺点就是数据传输过程中需要再应用程序地址空间和内核空间进行多次数据拷贝 *** 作，这些 *** 作带来的CPU以及内存的开销是非常大的。

由于Linux系统采用的缓存I/O模式，对于一次I/O访问，以读 *** 作举例，数据先会被拷贝到内核缓冲区，然后才会从内核缓冲区拷贝到应用程序的缓存区，当一个read系统调用发生的时候，会经历两个阶段：

正是因为这两个状态，Linux系统才产生了多种不同的网络I/O模式的方案

Linux系统默认情况下所有socke都是blocking的，一个读 *** 作流程如下：

以UDP socket为例，当用户进程调用了recvfrom系统调用，如果数据还没准备好，应用进程被阻塞，内核直到数据到来且将数据从内核缓冲区拷贝到了应用进程缓冲区，然后向用户进程返回结果，用户进程才解除block状态，重新运行起来。

阻塞模行下只是阻塞了当前的应用进程，其他进程还可以执行，不消耗CPU时间，CPU的利用率较高。

Linux可以设置socket为非阻塞的，非阻塞模式下执行一个读 *** 作流程如下：

当用户进程发出recvfrom系统调用时，如果kernel中的数据还没准备好，recvfrom会立即返回一个error结果，不会阻塞用户进程，用户进程收到error时知道数据还没准备好，过一会再调用recvfrom，直到kernel中的数据准备好了，内核就立即将数据拷贝到用户内存然后返回ok，这个过程需要用户进程去轮询内核数据是否准备好。

非阻塞模型下由于要处理更多的系统调用，因此CPU利用率比较低。

应用进程使用sigaction系统调用，内核立即返回，等到kernel数据准备好时会给用户进程发送一个信号，告诉用户进程可以进行IO *** 作了，然后用户进程再调用IO系统调用如recvfrom，将数据从内核缓冲区拷贝到应用进程。流程如下：

相比于轮询的方式，不需要多次系统调用轮询，信号驱动IO的CPU利用率更高。

异步IO模型与其他模型最大的区别是，异步IO在系统调用返回的时候所有 *** 作都已经完成，应用进程既不需要等待数据准备，也不需要在数据到来后等待数据从内核缓冲区拷贝到用户缓冲区，流程如下：

在数据拷贝完成后，kernel会给用户进程发送一个信号告诉其read *** 作完成了。

是用select、poll等待数据，可以等待多个socket中的任一个变为可读，这一过程会被阻塞，当某个套接字数据到来时返回，之后再用recvfrom系统调用把数据从内核缓存区复制到用户进程，流程如下：

流程类似阻塞IO，甚至比阻塞IO更差，多使用了一个系统调用，但是IO多路复用最大的特点是让单个进程能同时处理多个IO事件的能力，又被称为事件驱动IO，相比于多线程模型，IO复用模型不需要线程的创建、切换、销毁，系统开销更小，适合高并发的场景。

select是IO多路复用模型的一种实现，当select函数返回后可以通过轮询fdset来找到就绪的socket。

优点是几乎所有平台都支持，缺点在于能够监听的fd数量有限，Linux系统上一般为1024，是写死在宏定义中的，要修改需要重新编译内核。而且每次都要把所有的fd在用户空间和内核空间拷贝，这个 *** 作是比较耗时的。

poll和select基本相同，不同的是poll没有最大fd数量限制（实际也会受到物理资源的限制，因为系统的fd数量是有限的），而且提供了更多的时间类型。

总结：select和poll都需要在返回后通过轮询的方式检查就绪的socket，事实上同时连的大量socket在一个时刻只有很少的处于就绪状态，因此随着监视的描述符数量的变多，其性能也会逐渐下降。

epoll是select和poll的改进版本，更加灵活，没有描述符限制。epoll使用一个文件描述符管理多个描述符，将用户关系的文件描述符的事件存放到内核的一个事件表中，这样在用户空间和内核空间的copy只需一次。

epoll_create()用来创建一个epoll句柄。

epoll_ctl() 用于向内核注册新的描述符或者是改变某个文件描述符的状态。已注册的描述符在内核中会被维护在一棵红黑树上，通过回调函数内核会将 I/O 准备好的描述符加入到一个就绪链表中管理。

epoll_wait() 可以从就绪链表中得到事件完成的描述符，因此进程不需要通过轮询来获得事件完成的描述符。

当epoll_wait检测到描述符IO事件发生并且通知给应用程序时，应用程序可以不立即处理该事件，下次调用epoll_wait还会再次通知该事件，支持block和nonblocking socket。

当epoll_wait检测到描述符IO事件发生并且通知给应用程序时，应用程序需要立即处理该事件，如果不立即处理，下次调用epoll_wait不会再次通知该事件。

ET模式在很大程度上减少了epoll事件被重复触发的次数，因此效率要比LT模式高。epoll工作在ET模式的时候，必须使用nonblocking socket，以避免由于一个文件句柄的阻塞读/阻塞写 *** 作把处理多个文件描述符的任务饿死。

【segmentfault】 Linux IO模式及 select、poll、epoll详解

【GitHub】 CyC2018/CS-Notes

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/yw/7393753.html

详解Linux系统内存知识及调优方案

发表评论

评论列表（0条）