Linux系统IO模型及select、poll、epoll原理和应用_系统运维

理解Linux的IO模型之前，首先要了解一些基本概念，才能理解这些IO模型设计的依据

*** 作系统使用虚拟内存来映射物理内存，对于32位的 *** 作系统来说，虚拟地址空间为4G（2^32）。 *** 作系统的核心是内核，为了保护用户进程不能直接 *** 作内核，保证内核安全， *** 作系统将虚拟地址空间划分为内核空间和用户空间。内核可以访问全部的地址空间，拥有访问底层硬件设备的权限，普通的应用程序需要访问硬件设备必须通过 系统调用 来实现。

对于Linux系统来说，将虚拟内存的最高1G字节的空间作为内核空间仅供内核使用，低3G字节的空间供用户进程使用，称为用户空间。

又被称为标准I/O，大多数文件系统的默认I/O都是缓存I/O。在Linux系统的缓存I/O机制中， *** 作系统会将I/O的数据缓存在页缓存（内存）中，也就是数据先被拷贝到内核的缓冲区（内核地址空间），然后才会从内核缓冲区拷贝到应用程序的缓冲区（用户地址空间）。

这种方式很明显的缺点就是数据传输过程中需要再应用程序地址空间和内核空间进行多次数据拷贝 *** 作，这些 *** 作带来的CPU以及内存的开销是非常大的。

由于Linux系统采用的缓存I/O模式，对于一次I/O访问，以读 *** 作举例，数据先会被拷贝到内核缓冲区，然后才会从内核缓冲区拷贝到应用程序的缓存区，当一个read系统调用发生的时候，会经历两个阶段：

正是因为这两个状态，Linux系统才产生了多种不同的网络I/O模式的方案

Linux系统默认情况下所有socke都是blocking的，一个读 *** 作流程如下：

以UDP socket为例，当用户进程调用了recvfrom系统调用，如果数据还没准备好，应用进程被阻塞，内核直到数据到来且将数据从内核缓冲区拷贝到了应用进程缓冲区，然后向用户进程返回结果，用户进程才解除block状态，重新运行起来。

阻塞模行下只是阻塞了当前的应用进程，其他进程还可以执行，不消耗CPU时间，CPU的利用率较高。

Linux可以设置socket为非阻塞的，非阻塞模式下执行一个读 *** 作流程如下：

当用户进程发出recvfrom系统调用时，如果kernel中的数据还没准备好，recvfrom会立即返回一个error结果，不会阻塞用户进程，用户进程收到error时知道数据还没准备好，过一会再调用recvfrom，直到kernel中的数据准备好了，内核就立即将数据拷贝到用户内存然后返回ok，这个过程需要用户进程去轮询内核数据是否准备好。

非阻塞模型下由于要处理更多的系统调用，因此CPU利用率比较低。

应用进程使用sigaction系统调用，内核立即返回，等到kernel数据准备好时会给用户进程发送一个信号，告诉用户进程可以进行IO *** 作了，然后用户进程再调用IO系统调用如recvfrom，将数据从内核缓冲区拷贝到应用进程。流程如下：

相比于轮询的方式，不需要多次系统调用轮询，信号驱动IO的CPU利用率更高。

异步IO模型与其他模型最大的区别是，异步IO在系统调用返回的时候所有 *** 作都已经完成，应用进程既不需要等待数据准备，也不需要在数据到来后等待数据从内核缓冲区拷贝到用户缓冲区，流程如下：

在数据拷贝完成后，kernel会给用户进程发送一个信号告诉其read *** 作完成了。

是用select、poll等待数据，可以等待多个socket中的任一个变为可读，这一过程会被阻塞，当某个套接字数据到来时返回，之后再用recvfrom系统调用把数据从内核缓存区复制到用户进程，流程如下：

流程类似阻塞IO，甚至比阻塞IO更差，多使用了一个系统调用，但是IO多路复用最大的特点是让单个进程能同时处理多个IO事件的能力，又被称为事件驱动IO，相比于多线程模型，IO复用模型不需要线程的创建、切换、销毁，系统开销更小，适合高并发的场景。

select是IO多路复用模型的一种实现，当select函数返回后可以通过轮询fdset来找到就绪的socket。

优点是几乎所有平台都支持，缺点在于能够监听的fd数量有限，Linux系统上一般为1024，是写死在宏定义中的，要修改需要重新编译内核。而且每次都要把所有的fd在用户空间和内核空间拷贝，这个 *** 作是比较耗时的。

poll和select基本相同，不同的是poll没有最大fd数量限制（实际也会受到物理资源的限制，因为系统的fd数量是有限的），而且提供了更多的时间类型。

总结：select和poll都需要在返回后通过轮询的方式检查就绪的socket，事实上同时连的大量socket在一个时刻只有很少的处于就绪状态，因此随着监视的描述符数量的变多，其性能也会逐渐下降。

epoll是select和poll的改进版本，更加灵活，没有描述符限制。epoll使用一个文件描述符管理多个描述符，将用户关系的文件描述符的事件存放到内核的一个事件表中，这样在用户空间和内核空间的copy只需一次。

epoll_create()用来创建一个epoll句柄。

epoll_ctl() 用于向内核注册新的描述符或者是改变某个文件描述符的状态。已注册的描述符在内核中会被维护在一棵红黑树上，通过回调函数内核会将 I/O 准备好的描述符加入到一个就绪链表中管理。

epoll_wait() 可以从就绪链表中得到事件完成的描述符，因此进程不需要通过轮询来获得事件完成的描述符。

当epoll_wait检测到描述符IO事件发生并且通知给应用程序时，应用程序可以不立即处理该事件，下次调用epoll_wait还会再次通知该事件，支持block和nonblocking socket。

当epoll_wait检测到描述符IO事件发生并且通知给应用程序时，应用程序需要立即处理该事件，如果不立即处理，下次调用epoll_wait不会再次通知该事件。

ET模式在很大程度上减少了epoll事件被重复触发的次数，因此效率要比LT模式高。epoll工作在ET模式的时候，必须使用nonblocking socket，以避免由于一个文件句柄的阻塞读/阻塞写 *** 作把处理多个文件描述符的任务饿死。

【segmentfault】 Linux IO模式及 select、poll、epoll详解

【GitHub】 CyC2018/CS-Notes

DVFS全称Dynamic Voltage and Frequency Scaling，即动态电压频率调整。这项技术可以根据芯片运行的应用程序的计算需求，动态调整电压和频率，从而达到节能的目的。

DVFS技术是一项需要软硬件结合的技术，硬件方面比如Intel的SpeedStep技术以及由此衍生的EIST技术，ARM的IEM和AVS技术等。软件方面对于Linux而言主要就是CPUfreq技术，下面我们着重分析一下这项技术。在开始之前，稍微讲一点硬件知识。

CMOS电路中分为动态功耗和静态功耗，公式为 power=Σ(CV²αf + VI)。 C 代表负载电容的容值，V 是工作电压，α 是当前频率下的翻转率，f为工作频率，I代表静态电流。公式中加号前面部分代表动态功耗，后半部分代表静态功耗。要想降低动态功耗的话，需要从C/α/V/f几个参数入手，而对于软件而言，通常可以调节的只有V和f。

好，基于上面的背景，对于Cpufreq技术其实也就是软件根据系统的负载，动态的去调整电压和频率来平衡性能和功耗。

总体而言，Cpufreq包含两部分内容，一是策略部分，该部分与具体CPU无关；而是driver部分，与具体平台实现策略有关系。这种设计的优点是实现了策略和实现机制的分离。首先看策略部分，目前Linux上通用的策略有五种，如下表所示：

对于安卓系统而言，还增加了一种interactive策略针对延时敏感的UI任务，当有UI任务时，改策略会采取更加激进的方式调节CPU频率。

对于用户空间而言，一般可通过/sys/devices/system/cpu/cpu[x]/cpufreq/xxx来查看CPU的调度策略或者进行设置。

主要有以下接口暴露给用户：

当切换不同调度策略时，还会出现一些新的接口。但通用接口如上表所示。

对于dirver而言，如果需要监控CPUfrq系统的变化，那么存在两种类型的通知，一种是CPUfreq的策略变化，另一种是CPU频率的变化。

策略变化总共有三种类型的通知:

CPUFREQ_ADJUST-只要有需要，所有的被通知者可以在此时修改policy的限制信息，比如温控系统可能会修改在大允许运行的频率。

CPUFREQ_INCOMPATIBLE-只是为了避免硬件错误的情况下，可以在该通知中修改policy的限制信息。

CPUFREQ_NOTIFY-真正切换policy前，该通知会发往所有的被通知者。

CPU频率变化会发出两种类型的通知：

CPUFREQ_PRECHANGE-调整前的通知

CPUFREQ_POSTCHANGE-完成调整后的通知

另外，系统休眠/唤醒如果CPU频率发生变化，还会发出CPUFREQ_SUSPENDCHANGE和CPUFREQ_RESUMECHANGE这两个通知。

需要注意的是，除了CPU之外，其他设备也可能存在DVFS的调整需求，可以关注devfreq，对应到driver/devfreq驱动目录。

内核在编译阶段就可以选择支持的governor以及默认governor。在menuconfig中可配置CONFIG_CPU_FREQ，CONFIG_CPU_FREQ_GOV_PERFORMANCE, CONFIG_CPU_FREQ_GOV_POWERSAVE, CONFIG_CPU_FREQ_GOV_USERSPACE, CONFIG_CPU_FREQ_GOV_ONDEMAND, CONFIG_CPU_FREQ_GOV_CONSERVATIVE

等来选择是否开启CPUfreq，以及选择哪种governor。

Linux 3.1之后内核将cpupower-utils集成进内核tools/power/cpupower目录，改工具集的cpufreq-bench工具可以用来分析不同策略对CPU性能的影响。该工具的原理是模拟系统运行的状态来对比其他策略相比于performance高频模式完成任务的时间比例。以ondemand策略为例，命令使用方式如下：

cpufreq-bench -l 50000 -s 100000 -x 50000 -y 100000 -g ondemand -r 5 -n 5 -v

一般达到目标90%左右的比例视为理想比例。

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/yw/8298445.html

Linux系统IO模型及select、poll、epoll原理和应用

发表评论

评论列表（0条）