Linux系统IO模型及select、poll、epoll原理和应用_系统运维

理解Linux的IO模型之前，首先要了解一些基本概念，才能理解这些IO模型设计的依据

*** 作系统使用虚拟内存来映射物理内存，对于32位的 *** 作系统来说，虚拟地址空间为4G（2^32）。 *** 作系统的核心是内核，为了保护用户进程不能直接 *** 作内核，保证内核安全， *** 作系统将虚拟地址空间划分为内核空间和用户空间。内核可以访问全部的地址空间，拥有访问底层硬件设备的权限，普通的应用程序需要访问硬件设备必须通过 系统调用 来实现。

对于Linux系统来说，将虚拟内存的最高1G字节的空间作为内核空间仅供内核使用，低3G字节的空间供用户进程使用，称为用户空间。

又被称为标准I/O，大多数文件系统的默认I/O都是缓存I/O。在Linux系统的缓存I/O机制中， *** 作系统会将I/O的数据缓存在页缓存（内存）中，也就是数据先被拷贝到内核的缓冲区（内核地址空间），然后才会从内核缓冲区拷贝到应用程序的缓冲区（用户地址空间）。

这种方式很明显的缺点就是数据传输过程中需要再应用程序地址空间和内核空间进行多次数据拷贝 *** 作，这些 *** 作带来的CPU以及内存的开销是非常大的。

由于Linux系统采用的缓存I/O模式，对于一次I/O访问，以读 *** 作举例，数据先会被拷贝到内核缓冲区，然后才会从内核缓冲区拷贝到应用程序的缓存区，当一个read系统调用发生的时候，会经历两个阶段：

正是因为这两个状态，Linux系统才产生了多种不同的网络I/O模式的方案

Linux系统默认情况下所有socke都是blocking的，一个读 *** 作流程如下：

以UDP socket为例，当用户进程调用了recvfrom系统调用，如果数据还没准备好，应用进程被阻塞，内核直到数据到来且将数据从内核缓冲区拷贝到了应用进程缓冲区，然后向用户进程返回结果，用户进程才解除block状态，重新运行起来。

阻塞模行下只是阻塞了当前的应用进程，其他进程还可以执行，不消耗CPU时间，CPU的利用率较高。

Linux可以设置socket为非阻塞的，非阻塞模式下执行一个读 *** 作流程如下：

当用户进程发出recvfrom系统调用时，如果kernel中的数据还没准备好，recvfrom会立即返回一个error结果，不会阻塞用户进程，用户进程收到error时知道数据还没准备好，过一会再调用recvfrom，直到kernel中的数据准备好了，内核就立即将数据拷贝到用户内存然后返回ok，这个过程需要用户进程去轮询内核数据是否准备好。

非阻塞模型下由于要处理更多的系统调用，因此CPU利用率比较低。

应用进程使用sigaction系统调用，内核立即返回，等到kernel数据准备好时会给用户进程发送一个信号，告诉用户进程可以进行IO *** 作了，然后用户进程再调用IO系统调用如recvfrom，将数据从内核缓冲区拷贝到应用进程。流程如下：

相比于轮询的方式，不需要多次系统调用轮询，信号驱动IO的CPU利用率更高。

异步IO模型与其他模型最大的区别是，异步IO在系统调用返回的时候所有 *** 作都已经完成，应用进程既不需要等待数据准备，也不需要在数据到来后等待数据从内核缓冲区拷贝到用户缓冲区，流程如下：

在数据拷贝完成后，kernel会给用户进程发送一个信号告诉其read *** 作完成了。

是用select、poll等待数据，可以等待多个socket中的任一个变为可读，这一过程会被阻塞，当某个套接字数据到来时返回，之后再用recvfrom系统调用把数据从内核缓存区复制到用户进程，流程如下：

流程类似阻塞IO，甚至比阻塞IO更差，多使用了一个系统调用，但是IO多路复用最大的特点是让单个进程能同时处理多个IO事件的能力，又被称为事件驱动IO，相比于多线程模型，IO复用模型不需要线程的创建、切换、销毁，系统开销更小，适合高并发的场景。

select是IO多路复用模型的一种实现，当select函数返回后可以通过轮询fdset来找到就绪的socket。

优点是几乎所有平台都支持，缺点在于能够监听的fd数量有限，Linux系统上一般为1024，是写死在宏定义中的，要修改需要重新编译内核。而且每次都要把所有的fd在用户空间和内核空间拷贝，这个 *** 作是比较耗时的。

poll和select基本相同，不同的是poll没有最大fd数量限制（实际也会受到物理资源的限制，因为系统的fd数量是有限的），而且提供了更多的时间类型。

总结：select和poll都需要在返回后通过轮询的方式检查就绪的socket，事实上同时连的大量socket在一个时刻只有很少的处于就绪状态，因此随着监视的描述符数量的变多，其性能也会逐渐下降。

epoll是select和poll的改进版本，更加灵活，没有描述符限制。epoll使用一个文件描述符管理多个描述符，将用户关系的文件描述符的事件存放到内核的一个事件表中，这样在用户空间和内核空间的copy只需一次。

epoll_create()用来创建一个epoll句柄。

epoll_ctl() 用于向内核注册新的描述符或者是改变某个文件描述符的状态。已注册的描述符在内核中会被维护在一棵红黑树上，通过回调函数内核会将 I/O 准备好的描述符加入到一个就绪链表中管理。

epoll_wait() 可以从就绪链表中得到事件完成的描述符，因此进程不需要通过轮询来获得事件完成的描述符。

当epoll_wait检测到描述符IO事件发生并且通知给应用程序时，应用程序可以不立即处理该事件，下次调用epoll_wait还会再次通知该事件，支持block和nonblocking socket。

当epoll_wait检测到描述符IO事件发生并且通知给应用程序时，应用程序需要立即处理该事件，如果不立即处理，下次调用epoll_wait不会再次通知该事件。

ET模式在很大程度上减少了epoll事件被重复触发的次数，因此效率要比LT模式高。epoll工作在ET模式的时候，必须使用nonblocking socket，以避免由于一个文件句柄的阻塞读/阻塞写 *** 作把处理多个文件描述符的任务饿死。

【segmentfault】 Linux IO模式及 select、poll、epoll详解

【GitHub】 CyC2018/CS-Notes

在linux中，对于一次读取IO请求（不仅仅是磁盘，还有网络）的 *** 作，数据并不会直接拷贝到用户程序的用户空间缓冲区。它首先会被拷贝到 *** 作系统的内核空间，然后才会从 *** 作系统内核的缓冲区拷贝到用户空间的缓冲区。

大概是这个样子。

从图中可以看见，这是分四步进行的，而这四步里面有些细节，就有了这5种IO模型

前四种为同步IO，后一种为异步IO，什么是同步异步可以看看我之前写的同步与异步，阻塞与非阻塞。

应用进程发起系统调用后就阻塞了，直到内核buffer拷贝到用户buffer，发出成功提示后才继续执行。

适用场景：并发量小的要及时响应的网络应用开发，JavaBIO。

优点：易于开发，不消耗CPU资源（线程阻塞），及时响应。

缺点：不适用与并发量大的网络应用开发，一个请求一个线程，系统开销大。

应用进程发起系统调用，内核立马返回一个自己当前的缓冲区的状态（错误或者说成功），假如

为错误则隔段时间再系统调用（轮询），直到返回成功为止。另外再说一点，有人说轮询之间可以设置一个时间，例如每几秒执行一次，然后在这段期间程序可以干自己的事情。（这个我不清楚是不是，虽然理论上可以实现，但是我觉得第一种与第二种的区别应该强调的是是否放弃CPU，第二种有点CAS+轮询这种轻量级锁的感觉，第一种就是那种重量级锁的感觉）。

适用场景：并发量小且不用技术响应的网络应用开发

优点：易于开发，可以在轮询的间断期间继续执行程序。

缺点：不适用与并发量大的网络应用开发，一个请求一个线程，系统开销大。消耗CPU资源（轮询），不及时响应。

将多个IO注册到一个复用器上（select，poll，epoll），然后一个进程监视所有注册进来的IO。

进程阻塞在select上，而不是真正阻塞在IO系统调用上。当其中任意一个注册的IO的内核缓冲区有了数据，select就会返回（告诉程序内核态缓存有数据了），然后用户进程再发起调用，数据就从内核态buffer转到用态buffer（这段期间也是要阻塞的）。

适用场景：并发量大且对响应要求较为高的网络应用开发，JavaNIO

优点：将阻塞从多个进程转移到了一个select调用身上，假如并发量大的话select调用是不易被阻塞的，或者说阻塞时间短的。

缺点：不易开发，实现难度大，当并发量小的时候还不如同步阻塞模型。

应用程序向内核注册一个信号处理程序，然后立即返回，当数据准备好了以后（数据到了内核buffer），内核个应用进程一个信号，然后应用进程通过信号处理程序发起系统调用，然后阻塞直达数据从内核buffer复制到用户buffer。

优点：将阻塞从多个进程转移到了一个select调用身上，假如并发量大的话select调用是不易被阻塞的，或者说阻塞时间短的。

缺点：不易开发，实现难度大。

以上四个IO模型都可以看出来，到最后用户进程都要在数据从内核buffer复制到用户buffer时阻塞，直到内核告诉进程准备成功。这就是同步进程，就是发出一个功能调用时，在没有得到结果之前，该调用就不返回或继续执行后续 *** 作。

就是发出一个功能调用时，在没有得到结果之前，该调用就不返回或继续执行后续 *** 作

这个就是直到数据copy完成到用户buffer才通知。

应用场景：Java AIO，适合高性能高并发应用。

优点：不阻塞，减少了线程切换，

缺点：难以实现，要 *** 作系统支持。

首先、用top命令查看

top - 16:15:05 up 6 days, 6:25, 2 users, load average: 1.45, 1.77, 2.14

Tasks: 147 total, 1 running, 146 sleeping, 0 stopped, 0 zombie

Cpu(s): 0.2% us, 0.2% sy, 0.0% ni, 86.9% id, 12.6% wa, 0.0% hi, 0.0% si

Mem: 4037872k total, 4003648k used, 34224k free, 5512k buffers

Swap: 7164948k total, 629192k used, 6535756k free, 3511184k cached

查看12.6% wa

IO等待所占用的CPU时间的百分比,高过30%时IO压力高

其次、用iostat -x 1 10

avg-cpu: %user %nice %sys %iowait %idle

0.00 0.00 0.25 33.46 66.29

Device: rrqm/s wrqm/s r/s w/s rsec/s wsec/s rkB/s wkB/s avgrq-sz avgqu-sz await svctm %util

sda 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00

sdb 0.00 1122 17.00 9.00 192.00 9216.00 96.00 4608.00 123.79 137.23 1033.43 13.17 100.10

sdc 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00

查看%util 100.10 %idle 66.29

如果 %util 接近 100%，说明产生的I/O请求太多，I/O系统已经满负荷，该磁盘可能存在瓶颈。

idle小于70% IO压力就较大了,一般读取速度有较多的wait.

同时可以结合vmstat 查看查看b参数(等待资源的进程数)

vmstat -1

如果你想对硬盘做一个IO负荷的压力测试可以用如下命令

time dd if=/dev/zero bs=1M count=2048 of=direct_2G

此命令为在当前目录下新建一个2G的文件

我们在新建文件夹的同时来测试IO的负荷情况。

欢迎分享，转载请注明来源：内存溢出

原文地址: https://outofmemory.cn/yw/7302534.html

Linux系统IO模型及select、poll、epoll原理和应用

发表评论

评论列表（0条）