Linux中常见IO调度器_系统运维

对于磁盘I/O，Linux提供了cfq, deadline和noop三种调度策略

考虑到硬件配置、实际应用场景（读写比例、顺序还是随机读写）的差异，上面的简单解释对于实际选择没有太大帮助，实际该选择哪个基本还是要实测来验证。不过下面几条说明供参考：

NOOP全称No Operation,中文名称电梯式调度器，该算法实现了最简单的FIFO队列，所有I/O请求大致按照先来后到的顺序进行 *** 作。NOOP实现了一个简单的FIFO队列,它像电梯的工作方式一样对I/O请求进行组织。它是基于先入先出（FIFO）队列概念的 Linux 内核里最简单的I/O 调度器。此调度程序最适合于固态硬盘。

Deadline翻译成中文是截止时间调度器，是对Linus Elevator的一种改进，它避免有些请求太长时间不能被处理。另外可以区分对待读 *** 作和写 *** 作。DEADLINE额外分别为读I/O和写I/O提供了FIFO队列。

Deadline对读写request进行了分类管理，并且在调度处理的过程中读请求具有较高优先级。这主要是因为读请求往往是同步 *** 作，对延迟时间比较敏感，而写 *** 作往往是异步 *** 作，可以尽可能的将相邻访问地址的请求进行合并，但是，合并的效率越高，延迟时间会越长。因此，为了区别对待读写请求类型，deadline采用两条链表对读写请求进行分类管理。但是，引入分类管理之后，在读优先的情况下，写请求如果长时间得到不到调度，会出现饿死的情况，因此，deadline算法考虑了写饿死的情况，从而保证在读优先调度的情况下，写请求不会被饿死。

总体来讲，deadline算法对request进行了优先权控制调度，主要表现在如下几个方面：

CFQ全称Completely Fair Scheduler ，中文名称完全公平调度器，它是现在许多 Linux 发行版的默认调度器，CFQ是内核默认选择的I/O调度器。它将由进程提交的同步请求放到多个进程队列中，然后为每个队列分配时间片以访问磁盘。 对于通用的服务器是最好的选择，CFQ均匀地分布对I/O带宽的访问 。CFQ为每个进程和线程，单独创建一个队列来管理该进程所产生的请求,以此来保证每个进程都能被很好的分配到I/O带宽，I/O调度器每次执行一个进程的4次请求。该算法的特点是按照I/O请求的地址进行排序，而不是按照先来后到的顺序来进行响应。简单来说就是给所有同步进程分配时间片，然后才排队访问磁盘。

多队列无 *** 作I / O调度程序。不对请求进行重新排序，最小的开销。NVME等快速随机I / O设备的理想选择。

这是对最后期限I / O调度程序的改编，但设计用于多队列设备。一个出色的多面手，CPU开销相当低。

调度策略值得是大家都在ready时，并且CPU已经被调度时，决定谁来运行，谁来被调度。

两者之间有一定矛盾。

响应的优化，意味着高优先级会抢占优先级，会花时间在上下文切换，会影响吞吐。

上下文切换的时间是很短的，几微妙就能搞定。上下文切换本身对吞吐并多大影响， 重要的是，切换后引起的cpu 的 cache miss.

每次切换APP, 数据都要重新load一次。

Linux 会尽可能的在响应与吞吐之间寻找平衡。比如在编译linux的时候，会让你选择 kernal features ->Preemption model.

抢占模型会影响linux的调度算法。

所以 ARM 的架构都是big+LITTLE，一个很猛CPU+ 多个性能较差的 CPU, 那么可以把I/O型任务的调度放在 LITTLE CPU上。需要计算的放在big上。

早期2.6 内核将优先级划分了 0-139 bit的优先级。数值越低，优先级越高。0-99优先级都是 RT（即时响应）的，100-139都是非RT的，即normal。

调度的时候看哪个bitmap 中的优先级上有任务ready。可能多个任务哦。

在普通优先级线程调度中，高优先级并不代表对低优先级的绝对优势。会在不同优先级进行轮转。

100 就是比101高，101也会比102高，但100 不会堵着101。

众屌丝进程在轮转时，优先级高的：

初始设置nice值为0，linux 会探测你是喜欢睡眠，还是干活。越喜欢睡，linux 越奖励你，优先级上升（nice值减少）。越喜欢干活，优先级下降（nice值增加）。所以一个进程在linux中，干着干着优先级越低，睡着睡着优先级越高。

后期linux补丁中

红黑树，数据结构，左边节点小于右边节点

同时兼顾了 CPU/IO 和 nice。

数值代表着进程运行到目前为止的virtual runtime 时间。

（pyhsical runtime） / weight * 1024(系数)。

优先调度节点值（vruntime）最小的线程。权重weight 其实有nice 来控制。

一个线程一旦被调度到，则物理运行时间增加，vruntime增加，往左边走。

weight的增加，也导致vruntime减小，往右边走。

总之 CFS让线程从左滚到右，从右滚到左。即照顾了I/O(喜欢睡，分子小) 也照顾了 nice值低（分母高）.所以由喜欢睡，nice值又低的线程，最容易被调度到。

自动调整，无需向nice一样做出奖励惩罚动作，个人理解权重其实相当于nice

但是此时来一个 0-99的线程，进行RT调度，都可以瞬间秒杀你！因为人家不是普通的，是RT的!

一个多线程的进程中，每个线程的调度的策略如 fifo rr normal, 都可以不同。每一个的优先级都可以不一样。

实验举例, 创建2个线程，同时开2个：

运行2次，创建两个进程

sudo renice -n -5(nice -5级别) -g(global)，会明显看到一个进程的CPU占用率是另一个的 3倍。

为什么cpu都已经达到200%，为什么系统不觉得卡呢？因为，我们的线程在未设置优先级时，是normal调度模式，且是 CPU消耗型 调度级别其实不高。

利用chrt工具，可以将进程调整为 50 从normal的调度策略升为RT （fifo）级别的调度策略，会出现：

chrt , nice renice 的调度策略都是以线程为单位的，以上设置的将进程下的所有线程进行设置nice值

线程是调度单位，进程不是，进程是资源封装单位！

两个同样死循环的normal优先级线程，其中一个nice值降低，该线程的CPU 利用率就会比另一个CPU的利用率高。

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/yw/7560393.html

Linux中常见IO调度器

发表评论

评论列表（0条）