Linux系统的进程调度_系统运维

Linux进程调度

1．调度方式

Linux系统的调度方式基本上采用“ 抢占式优先级 ”方式，当进程在用户模式下运行时，不管它是否自愿，核心在一定条件下（如该进程的时间片用完或等待I/O）可以暂时中止其运行，而调度其他进程运行。一旦进程切换到内核模式下运行时，就不受以上限制，而一直运行下去，仅在重新回到用户模式之前才会发生进程调度。

Linux系统中的调度基本上继承了UNIX系统的 以优先级为基础 的调度。也就是说，核心为系统中每个进程计算出一个优先级，该优先级反映了一个进程获得CPU使用权的资格，即高优先级的进程优先得到运行。核心从进程就绪队列中挑选一个优先级最高的进程，为其分配一个CPU时间片，令其投入运行。在运行过程中，当前进程的优先级随时间递减，这样就实现了“负反馈”作用，即经过一段时间之后，原来级别较低的进程就相对“提升”了级别，从而有机会得到运行。当所有进程的优先级都变为0（最低）时，就重新计算一次所有进程的优先级。

2．调度策略

Linux系统针对不同类别的进程提供了3种不同的调度策略，即SCHED_FIFO、SCHED_RR及SCHED_OTHER。其中，SCHED_FIFO适合于 短实时进程 ，它们对时间性要求比较强，而每次运行所需的时间比较短。一旦这种进程被调度且开始运行，就一直运行到自愿让出CPU或被优先级更高的进程抢占其执行权为止。

SCHED_RR对应“时间片轮转法”，适合于每次运行需要 较长时间的实时进程 。一个运行进程分配一个时间片（200 ms），当时间片用完后，CPU被另外进程抢占，而该进程被送回相同优先级队列的末尾，核心动态调整用户态进程的优先级。这样，一个进程从创建到完成任务后终止，需要经历多次反馈循环。当进程再次被调度运行时，它就从上次断点处开始继续执行。

SCHED_OTHER是传统的UNIX调度策略，适合于交互式的 分时进程 。这类进程的优先级取决于两个因素：一个是进程剩余时间配额，如果进程用完了配给的时间，则相应优先级降到0；另一个是进程的优先数nice，这是从UNIX系统沿袭下来的方法，优先数越小，其优先级越高。nice的取值范围是-20 19。用户可以利用nice命令设定进程的nice值。但一般用户只能设定正值，从而主动降低其优先级；只有特权用户才能把nice的值设置为负数。进程的优先级就是以上二者之和。

后台命令对应后台进程（又称后台作业）。后台进程的优先级低于任何交互（前台）进程的优先级。所以，只有当系统中当前不存在可运行的交互进程时，才调度后台进程运行。后台进程往往按批处理方式调度运行。

3．调度时机

核心进行进程调度的时机有以下5种情况：

（1）当前进程调用系统调用nanosleep( )或者pause( )，使自己进入睡眠状态，主动让出一段时间的CPU的使用权。

（2）进程终止，永久地放弃对CPU的使用。

（3）在时钟中断处理程序执行过程中，发现当前进程连续运行的时间过长。

（4）当唤醒一个睡眠进程时，发现被唤醒的进程比当前进程更有资格运行。

（5）一个进程通过执行系统调用来改变调度策略或者降低自身的优先级（如nice命令），从而引起立即调度。

4．调度算法

进程调度的算法应该比较简单，以便减少频繁调度时的系统开销。Linux执行进程调度时，首先查找所有在就绪队列中的进程，从中选出优先级最高且在内存的一个进程。如果队列中有实时进程，那么实时进程将优先运行。如果最需要运行的进程不是当前进程，那么当前进程就被挂起，并且保存它的现场—— 所涉及的一切机器状态，包括程序计数器和CPU寄存器等，然后为选中的进程恢复运行现场。

（二）Linux常用调度命令

· nohup命令

nohup命令的功能是以忽略挂起和退出的方式执行指定的命令。其命令格式是：

nohup　command　［arguments］

其中，command是所要执行的命令，arguments是指定命令的参数。

nohup命令告诉系统，command所代表的命令在执行过程中不受任何结束运行的信号（hangup和quit）的影响。例如，

$ nohup find / -name exam.txt -print>f1 &

find命令在后台运行。在用户注销后，它会继续运行：从根目录开始，查找名字是exam.txt的文件，结果被定向到文件f1中。

如果用户没有对输出进行重定向，则输出被附加到当前目录的nohup.out文件中。如果用户在当前目录中不具备写权限，则输出被定向到$HOME/nohup.out 中。

· at命令

at命令允许指定命令执行的时间。at命令的常用形式是：

at　time　command

其中，time是指定命令command在将来执行时的时间和日期。时间的指定方法有多种，用户可以使用绝对时间，也可以用相对时间。该指定命令将以作业形式在后台运行。例如：

$ at 15:00 Oct 20

回车后进入接收方式，接着键入以下命令：

mail -s "Happy Birthday!" liuzheny

按下D键，屏幕显示：

job 862960800.a at Wed Oct 20 15:00:00 CST 1999

表明建立了一个作业，其作业ID号是862960800.a，运行作业的时间是1999年10月20日下午3:00，给liuzheny发一条标题为“Happy Birthday！”（生日快乐）的空白邮件。

利用 at　-l 可以列出当前at队列中所有的作业。

利用 at　-r 可以删除指定的作业。这些作业以前由at或batch命令调度。例如，

at　-r　862960797.a

将删除作业ID号是862960797.a的作业。其一般使用形式是：

at　-r　job_id

注意，结尾是.a的作业ID号，表示这个作业是由at命令提交的；结尾是.b的作业ID号，表示这个作业是由batch命令提交的。

· batch命令

batch命令不带任何参数，它提交的作业的优先级比at命令提交的作业的优先级低。batch无法指定作业运行的时间。实际运行时间要看系统中已经提交的作业数量。如果系统中优先级较高的作业比较多，那么，batch提交的作业则需要等待；如果系统空闲，则运行batch提交的作业。例如，

$ batch

回车后进入接收方式，接着键入命令：

find / -name exam.txt -print

按下D。退出接收方式，屏幕显示：

job 862961540.b at Thu Nov 18 14:30:00 CST 1999

表示find命令被batch作为一个作业提交给系统，作业ID号是862961540.b。如果系统当前空闲，这个作业被立即执行，其结果同样作为邮件发送给用户。

· jobs命令

jobs命令用来显示当前shell下正在运行哪些作业（即后台作业）。例如：

$ jobs

[2] + Running tar tv3 *&

[1] - Running find / -name README -print >logfile &

其中，第一列方括号中的数字表示作业序号，它是由当前运行的shell分配的，而不是由 *** 作系统统一分配的。在当前shell环境下，第一个后台作业的作业号为1，第二个作业的作业号为2，等等。

第二列中的“ ”号表示相应作业的优先级比“－”号对应作业的优先级高。

第三列表明作业状态，是否为运行、中断、等待输入或停止等。

最后列出的是创建当前这个作业所对应的命令行。

利用 jobs　-l 形式，可以在作业号后显示出相应进程的PID。如果想只显示相应进程的PID，不显示其它信息，则使用 jobs　-p 形式。

· fg命令

fg命令把指定的后台作业移到前台。其使用格式是：

fg [job…]

其中，参数job是一个或多个进程的PID，或者是命令名称或者作业号（前面要带有一个“%”号）。例如：

$ jobs

[2] + Running tar tv3 *&

[1] - Running find / -name README -print >logfile&

$ fg %find

find / -name README -print >logfile

注意，显示的命令行末尾没有“&”符号。下面命令能产生同样的效果：

$ fg %1

这样，find命令对应的进程就在前台执行。当后台只有一个作业时，键入不带参数的fg命令，就能使相应进程移到前台。当有两个或更多的后台作业时，键入不带参数的fg，就把最后进入后台的进程首先移到前台。

· bg命令

bg命令可以把前台进程换到后台执行。其使用格式是：

bg [job…]

其中，job是一个或多个进程的PID、命令名称或者作业号，在参数前要带“%”号。例如，在cc（C编译命令）命令执行过程中，按下Z键，使这个作业挂起。然后键入以下命令：

$ bg %cc

该挂起的作业在后台重新开始执行。

我们知道，进程运行需要各种各样的系统资源，如内存、文件、打印机和最

宝贵的 CPU 等，所以说，调度的实质就是资源的分配。系统通过不同的调度算法（Scheduling Algorithm）来实现这种资源的分配。通常来说，选择什么样的调度算法取决于资源分配的策略（Scheduling Policy）。

有关调度相关的结构保存在 task_struct 中，如下：

active_mm 是为内核线程而引入的，因为内核线程没有自己的地址空间，为了让内核线程与普通进程具有统一的上下文切换方式，当内核线程进行上下文切换时，让切换进来的线程的 active_mm 指向刚被调度出去的进程的 active_mm（如果进程的mm 域不为空，则其 active_mm 域与 mm 域相同）。

在 linux 2.6 中 sched_class 表示该进程所属的调度器类有3种：

进程的调度策略有5种，用户可以调用调度器里不同的调度策略：

在每个 CPU 中都有一个自身的运行队列 rq，每个活动进程只出现在一个运行队列中，在多个 CPU 上同时运行一个进程是不可能的。

运行队列是使用如下结构实现的：

tast 作为调度实体加入到 CPU 中的调度队列中。

系统中所有的运行队列都在 runqueues 数组中，该数组的每个元素分别对应于系统中的一个 CPU。在单处理器系统中，由于只需要一个就绪队列，因此数组只有一个元素。

内核也定义了一下便利的宏，其含义很明显。

Linux、c/c++服务器开发篇-------我们来聊聊进程的那些事

Linux内核进程间通信组件的实现

学习地址：C/C++Linux服务器开发/后台架构师【零声教育】-学习视频教程-腾讯课堂

需要C/C++ Linux服务器架构师学习资料加qun812855908获取（资料包括 C/C++，Linux，golang技术，Nginx，ZeroMQ，MySQL，Redis，fastdfs，MongoDB，ZK，流媒体，CDN，P2P，K8S，Docker，TCP/IP，协程，DPDK，ffmpeg 等），免费分享

在分析调度流程之前，我们先来看在什么情况下要执行调度程序，我们把这种情况叫做调度时机。

Linux 调度时机主要有。

时机1，进程要调用 sleep() 或 exit() 等函数进行状态转换，这些函数会主动调用调度程序进行进程调度。

时机2，由于进程的时间片是由时钟中断来更新的，因此，这种情况和时机4 是一样的。

时机3，当设备驱动程序执行长而重复的任务时，直接调用调度程序。在每次反复循环中，驱动程序都检查 need_resched 的值，如果必要，则调用调度程序 schedule() 主动放弃 CPU。

时机4 ，如前所述，不管是从中断、异常还是系统调用返回，最终都调用 ret_from_sys_call()，由这个函数进行调度标志的检测，如果必要，则调用调用调度程序。那么，为什么从系统调用返回时要调用调度程序呢？这当然是从效率考虑。从系统调用返回意味着要离开内核态而返回到用户态，而状态的转换要花费一定的时间，因此，在返回到用户态前，系统把在内核态该处理的事全部做完。

Linux 的调度程序是一个叫 Schedule() 的函数，这个函数来决定是否要进行进程的切换，如果要切换的话，切换到哪个进程等。

从代码分析来看，Schedule 主要完成了2个功能：

进程上下文切换包括进程的地址空间的切换和执行环境的切换。

对于 switch_mm 处理，关键的一步就是它将新进程页面目录的起始物理地址装入到寄存器 CR3 中。CR3 寄存器总是指向当前进程的页面目录。

switch_to 把寄存器中的值比如esp等存放到进程thread结构中，保存现场一边后续恢复，同时调用 __switch_to 完成了堆栈的切换。

在进程的 task_struct 结构中有个重要的成分 thread，它本身是一个数据结构 thread_struct, 里面记录着进程在切换时的（系统空间）堆栈指针，取指令地址（也就是“返回地址”）等关键性的信息。

关于__switch_to 的工作就是处理 TSS （任务状态段）。

TSS 全称task state segment，是指在 *** 作系统进程管理的过程中，任务（进程）切换时的任务现场信息。

linux 为每一个 CPU 提供一个 TSS 段，并且在 TR 寄存器中保存该段。

linux 中之所以为每一个 CPU 提供一个 TSS 段，而不是为每个进程提供一个TSS 段，主要原因是 TR 寄存器永远指向它，在任务切换的适合不必切换 TR 寄存器，从而减小开销。

在从用户态切换到内核态时，可以通过获取 TSS 段中的 esp0 来获取当前进程的内核栈栈顶指针，从而可以保存用户态的 cs,esp,eip 等上下文。

TSS 在任务切换过程中起着重要作用，通过它实现任务的挂起和恢复。所谓任务切换是指，挂起当前正在执行的任务，恢复或启动另一任务的执行。

在任务切换过程中，首先，处理器中各寄存器的当前值被自动保存到 TR（任务寄存器）所指定的任务的 TSS 中；然后，下一任务的 TSS 被装入 TR；最后，从 TR 所指定的 TSS 中取出各寄存器的值送到处理器的各寄存器中。由此可见，通过在 TSS 中保存任务现场各寄存器状态的完整映象，实现任务的切换。

因此，__switch_to 核心内容就是将 TSS 中的内核空间（0级）堆栈指针换成 next->esp0。这是因为 CPU 在穿越中断门或者陷阱门时要根据新的运行级别从TSS中取得进程在系统空间的堆栈指针。

thread_struct.esp0 指向进程的系统空间堆栈的顶端。当一个进程被调度运行时，内核会将这个变量写入 TSS 的 esp0 字段，表示这个进程进入0级运行时其堆栈的位置。换句话说，进程的 thread_struct 结构中的 esp0 保存着其系统空间堆栈指针。当进程穿过中断门、陷阱门或者调用门进入系统空间时，处理器会从这里恢复期系统空间栈。

由于栈中变量的访问依赖的是段、页、和 esp、ebp 等这些寄存器，所以当段、页、寄存器切换完以后，栈中的变量就可以被访问了。

因此 switch_to 完成了进程堆栈的切换，由于被切进的进程各个寄存器的信息已完成切换，因此 next 进程得以执行指令运行。

由于 A 进程在调用 switch_to 完成了与 B 进程堆栈的切换，也即是寄存器中的值都是 B 的，所以 A 进程在 switch_to 执行完后，A停止运行，B开始运行，当过一段时间又把 A 进程切进去后，A 开始从switch_to 后面的代码开始执行。

schedule 的调用流程如下：

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/yw/7247845.html

Linux系统的进程调度

发表评论

评论列表（0条）