程序员必备知识（ *** 作系统5-文件系统）_系统运维

本篇与之前的第三篇的内存管理知识点有相似的地方

对于运行的进程来说，内存就像一个纸箱子, 仅仅是一个暂存数据的地方，而且空间有限。如果我们想要进程结束之后，数据依然能够保存下来，就不能只保存在内存里，而是应该保存在外部存储中。就像图书馆这种地方，不仅空间大,而且能够永久保存。

我们最常用的外部存储就是硬盘，数据是以文件的形式保存在硬盘上的。为了管理这些文件，我们在规划文件系统的时候，需要考虑到以下几点。

第一点,文件系统要有严格的组织形式，使得文件能够以块为单位进行存储。这就像图书馆里，我们会给设置一排排书架，然后再把书架分成一个个小格子，有的项目存放的资料非常多，一个格子放不下，就需要多个格子来进行存放。我们把这个区域称为存放原始资料的仓库区。

第二点,文件系统中也要有索引区，用来方便查找一个文件分成的多个块都存放在了什么位置。这就好比，图书馆的书太多了,为了方便查找,我们需要专门设置一排书架,这里面会写清楚整个档案库有哪些资料,资料在哪个架子的哪个格子上。这样找资料的时候就不用跑遍整个档案库,在这个书架上找到后，直奔目标书架就可以了。

第三点,如果文件系统中有的文件是热点文件,近期经常被读取和写入，文件系统应该有缓存层。这就相当于图书馆里面的热门图书区,这里面的书都是畅销书或者是常常被借还的图书。因为借还的次数比较多,那就没必要每次有人还了之后，还放回遥远的货架，我们可以专门开辟一个区域, 放置这些借还频次高的图书。这样借还的效率就会提高。

第四点,文件应该用文件夹的形式组织起来，方便管理和查询。这就像在图书馆里面，你可以给这些资料分门别类,比如分成计算机类.文学类.历史类等等。这样你也容易管理，项目组借阅的时候只要在某个类别中去找就可以了。

在文件系统中，每个文件都有一个名字,这样我们访问一个文件，希望通过它的名字就可以找到。文件名就是一个普通的文本。当然文件名会经常冲突,不同用户取相同的名字的情况还是会经常出现的。

要想把很多的文件有序地组织起来,我们就需要把它们成为目录或者文件夹。这样,一个文件夹里可以包含文件夹,也可以包含文件,这样就形成了一种树形结构。而我们可以将不同的用户放在不同的用户目录下，就可以一定程度上避免了命名的冲突问题。

第五点，Linux 内核要在自己的内存里面维护一套数据结构，来保存哪些文件被哪些进程打开和使用。这就好比，图书馆里会有个图书管理系统，记录哪些书被借阅了，被谁借阅了，借阅了多久,什么时候归还。

文件系统是 *** 作系统中负责管理持久数据的子系统，说简单点,就是负责把用户的文件存到磁盘硬件中,因为即使计算机断电了，磁盘里的数据并不会丢失,所以可以持久化的保存文件。

文件系统的基本数据单位是文件，它的目的是对磁盘上的文件进行组织管理，那组织的方式不同,就会形成不同的文件系统。

Linux最经典的一句话是:“一切皆文件”,不仅普通的文件和目录，就连块设备、管道、socket 等，也都是统一交给文件系统管理的。

Linux文件系统会为每个文件分配两个数据结构: 索引节点(index node) 和目录项(directory entry) ，它们主要用来记录文件的元信息和目录层次结构。

●索引节点，也就是inode, 用来记录文件的元信息，比如inode编号、文件大小访问权限、创建时间、修改时间、数据在磁盘的位置等等。索引节点是文件的唯一标识 ,它们之间一一对应, 也同样都会被存储在硬盘中,所以索引节点同样占用磁盘空间。

●目录项，也就是dentry, 用来记录文件的名字、索引节点指针以及与其他目录项的层级关联关系。多个目录项关联起来，就会形成目录结构，但它与索引节点不同的是,目录项是由内核维护的一个数据结构,不存放于磁盘，而是缓存在内存。

由于索引节点唯一标识一个文件，而目录项记录着文件的名，所以目录项和索引节点的关系是多对一,也就是说，一个文件可以有多个别字。比如，硬链接的实现就是多个目录项中的索引节点指向同一个文件。

注意，目录也是文件，也是用索引节点唯一标识，和普通文件不同的是，普通文件在磁盘里面保存的是文件数据，而目录文件在磁盘里面保存子目录或文件。

（PS：目录项和目录不是一个东西！你也不是一个东西（^_=），虽然名字很相近，但目录是个文件。持久化存储在磁盘,而目录项是内核一个数据结构,缓存在内存。

如果查询目录频繁从磁盘读，效率会很低，所以内核会把已经读过的目录用目录项这个数据结构缓存在内存，下次再次读到相同的目录时，只需从内存读就可以,大大提高了文件系统的效率。

目录项这个数据结构不只是表示目录，也是可以表示文件的。）

磁盘读写的最小单位是扇区，扇区的大小只有512B大小，很明显，如果每次读写都以这么小为单位，那这读写的效率会非常低。

所以，文件系统把多个扇区组成了一个逻辑块，每次读写的最小单位就是逻辑块(数据块) , Linux中的逻辑块大小为4KB,也就是一次性读写 8个扇区,这将大大提高了磁盘的读写的效率。

以上就是索引节点、目录项以及文件数据的关系，下面这个图就很好的展示了它们之间的关系:

索引节点是存储在硬盘上的数据，那么为了加速文件的访问，通常会把索引节点加载到内存中。

另外，磁盘进行格式化的时候，会被分成三个存储区域，分别是超级块、索引节点区和数据块区。

●超级块,用来存储文件系统的详细信息，比如块个数、块大小、空闲块等等。

●索引节点区,用来存储索引节点

●数据块区，用来存储文件或目录数据

我们不可能把超级块和索引节点区全部加载到内存,这样内存肯定撑不住，所以只有当需要使用的时候，才将其加载进内存，它们加载进内存的时机是不同的.

●超级块:当文件系统挂载时进入内存

●索引节点区:当文件被访问时进入内存

文件系统的种类众多，而 *** 作系统希望对用户提供一个统一的接口，于是在用户层与文件系统层引入了中间层，这个中间层就称为虚拟文件系统(Virtual File System, VFS) 。

VFS定义了一组所有文件系统都支持的数据结构和标准接口,这样程序员不需要了解文件系统的工作原理，只需要了解VFS提供的统一接口即可。

在Linux文件系统中，用户空间、系统调用、虚拟机文件系统、缓存、文件系统以及存储之间的关系如下图:

Linux支持的文件系统也不少，根据存储位置的不同，可以把文件系统分为三类:

●磁盘的文件系统，它是直接把数据存储在磁盘中,比如Ext 2/3/4. XFS 等都是这类文件系统。

●内存的文件系统，这类文件系统的数据不是存储在硬盘的,而是占用内存空间，我们经常用到的/proc 和/sys文件系统都属于这一类,读写这类文件,实际上是读写内核中相关的数据。

●网络的文件系统,用来访问其他计算机主机数据的文件系统，比如NFS. SMB等等。

文件系统首先要先挂载到某个目录才可以正常使用，比如Linux系统在启动时,会把文件系统挂载到根目录。

在 *** 作系统的辅助之下，磁盘中的数据在计算机中都会呈现为易读的形式，并且我们不需要关心数据到底是如何存放在磁盘中,存放在磁盘的哪个地方等等问题，这些全部都是由 *** 作系统完成的。

那么，文件数据在磁盘中究竟是怎么样的呢?我们来一探究竟!

磁盘中的存储单元会被划分为一个个的“ 块 ”，也被称为扇区 ,扇区的大小一般都为512byte.这说明即使一块数据不足512byte,那么它也要占用512byte的磁盘空间。

而几乎所有的文件系统都会把文件分割成固定大小的块来存储，通常一个块的大小为4K。如果磁盘中的扇区为512byte,而文件系统的块大小为4K,那么文件系统的存储单元就为8个扇区。这也是前面提到的一个问题，文件大小和占用空间之间有什么区别?文件大小是文件实际的大小，而占用空间则是因为即使它的实际大小没有达到那么大,但是这部分空间实际也被占用，其他文件数据无法使用这部分的空间。所以我们写入1byte的数据到文本中,但是它占用的空间也会是4K。

这里要注意在Windows下的NTFS文件系统中，如果一开始文件数据小于 1K,那么则不会分配磁盘块来存储，而是存在一个文件表中。但是一旦文件数据大于1K,那么不管以后文件的大小，都会分配以4K为单位的磁盘空间来存储。

与内存管理一样,为了方便对磁盘的管理,文件的逻辑地址也被分为一个个的文件块。于是文件的逻辑地址就是(逻辑块号，块内地址)。用户通过逻辑地址来 *** 作文件, *** 作系统负责完成逻辑地址与物理地址的映射。

不同的文件系统为文件分配磁盘空间会有不同的方式，这些方式各自都有优缺点。

连续分配要求每个文件在磁盘上有一组连续的块，该分配方式较为简单。

通过上图可以看到，文件的逻辑块号的顺序是与物理块号相同的,这样就可以实现随机存取了，只要知道了第一个逻辑块的物理地址, 那么就可以快速访问到其他逻辑块的物理地址。那么 *** 作系统如何完成逻辑块与物理块之间的映射呢?实际上,文件都是存放在目录下的，而目录是一种有结构文件, 所以在文件目录的记录中会存放目录下所有文件的信息，每一个文件或者目录都是一个记录。而这些信息就包括文件的起始块号和占有块号的数量。

那么 *** 作系统如何完成逻辑块与物理块之间的映射呢? (逻辑块号, 块内地址) ->(物理块号, 块内地址)，只需要知道逻辑块号对应的物理块号即可,块内地址不变。

用户访问一个文件的内容, *** 作系统通过文件的标识符找到目录项FCB, 物理块号=起始块号+逻辑块号。当然，还需要检查逻辑块号是否合法,是否超过长度等。因为可以根据逻辑块号直接算出物理块号，所以连续分配支持顺序访问和随机访问。

因为读/写文件是需要移动磁头的，如果访问两个相隔很远的磁盘块,移动磁头的时间就会变长。使用连续分配来作为文件的分配方式，会使文件的磁盘块相邻，所以文件的读/写速度最快。

连续空间存放的方式虽然读写效率高，但是有磁盘空间碎片和文件长度不易扩展的缺陷。

如下图，如果文件B被删除，磁盘上就留下一块空缺，这时，如果新来的文件小于其中的一个空缺，我们就可以将其放在相应空缺里。但如果该文件的大小大于所

有的空缺，但却小于空缺大小之和，则虽然磁盘上有足够的空缺，但该文件还是不能存放。当然了，我们可以通过将现有文件进行挪动来腾出空间以容纳新的文件,但是这个在磁盘挪动文件是非常耗时，所以这种方式不太现实。

另外一个缺陷是文件长度扩展不方便，例如上图中的文件A要想扩大一下，需要更多的磁盘空间,唯一的办法就只能是挪动的方式，前面也说了，这种方式效率是非常低的。

那么有没有更好的方式来解决上面的问题呢?答案当然有，既然连续空间存放的方式不太行，那么我们就改变存放的方式，使用非连续空间存放方式来解决这些缺陷。

非连续空间存放方式分为链表方式和索引方式。

链式分配采取离散分配的方式，可以为文件分配离散的磁盘块。它有两种分配方式:显示链接和隐式链接。

隐式链接是只目录项中只会记录文件所占磁盘块中的第一块的地址和最后一块磁盘块的地址, 然后通过在每一个磁盘块中存放一个指向下一磁盘块的指针，从而可以根据指针找到下一块磁盘块。如果需要分配新的磁盘块,则使用最后一块磁盘块中的指针指向新的磁盘块,然后修改新的磁盘块为最后的磁盘块。

我们来思考一个问题, 采用隐式链接如何将实现逻辑块号转换为物理块号呢?

用户给出需要访问的逻辑块号i, *** 作系统需要找到所需访问文件的目录项FCB.从目录项中可以知道文件的起始块号，然后将逻辑块号0的数据读入内存,由此知道1号逻辑块的物理块号，然后再读入1号逻辑块的数据进内存，此次类推，最终可以找到用户所需访问的逻辑块号i。访问逻辑块号i,总共需要i+ 1次磁盘1/0 *** 作。

得出结论: 隐式链接分配只能顺序访问，不支持随机访问，查找效率低。

我们来思考另外一个问题，采用隐式链接是否方便文件拓展?

我们知道目录项中存有结束块号的物理地址，所以我们如果要拓展文件，只需要将新分配的磁盘块挂载到结束块号的后面即可，修改结束块号的指针指向新分配的磁盘块，然后修改目录项。

得出结论: 隐式链接分配很方便文件拓展。所有空闲磁盘块都可以被利用到，无碎片问题，存储利用率高。

显示链接是把用于链接各个物理块的指针显式地存放在一张表中，该表称为文件分配表(FAT, File Allocation Table)。

由于查找记录的过程是在内存中进行的,因而不仅显著地提高了检索速度，而且大大减少了访问磁盘的次数。但也正是整个表都存放在内存中的关系，它的主要的缺点是不适用于大磁盘。

比如，对于200GB的磁盘和1KB大小的块，这张表需要有2亿项，每一项对应于这2亿个磁盘块中的一个块,每项如果需要4个字节，那这张表要占用800MB内存,很显然FAT方案对于大磁盘而言不太合适。

一直都在，加油！（*゜Д゜）σ凸←自爆按钮

链表的方式解决了连续分配的磁盘碎片和文件动态打展的问题，但是不能有效支持直接访问(FAT除外) ,索引的方式可以解决这个问题。

索引的实现是为每个文件创建一个索引数据块，里面存放的是指向文件数据块的指针列表 ,说白了就像书的目录一样,要找哪个章节的内容,看目录查就可以。

另外，文件头需要包含指向索引数据块的指针 ,这样就可以通过文件头知道索引数据块的位置，再通过索弓|数据块里的索引信息找到对应的数据块。

创建文件时，索引块的所有指针都设为空。当首次写入第i块时，先从空闲空间中取得一个块，再将其地址写到索引块的第i个条目。

索引的方式优点在于:

●文件的创建、增大、缩小很方便

●不会有碎片的问题

●支持顺序读写和随机读写

由于索引数据也是存放在磁盘块的，如果文件很小，明明只需一块就可以存放的下，但还是需要额外分配一块来存放索引数据，所以缺陷之一就是存储索引带来的开销。

如果文件很大，大到一个索引数据块放不下索引信息，这时又要如何处理大文件的存放呢?我们可以通过组合的方式，来处理大文件的存储。

先来看看链表+索引的组合，这种组合称为链式索引块，它的实现方式是在索引数据块留出一个存放下一个索引数据块的指针，于是当一个索引数据块的索引信息用完了，就可以通过指针的方式，找到下一个索引数据块的信息。那这种方式也会出现前面提到的链表方式的问题，万一某个指针损坏了，后面的数据也就会无法读取了。

还有另外一种组合方式是索引+索引的方式，这种组合称为多级索引块，实现方式是通过一个索引块来存放多个索引数据块,一层套一层索引，像极了俄罗斯套娃是吧๑乛◡乛๑

前面说到的文件的存储是针对已经被占用的数据块组织和管理，接下来的问题是，如果我要保存一个数据块, 我应该放在硬盘上的哪个位置呢?难道需要将所有的块扫描一遍，找个空的地方随便放吗?

那这种方式效率就太低了，所以针对磁盘的空闲空间也是要引入管理的机制，接下来介绍几种常见的方法:

●空闲表法

●空闲链表法

●位图法

空闲表法

空闲表法就是为所有空闲空间建立一张表，表内容包括空闲区的第一个块号和该空闲区的块个数，注意，这个方式是连续分配的。如下图:

当请求分配磁盘空间时，系统依次扫描空闲表里的内容，直到找到一个合适的空闲区域为止。当用户撤销一个文件时，系统回收文件空间。这时，也需顺序扫描空闲表,寻找一个空闲表条目并将释放空间的第一个物理块号及它占用的块数填到这个条目中。

这种方法仅当有少量的空闲区时才有较好的效果。因为，如果存储空间中有着大量的小的空闲区,则空闲表变得很大,这样查询效率会很低。另外，这种分配技术适用于建立连续文件。

空闲链表法

我们也可以使用链表的方式来管理空闲空间，每一个空闲块里有一个指针指向下一个空闲块，这样也能很方便的找到空闲块并管理起来。如下图：

当创建文件需要一块或几块时，就从链头上依次取下一块或几块。反之，当回收空间时，把这些空闲块依次接到链头上。

这种技术只要在主存中保存一个指针, 令它指向第一个空闲块。其特点是简单,但不能随机访问，工作效率低，因为每当在链上增加或移动空闲块时需要做很多1/0 *** 作,同时数据块的指针消耗了一定的存储空间。

空闲表法和空闲链表法都不适合用于大型文件系统，因为这会使空闲表或空闲链表太大。

位图法

位图是利用二进制的一位来表示磁盘中一个盘块的使用情况，磁盘上所有的盘块都有一个二进制位与之对应。

当值为0时，表示对应的盘块空闲，值为1时，表示对应的盘块已分配。它形式如下:

在Linux文件系统就采用了位图的方式来管理空闲空间,不仅用于数据空闲块的管理,还用于inode空闲块的管理，因为inode也是存储在磁盘的，自然也要有对其管理。

前面提到Linux是用位图的方式管理空闲空间，用户在创建一个新文件时， Linux 内核会通过inode的位图找到空闲可用的inode,并进行分配。要存储数据时，会通过块的位图找到空闲的块，并分配，但仔细计算一下还是有问题的。

数据块的位图是放在磁盘块里的，假设是放在一个块里,一个块4K,每位表示一个数据块,共可以表示4 * 1024 * 8 = 2^15个空闲块,由于1个数据块是4K大小，那么最大可以表示的空间为2^15 * 4 * 1024 = 2^27个byte,也就是128M。

也就是说按照上面的结构，如果采用（一个块的位图+ 一系列的块），外加一（个块的inode的位图+一系列的inode）的结构能表示的最大空间也就128M,

这太少了，现在很多文件都比这个大。

在Linux文件系统，把这个结构称为一个块组，那么有N多的块组,就能够表示N大的文件。

最终,整个文件系统格式就是下面这个样子。

最前面的第一个块是引导块,在系统启动时用于启用引导，接着后面就是一个一个连续的块组了,块组的内容如下:

● 超级块 ,包含的是文件系统的重要信息，比如inode总个数、块总个数、每个块组的inode个数、每个块组的块个数等等。

● 块组描述符 ,包含文件系统中各个块组的状态,比如块组中空闲块和inode的数目等，每个块组都包含了文件系统中「所有块组的组描述符信息」。

● 数据位图和inode位图，用于表示对应的数据块或inode是空闲的，还是被使用中。

● inode 列表，包含了块组中所有的inode, inode 用于保存文件系统中与各个文件和目录相关的所有元数据。

● 数据块，包含文件的有用数据。

你可以会发现每个块组里有很多重复的信息，比如超级块和块组描述符表，这两个都是全局信息，而且非常的重要，这么做是有两个原因:

●如果系统崩溃破坏了超级块或块组描述符,有关文件系统结构和内容的所有信息都会丢失。如果有冗余的副本,该信息是可能恢复的。

●通过使文件和管理数据尽可能接近，减少了磁头寻道和旋转,这可以提高文件系统的性能。

不过，Ext2 的后续版本采用了稀疏技术。该做法是，超级块和块组描述符表不再存储到文件系统的每个块组中,而是只写入到块组0、块组1和其他ID可以表示为3、5、7的幂的块组中。

在前面，我们知道了一个普通文件是如何存储的，但还有一个特殊的文件,经常用到的目录，它是如何保存的呢?

基于Linux 一切切皆文件的设计思想，目录其实也是个文件,你甚至可以通过vim打开它，它也有inode, inode 里面也是指向一些块。

和普通文件不同的是，普通文件的块里面保存的是文件数据，而目录文件的块里面保存的是目录里面一项一项的文件信息。

在目录文件的块中，最简单的保存格式就是列表，就是一项一项地将目录下的文件信息(如文件名、文件inode.文件类型等)列在表里。

列表中每一项就代表该目录下的文件的文件名和对应的inode,通过这个inode,就可以找到真正的文件。

通常，第一项是「则」，表示当前目录,第二项是.，表示上一级目录, 接下来就是一项一项的文件名和inode。

如果一个目录有超级多的文件,我们要想在这个目录下找文件,按照列表一项一项的找,效率就不高了。

于是，保存目录的格式改成哈希表，对文件名进行哈希计算,把哈希值保存起来,如果我们要查找一个目录下面的文件名，可以通过名称取哈希。如果哈希能够匹配上,就说明这个文件的信息在相应的块里面。

Linux系统的ext文件系统就是采用了哈希表，来保存目录的内容,这种方法的优点是查找非常迅速，插入和删除也较简单,不过需要一些预备措施来避免哈希冲突。

目录查询是通过在磁盘上反复搜索完成，需要不断地进行/0 *** 作,开销较大。所以,为了减少/0 *** 作,把当前使用的文件目录缓存在内存，以后要使用该文件时只要在内存中 *** 作，从而降低了磁盘 *** 作次数,提高了文件系统的访问速度。

感谢您的阅读，希望您能摄取到知识！加油！冲冲冲！（发现光，追随光，成为光，散发光！）我是程序员耶耶！有缘再见。<－biubiu－⊂(`ω´∩)

1.调度器的概述

多任务 *** 作系统分为非抢占式多任务和抢占式多任务。与大多数现代 *** 作系统一样，Linux采用的是抢占式多任务模式。这表示对CPU的占用时间由 *** 作系统决定的，具体为 *** 作系统中的调度器。调度器决定了什么时候停止一个进程以便让其他进程有机会运行，同时挑选出一个其他的进程开始运行。

2.调度策略

在Linux上调度策略决定了调度器是如何选择一个新进程的时间。调度策略与进程的类型有关，内核现有的调度策略如下：

#define SCHED_NORMAL 0#define SCHED_FIFO 1#define SCHED_RR 2#define SCHED_BATCH 3/* SCHED_ISO: reserved but not implemented yet */#define SCHED_IDLE 5

0: 默认的调度策略，针对的是普通进程。

1：针对实时进程的先进先出调度。适合对时间性要求比较高但每次运行时间比较短的进程。

2：针对的是实时进程的时间片轮转调度。适合每次运行时间比较长得进程。

3：针对批处理进程的调度，适合那些非交互性且对cpu使用密集的进程。

SCHED_ISO：是内核的一个预留字段，目前还没有使用

5：适用于优先级较低的后台进程。

注：每个进程的调度策略保存在进程描述符task_struct中的policy字段

3.调度器中的机制

内核引入调度类（struct sched_class）说明了调度器应该具有哪些功能。内核中每种调度策略都有该调度类的一个实例。（比如：基于公平调度类为：fair_sched_class，基于实时进程的调度类实例为：rt_sched_class），该实例也是针对每种调度策略的具体实现。调度类封装了不同调度策略的具体实现，屏蔽了各种调度策略的细节实现。

调度器核心函数schedule()只需要调用调度类中的接口，完成进程的调度，完全不需要考虑调度策略的具体实现。调度类连接了调度函数和具体的调度策略。

武特师兄关于sche_class和sche_entity的解释，一语中的。

调度类就是代表的各种调度策略，调度实体就是调度单位，这个实体通常是一个进程，但是自从引入了cgroup后，这个调度实体可能就不是一个进程了，而是一个组

4.schedule()函数

linux 支持两种类型的进程调度，实时进程和普通进程。实时进程采用SCHED_FIFO 和SCHED_RR调度策略，普通进程采用SCHED_NORMAL策略。

preempt_disable()：禁止内核抢占

cpu_rq（）：获取当前cpu对应的就绪队列。

prev = rq->curr获取当前进程的描述符prev

switch_count = &prev->nivcsw获取当前进程的切换次数。

update_rq_clock() ：更新就绪队列上的时钟

clear_tsk_need_resched()清楚当前进程prev的重新调度标志。

deactive_task():将当前进程从就绪队列中删除。

put_prev_task() :将当前进程重新放入就绪队列

pick_next_task():在就绪队列中挑选下一个将被执行的进程。

context_switch():进行prev和next两个进程的切换。具体的切换代码与体系架构有关，在switch_to()中通过一段汇编代码实现。

post_schedule():进行进程切换后的后期处理工作。

5.pick_next_task函数

选择下一个将要被执行的进程无疑是一个很重要的过程，我们来看一下内核中代码的实现

对以下这段代码说明：

1.当rq中的运行队列的个数(nr_running)和cfs中的nr_runing相等的时候，表示现在所有的都是普通进程，这时候就会调用cfs算法中的pick_next_task(其实是pick_next_task_fair函数)，当不相等的时候，则调用sched_class_highest(这是一个宏，指向的是实时进程)，这下面的这个for()循环中，首先是会在实时进程中选取要调度的程序（p = class->pick_next_task(rq)）。如果没有选取到，会执行class=class->next在class这个链表中有三种类型（fair,idle,rt）.也就是说会调用到下一个调度类。

static inline struct task_struct *pick_next_task(struct rq *rq){ const struct sched_class *class struct task_struct *p /*

* Optimization: we know that if all tasks are in

* the fair class we can call that function directly:

*///基于公平调度的普通进程

if (likely(rq->nr_running == rq->cfs.nr_running)) {

p = fair_sched_class.pick_next_task(rq) if (likely(p)) return p

}//基于实时调度的实时进程

class = sched_class_highest for ( ) {

p = class->pick_next_task(rq) //实时进程的类

if (p) return p /*

* Will never be NULL as the idle class always

* returns a non-NULL p:

class = class->next //rt->next = fair fair->next = idle

}

在这段代码中体现了Linux所支持的两种类型的进程，实时进程和普通进程。回顾下：实时进程可以采用SCHED_FIFO 和SCHED_RR调度策略，普通进程采用SCHED_NORMAL调度策略。

在这里首先说明一个结构体struct rq,这个结构体是调度器管理可运行状态进程的最主要的数据结构。每个cpu上都有一个可运行的就绪队列。刚才在pick_next_task函数中看到了在选择下一个将要被执行的进程时实际上用的是struct rq上的普通进程的调度或者实时进程的调度，那么具体是如何调度的呢？在实时调度中，为了实现O(1)的调度算法，内核为每个优先级维护一个运行队列和一个DECLARE_BITMAP,内核根据DECLARE_BITMAP的bit数值找出非空的最高级优先队列的编号，从而可以从非空的最高级优先队列中取出进程进行运行。

我们来看下内核的实现

struct rt_prio_array {

DECLARE_BITMAP(bitmap, MAX_RT_PRIO+1)/* include 1 bit for delimiter */

struct list_head queue[MAX_RT_PRIO]

}

数组queue[i]里面存放的是优先级为i的进程队列的链表头。在结构体rt_prio_array 中有一个重要的数据构DECLARE_BITMAP，它在内核中的第一如下：

define DECLARE_BITMAP(name,bits) \

unsigned long name[BITS_TO_LONGS(bits)]

5.1对于实时进程的O(1)算法

这个数据是用来作为进程队列queue[MAX_PRIO]的索引位图。bitmap中的每一位与queue[i]对应，当queue[i]的进程队列不为空时，Bitmap的相应位就为1，否则为0，这样就只需要通过汇编指令从进程优先级由高到低的方向找到第一个为1的位置，则这个位置就是就绪队列中最高的优先级（函数sched_find_first_bit()就是用来实现该目的的）。那么queue[index]->next就是要找的候选进程。

如果还是不懂，那就来看两个图

注：在每个队列上的任务一般基于先进先出的原则进行调度（并且为每个进程分配时间片）

在内核中的实现为：

static struct sched_rt_entity *pick_next_rt_entity(struct rq *rq, struct rt_rq *rt_rq){ struct rt_prio_array *array = &rt_rq->active struct sched_rt_entity *next = NULL struct list_head *queue int idx

idx = sched_find_first_bit(array->bitmap)//找到优先级最高的位

BUG_ON(idx >= MAX_RT_PRIO) queue = array->queue + idx//然后找到对应的queue的起始地址

next = list_entry(queue->next, struct sched_rt_entity, run_list) //按先进先出拿任务

return next

}

那么当同一优先级的任务比较多的时候，内核会根据

位图：

将对应的位置为1，每次取出最大的被置为1的位，表示优先级最高：

5.2 关于普通进程的CFS算法：

我们知道，普通进程在选取下一个需要被调度的进程时，是调用的pick_next_task_fair函数。在这个函数中是以调度实体为单位进行调度的。其最主要的函数是：pick_next_entity，在这个函数中会调用wakeup_preempt_entity函数，这个函数的主要作用是根据进程的虚拟时间以及权重的结算进程的粒度，以判断其是否需要抢占。看一下内核是怎么实现的：

wakeup_preempt_entity(struct sched_entity *curr, struct sched_entity *se)

{

s64 gran, vdiff = curr->vruntime - se->vruntime//计算两个虚拟时间差//如果se的虚拟时间比curr还大，说明本该curr执行，无需抢占

if (vdiff <= 0) return -1

gran = wakeup_gran(curr, se) if (vdiff >gran) return 1 return 0

}

gran为需要抢占的时间差，只有两个时间差大于需要抢占的时间差，才需要抢占，这里避免太频繁的抢占

wakeup_gran(struct sched_entity *curr, struct sched_entity *se)

{

unsigned long gran = sysctl_sched_wakeup_granularity if (cfs_rq_of(curr)->curr &&sched_feat(ADAPTIVE_GRAN))

gran = adaptive_gran(curr, se)

* Since its curr running now, convert the gran from real-time

* to virtual-time in his units.

*/ if (sched_feat(ASYM_GRAN)) {

* By using 'se' instead of 'curr' we penalize light tasks, so

* they get preempted easier. That is, if 'se' <'curr' then

* the resulting gran will be larger, therefore penalizing the

* lighter, if otoh 'se' >'curr' then the resulting gran will

* be smaller, again penalizing the lighter task.

* This is especially important for buddies when the leftmost

* task is higher priority than the buddy.

*/ if (unlikely(se->load.weight != NICE_0_LOAD))

gran = calc_delta_fair(gran, se)

} else { if (unlikely(curr->load.weight != NICE_0_LOAD))

gran = calc_delta_fair(gran, curr)

} return gran

}

6.调度中的nice值

首先需要明确的是：nice的值不是进程的优先级，他们不是一个概念，但是进程的Nice值会影响到进程的优先级的变化。

通过命令ps -el可以看到进程的nice值为NI列。PRI表示的是进程的优先级，其实进程的优先级只是一个整数，它是调度器选择进程运行的基础。

普通进程有：静态优先级和动态优先级。

静态优先级：之所有称为静态优先级是因为它不会随着时间而改变，内核不会修改它，只能通过系统调用nice去修改,静态优先级用进程描述符中的static_prio来表示。在内核中/kernel/sched.c中，nice和静态优先级的关系为：

#define NICE_TO_PRIO(nice) (MAX_RT_PRIO + (nice) + 20)

#define PRIO_TO_NICE(prio) ((prio) - MAX_RT_PRIO - 20)

动态优先级：调度程序通过增加或者减小进程静态优先级的值来奖励IO小的进程或者惩罚cpu消耗型的进程。调整后的优先级称为动态优先级。在进程描述中用prio来表示，通常所说的优先级指的是动态优先级。

由上面分析可知，我们可以通过系统调用nice函数来改变进程的优先级。

#include <stdlib.h>#include <stdio.h>#include <math.h>#include <unistd.h>#include <sys/time.h>#define JMAX (400*100000)#define GET_ELAPSED_TIME(tv1,tv2) ( \

(double)( (tv2.tv_sec - tv1.tv_sec) \

+ .000001 * (tv2.tv_usec - tv1.tv_usec)))//做一个延迟的计算double do_something (void){ int j double x = 0.0 struct timeval tv1, tv2

gettimeofday (&tv1, NULL)//获取时区

for (j = 0j <JMAXj++)

x += 1.0 / (exp ((1 + x * x) / (2 + x * x)))

gettimeofday (&tv2, NULL) return GET_ELAPSED_TIME (tv1, tv2)//求差值}int main (int argc, char *argv[]){ int niceval = 0, nsched /* for kernels less than 2.6.21, this is HZ

for tickless kernels this must be the MHZ rate

e.g, for 2.6 GZ scale = 2600000000 */

long scale = 1000 long ticks_cpu, ticks_sleep pid_t pid

FILE *fp char fname[256] double elapsed_time, timeslice, t_cpu, t_sleep if (argc >1)

niceval = atoi (argv[1])

pid = getpid () if (argc >2)

scale = atoi (argv[2]) /* give a chance for other tasks to queue up */

sleep (3) sprintf (fname, "/proc/%d/schedstat", pid)//读取进程的调度状态

在schedstat中的数字是什么意思呢？：

/* printf ("Fname = %s\n", fname)*/

if (!(fp = fopen (fname, "r"))) { printf ("Failed to open stat file\n") exit (-1)

} //nice系统调用

if (nice (niceval) == -1 &&niceval != -1) { printf ("Failed to set nice to %d\n", niceval) exit (-1)

}

elapsed_time = do_something ()//for 循环执行了多长时间

fscanf (fp, "%ld %ld %d", &ticks_cpu, &ticks_sleep, &nsched)//nsched表示调度的次数

t_cpu = (float)ticks_cpu / scale//震动的次数除以1000，就是时间

t_sleep = (float)ticks_sleep / scale

timeslice = t_cpu / (double)nsched//除以调度的次数，就是每次调度的时间（时间片）

printf ("\nnice=%3d time=%8g secs pid=%5d"

" t_cpu=%8g t_sleep=%8g nsched=%5d"

" avg timeslice = %8g\n",

niceval, elapsed_time, pid, t_cpu, t_sleep, nsched, timeslice)

fclose (fp) exit (0)

}

说明：首先说明的是/proc/[pid]/schedstat:在这个文件下放着3个变量，他们分别代表什么意思呢？

第一个：该进程拥有的cpu的时间

第二个：在对列上的等待时间，即睡眠时间

第三个：被调度的次数

由结果可以看出当nice的值越小的时候，其睡眠时间越短，则表示其优先级升高了。

7.关于获取和设置优先级的系统调用：sched_getscheduler（）和sched_setscheduler

#include <sched.h>#include <stdlib.h>#include <stdio.h>#include <errno.h>#define DEATH(mess) { perror(mess)exit(errno)}void printpolicy (int policy){ /* SCHED_NORMAL = SCHED_OTHER in user-space */

if (policy == SCHED_OTHER) printf ("policy = SCHED_OTHER = %d\n", policy) if (policy == SCHED_FIFO) printf ("policy = SCHED_FIFO = %d\n", policy) if (policy == SCHED_RR) printf ("policy = SCHED_RR = %d\n", policy)

}int main (int argc, char **argv){ int policy struct sched_param p /* obtain current scheduling policy for this process */

//获取进程调度的策略

policy = sched_getscheduler (0)

printpolicy (policy) /* reset scheduling policy */

printf ("\nTrying sched_setscheduler...\n")

policy = SCHED_FIFO

printpolicy (policy)

p.sched_priority = 50 //设置优先级为50

if (sched_setscheduler (0, policy, &p))

DEATH ("sched_setscheduler:") printf ("p.sched_priority = %d\n", p.sched_priority) exit (0)

}

输出结果：

[root@wang schedule]# ./get_schedule_policy policy = SCHED_OTHER = 0

Trying sched_setscheduler...

policy = SCHED_FIFO = 1

p.sched_priority = 50

可以看出进程的优先级已经被改变。

1、是在/boot目录下2、/usr/src目录一般是系统内核代码目录3、你看/boot/grub/grub.conf文件，kernel那行是vmlinuz...，就是代表内核的名字4、Linux是一个一体化内核（monolithic kernel）系统。“内核”指的是一个提供硬件抽象层、磁盘及文件系统控制、多任务等功能的系统软件。一个内核不是一套完整的 *** 作系统。一套基于Linux内核的完整 *** 作系统叫作Linux *** 作系统，或是GNU/Linux。设备驱动程序可以完全访问硬件。Linux内的设备驱动程序可以方便地以模块化（modularize）的形式设置，并在系统运行期间可直接装载或卸载。

欢迎分享，转载请注明来源：内存溢出

原文地址: https://outofmemory.cn/yw/7244597.html

程序员必备知识（ *** 作系统5-文件系统）

发表评论

评论列表（0条）