「图文结合」Linux 进程、线程、文件描述符的底层原理_系统运维

开发十年经验总结，阿里架构师的手写Spring boot原理实践文档

阿里架构师的这份：Redis核心原理与应用实践，带你手撕Redis

Tomcat结构原理详解

说到进程，恐怕面试中最常见的问题就是线程和进程的关系了，那么先说一下答案： 在 Linux 系统中，进程和线程几乎没有区别 。

Linux 中的进程其实就是一个数据结构，顺带可以理解文件描述符、重定向、管道命令的底层工作原理，最后我们从 *** 作系统的角度看看为什么说线程和进程基本没有区别。

首先，抽象地来说，我们的计算机就是这个东西：

这个大的矩形表示计算机的 内存空间 ，其中的小矩形代表进程，左下角的圆形表示磁盘，右下角的图形表示一些 输入输出设备 ，比如鼠标键盘显示器等等。另外，注意到内存空间被划分为了两块，上半部分表示 用户空间 ，下半部分表示 内核空间 。

用户空间装着用户进程需要使用的资源，比如你在程序代码里开一个数组，这个数组肯定存在用户空间；内核空间存放内核进程需要加载的系统资源，这一些资源一般是不允许用户访问的。但是注意有的用户进程会共享一些内核空间的资源，比如一些动态链接库等等。

我们用 C 语言写一个 hello 程序，编译后得到一个可执行文件，在命令行运行就可以打印出一句 hello world，然后程序退出。在 *** 作系统层面，就是新建了一个进程，这个进程将我们编译出来的可执行文件读入内存空间，然后执行，最后退出。

你编译好的那个可执行程序只是一个文件，不是进程，可执行文件必须要载入内存，包装成一个进程才能真正跑起来。进程是要依靠 *** 作系统创建的，每个进程都有它的固有属性，比如进程号（PID）、进程状态、打开的文件等等，进程创建好之后，读入你的程序，你的程序才被系统执行。

那么， *** 作系统是如何创建进程的呢？ 对于 *** 作系统，进程就是一个数据结构 ，我们直接来看 Linux 的源码：

task_struct 就是 Linux 内核对于一个进程的描述，也可以称为「进程描述符」。源码比较复杂，我这里就截取了一小部分比较常见的。

我们主要聊聊 mm 指针和 files 指针。 mm 指向的是进程的虚拟内存，也就是载入资源和可执行文件的地方； files 指针指向一个数组，这个数组里装着所有该进程打开的文件的指针。

先说 files ，它是一个文件指针数组。一般来说，一个进程会从 files[0] 读取输入，将输出写入 files[1] ，将错误信息写入 files[2] 。

举个例子，以我们的角度 C 语言的 printf 函数是向命令行打印字符，但是从进程的角度来看，就是向 files[1] 写入数据；同理， scanf 函数就是进程试图从 files[0] 这个文件中读取数据。

每个进程被创建时， files 的前三位被填入默认值，分别指向标准输入流、标准输出流、标准错误流。我们常说的「文件描述符」就是指这个文件指针数组的索引，所以程序的文件描述符默认情况下 0 是输入，1 是输出，2 是错误。

我们可以重新画一幅图：

对于一般的计算机，输入流是键盘，输出流是显示器，错误流也是显示器，所以现在这个进程和内核连了三根线。因为硬件都是由内核管理的，我们的进程需要通过「系统调用」让内核进程访问硬件资源。

PS：不要忘了，Linux 中一切都被抽象成文件，设备也是文件，可以进行读和写。

如果我们写的程序需要其他资源，比如打开一个文件进行读写，这也很简单，进行系统调用，让内核把文件打开，这个文件就会被放到 files 的第 4 个位置，对应文件描述符 3：

明白了这个原理， 输入重定向 就很好理解了，程序想读取数据的时候就会去 files[0] 读取，所以我们只要把 files[0] 指向一个文件，那么程序就会从这个文件中读取数据，而不是从键盘：

同理， 输出重定向 就是把 files[1] 指向一个文件，那么程序的输出就不会写入到显示器，而是写入到这个文件中：

错误重定向也是一样的，就不再赘述。

管道符其实也是异曲同工，把一个进程的输出流和另一个进程的输入流接起一条「管道」，数据就在其中传递，不得不说这种设计思想真的很巧妙：

到这里，你可能也看出「Linux 中一切皆文件」设计思路的高明了，不管是设备、另一个进程、socket 套接字还是真正的文件，全部都可以读写，统一装进一个简单的 files 数组，进程通过简单的文件描述符访问相应资源，具体细节交于 *** 作系统，有效解耦，优美高效。

首先要明确的是，多进程和多线程都是并发，都可以提高处理器的利用效率，所以现在的关键是，多线程和多进程有啥区别。

为什么说 Linux 中线程和进程基本没有区别呢，因为从 Linux 内核的角度来看，并没有把线程和进程区别对待。

我们知道系统调用 fork() 可以新建一个子进程，函数 pthread() 可以新建一个线程。但无论线程还是进程，都是用 task_struct 结构表示的，唯一的区别就是共享的数据区域不同。

换句话说，线程看起来跟进程没有区别，只是线程的某些数据区域和其父进程是共享的，而子进程是拷贝副本，而不是共享。就比如说， mm 结构和 files 结构在线程中都是共享的，我画两张图你就明白了：

所以说，我们的多线程程序要利用锁机制，避免多个线程同时往同一区域写入数据，否则可能造成数据错乱。

那么你可能问，既然进程和线程差不多，而且多进程数据不共享，即不存在数据错乱的问题，为什么多线程的使用比多进程普遍得多呢？

因为现实中数据共享的并发更普遍呀，比如十个人同时从一个账户取十元，我们希望的是这个共享账户的余额正确减少一百元，而不是希望每人获得一个账户的拷贝，每个拷贝账户减少十元。

当然，必须要说明的是， 只有 Linux 系统将线程看做共享数据的进程 ，不对其做特殊看待 ，其他的很多 *** 作系统是对线程和进程区别对待的，线程有其特有的数据结构，我个人认为不如 Linux 的这种设计简洁，增加了系统的复杂度。

在 Linux 中新建线程和进程的效率都是很高的，对于新建进程时内存区域拷贝的问题，Linux 采用了 copy-on-write 的策略优化，也就是并不真正复制父进程的内存空间，而是等到需要写 *** 作时才去复制。 所以 Linux 中新建进程和新建线程都是很迅速的 。

页表用来把虚拟页映射到物理页，并且存放页的保护位(即访问权限)。

在Linux4.11版本以前，Linux内核把页表分为4级：

页全局目录表(PGD)、页上层目录(PUD)、页中间目录(PMD)、直接页表(PT) 。

4.11版本把页表扩展到5级，在页全局目录和页上层目录之间增加了 页四级目录(P4D) 。

各处处理器架构可以选择使用5级，4级，3级或者2级页表，同一种处理器在页长度不同的情况可能选择不同的页表级数。可以使用配置宏CONFIG_PGTABLE_LEVELS配置页表的级数，一般使用默认值。

如果选择4级页表，那么使用PGD，PUD，PMD，PT；如果使用3级页表，那么使用PGD，PMD，PT；如果选择2级页表，那么使用PGD和PT。 如果不使用页中间目录 ，那么内核模拟页中间目录，调用函数pmd_offset 根据页上层目录表项和虚拟地址获取页中间目录表项时， 直接把页上层目录表项指针强制转换成页中间目录表项 。

每个进程有独立的页表，进程的mm_struct实例的成员pgd指向页全局目录,前面四级页表的表项存放下一级页表的起始地址，直接页表的页表项存放页帧号(PFN) 。

内核也有一个页表， 0号内核线程的进程描述符init_task的成员active_mm指向内存描述符init_mm，内存描述符init_mm的成员pgd指向内核的页全局目录swapper_pg_dir 。

ARM64处理器把页表称为转换表，最多4级。ARM64处理器支持三种页长度：4KB，16KB，64KB。页长度和虚拟地址的宽度决定了转换表的级数，在虚拟地址的宽度为48位的条件下，页长度和转换表级数的关系如下所示：

ARM64处理器把表项称为描述符，使用64位的长描述符格式。描述符的0bit指示描述符是不是有效的：0表示无效，1表示有效。第1位指定描述符类型。

在块描述符和页描述符中，内存属性被拆分为一个高属性和一个低属性块。

处理器的MMU负责把虚拟地址转换成物理地址，为了改进虚拟地址到物理地址的转换速度，避免每次转换都需要查询内存中的页表，处理器厂商在管理单元里加了称为TLB的高速缓存，TLB直译为转换后备缓冲区，意译为页表缓存。

页表缓存用来缓存最近使用过的页表项， 有些处理器使用两级页表缓存 ： 第一级TLB分为指令TLB和数据TLB，好处是取指令和取数据可以并行；第二级TLB是统一TLB，即指令和数据共用的TLB 。

不同处理器架构的TLB表项的格式不同。ARM64处理器的每条TLB表项不仅包含虚拟地址和物理地址，也包含属性：内存类型、缓存策略、访问权限、地址空间标识符(ASID)和虚拟机标识符(VMID)。 地址空间标识符区分不同进程的页表项 ， 虚拟机标识符区分不同虚拟机的页表项 。

如果内核修改了可能缓存在TLB里面的页表项，那么内核必须负责使旧的TLB表项失效，内核定义了每种处理器架构必须实现的函数。

当TLB没有命中的时候，ARM64处理器的MMU自动遍历内存中的页表，把页表项复制到TLB，不需要软件把页表项写到TLB，所以ARM64架构没有提供写TLB的指令。

为了减少在进程切换时清空页表缓存的需要，ARM64处理器的页表缓存使用非全局位区分内核和进程的页表项(nG位为0表示内核的页表项)， 使用地址空间标识符(ASID)区分不同进程的页表项 。

ARM64处理器的ASID长度是由具体实现定义的，可以选择8位或者16位。寄存器TTBR0_EL1或者TTBR1_EL1都可以用来存放当前进程的ASID，通常使用寄存器TCR_EL1的A1位决定使用哪个寄存器存放当前进程的ASID，通常使用寄存器 TTBR0_EL1 。寄存器TTBR0_EL1的位[63:48]或者[63:56]存放当前进程的ASID，位[47:1]存放当前进程的页全局目录的物理地址。

在SMP系统中，ARM64架构要求ASID在处理器的所有核是唯一的。假设ASID为8位，ASID只有256个值，其中0是保留值，可分配的ASID范围1~255，进程的数量可能超过255，两个进程的ASID可能相同，内核引入ASID版本号解决这个问题。

(1)每个进程有一个64位的软件ASID， 低8位存放硬件ASID，高56位存放ASID版本号 。

(2) 64位全局变量asid_generation的高56位保存全局ASID版本号 。

(3) 当进程被调度时，比较进程的ASID版本号和全局版本号 。如果版本号相同，那么直接使用上次分配的ASID，否则需要给进程重新分配硬件ASID。

存在空闲ASID，那么选择一个分配给进程。不存在空闲ASID时，把全局ASID版本号加1，重新从1开始分配硬件ASID，即硬件ASID从255回绕到1。因为刚分配的硬件ASID可能和某个进程的ASID相同，只是ASID版本号不同，页表缓存可能包含了这个进程的页表项，所以必须把所有处理器的页表缓存清空。

引入ASID版本号的好处是：避免每次进程切换都需要清空页表缓存，只需要在硬件ASID回环时把处理器的页表缓存清空 。

虚拟机里面运行的客户 *** 作系统的虚拟地址转物理地址分两个阶段：

(1) 把虚拟地址转换成中间物理地址，由客户 *** 作系统的内核控制 ，和非虚拟化的转换过程相同。

(2) 把中间物理地址转换成物理地址，由虚拟机监控器控制 ，虚拟机监控器为每个虚拟机维护一个转换表，分配一个虚拟机标识符，寄存器 VTTBR_EL2 存放当前虚拟机的阶段2转换表的物理地址。

每个虚拟机有独立的ASID空间 ，页表缓存使用 虚拟机标识符 区分不同虚拟机的转换表项，避免每次虚拟机切换都要清空页表缓存，在虚拟机标识符回绕时把处理器的页表缓存清空。

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/yw/8454138.html

「图文结合」Linux 进程、线程、文件描述符的底层原理

发表评论

评论列表（0条）