linux为什么要采用三级页表？该机制如何工作_系统运维

Linux启动并建立一套完整的页表机制要经过以下几个步骤：

1.临时内核页表的初始化(setup_32.s)

2.启动分页机制(head_32.s)

3.建立低端内存和高端内存固定映射区的页表( init_memory_mapping())

4.建立高端内存永久映射区的页表并获取固定映射区的临时映射区页表(paging_init())

具体分析低端内存页表的建立

在setup_arch()中内核通过调用init_memory_mapping()来建立低端内存页表

[cpp] view plaincopy

void __init setup_arch(char **cmdline_p)

...

/* max_pfn_mapped is updated here */

max_low_pfn_mapped = init_memory_mapping(0, max_low_pfn<<PAGE_SHIFT)

max_pfn_mapped = max_low_pfn_mapped

...

内核将低端内存的起始地址(0)，和低端内存的结束地址(max_low_pfn<<PAGE_SHIFT)传递给init_memory_mapping(),下面来看Init_memory_mapping()的具体实现，简单起见，只分析32位系统的情况。

页表用来把虚拟页映射到物理页，并且存放页的保护位(即访问权限)。

在Linux4.11版本以前，Linux内核把页表分为4级：

页全局目录表(PGD)、页上层目录(PUD)、页中间目录(PMD)、直接页表(PT) 。

4.11版本把页表扩展到5级，在页全局目录和页上层目录之间增加了 页四级目录(P4D) 。

各处处理器架构可以选择使用5级，4级，3级或者2级页表，同一种处理器在页长度不同的情况可能选择不同的页表级数。可以使用配置宏CONFIG_PGTABLE_LEVELS配置页表的级数，一般使用默认值。

如果选择4级页表，那么使用PGD，PUD，PMD，PT；如果使用3级页表，那么使用PGD，PMD，PT；如果选择2级页表，那么使用PGD和PT。 如果不使用页中间目录 ，那么内核模拟页中间目录，调用函数pmd_offset 根据页上层目录表项和虚拟地址获取页中间目录表项时， 直接把页上层目录表项指针强制转换成页中间目录表项 。

每个进程有独立的页表，进程的mm_struct实例的成员pgd指向页全局目录,前面四级页表的表项存放下一级页表的起始地址，直接页表的页表项存放页帧号(PFN) 。

内核也有一个页表， 0号内核线程的进程描述符init_task的成员active_mm指向内存描述符init_mm，内存描述符init_mm的成员pgd指向内核的页全局目录swapper_pg_dir 。

ARM64处理器把页表称为转换表，最多4级。ARM64处理器支持三种页长度：4KB，16KB，64KB。页长度和虚拟地址的宽度决定了转换表的级数，在虚拟地址的宽度为48位的条件下，页长度和转换表级数的关系如下所示：

ARM64处理器把表项称为描述符，使用64位的长描述符格式。描述符的0bit指示描述符是不是有效的：0表示无效，1表示有效。第1位指定描述符类型。

在块描述符和页描述符中，内存属性被拆分为一个高属性和一个低属性块。

处理器的MMU负责把虚拟地址转换成物理地址，为了改进虚拟地址到物理地址的转换速度，避免每次转换都需要查询内存中的页表，处理器厂商在管理单元里加了称为TLB的高速缓存，TLB直译为转换后备缓冲区，意译为页表缓存。

页表缓存用来缓存最近使用过的页表项， 有些处理器使用两级页表缓存 ： 第一级TLB分为指令TLB和数据TLB，好处是取指令和取数据可以并行；第二级TLB是统一TLB，即指令和数据共用的TLB 。

不同处理器架构的TLB表项的格式不同。ARM64处理器的每条TLB表项不仅包含虚拟地址和物理地址，也包含属性：内存类型、缓存策略、访问权限、地址空间标识符(ASID)和虚拟机标识符(VMID)。 地址空间标识符区分不同进程的页表项 ， 虚拟机标识符区分不同虚拟机的页表项 。

如果内核修改了可能缓存在TLB里面的页表项，那么内核必须负责使旧的TLB表项失效，内核定义了每种处理器架构必须实现的函数。

当TLB没有命中的时候，ARM64处理器的MMU自动遍历内存中的页表，把页表项复制到TLB，不需要软件把页表项写到TLB，所以ARM64架构没有提供写TLB的指令。

为了减少在进程切换时清空页表缓存的需要，ARM64处理器的页表缓存使用非全局位区分内核和进程的页表项(nG位为0表示内核的页表项)， 使用地址空间标识符(ASID)区分不同进程的页表项 。

ARM64处理器的ASID长度是由具体实现定义的，可以选择8位或者16位。寄存器TTBR0_EL1或者TTBR1_EL1都可以用来存放当前进程的ASID，通常使用寄存器TCR_EL1的A1位决定使用哪个寄存器存放当前进程的ASID，通常使用寄存器 TTBR0_EL1 。寄存器TTBR0_EL1的位[63:48]或者[63:56]存放当前进程的ASID，位[47:1]存放当前进程的页全局目录的物理地址。

在SMP系统中，ARM64架构要求ASID在处理器的所有核是唯一的。假设ASID为8位，ASID只有256个值，其中0是保留值，可分配的ASID范围1~255，进程的数量可能超过255，两个进程的ASID可能相同，内核引入ASID版本号解决这个问题。

(1)每个进程有一个64位的软件ASID， 低8位存放硬件ASID，高56位存放ASID版本号 。

(2) 64位全局变量asid_generation的高56位保存全局ASID版本号 。

(3) 当进程被调度时，比较进程的ASID版本号和全局版本号 。如果版本号相同，那么直接使用上次分配的ASID，否则需要给进程重新分配硬件ASID。

存在空闲ASID，那么选择一个分配给进程。不存在空闲ASID时，把全局ASID版本号加1，重新从1开始分配硬件ASID，即硬件ASID从255回绕到1。因为刚分配的硬件ASID可能和某个进程的ASID相同，只是ASID版本号不同，页表缓存可能包含了这个进程的页表项，所以必须把所有处理器的页表缓存清空。

引入ASID版本号的好处是：避免每次进程切换都需要清空页表缓存，只需要在硬件ASID回环时把处理器的页表缓存清空 。

虚拟机里面运行的客户 *** 作系统的虚拟地址转物理地址分两个阶段：

(1) 把虚拟地址转换成中间物理地址，由客户 *** 作系统的内核控制 ，和非虚拟化的转换过程相同。

(2) 把中间物理地址转换成物理地址，由虚拟机监控器控制 ，虚拟机监控器为每个虚拟机维护一个转换表，分配一个虚拟机标识符，寄存器 VTTBR_EL2 存放当前虚拟机的阶段2转换表的物理地址。

每个虚拟机有独立的ASID空间 ，页表缓存使用 虚拟机标识符 区分不同虚拟机的转换表项，避免每次虚拟机切换都要清空页表缓存，在虚拟机标识符回绕时把处理器的页表缓存清空。

1 分页机制

在虚拟内存中，页表是个映射表的概念, 即从进程能理解的线性地址(linear address)映射到存储器上的物理地址(phisical address).

很显然，这个页表是需要常驻内存的东西, 以应对频繁的查询映射需要(实际上，现代支持VM的处理器都有一个叫TLB的硬件级页表缓存部件，本文不讨论）。

1.1 为什么使用多级页表来完成映射

但是为什么要使用多级页表来完成映射呢?

用来将虚拟地址映射到物理地址的数据结构称为页表, 实现两个地址空间的关联最容易的方式是使用数组, 对虚拟地址空间中的每一页, 都分配一个数组项. 该数组指向与之关联的页帧, 但这会引发一个问题, 例如, IA-32体系结构使用4KB大小的页, 在虚拟地址空间为4GB的前提下, 则需要包含100万项的页表. 这个问题在64位体系结构下, 情况会更加糟糕. 而每个进程都需要自身的页表, 这回导致系统中大量的所有内存都用来保存页表.

设想一个典型的32位的X86系统，它的虚拟内存用户空间(user space)大小为3G, 并且典型的一个页表项(page table entry, pte)大小为4 bytes，每一个页(page)大小为4k bytes。那么这3G空间一共有(3G/4k=)786432个页面，每个页面需要一个pte来保存映射信息，这样一共需要786432个pte!

如何存储这些信息呢？一个直观的做法是用数组来存储，这样每个页能存储(4k/4=)1K个，这样一共需要(786432/1k=)768个连续的物理页面(phsical page)。而且，这只是一个进程，如果要存放所有N个进程，这个数目还要乘上N! 这是个巨大的数目，哪怕内存能提供这样数量的空间，要找到连续768个连续的物理页面在系统运行一段时间后碎片化的情况下，也是不现实的。

为减少页表的大小并容许忽略不需要的区域, 计算机体系结构的涉及会将虚拟地址分成多个部分. 同时虚拟地址空间的大部分们区域都没有使用, 因而页没有关联到页帧, 那么就可以使用功能相同但内存用量少的多的模型: 多级页表

但是新的问题来了, 到底采用几级页表合适呢?

1.2 32位系统中2级页表

从80386开始, intel处理器的分页单元是4KB的页, 32位的地址空间被分为3部分

单元

描述

页目录表Directory最高10位

页中间表Table中间10位

页内偏移最低12位

即页表被划分为页目录表Directory和页中间表Tabl两个部分

此种情况下, 线性地址的转换分为两步完成.

第一步, 基于两级转换表(页目录表和页中间表), 最终查找到地址所在的页帧

第二步, 基于偏移, 在所在的页帧中查找到对应偏移的物理地址

使用这种二级页表可以有效的减少每个进程页表所需的RAM的数量. 如果使用简单的一级页表, 那将需要高达220个页表, 假设每项4B, 则共需要占用220?4B=4MB的RAM来表示每个进程的页表. 当然我们并不需要映射所有的线性地址空间(32位机器上线性地址空间为4GB), 内核通常只为进程实际使用的那些虚拟内存区请求页表来减少内存使用量.

1.3 64位系统中的分页

正常来说, 对于32位的系统两级页表已经足够了, 但是对于64位系统的计算机, 这远远不够.

首先假设一个大小为4KB的标准页. 因为1KB覆盖210个地址的范围, 4KB覆盖212个地址, 所以offset字段需要12位.

这样线性地址空间就剩下64-12=52位分配给页中间表Table和页目录表Directory. 如果我们现在决定仅仅使用64位中的48位来寻址(这个限制其实已经足够了, 2^48=256TB, 即可达到256TB的寻址空间). 剩下的48-12=36位被分配给Table和Directory字段. 即使我们现在决定位两个字段各预留18位, 那么每个进程的页目录和页表都包含218个项, 即超过256000个项.

基于这个原因, 所有64位处理器的硬件分页系统都使用了额外的分页级别. 使用的级别取决于处理器的类型

平台名称

页大小

寻址所使用的位数

分页级别数

线性地址分级

alpha8KB43310 + 10 + 10 + 13

ia644KB3939 + 9 + 9 + 12

ppc644KB41310 + 10 + 9 + 12

sh644KB41310 + 10 + 9 + 12

x86_644KB4849 + 9 + 9 + 9 + 12

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/yw/8477443.html

linux为什么要采用三级页表？该机制如何工作

发表评论

评论列表（0条）