每次上下文切换需要几十纳秒到数微妙的cpu时间。
根据任务类型的不同,cpu上下文切换可以分为进程上下文切换,线程上下文切换,中断上下文切换。
还有一种情况比较特殊,系统调用的过程中也发生了上下文切换,这种切换被称为特权模式切换。
一个进程从用户态到内核态的转变,需要通过系统调用来完成。
从用户态切换到内核态,cpu寄存器原来的用户态的指令位置需要保存起来,然后加载内核态的指令位置到cpu寄存器中。
系统调用结束后,cpu寄存器需要恢复原来保存的用户态,然后再切换到用户空间,继续运行。所以,一次系统调用的过程,其实是发生了两次cpu上下文切换。
进程的上下文切换比系统调用多了一步,在保存当前进程的内核状态和cpu寄存器之前,需要先把该进程的虚拟内存,栈等保存下来。而加载了下一个进程的内核态之后,还需要刷新进程的虚拟内存和用户栈。
线程与进程的最大区别在于,线程是调度的基本单位,而进程则是资源拥有的基本单位。内核中的任务调度,实际上调度的对象是线程。
当进程拥有多个线程时,这些线程会共享相同的虚拟内存和全局变量资源。这些资源在上下文切换时是不需要修改的。另外,线程也有自己的私有数据,比如栈和寄存器等。这些在上下文切换也是需要保存的。
线程的上下文切换分为两种情况:
1 ) 前后两个线程属于不同的进程。这时,切换线程就和切换进程一样。
2 ) 前后两个线程属于同一个进程。因为虚拟内存是共享的,所以在切换时,虚拟内存这些共享资源保存不动,只要切换线程的私有数据,寄存器等不共享的数据。
为了快速响应硬件的事件,中断处理会打断进程的正常调度和执行,转而执行中断处理程序。对于同一个cpu来说,中断处理比进程拥有更高的优先级。
跟进程上下文切换不同,内核的中断上下文切换并不涉及到进程的用户态。进程的用户态切换由cpu硬件来处理。所以即便中断过程打断了一个正处在用户态的进程,也不需要保存和恢复这个进程的虚拟内存,全局变量等用户态资源。这些由cpu硬件来保存和恢复。
参考资料:
内核态与用户态是 *** 作系统的两种运行级别,intel cpu提供Ring0-Ring3三种级别的运行模式。Ring0级别最高,Ring3最低。其中特权级0(Ring0)是留给 *** 作系统代码,设备驱动程序代码使用的,它们工作于系统核心态;而特权极3(Ring3)则给普通的用户程序使用,它们工作在用户态。运行于处理器核心态的代码不受任何的限制,可以自由地访问任何有效地址,进行直接端口访问。而运行于用户态的代码则要受到处理器的诸多检查,它们只能访问映射其地址空间的页表项中规定的在用户态下可访问页面的虚拟地址,且只能对任务状态段(TSS)中I/O许可位图(I/O Permission Bitmap)中规定的可访问端口进行直接访问(此时处理器状态和控制标志寄存器EFLAGS中的IOPL通常为0,指明当前可以进行直接I/O的最低特权级别是Ring0)。以上的讨论只限于保护模式 *** 作系统,象DOS这种模式 *** 作系统则没有这些概念,其中的所有代码都可被看作运行在核心态。当一个任务(进程)执行系统调用而陷入内核代码中执行时,我们就称进程处于内核运行态(或简称为内核态)。此时处理器处于特权级最高的(0级) 内核代码中执行。当进程处于内核态时,执行的内核代码会使用当前进程的内核栈。每个进程都有自己的内核栈。当进程在执行用户自己的代码时,则称其处于用户运行态(用户态)。即此时处理器在特权级最低的(3级)用户代码中运行。
在内核态下CPU可执行任何指令,在用户态下CPU只能执行非特权指令。当CPU处于内核态,可以随意进入用户态;而当CPU处于用户态时,用户从用户态切换到内核态只有在系统调用和中断两种情况下发生,一般程序一开始都是运行于用户态,当程序需要使用系统资源时,就必须通过调用软中断进入内核态。
Linux使用了Ring3级别运行用户态,Ring0作为内核态,没有使用Ring1和Ring2。Ring3状态不能访问Ring0的地址空间,包括代码和数据。Linux进程的4GB地址空间,3G-4G部分大家是共享的,是内核态的地址空间,这里存放在整个内核的代码和所有的内核模块,以及内核所维护的数据。用户运行一个程序,该程序所创建的进程开始是运行在用户态的,如果要执行文件 *** 作,网络数据发送等 *** 作,必须通过 write,send等系统调用,这些系统调用会调用内核中的代码来完成 *** 作,这时,必须切换到Ring0,然后进入3GB-4GB中的内核地址空间去执行这些代码完成 *** 作,完成后,切换回Ring3,回到用户态。这样,用户态的程序就不能随意 *** 作内核地址空间,具有一定的安全保护作用。
处理器模式从Ring3向Ring0的切换发生在控制权转移时,有以下两种情况:访问调用门的长转移指令CALL,访问中断门或陷阱门的INT指令。具体的转移细节由于涉及复杂的保护检查和堆栈切换,不再赘述,请参阅相关资料。现代的 *** 作系统通常使用中断门来提供系统服务,通过执行一条陷入指令来完成模式切换,在INTEL X86上这条指令是INT,如在WIN9X下是INT30(保护模式回调),在LINUX下是INT80,在WINNT/2000下是INT2E。用户模式的服务程序(如系统DLL)通过执行一个INTXX来请求系统服务,然后处理器模式将切换到核心态,工作于核心态的相应的系统代码将服务于此次请求并将结果传给用户程序。
一,中断处理过程
硬件中断:来自时钟,外设
可编程中断:programmed interrupt,执行引起软件中断的指令。
例外中断:如页面错。
都由系统负责处理。当发生一个中断时,如果CPU正在比该中断级低的处理机运行级上运行,它就在解码下条指令之前,接受该中断,并提高处理机运行级。内核处理中断的 *** 作顺序如下:
1,对于正在进行的进程,保存其当前寄存器上下文,并创建压入一个新的上下文层。
2,确定中断源,识别中断类型。如是时钟或磁盘的。
3,查找中断向量。当系统接受一个中断时,它从机器中得到一个数,系统把这个作为查表的偏移量。这个表通常成为中断向量(interrupt vector)。中断向量的内容包括各种中断源的中断处理程序的地址,以及中断处理程序取得参数的方式。
4,内核调用中断处理程序。
5,中断处理程序执行那个返回,恢复(d出)前一上下文层。
二,软中断
软中断通知进程发生了异步事件。
系统有个进程表,每个进程在进程表中有有个进程表项,每个进程表项有个软中断信号字段,纪录发向一个进程的所有未处理的软中断信号。
当一个进程即将从核心态返回到用户态时,或它要进入或离开一个适当的低调度优先级时,内核要检查它是否收到了一个软中断信号。
内核仅当一个进程从核心态返回到用户态时才处理软中断信号。
三,系统调用
我们在C程序中调用系统调用好像是个一般的函数调用,当实际上调用系统调用会引起用户态到核心态的状态变化,这是怎么做到的呢?
原来,C编译程序采用一个预定义的函数库(C之程序库),其中的函数具有系统调用的名字,从而解决了在用户程序中请求系统调用的问题。这些库函数一般都执行一条指令,该指令将进程的运行方式变为核心态,然后,使内核开始为系统调用执行代码。我们称这个指令为 *** 作系统陷入(operating system trap)。
系统调用的接口是一个中断处理程序的特例。
在处理 *** 作系统陷入时,
1,内核根据系统调用号查系统调用入口表,找到相应的内核子程序的地址。
2,内核还要确定该系统调用所要求的参数个数。
3,从用户地址空间拷贝参数到U区(Unix V)。
4,保存当前上下文,执行系统调用代码。
核心态:当CPU正在运行内核代码时(内核代码是共享的)。
用户态:当CPU正在运行用户代码时。
用户模式:不可以访问内核空间(>=0x80000000)
内核模式:可以访问任何有效虚拟地址,包括内核空间。一个线程可以访问其他任何线程地址空间。
*** 作系统的内存管理,主要分为三个方面。
第一,物理内存的管理,相当于会议室管理员管理会议室。
第二,虚拟地址的管理,也即在项目组的视角,会议室的虚拟地址应该如何组织。
第三,虚拟地址和物理地址如何映射,也即会议室管理员如果管理映射表。
那么虚拟地址和物理地址如何映射呢?
每一个进程都有一个列表vm_area_struct,指向虚拟地址空间的不同的内存块,这个变量的名字叫mmap。
其实内存映射不仅仅是物理内存和虚拟内存之间的映射,还包括将文件中的内容映射到虚拟内存空间。这个时候,访问内存空间就能够访问到文件里面的数据。而仅有物理内存和虚拟内存的映射,是一种特殊情况。
如果我们要申请小块内存,就用brk。brk函数之前已经解析过了,这里就不多说了。如果申请一大块内存,就要用mmap。对于堆的申请来讲,mmap是映射内存空间到物理内存。
另外,如果一个进程想映射一个文件到自己的虚拟内存空间,也要通过mmap系统调用。这个时候mmap是映射内存空间到物理内存再到文件。可见mmap这个系统调用是核心,我们现在来看mmap这个系统调用。
用户态的内存映射机制包含以下几个部分。
物理内存根据NUMA架构分节点。每个节点里面再分区域。每个区域里面再分页。
物理页面通过伙伴系统进行分配。分配的物理页面要变成虚拟地址让上层可以访问,kswapd可以根据物理页面的使用情况对页面进行换入换出。
对于内存的分配需求,可能来自内核态,也可能来自用户态。
对于内核态,kmalloc在分配大内存的时候,以及vmalloc分配不连续物理页的时候,直接使用伙伴系统,分配后转换为虚拟地址,访问的时候需要通过内核页表进行映射。
对于kmem_cache以及kmalloc分配小内存,则使用slub分配器,将伙伴系统分配出来的大块内存切成一小块一小块进行分配。
kmem_cache和kmalloc的部分不会被换出,因为用这两个函数分配的内存多用于保持内核关键的数据结构。内核态中vmalloc分配的部分会被换出,因而当访问的时候,发现不在,就会调用do_page_fault。
对于用户态的内存分配,或者直接调用mmap系统调用分配,或者调用malloc。调用malloc的时候,如果分配小的内存,就用sys_brk系统调用;如果分配大的内存,还是用sys_mmap系统调用。正常情况下,用户态的内存都是可以换出的,因而一旦发现内存中不存在,就会调用do_page_fault。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)