linux进程内存相关

linux进程内存相关,第1张

3种地址:虚拟地址、物理地址、逻辑地址

物理地址:内存的电路地址,对应内存地址线上的高低电平,物理可见的。

虚拟地址: 分页机制 的产物,也叫线性地址,是进程能看见的地址。

逻辑地址: 分段机制 的产物,属于inter cpu的历史遗留问题,linux可以当做不存在。

3种地址的转换:进程访问逻辑地址,linux内核根据分段机制装换成虚拟地址,然后把进程的页表和虚拟地址都告诉cpu,cpu就可以根据分页机制将虚拟地址装换成物理地址,然后访问内存。

linux内核中巧妙地屏蔽里分段机制,就是逻辑地址等于虚拟地址,访问内存只需要利用分页机制把虚拟地址转换成物理地址。

linux会为每个进程创建自己的虚拟地址空间,就是进程地址空间,64位系统就是128T的内存空间。需要注意的是,虚拟地址就是假的,一开始不和物理地址对应,也就是说不占用物理内存,只有当虚拟地址有写入 *** 作是,内核会触发缺页,分配真实的物理地址给虚拟地址。物理地址的管理可参考 内核内存管理

从进程空间看,用户态闲置内存有3块,Stack、Memory Mapping Region、Heap,Stack是程序函数调用运行时需要的,不可控,能自由分配的内存就剩Memory Mapping Region、Heap了,linux系统提供的内存分配函数就是针对这两个区域的。

Heap *** 作函数:int brk(void *addr)、void *sbrk(intptr_t increment)

Memory Mapping Region *** 作函数:mmap()、munmap()

当然进程可以直接使用系统调用去申请内存,但是如果不管理的话,经过大量的申请和释放,会把进程空间切割的乱七八糟,导致不能申请大块的连续空间,为此就出现了内存管理模块,封装了系统调用,对进程提供malloc和free等高级函数。实际上,除了一些特殊程序,我们也很少用系统调用,一般都是使用内存管理模块提供的malloc和free,关系如下图:

内存管理模块用各种好处,例如不会每次 *** 作都去执行系统调用,减少内存碎片的产生等等。

当然也有很多实现方式,例如常用的glibc的Ptmalloc,google的tcmalloc,facebook的jemalloc等。各有各的应用场景,blablabla....

使用时,gcc默认会链接glibc的,如果想使用其他lib,gcc链接时指定就能覆盖掉glibc的。

我们重点讲Ptmalloc,从而启发程序员在写程序时多考虑下内存分配情况,可以选择或自己实现适合自己程序的内存管理lib。

Ptmalloc的历史发展,blablabla......,Ptmalloc采取内存池管理,进程malloc时,通过brk(小于128K的内存)、mmap(大内存)从系统获取地址空间,给进程使用,进程free时,不会立即通过brk、munmap将地址空间还给系统,会自己维护起来,叫做空闲内存,这些空闲内存在进程再次malloc时,还会被分出去,并且空闲内存会在特定条件下合并起来还给系统。

内存分配区,管理了一片内存,对外分发和回收,可以理解为一个内存池,分main arena和non main arena。

main arena:最早的分配区,管理着所有可分配的内存,通过brk,mmap等系统调用向系统申请内存。注意只有main arena可以 *** 作Heap。

non main arena:由于多线程的出现,如果多有线程都 *** 作main arena就会有竞争,需要加锁控制,所以出现了non main arena,通过mmap向main arena申请一大块内存,然后自己管理,可以理解为内存分销商。

只有主线程在main arena上申请内存,子线程在non main arena上,non main arena的个数是有上限的,所以non main arena允许多个子线程共用,这样就涉及到加锁,所以程序涉及应避免子线程个数太多。

进程申请到的一块内存叫做一个内存片,arena内部使用chunk数据结构来描述内存片,包括进程正在使用的内存片,和进程free掉的空闲内存片

A:是否main arena内存

M:使用mmap内存

P:上一块是否被使用

size of previous chunk:上一块没有被使用时,表示上块长度,被使用时是上块用来存User data的。

Size of chunk:就是下一块的size of previous chunk,释放时填上本块长度,供下块合并用。

分给进程的内存片arena可以不管,但是进程free回来的,arena需要通过一定方式组织起来,方便进程再次使用。组织方式有下面几种:

bins是个数组,包含128个bin,每个bin是个链表,分small bin和large bin两种,各64个,small bin中chunk大小固定,两个相邻的small bin中的chunk大小相差8bytes,large bin中chunk大小是一定范围内的,其中的chunk按大小排列。

空闲chunk按大小选择合适的bin,按新旧顺序挂到链表上,优先分配旧的chunk。

不大于max_fast (默认值为64B)的chunk被释放后,首先会被放到fast bins 中,fast bins中的chunk并不改变它的使用标志P。这样也就无法将它们合并,当需要给用户分配的chunk小于或等于max_fast时,ptmalloc首先会在fast bins中查找相应的空闲块。在特定的时候,ptmalloc会遍历fast bins中的chunk,将相邻的空闲chunk进行合并,并将合并后的chunk加入unsorted bin中。

进行malloc时,如果在fast bins中没有找到合适的chunk,则ptmalloc会先在unsorted bin中查找合适的空闲chunk,如果unsorted bin不能满足分配要求。malloc便会将unsorted bin中的chunk加入bins中。然后再从bins中继续进行查找和分配过程。从这个过程可以看出来,unsorted bin可以看做是bins的一个缓冲区,增加它只是为了加快分配的速度。

前面的bin中都是回收回来的内存,top chunk才是内存的初始来源,每个arena都有一个top chunk,用来管理Heap的,Heap会在arena第一次分配内存时初始化,会分配一块(chunk_size + 128K) align 4K的空间(132K)作为初始的Heap,top chunk占据整个空间,每次分配会在低地址出切出一片,如下图:

回收时,只有和top chunk相连的内存才能和top chunk合并,才能进而还给系统。

子线程Heap:在main arena中mmap出64M的空间,叫做sub-heap,再在sub-heap上初始化Heap。

主线程的Heap才是真Heap,使用进程Heap,使用brk申请内存。

子线程的heap不够用时,会在申请新的sub-heap,和老的sub-heap单向链表连起来,top chunk会搬到新sub-heap上。

描述mmap出来的内存,单独管理,free时按阈值来决定是否munmap,有动态调整阈值功能,防止太频繁的mmap和munmap。本文不关注。

即最后一次small request中因分割而得到的剩余部分,它有利于改进引用局部性,也即后续对 small chunk 的 malloc 请求可能最终被分配得彼此靠近。

当用户请求 small chunk而无法从small bin和unsorted bin得到时,会在large bin中找最合适的chunk,然后做切割,返回给用户的User chunk,剩下的是Remainder chunk添加到unsorted bin中。这一Remainder chunk就将成为last remainder chunk。

下一块为高地址,前一块为低地址。

Glibc内存管理 华庭(庄明强)

程序如果要被CPU执行,就得编译成CPU可以执行的指令,一大堆的程序就变成了一堆的指令。

一个 *** 作系统它也是一堆程序组成的,可以想象CPU的指令是很多的,但是这么多的指令中,有些指令涉及到系统底层的东西,如果有些指令错用或者使用不当是非常危险的,比如清内存、设置时钟、修改用户访问权限、分配系统资源等等,可能导致系统崩溃。

CPU将这些指令进行了分类,分为 特权指令 非特权指令 ,不让所有程序都能使用所有指令,如果所有程序都能使用,那系统崩溃就会变得非常常见了。

*** 作系统的核心是内核,它是独立于普通的应用程序,负责管理系统的进程、内存、设备驱动程序、文件和网络系统,决定着系统的性能和稳定性,所以一定要保证内核的安全。

为了保护内核的安全, *** 作系统一般都限制用户进程不能直接 *** 作内核,在32位 *** 作系统总的地址空间4G(2^32 = 4GB),实现这个限制的方式就是 *** 作系统将总的地址空间分为两个部分,对于Linux *** 作系统:

你该知道你写的程序的内存布局

总之,有1G的内核空间是每个进程共享的,剩下的3G是进程自己使用的。

在内核态下,CPU可以执行指令系统的全集,也就是说内核态进程可以调用系统的一切资源,但是特权指令只能在内核态下执行,它不直接提供给用户使用,用户态下只能使用非特权指令,也就是说用户态进程只能执行简单运算,不能直接调用系统资源。

那么CPU如何知道当前是否可以使用特权指令?

Linux *** 作系统通过区分内核空间和用户空间的这种设计,将 *** 作系统代码和用户程序代码分开,这样即使在某一个应用程序出错,也不会影响到 *** 作系统,再说,Linux *** 作系统是多任务系统,其它应用程序不也还能运行。

现代 *** 作系统基本上都是分内核空间和用户空间的做法,来 保护 *** 作系统自身的安全性和稳定性,这也是区分内核空间和用户空间的本质。

你也可以继续阅读 点击 以下文章,下面是我推荐给大家的几篇文章:

1.《 竟然把通信协议讲的如此通俗?

2.《 c++如何学习?赶紧收藏这些好书

3.《 select和epoll的前世今生

4.《 彻底明白Linux硬链接和软链接


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/yw/8627203.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-04-19
下一篇 2023-04-19

发表评论

登录后才能评论

评论列表(0条)

保存