linux进程内存相关_系统运维

3种地址：虚拟地址、物理地址、逻辑地址

物理地址：内存的电路地址，对应内存地址线上的高低电平，物理可见的。

虚拟地址：分页机制的产物，也叫线性地址，是进程能看见的地址。

逻辑地址：分段机制的产物，属于inter cpu的历史遗留问题，linux可以当做不存在。

3种地址的转换：进程访问逻辑地址，linux内核根据分段机制装换成虚拟地址，然后把进程的页表和虚拟地址都告诉cpu，cpu就可以根据分页机制将虚拟地址装换成物理地址，然后访问内存。

linux内核中巧妙地屏蔽里分段机制，就是逻辑地址等于虚拟地址，访问内存只需要利用分页机制把虚拟地址转换成物理地址。

linux会为每个进程创建自己的虚拟地址空间，就是进程地址空间，64位系统就是128T的内存空间。需要注意的是，虚拟地址就是假的，一开始不和物理地址对应，也就是说不占用物理内存，只有当虚拟地址有写入 *** 作是，内核会触发缺页，分配真实的物理地址给虚拟地址。物理地址的管理可参考内核内存管理

从进程空间看，用户态闲置内存有3块，Stack、Memory Mapping Region、Heap，Stack是程序函数调用运行时需要的，不可控，能自由分配的内存就剩Memory Mapping Region、Heap了，linux系统提供的内存分配函数就是针对这两个区域的。

Heap *** 作函数：int brk(void *addr)、void *sbrk(intptr_t increment)

Memory Mapping Region *** 作函数：mmap()、munmap()

当然进程可以直接使用系统调用去申请内存，但是如果不管理的话，经过大量的申请和释放，会把进程空间切割的乱七八糟，导致不能申请大块的连续空间，为此就出现了内存管理模块，封装了系统调用，对进程提供malloc和free等高级函数。实际上，除了一些特殊程序，我们也很少用系统调用，一般都是使用内存管理模块提供的malloc和free，关系如下图：

内存管理模块用各种好处，例如不会每次 *** 作都去执行系统调用，减少内存碎片的产生等等。

当然也有很多实现方式，例如常用的glibc的Ptmalloc，google的tcmalloc，facebook的jemalloc等。各有各的应用场景，blablabla....

使用时，gcc默认会链接glibc的，如果想使用其他lib，gcc链接时指定就能覆盖掉glibc的。

我们重点讲Ptmalloc，从而启发程序员在写程序时多考虑下内存分配情况，可以选择或自己实现适合自己程序的内存管理lib。

Ptmalloc的历史发展，blablabla......，Ptmalloc采取内存池管理，进程malloc时，通过brk（小于128K的内存）、mmap（大内存）从系统获取地址空间，给进程使用，进程free时，不会立即通过brk、munmap将地址空间还给系统，会自己维护起来，叫做空闲内存，这些空闲内存在进程再次malloc时，还会被分出去，并且空闲内存会在特定条件下合并起来还给系统。

内存分配区，管理了一片内存，对外分发和回收，可以理解为一个内存池，分main arena和non main arena。

main arena：最早的分配区，管理着所有可分配的内存，通过brk，mmap等系统调用向系统申请内存。注意只有main arena可以 *** 作Heap。

non main arena：由于多线程的出现，如果多有线程都 *** 作main arena就会有竞争，需要加锁控制，所以出现了non main arena，通过mmap向main arena申请一大块内存，然后自己管理，可以理解为内存分销商。

只有主线程在main arena上申请内存，子线程在non main arena上，non main arena的个数是有上限的，所以non main arena允许多个子线程共用，这样就涉及到加锁，所以程序涉及应避免子线程个数太多。

进程申请到的一块内存叫做一个内存片，arena内部使用chunk数据结构来描述内存片，包括进程正在使用的内存片，和进程free掉的空闲内存片

A：是否main arena内存

M：使用mmap内存

P：上一块是否被使用

size of previous chunk：上一块没有被使用时，表示上块长度，被使用时是上块用来存User data的。

Size of chunk：就是下一块的size of previous chunk，释放时填上本块长度，供下块合并用。

分给进程的内存片arena可以不管，但是进程free回来的，arena需要通过一定方式组织起来，方便进程再次使用。组织方式有下面几种：

bins是个数组，包含128个bin，每个bin是个链表，分small bin和large bin两种，各64个，small bin中chunk大小固定，两个相邻的small bin中的chunk大小相差8bytes，large bin中chunk大小是一定范围内的，其中的chunk按大小排列。

空闲chunk按大小选择合适的bin，按新旧顺序挂到链表上，优先分配旧的chunk。

不大于max_fast （默认值为64B）的chunk被释放后，首先会被放到fast bins 中，fast bins中的chunk并不改变它的使用标志P。这样也就无法将它们合并，当需要给用户分配的chunk小于或等于max_fast时，ptmalloc首先会在fast bins中查找相应的空闲块。在特定的时候，ptmalloc会遍历fast bins中的chunk，将相邻的空闲chunk进行合并，并将合并后的chunk加入unsorted bin中。

进行malloc时，如果在fast bins中没有找到合适的chunk，则ptmalloc会先在unsorted bin中查找合适的空闲chunk，如果unsorted bin不能满足分配要求。malloc便会将unsorted bin中的chunk加入bins中。然后再从bins中继续进行查找和分配过程。从这个过程可以看出来，unsorted bin可以看做是bins的一个缓冲区，增加它只是为了加快分配的速度。

前面的bin中都是回收回来的内存，top chunk才是内存的初始来源，每个arena都有一个top chunk，用来管理Heap的，Heap会在arena第一次分配内存时初始化，会分配一块(chunk_size + 128K) align 4K的空间（132K）作为初始的Heap，top chunk占据整个空间，每次分配会在低地址出切出一片，如下图：

回收时，只有和top chunk相连的内存才能和top chunk合并，才能进而还给系统。

子线程Heap：在main arena中mmap出64M的空间，叫做sub-heap，再在sub-heap上初始化Heap。

主线程的Heap才是真Heap，使用进程Heap，使用brk申请内存。

子线程的heap不够用时，会在申请新的sub-heap，和老的sub-heap单向链表连起来，top chunk会搬到新sub-heap上。

描述mmap出来的内存，单独管理，free时按阈值来决定是否munmap，有动态调整阈值功能，防止太频繁的mmap和munmap。本文不关注。

即最后一次small request中因分割而得到的剩余部分，它有利于改进引用局部性，也即后续对 small chunk 的 malloc 请求可能最终被分配得彼此靠近。

当用户请求 small chunk而无法从small bin和unsorted bin得到时，会在large bin中找最合适的chunk，然后做切割，返回给用户的User chunk，剩下的是Remainder chunk添加到unsorted bin中。这一Remainder chunk就将成为last remainder chunk。

下一块为高地址，前一块为低地址。

Glibc内存管理华庭（庄明强）

程序如果要被CPU执行，就得编译成CPU可以执行的指令，一大堆的程序就变成了一堆的指令。

一个 *** 作系统它也是一堆程序组成的，可以想象CPU的指令是很多的，但是这么多的指令中，有些指令涉及到系统底层的东西，如果有些指令错用或者使用不当是非常危险的，比如清内存、设置时钟、修改用户访问权限、分配系统资源等等，可能导致系统崩溃。

CPU将这些指令进行了分类，分为 特权指令 和 非特权指令 ，不让所有程序都能使用所有指令，如果所有程序都能使用，那系统崩溃就会变得非常常见了。

*** 作系统的核心是内核，它是独立于普通的应用程序，负责管理系统的进程、内存、设备驱动程序、文件和网络系统，决定着系统的性能和稳定性，所以一定要保证内核的安全。

为了保护内核的安全， *** 作系统一般都限制用户进程不能直接 *** 作内核，在32位 *** 作系统总的地址空间4G（2^32 = 4GB），实现这个限制的方式就是 *** 作系统将总的地址空间分为两个部分，对于Linux *** 作系统：

《 你该知道你写的程序的内存布局 》

总之，有1G的内核空间是每个进程共享的，剩下的3G是进程自己使用的。

在内核态下，CPU可以执行指令系统的全集，也就是说内核态进程可以调用系统的一切资源，但是特权指令只能在内核态下执行，它不直接提供给用户使用，用户态下只能使用非特权指令，也就是说用户态进程只能执行简单运算，不能直接调用系统资源。

那么CPU如何知道当前是否可以使用特权指令？

Linux *** 作系统通过区分内核空间和用户空间的这种设计，将 *** 作系统代码和用户程序代码分开，这样即使在某一个应用程序出错，也不会影响到 *** 作系统，再说，Linux *** 作系统是多任务系统，其它应用程序不也还能运行。

现代 *** 作系统基本上都是分内核空间和用户空间的做法，来保护 *** 作系统自身的安全性和稳定性，这也是区分内核空间和用户空间的本质。

你也可以继续阅读点击以下文章，下面是我推荐给大家的几篇文章：

1.《 竟然把通信协议讲的如此通俗？ 》

2.《 c++如何学习？赶紧收藏这些好书 》

3.《 select和epoll的前世今生 》

4.《 彻底明白Linux硬链接和软链接 》

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/yw/8627203.html

linux进程内存相关

发表评论

评论列表（0条）