【深入浅出Linux】关于mmap的解析

【深入浅出Linux】关于mmap的解析,第1张

看这篇文章之前需要知道一个概念

虚拟内存系统通过将虚拟内存分割为称作虚拟页(Virtual Page,VP)大小固定的块,一般情况下,每个虚拟页的大小默认是4096字节。同样的,物理内存也被分割为物理页(Physical Page,PP),也为4096字节。

在LINUX中我们可以使用mmap用来在进程虚拟内存地址空间中分配地址空间,创建和物理内存的映射关系。

映射关系可以分为两种

1、文件映射

磁盘文件映射进程的虚拟地址空间,使用文件内容初始化物理内存。

2、匿名映射

初始化全为0的内存空间。

而对于映射关系是否共享又分为

1、私有映射(MAP_PRIVATE)

多进程间数据共享,修改不反应到磁盘实际文件,是一个copy-on-write(写时复制)的映射方式。

2、共享映射(MAP_SHARED)

多进程间数据共享,修改反应到磁盘实际文件中。

因此总结起来有4种组合

1、私有文件映射

多个进程使用同样的物理内存页进行初始化,但是各个进程对内存文件的修改不会共享,也不会反应到物理文件中

2、私有匿名映射

mmap会创建一个新的映射,各个进程不共享,这种使用主要用于分配内存(malloc分配大内存会调用mmap)。

例如开辟新进程时,会为每个进程分配虚拟的地址空间,这些虚拟地址映射的物理内存空间各个进程间读的时候共享,写的时候会copy-on-write。

3、共享文件映射

多个进程通过虚拟内存技术共享同样的物理内存空间,对内存文件 的修改会反应到实际物理文件中,他也是进程间通信(IPC)的一种机制。

4、共享匿名映射

这种机制在进行fork的时候不会采用写时复制,父子进程完全共享同样的物理内存页,这也就实现了父子进程通信(IPC).

这里值得注意的是,mmap只是在虚拟内存分配了地址空间,只有在第一次访问虚拟内存的时候才分配物理内存。

在mmap之后,并没有在将文件内容加载到物理页上,只上在虚拟内存中分配了地址空间。当进程在访问这段地址时,通过查找页表,发现虚拟内存对应的页没有在物理内存中缓存,则产生"缺页",由内核的缺页异常处理程序处理,将文件对应内容,以页为单位(4096)加载到物理内存,注意是只加载缺页,但也会受 *** 作系统一些调度策略影响,加载的比所需的多。

1.write

因为物理内存是有限的,mmap在写入数据超过物理内存时, *** 作系统会进行页置换,根据淘汰算法,将需要淘汰的页置换成所需的新页,所以mmap对应的内存是可以被淘汰的(若内存页是"脏"的,则 *** 作系统会先将数据回写磁盘再淘汰)。这样,就算mmap的数据远大于物理内存, *** 作系统也能很好地处理,不会产生功能上的问题。

2.read

从图中可以看出,mmap要比普通的read系统调用少了一次copy的过程。因为read调用,进程是无法直接访问kernel space的,所以在read系统调用返回前,内核需要将数据从内核复制到进程指定的buffer。但mmap之后,进程可以直接访问mmap的数据(page cache)。

测试结果来源于: 深入剖析mmap-从三个关键问题说起

1.读性能分析

场景:对2G的文件进行顺序写入

可以看到mmap在100byte写入时已经基本达到最大写入性能,而write调用需要在4096(也就是一个page size)时,才能达到最大写入性能。

从测试结果可以看出,在写小数据时,mmap会比write调用快,但在写大数据时,反而没那么快。

2.写性能分析

场景:对2G的文件进行顺序读取(为了避免磁盘对测试的影响,2G文件都缓存在pagecache中)

由上可以看出,在read上面,mmap的性能还是非常好的。

优点如下:

1、对文件的读取 *** 作跨过了页缓存,减少了数据的拷贝次数,用内存读写取代I/O读写,提高了文件读取效率。

2、实现了用户空间和内核空间的高效交互方式。两空间的各自修改 *** 作可以直接反映在映射的区域内,从而被对方空间及时捕捉。

3、提供进程间共享内存及相互通信的方式。不管是父子进程还是无亲缘关系的进程,都可以将自身用户空间映射到同一个文件或匿名映射到同一片区域。从而通过各自对映射区域的改动,达到进程间通信和进程间共享的目的。同时,如果进程A和进程B都映射了区域C,当A第一次读取C时通过缺页从磁盘复制文件页到内存中;但当B再读C的相同页面时,虽然也会产生缺页异常,但是不再需要从磁盘中复制文件过来,而可直接使用已经保存在内存中的文件数据。

4、可用于实现高效的大规模数据传输。内存空间不足,是制约大数据 *** 作的一个方面,解决方案往往是借助硬盘空间协助 *** 作,补充内存的不足。但是进一步会造成大量的文件I/O *** 作,极大影响效率。这个问题可以通过mmap映射很好的解决。换句话说,但凡是需要用磁盘空间代替内存的时候,mmap都可以发挥其功效。

缺点如下:

1.文件如果很小,是小于4096字节的,比如10字节,由于内存的最小粒度是页,而进程虚拟地址空间和内存的映射也是以页为单位。虽然被映射的文件只有10字节,但是对应到进程虚拟地址区域的大小需要满足整页大小,因此mmap函数执行后,实际映射到虚拟内存区域的是4096个字节,11~4096的字节部分用零填充。因此如果连续mmap小文件,会浪费内存空间。

3.如果更新文件的 *** 作很多,会触发大量的脏页回写及由此引发的随机IO上。所以在随机写很多的情况下,mmap方式在效率上不一定会比带缓冲区的一般写快。

*** 作系统的内存管理,主要分为三个方面。

第一,物理内存的管理,相当于会议室管理员管理会议室。

第二,虚拟地址的管理,也即在项目组的视角,会议室的虚拟地址应该如何组织。

第三,虚拟地址和物理地址如何映射,也即会议室管理员如果管理映射表。

那么虚拟地址和物理地址如何映射呢?

每一个进程都有一个列表vm_area_struct,指向虚拟地址空间的不同的内存块,这个变量的名字叫mmap。

其实内存映射不仅仅是物理内存和虚拟内存之间的映射,还包括将文件中的内容映射到虚拟内存空间。这个时候,访问内存空间就能够访问到文件里面的数据。而仅有物理内存和虚拟内存的映射,是一种特殊情况。

如果我们要申请小块内存,就用brk。brk函数之前已经解析过了,这里就不多说了。如果申请一大块内存,就要用mmap。对于堆的申请来讲,mmap是映射内存空间到物理内存。

另外,如果一个进程想映射一个文件到自己的虚拟内存空间,也要通过mmap系统调用。这个时候mmap是映射内存空间到物理内存再到文件。可见mmap这个系统调用是核心,我们现在来看mmap这个系统调用。

用户态的内存映射机制包含以下几个部分。

物理内存根据NUMA架构分节点。每个节点里面再分区域。每个区域里面再分页。

物理页面通过伙伴系统进行分配。分配的物理页面要变成虚拟地址让上层可以访问,kswapd可以根据物理页面的使用情况对页面进行换入换出。

对于内存的分配需求,可能来自内核态,也可能来自用户态。

对于内核态,kmalloc在分配大内存的时候,以及vmalloc分配不连续物理页的时候,直接使用伙伴系统,分配后转换为虚拟地址,访问的时候需要通过内核页表进行映射。

对于kmem_cache以及kmalloc分配小内存,则使用slub分配器,将伙伴系统分配出来的大块内存切成一小块一小块进行分配。

kmem_cache和kmalloc的部分不会被换出,因为用这两个函数分配的内存多用于保持内核关键的数据结构。内核态中vmalloc分配的部分会被换出,因而当访问的时候,发现不在,就会调用do_page_fault。

对于用户态的内存分配,或者直接调用mmap系统调用分配,或者调用malloc。调用malloc的时候,如果分配小的内存,就用sys_brk系统调用;如果分配大的内存,还是用sys_mmap系统调用。正常情况下,用户态的内存都是可以换出的,因而一旦发现内存中不存在,就会调用do_page_fault。

Linux中传统的I/O *** 作是一种缓存I/O,I/O过程中产生的数据传输通常需要在缓冲区中进行多次拷贝。当应用程序需要访问某个数据(read() *** 作)时, *** 作系统会先判断这块数据是否在内核缓冲区中,如果在内核缓冲区中找不到这块数据,内核会先将这块数据从磁盘中读出来放到内核缓冲区中,应用程序再从缓冲区中读取。当应用程序需要将数据输出(write())时,同样需要先将数据拷贝到输出堆栈相关的内核缓冲区,再从内核缓冲区拷贝到输出设备中。

以一次网络请求为例,如下图。对于一次数据读取,用户应用程序只需要调用read()及write()两个系统调用就可以完成一次数据传输,但这个过程中数据经过了四次拷贝,且数据拷贝需要由CPU来调控。在某些情况下,这些数据拷贝会极大地降低系统数据传输的性能,比如文件服务器中,一个文件从磁盘读取后不加修改地回传给调用方,那么这占用CPU时间去处理这四次数据拷贝的性价比是极低的。

一次处理网络调用的系统I/O的流程:

以上可以发现,传统的Linux系统I/O *** 作要进行4次内核空间与应用程序空间的上下文切换,以及4次数据拷贝。

直接内存访问(Direct Memory Access,DMA)是计算机科学中的一种内存访问技术,允许某些电脑内部的硬件子系统独立地读取系统内存,而不需要中央处理器(CPU)的介入。在同等程度的处理器负担下,DMA是一种快速的数据传送方式。这类子系统包括硬盘控制器、显卡、网卡和声卡。

在Linux系统中,当应用程序需要读取文件中的数据时, *** 作系统先分配一些内存,将数据从存储设备读入到这些内存中,然后再将数据传递应用进程;当需要往文件中写数据时, *** 作系统先分配内存接收用户数据,然后再将数据从内存写入磁盘。文件cache管理就是对这些由 *** 作系统分配并用开存储文件数据的内存的管理。

在Linux系统中,文件cache分为两个层面,page cache 与 Buffer cache,每个page cache包含若干个buffer cache。 *** 作系统中,磁盘文件都是由一系列的数据块(Block)组成,buffer cache也叫块缓存,是对磁盘一个数据块的缓存,目的是为了在程序多次访问同一个磁盘块时减少访问时间;而文件系统对数据的组织形式为页,page cache为页缓存,是由多个块缓存构成,其对应的缓存数据块在磁盘上不一定是连续的。也就是说buffer cache缓存文件的具体内容--物理磁盘上的磁盘块,加速对磁盘的访问,而page cache缓存文件的逻辑内容,加速对文件内容的访问。

buffer cache的大小一般为1k,page cache在32位系统上一般为4k,在64位系统上一般为8k。磁盘数据块、buffer cache、page cache及文件的关系如下图:

文件cache的目的是加快对数据文件的访问,同时会有一个预读过程。对于每个文件的第一次读请求,系统会读入所请求的页面并读入紧随其后的几个页面;对于第二次读请求,如果所读页面在cache中,则会直接返回,同时又一个异步预读的过程(将读取页面的下几页读入cache中),如果不在cache中,说明读请求不是顺序读,则会从磁盘中读取文件内容并刷新cache。因此在顺序读取情况下,读取数据的性能近乎内存读取。

DMA允许硬件子系统直接将数据从磁盘读取到内核缓冲区,那么在一次数据传输中,磁盘与内核缓冲区,输出设备与内核缓冲区之间的两次数据拷贝就不需要CPU进行调度,CPU只需要进行缓冲区管理、以及创建和处理DMA。而Page Cache/Buffer Cache的预读取机制则加快了数据的访问效率。如下图所示,还是以文件服务器请求为例,此时CPU负责的数据拷贝次数减少了两次,数据传输性能有了较大的提高。

使用DMA的系统I/O *** 作要进行4次内核空间与应用程序空间的上下文切换,2次CPU数据拷贝及2次DMA数据拷贝。

Mmap内存映射与标准I/O *** 作的区别在于当应用程序需要访问数据时,不需要进行内核缓冲区到应用程序缓冲区之间的数据拷贝。Mmap使得应用程序和 *** 作系统共享内核缓冲区,应用程序直接对内核缓冲区进行读写 *** 作,不需要进行数据拷贝。Linux系统中通过调用mmap()替代read() *** 作。

同样以文件服务器获取文件(不加修改)为例,通过mmap *** 作的一次系统I/O过程如下:

通过以上流程可以看到,数据拷贝从原来的4次变为3次,2次DMA拷贝1次内核空间数据拷贝,CPU只需要调控1次内核空间之间的数据拷贝,CPU花费在数据拷贝上的时间进一步减少(4次上下文切换没有改变)。对于大容量文件读写,采用mmap的方式其读写效率和性能都比较高。(数据页较多,需要多次拷贝)

注:mmap()是让应用程序空间与内核空间共享DMA从磁盘中读取的文件缓冲,也就是应用程序能直接读写这部分PageCache,至于上图中从页缓存到socket缓冲区的数据拷贝只是文件服务器的处理,根据应用程序的不同会有不同的处理,应用程序也可以读取数据后进行修改。重点是虚拟内存映射,内核缓存共享。

djk中nio包下的MappedByteBuffer,官方注释为 A direct byte buffer whose content is a memory-mapped region of a file,即直接字节缓冲区,其内容是文件的内存映射区域。 FileChannel是是nio *** 作文件的类,其map()方法在在实现类中调用native map0()本地方法,该方法通过mmap()实现,因此是将文件从磁盘读取到内核缓冲区,用户应用程序空间直接 *** 作内核空间共享的缓冲区,Java程序通过MappedByteBuffer的get()方法获取内存数据。

MappedByteBuffer允许Java程序直接从内存访问文件,可以将整个文件或文件的一部分映射到内存中,由 *** 作系统进行相关的请求并将内存中的修改写入到磁盘中。

FileChannel map有三种模式

MappedByteBuffer的应用,以rocketMQ为例(简单介绍)。

producer端发送消息最终会被写入到commitLog文件中,consumer端消费时先从订阅的consumeQueue中读取持久化消息的commitLogOffset、size等内容,随后再根据offset、size从commitLog中读取消息的真正实体内容。其中,commitLog是混合部署的,所有topic下的消息队列共用一个commitLog日志数据文件,consumeQueue类似于索引,同时区分开不同topic下不同MessageQueue的消息。

rocketMQ利用MappedByteBuffer及PageCache加速对持久化文件的读写 *** 作。rocketMQ通过MappedByteBuffer将日志数据文件映射到OS的虚拟内存中(PageCache),写消息时首先写入PageCache,通过刷盘方式(异步或同步)将消息批量持久化到磁盘;consumer消费消息时,读取consumeQueue是顺序读取的,虽然有多个消费者 *** 作不同的consumeQueue,对混合部署的commitLog的访问时随机的,但整体上是从旧到新的有序读,加上PageCache的预读机制,大部分情况下消息还是从PageCache中读取,不会产生太多的缺页中断(要读取的消息不在pageCache中)而从磁盘中读取。

rocketMQ利用mmap()使程序与内核空间共享内核缓冲区,直接对PageCache中的文件进行读写 *** 作,加速对消息的读写请求,这是其高吞吐量的重要手段。

使用mmap能减少CPU数据拷贝的次数,但也存在一些问题。

从Linux2.1开始,Linux引入sendfile()简化 *** 作。取消read()/write(),mmap()/write()。

调用sendfile的流程如下:

通过sendfile()的I/O进行了2次应用程序空间与内核空间的上下文切换,以及3次数据拷贝,其中2次是DMA拷贝,1次是CPU拷贝。sendfile相比起mmap,数据信息没有进入到应用程序空间,所以能减少2次上下文切换的开销,而数据拷贝次数是一样的。

上述流程也可以看出,sendfile()适合对文件不加修改的I/O *** 作。

sendfile()只是减少应用程序空间与内核空间的上下文切换,并没有减少CPU数据拷贝的次数,还存在一次内核空间的两个缓冲区的数据拷贝。要实现CPU零数据拷贝,需要引入一些硬件上的支持。在上一小节的sendfile流程中,数据需要从内核缓冲区拷贝到内核空间socket缓冲区,数据都是在内核空间,如果socket缓冲区到网卡的这次DMA数据传输 *** 作能直接读取到内核缓冲区中的数据,那么这一次的CPU数据拷贝也就能避免。要达到这个目的,DMA需要知道存有文件位置和长度信息的缓冲区描述符,即socket缓冲区需要从内核缓冲区接收这部分信息,DMA需要支持数据收集功能。

sendfile()调用后,数据从磁盘文件拷贝到内核缓冲区中,然后将文件位置和长度信息的缓冲区描述符传递到socket缓冲区,此时数据并没有被拷贝。之后网卡子系统根据socket缓冲区中的文件信息利用DMA技术收集拷贝数据。整个过程进行了2次内核空间和应用程序空间的上下文切换,及2次DMA数据拷贝,CPU不需要参与数据拷贝工作,从而实现零拷贝。当然DMA收集拷贝功能需要硬件和驱动程序的支持。

在 *** 作系统中,硬件和软件之间的数据传输可以通过DMA来进行,DMA进行数据传输的过程几乎不需要CPU参与,但是在内核缓冲区(页缓存)与应用程序缓冲区之间的数据拷贝并没有类似于DMA之类的工具可以使用,mmap、sendfile都是为了减少数据在内核空间与应用程序空间传输时的数据拷贝和上下文切换次数,有效地改善数据在两者之间传递的效率。

linux *** 作系统的零拷贝技术并不单指某一种方式,现有的零拷贝技术种类非常多,在不同的Linux内核版本上有不同的支持。常见的,如果应用程序需要修改数据,则使用mmap(),如果只进行文件数据传输,则可选择sendfile()。

另外,关于零拷贝技术适用于什么场景?在上述的描述中,数据在传递过程中,除了mmap外,应用程序和 *** 作系统几乎是没有改变数据的,mmap的内存映射也是没有改变数据的,也就是说在静态资源的读取场景下,零拷贝更能发挥作用。正如其名,拷贝是在不改变数据的情况下,零是利用手段去减少CPU参与数据拷贝的次数,以释放CPU去进行其他系统调用与计算。


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/tougao/11476399.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-16
下一篇 2023-05-16

发表评论

登录后才能评论

评论列表(0条)

保存