当我们有一个很长很长的任务队列(mission_list)和阈值对应的一个处理函数(missionFunction)时,我们一般采用如下的方式进行处理:
但是,如果这任务列表很长很长,处理函数很复杂(占用cpu)时,单核往往需要很长的时间进行处理,此时,Multiprocess便可以极大的提高我们程序的运行速度,州粗相关内容请借鉴 multiprocessing --- 基于进程的并行 — Python 3.10.4 文档。
以上这种场景下,推荐大家采用最简单的进程池+map的方法进行处理,标准的写法, chunksize要借鉴官方的说法,最好大一点 :
但是!!!! 如果我们的任务列表非常的长,这会导致多进程还没跑起来之前,内存已经撑爆了,任务自然没法完成,此时我们有几种办法进行优化:
进程的启动方法有三种,可参考官方文档:
[图片上传失败...(image-48cd3c-1650511153989)]
在linux环境下,使用forkserver可以节省很多的内存空间, 因为进携迹衡程启动的是一个服务,不会把主进程的数据全部复制
采用imap会极大的节省空间,它返回的是一个迭代器,也就是结果列表:
但注意,以上写法中,你写的结果迭代部分必须写在with下面。或者采用另一种写法:
还有最后一种,当你的mission list实在太大了,导致你在生成 mission list的时候已经把内存撑爆了,这个时候就得优化 mission_list了,如果你的mission_list是通过一个for循环生成的,你可以使用yield字段,将其封装为一个迭代器,传入进程池:
这样子,我们就封装好了mission_list,它是一个可迭代对象,在取数据的辩做时候才会将数据拉到内存
我在项目中结合了后两种方法,原本256G的内存都不够用,但在修改后内存只占用了不到10G。希望能够帮助到你
Python的内存管理主要有三种铅拍培机制:引用计数机制,垃圾回收机制和内存池机制。引用计数机制
简介
python内部使用引用计数,来保持追踪内存中的对象,Python内部记录了对象有多少个引用,即引用计数,当对象被创建时就创建了一个引用计数,当对象不再需要时,这个对象的引用计数为0时,它被垃圾回收。
特性
1.当给一个对象分配一个新名称或者将一个对象放入一个容器(列表、元组或字典)时,该对象的引用计数都会增加。
2.当使用del对对象显示销毁或者引用超出槐唯作用于或者被重新赋值时,该对象的引用计数就会减少。
3.可以使用sys.getrefcount()函数来获取对象的当前引用计数。多数情况下,引用计数要比我们猜测的大的多。对于不可变数据(数字和字符串),解释器会在程序的不同部分共享内存,以便节约内存。
垃圾回收机制
特性
1.当内存中有不再使用的部分时,垃圾收集器就会把他们清理掉。它会去检查那些引用计数为0的对象,然后清除其在内存的空间。当然除了引用计数为0的会被清除,还有一种情况也会被垃圾收集器清掉:当两个对象相互引用时,他们本身其他的引用已经为0了。
2.垃圾回收机制还有一个循环垃圾回收器, 确保释放循环引用对象贺和(a引用b, b引用a, 导致其引用计数永远不为0)。
内存池机制
简介
在Python中,许多时候申请的内存都是小块的内存,这些小块内存在申请后,很快又会被释放,由于这些内存的申请并不是为了创建对象,所以并没有对象一级的内存池机制。这就意味着Python在运行期间会大量地执行malloc和free的 *** 作,频繁地在用户态和核心态之间进行切换,这将严重影响Python的执行效率。为了加速Python的执行效率,Python引入了一个内存池机制,用于管理对小块内存的申请和释放。
内存池概念
内存池的概念就是预先在内存中申请一定数量的,大小相等的内存块留作备用,当有新的内存需求时,就先从内存池中分配内存给这个需求,不够了之后再申请新的内存。这样做最显著的优势就是能够减少内存碎片,提升效率。内存池的实现方式有很多,性能和适用范围也不一样。
特性
1.Python提供了对内存的垃圾收集机制,但是它将不用的内存放到内存池而不是返回给 *** 作系统。
2.Pymalloc机制。为了加速Python的执行效率,Python引入了一个内存池机制,用于管理对小块内存的申请和释放。
3.Python中所有小于256个字节的对象都使用pymalloc实现的分配器,而大的对象则使用系统的 malloc。
4.对于Python对象,如整数,浮点数和List,都有其独立的私有内存池,对象间不共享他们的内存池。也就是说如果你分配又释放了大量的整数,用于缓存这些整数的内存就不能再分配给浮点数。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)