当我们有一个很长很长的任务队列(mission_list)和阈值对应的一个处理函数(missionFunction)时,我们一般采用如下的方式进行处理:
但是,如果这任务列表很长很长,处理函数很复杂(占用cpu)时,单核往往需要很长的时间进行处理,此时,Multiprocess便可以极大的提高我们程序的运行速度,州粗相关内容请借鉴 multiprocessing --- 基于进程的并行 — Python 3.10.4 文档。
以上这种场景下,推荐大家采用最简单的进程池+map的方法进行处理,标准的写法, chunksize要借鉴官方的说法,最好大一点 :
但是!!!! 如果我们的任务列表非常的长,这会导致多进程还没跑起来之前,内存已经撑爆了,任务自然没法完成,此时我们有几种办法进行优化:
进程的启动方法有三种,可参考官方文档:
[图片上传失败...(image-48cd3c-1650511153989)]
在linux环境下,使用forkserver可以节省很多的内存空间, 因为进携迹衡程启动的是一个服务,不会把主进程的数据全部复制
采用imap会极大的节省空间,它返回的是一个迭代器,也就是结果列表:
但注意,以上写法中,你写的结果迭代部分必须写在with下面。或者采用另一种写法:
还有最后一种,当你的mission list实在太大了,导致你在生成 mission list的时候已经把内存撑爆了,这个时候就得优化 mission_list了,如果你的mission_list是通过一个for循环生成的,你可以使用yield字段,将其封装为一个迭代器,传入进程池:
这样子,我们就封装好了mission_list,它是一个可迭代对象,在取数据的辩做时候才会将数据拉到内存
我在项目中结合了后两种方法,原本256G的内存都不够用,但在修改后内存只占用了不到10G。希望能够帮助到你
python程序在运行过程之中会单独开辟出一个进程来执行,而很多小伙伴都发现程序在运行过程之中所占用的内存会越来越大,但是不知道是什么原因以及如何解决。那么下文会来讲解一下python程序内存占用过大的原因和解决方法,感兴趣的和有需要的话就往下看看吧。一、原因
首先需要知道的一点就是,python是面向对象编程的语言,那么就表示在其程序之中一切皆为对象。而每一个对象在创建是都会在内存中开辟空间来占用位置,这样就会造成一开始的内存占用。
虽然说python中有自己的内存管理机制和垃圾处理方凳渗式,但是它对于一些占用内存过多的对象不会马上释放,只有当这个对象不处于引用状态时才会处理它。
二、瞎春解决方法
既然知道了python程序内存都是因为有对象才将其占用的,那么正确的解决方法就是将对象在调用完毕之后马上删除掉。该方法需要用到关键字del和gc模块,使用del关键字删除变量之后,调用gc模块来马上启动python垃枣神脊圾处理机制就可以直接将其彻底从内存空间清除,代码示例如下所示:
sys.getsizeof()(object[, default])下面是我摘录的,希望对你有用。
以字节(byte)为单位返回明信对象大小。 这个对象可以是任何类型的对象。 所以内置对象都能返回正确的结果液神 但不保证对第三方激埋轮扩展有效,因为和具体实现相关。
getsizeof() 调用对象的 __sizeof__ 方法, 如果对象由垃圾收集器管理, 则会加上额外的垃圾收集器开销。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)