可是,等我第二天的时候一看,什么???还没处理完,当前的数据处理速度变成了一秒5个左右,然后还需要等待300个小时。
然后就查了一下这个问题,原来同样也有很多人在处理培察蔽大数据的时候遇到了这个问题,大多数的文章分析的原因都是说由于GC(垃圾回收)造成的性能下降。
Python的垃圾回收机制的工作原理为每个对象维护一个引用计数,每次内存对象的创建与销毁都必须修改引用计数,从而在大量的对象创建时,需要大量的执行修改引用计数 *** 作,对于程序执行过程中,额外的性能开销是令人可怕的。回收的触发时机有两种可能,一是用户主动调用gc.collect(),二是对象数量超过阈值。
所以正是GC拖慢了程序的性能,所以我们可以考虑在处理的时候禁止垃圾回收。
通过这样的改进之后速度确度会有很大的提升。但是又有也会另外的一个问题,内存溢出,由于运行的过程中生成大量的对象,一次使用后就没有了引用,由于关闭了垃圾回收机制,一直存在内存中得不到清理,然后程序的内存使用量越来越大。解决的方法就是定期打开gc.enable()再关配州闭或者主动调用gc.collect(),这样就可以了。
通过上述的改进后程序确实了很多,可是我的程序还是运行的越来越慢,我都怀疑人生了,然后分别测试了各个步骤所花费的时间才知道了原因,我使用了pandas创建一个DataFrame,然后每次迭代得到的结果都添加新的数据到DataFrame中,随着里边的数据越来越多,添加的速度也就越来越慢了,严重的拖累的运行速度。这里的解决方法有两个:
1 分段保存结果,间隔一段时间就保存一次结果,最后再将多次的结果合并。
2 换一个数据存储方法,我是直接使用了python的没和字典进行保存结果,它随着数据的增多添加的速度也会变慢,但是差别不是很大,在可接受的范围内,可以使用;或者再加上方法1,分段进行保存再合并也是可以的。
您好,茫茫人海之中,能为君排忧解难实属朕的荣幸,在下拙见,若有错误,还望见谅!。展开全部yxhtest7772017-07-18
关注
分享
697 2
python运行速度慢怎么办?6个Python性能优化技巧
Python是一门非常酷的语言,因为很少的Python代码可以在短时间内做很多事情,并且,Python很容易就能支持多任务和多重处理。
Python的批评者声称Python性能低效、执行缓慢,但实际上并非如此:尝试以下6个小技巧,可以加快Python应用程序。
关键代码可以依赖于扩展包
Python使许多编程任务变得简单,但是对于很关键的任务并不总是提供最好的性能。使用C、C++或者机器语言扩展包来执行关键任务能极大改善性能。这些包是依赖于平台的,也就是说,你必须使用特定的、与你使用的平台相关的包。简而言之,该解决方案提供了一些应用程序的可移植性,以换取性能,您可以获得只有通过直接向底层主机编程。
下面这些扩展包你可以考虑添加到你的个人扩展库中:
Cython
PyInlne
PyPy
Pyrex
这些包有不同的作用和执行方式。例如,Pyrex 让Python处理一些内存任务变得简单高效;PyInline可以直接让你在Python应用程序中使用C代码,虽然内联代码被单独编译,但是如果你能高效的利用C代码,它可以在同一猜仿个地方处理每一件事情。
使用关键字排序
有很多古老的Python代码在执行时将花费额外的时间去创建一个自定义的排序函数。最好的排序方式是慧埋使用关键字和默认的sort()方法。
优化循环
每一种编程语言都强调循环语句的优化,Python也是一样的。尽管你可以依赖于丰富的技术让循环穗碧纤运行的更快,然而,开发者经常忽略的一个方法是避免在循环内部使用点拼接字符串。
使用新版本
任何一个在线上搜索Python资料的人都会发现无数关于Python版本迁移的信息。通常,Python每一个版本都针对之前的一个版本做了优化和改进,以让Python运行的更快。限制因素是你喜欢的函数库是否也针对Python的新版本做了改进。
当你使用了新的函数库,获得了Python的新版本,你需要保证代码依然能够运行,检查应用,修正差异。然后,如果你仅仅是非常感谢您的耐心观看,如有帮助请采纳,祝生活愉快!谢谢!
Python慢的重要原因:
1、python是动态性语言不是静态性语言
在python程序执行的时候,编译器不知道变量的类型。
2、python是解基凯穗释性语言而不是编译性语言
解释型语言与编译型语言它们本身的区别也会造成程序在执行的时候的速度差异。一个智能化的编译器可以搏卜预测并针对重复和不需要的 *** 作进行优化。这也会提升程序执行的速度。
3、 python的对象模型会导致访问内存效孙轮率低下
相对于C语言,在python中对整数进行 *** 作会有一个额外的类型信息层。
当有很多的整数并且希望进行某种批 *** 作时,在python中往往会使用一个list,而在C中会使用某个基于缓存区的数组。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)