python – 生成zip流而不使用临时文件_python

概述我有一个 python方法,它需要从API收集大量数据,将其格式化为CSV,压缩它并将结果流回来. 我一直在谷歌搜索,我可以找到的每个解决方案要么写入临时文件或将整个存档保存在内存中. 内存绝对不是一个选项,因为我会很快得到OOM.写入临时文件有很多与之相关的问题(此框目前仅使用磁盘进行日志,下载开始前的更长时间,文件清理问题等等).更不用说这只是令人讨厌的事实. 我正在寻找一个可以让我做类似…的我有一个 python方法,它需要从API收集大量数据,将其格式化为CSV,压缩它并将结果流回来.

我一直在谷歌搜索,我可以找到的每个解决方案要么写入临时文件或将整个存档保存在内存中.

内存绝对不是一个选项,因为我会很快得到OOM.写入临时文件有很多与之相关的问题(此框目前仅使用磁盘进行日志,下载开始前的更长时间,文件清理问题等等).更不用说这只是令人讨厌的事实.

我正在寻找一个可以让我做类似…的图书馆

C = Compressor(outputstream)C.Beginfile('Data.csv')for D in API.StreamResults():    C.Write(D)C.Closefile()C.Close()

换句话说,当我写入数据时,将写入输出流的东西.

我已经设法在.Net和PHP中做到了这一点 – 但我不知道如何在Python中处理它.

通过“大量”数据来看待事物,我的意思是我需要能够处理高达~10 Gb的(原始纯文本)数据.这是大数据系统的导出/转储过程的一部分.

解决方法正如 gzip module文档所述,您可以将类文件对象传递给Gzipfile构造函数.
由于python是duck-typed,你可以自由地实现自己的流,如下所示：

import sysfrom gzip import Gzipfileclass MyStream(object):    def write(self,data):        #write to your stream...        sys.stdout.write(data) #stdout,for examplegz= Gzipfile( fileobj=MyStream(),mode='w'  )gz.write("something")

总结

以上是内存溢出为你收集整理的python – 生成zip流而不使用临时文件全部内容，希望文章能够帮你解决python – 生成zip流而不使用临时文件所遇到的程序开发问题。

如果觉得内存溢出网站内容还不错，欢迎将内存溢出网站推荐给程序员好友。

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/langs/1206629.html