pandas中的大型持久性DataFrame

pandas中的大型持久性DataFrame,第1张

pandas中的大型持久性DataFrame
原则上,它不应该用完内存,但是当前
read_csv
由于某些复杂的Python内部问题而导致大文件存在内存问题(这是模糊的,但已经有很长时间了:http
//github.com/pydata / pandas / issues /
407
)。

目前还没有一个完美的解决方案(这是一个单调乏味的解决方案:您可以将文件逐行转录为预先分配的NumPy数组或内存映射文件-

np.mmap
),但这是我将要使用的解决方案。在不久的将来。另一种解决方案是读取文件较小的部分(使用
iterator=True,chunksize=1000
),然后使用进行连接
pd.concat
。当您将整个文本文件拖入内存时,就会出现问题。



欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zaji/5655637.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-12-16
下一篇 2022-12-16

发表评论

登录后才能评论

评论列表(0条)

保存