使用pandas高效读取大型CSV文件而不会崩溃

使用pandas高效读取大型CSV文件而不会崩溃,第1张

使用pandas高效读取大型CSV文件而不会崩溃

chunksize
read_csv
读取数据帧时,您应该考虑使用in参数,因为它返回一个
TextFileReader
对象,然后您可以传递该对象
pd.concat
以连接您的块。

chunksize = 100000tfr = pd.read_csv('./movielens/ratings.csv', chunksize=chunksize, iterator=True)df = pd.concat(tfr, ignore_index=True)

如果您只想单独处理每个块,请使用,

chunksize = 20000for chunk in pd.read_csv('./movielens/ratings.csv',    chunksize=chunksize,    iterator=True):    do_something_with_chunk(chunk)


欢迎分享,转载请注明来源:内存溢出

原文地址: https://outofmemory.cn/zaji/5667220.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-12-16
下一篇 2022-12-16

发表评论

登录后才能评论

评论列表(0条)

保存