使用Python和NumPy的超大型矩阵

限号查询 • 2022-11-15 • 随笔 • 阅读 21

PyTables和NumPy是必经之路。

PyTables将以HDF格式（可选压缩）将数据存储在磁盘上。我的数据集经常得到10倍压缩，这在处理数千万或几亿行时非常方便。它也非常快。我5岁的笔记本电脑可以像SQL一样执行GROUP BY聚合，处理数据的速度为1,000,000行/秒。对于基于Python的解决方案来说还不错！

再次作为NumPy重新数组访问数据非常简单：

data = table[row_from:row_to]

HDF库负责读取相关的数据块并将其转换为NumPy。

欢迎分享，转载请注明来源：内存溢出

数据压缩行时必经之路笔记本电脑

打赏

微信扫一扫

支付宝扫一扫

上一篇 2022-11-15

下一篇 2022-11-15

登录后才能评论