如何在Linux中拆分巨大的CSV文件？

游戏公会 • 2022-5-24 • 系统运维 • 阅读 17

概述我有60TB的数据驻留在12个csv文件中. 数据将加载到集群数据库中,其中加载过程是单线程的.为了提高我的负载性能,我需要从每个节点启动一个加载过程. 从这个角度来看,到目前为止一直很好.我最大的问题是如何分割这些数据？它是压缩的,每个csv文件有大约5TB的数据！我试过分裂,但需要太长时间！最简单但不是最快,最可能的方式是 unzip -p <zipfile> | split -C <siz 我有60TB的数据驻留在12个csv文件中.

数据将加载到集群数据库中,其中加载过程是单线程的.为了提高我的负载性能,我需要从每个节点启动一个加载过程.

从这个角度来看,到目前为止一直很好.我最大的问题是如何分割这些数据？它是压缩的,每个csv文件有大约5TB的数据！我试过分裂,但需要太长时间！

解决方法最简单但不是最快,最可能的方式是

unzip -p <zipfile> | split -C <size>

总结

以上是内存溢出为你收集整理的如何在Linux中拆分巨大的CSV文件？全部内容，希望文章能够帮你解决如何在Linux中拆分巨大的CSV文件？所遇到的程序开发问题。

如果觉得内存溢出网站内容还不错，欢迎将内存溢出网站推荐给程序员好友。

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/yw/1038991.html

拆分文件

打赏

微信扫一扫

支付宝扫一扫

游戏公会一级用户组

linux – Harddrive问题“只读”

上一篇 2022-05-24

linux – 基于进程将IP流量路由到不同的默认路由接口

下一篇 2022-05-24

发表评论

登录后才能评论

评论列表（0条）