高通量数据分析过程中涉及的中间文件,在存储量允许的前提下,可以将其暂存备查。通常可以将这些文件归档或压缩后保存,并打上日期标签,长时间未使用的非重要数据可考虑删除以腾出存储空间。在此总结Linux系统常用的归档与压缩指令。
归档 即将多个文件(目录)打包为一个文件,但并不对文件进行压缩。
从归档文件中提取指定文件
从压缩文件中提取指定文件
参考:
1. Linux tar 命令
2. 如何从一个tar包中或者tar.gz包中提取某个文件
1、gzip: 压缩后的文件后缀为.gz。用法:gzip+文件路径 ,压缩完成后会删除原文件。
2、bzip2:压缩后的文件后缀为.bz2.(比gzip有着更大压缩比的压缩工具,受用格式与其相似。)-k:压缩或者解压时可以保留原文件。
3、zip: 既归档又压缩的工具,可以压缩目录,以上三个不能,默认不删除原文件。
4、tar: 归档工具,也是很好的备份工具,后缀名为.tar.gz。
打包打包,也称为归档,指的是一个文件或目录的集合,而这个集合被存储在一个文件中。归档文件没有经过压缩,因此,它占用的空间是其中所有文件和目录的总和。通常,归档总是会和系统备份联系在一起。
压缩
压缩是指利用算法将文件进行处理,已达到保留最大文件信息,而让文件体积变小的目的。其基本原理为,通过查找文件内的重复字节,建立一个相同字节的词典文件,并用一个代码表示。
压缩和归档文件类似,压缩文件也是一个文件和目录的集合,且这个集合也被存储在一个文件中,但它们的不同之处在于,压缩文件采用了不同的存储方式,使其所占用的磁盘空间比集合中所有文件大小的总和要小。
由于计算机处理的信息是以二进制的形式表示的,因此,压缩软件就是把二进制信息中相同的字符串以特殊字符标记,只要通过合理的数学计算,文件的体积就能够被大大压缩。把一个或者多个文件用压缩软件进行压缩,形成一个文件压缩包,既可以节省存储空间,又方便在网络上传送。
对文件进行压缩,很可能损坏文件中的内容,因此,压缩又可以分为有损压缩和无损压缩。
打包和压缩的区别
打包指的是将多个文件和目录集中存储在一个文件中,而压缩则指的是利用算法对文件进行处理,从而达到缩减占用磁盘空间的目的。
Linux下,常用打包命令有2个,分别是tar和dd常用的压缩命令有很多,比如gzip、zip、bzip2等。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)