hadoop解压tar.gz文件之后修改文件名_教程

1、pwd：显示当前路径

cd ：切换目录

用法：cd

cd ../ 切换到上级目录

cd / 切换到根目录

cd ~ （或只有cd ）切换到当前用户主目录(home底下以用户名命名的文件夹) /root目录mkdir 创建目录

2、rmdir 删除空目录

用法：rmdir 目录名

也可用：rm -rf 目录名

3、ls 查看目录或文件信息

主要选项：

-l 列出目录或者文件的详细信息。比如权限、修改时间等等

-a 列出当前目录下所有文件，包括隐藏文件（已点开头的都是隐藏文件）

4、vi 文本编辑器

键入i 进入编辑状态

退出编辑按ESC键

不保存退出： :q!

保存退出： :wq

输入/，进入搜索

输入:set nu，显示每一行的行数

按键盘G，可以直接定位到最末尾

5、cp 复制

用法：cp ［选项］文件名或目录目标地址

cp a.txt b.txt 将a文件复制，且另命名为b文件（目录名）

6、mv 移动

mv a.txt ../ 将a文件移动到上级目录（将一个文件移动到另一个目录没有重命名）

mv a.txt ../b.txt 将a文件移动到上一级并改名为b文件（将一个文件移动到另一个目录并重命名）

Hadoop中的文件格式大致上分为面向行和面向列两类：

面向行：TextFile、SequenceFile、MapFile、Avro Datafile

二进制格式文件大小比文本文件大。

生产环境常用，作为原始表的存储格式，会占用更多磁盘资源，对它的解析开销一般会比二进制格式高几十倍以上。

Hadoop API 提供的一种二进制文件，它将数据以<key,value>的形式序列化到文件中。这种二进制文件内部使用Hadoop 的标准的Writable 接口实现序列化和反序列化。它与Hadoop API中的MapFile 是互相兼容的。

MapFile即为排序后的SequeneceFile，它会额外生成一个索引文件提供按键的查找。文件不支持复写 *** 作，不能向已存在的SequenceFile(MapFile)追加存储记录，在执行文件写 *** 作的时候，该文件是不可读取的。

Avro是一种用于支持数据密集型的二进制文件格式。它的文件格式更为紧凑，若要读取大量数据时，Avro能够提供更好的序列化和反序列化性能。并且Avro数据文件天生是带Schema定义的，所以它不需要开发者在API 级别实现自己的Writable对象。最近多个Hadoop 子项目都支持Avro 数据格式，如Pig 、Hive、Flume、Sqoop和Hcatalog。

面向列：Parquet 、RCFile、ORCFile

RCFile是Hive推出的一种专门面向列的数据格式。它遵循“先按列划分，再垂直划分”的设计理念。当查询过程中，针对它并不关心的列时，它会在IO上跳过这些列。

ORCFile （Optimized Record Columnar File)提供了一种比RCFile更加高效的文件格式。其内部将数据划分为默认大小为250M的Stripe。每个Stripe包括索引、数据和Footer。索引存储每一列的最大最小值，以及列中每一行的位置。

Parquet 是一种支持嵌套结构的列式存储格式。Parquet 的存储模型主要由行组（Row Group）、列块（Column Chuck）、页（Page）组成。

1、行组，Row Group：Parquet 在水平方向上将数据划分为行组，默认行组大小与 HDFS Block 块大小对齐，Parquet 保证一个行组会被一个 Mapper 处理。

2、列块，Column Chunk：行组中每一列保存在一个列块中，一个列块具有相同的数据类型，不同的列块可以使用不同的压缩。

3、页，Page：Parquet 是页存储方式，每一个列块包含多个页，一个页是最小的编码的单位，同一列块的不同页可以使用不同的编码方式。

一般原始表数据使用文本格式存储，其他的都是列式存储。

目前在Hadoop中常用的几种压缩格式：lzo，gzip，snappy，bzip2,主要特性对比如下：

其性能对比如下：

2.1 lzo

hadoop中最流行的压缩格式，压缩/解压速度也比较快，合理的压缩率，支持split。适用于较大文本的处理。

对于lzo压缩，常用的有LzoCodec和lzopCodec，可以对sequenceFile和TextFile进行压缩。对TextFile压缩后，mapred对压缩后的文件默认是不能够进行split *** 作，需要对该lzo压缩文件进行index *** 作，生成lzo.index文件，map *** 作才可以进行split。如果设置LzoCodec，那么就生成.lzo后缀的文件，可以用LzoIndexer 进行支持split的index计算，如果设置LzopCodec，那么生成.lzo_deflate后缀的文件，不支持建立index。

欢迎分享，转载请注明来源：内存溢出

原文地址: https://outofmemory.cn/tougao/11603637.html

hadoop解压tar.gz文件之后修改文件名

发表评论

评论列表（0条）