hadoop解压tar.gz文件之后修改文件名

hadoop解压tar.gz文件之后修改文件名,第1张

1、pwd:显示当前路径

cd :切换目录

用法:cd

cd ../ 切换到上级目录

cd / 切换到根目录

cd ~ (或只有cd )切换到当前用户主目录(home底下以用户名命名的文件夹) /root目录mkdir 创建目录

mkdir 目录名 -p 递归创建目录

2、rmdir 删除空目录

用法:rmdir 目录名

也可用:rm -rf 目录名

3、ls 查看目录或文件信息

主要选项:

-l 列出目录或者文件的详细信息。比如权限、修改时间等等

-a 列出当前目录下所有文件,包括隐藏文件(已点开头的都是隐藏文件)

4、vi 文本编辑器

键入i 进入编辑状态

退出编辑按ESC键

不保存退出: :q!

保存退出: :wq

输入/,进入搜索

输入:set nu,显示每一行的行数

按键盘G,可以直接定位到最末尾

5、cp 复制

用法:cp [选项]文件名或目录 目标地址

-R 拷贝目录及目录下所有目录和文件

cp a.txt b.txt 将a文件复制,且另命名为b文件(目录名)

6、mv 移动

用法:mv 文件名或目录 目标目录

mv a.txt ../ 将a文件移动到上级目录(将一个文件移动到另一个目录没有重命名)

mv a.txt ../b.txt 将a文件移动到上一级并改名为b文件(将一个文件移动到另一个目录并重命名)

Hadoop中的文件格式大致上分为面向行和面向列两类:

面向行:TextFile、SequenceFile、MapFile、Avro Datafile

二进制格式文件大小比文本文件大。

生产环境常用,作为原始表的存储格式,会占用更多磁盘资源,对它的 解析开销一般会比二进制格式高 几十倍以上。

Hadoop API 提供的一种二进制文件,它将数据以<key,value>的形式序列化到文件中。这种二进制文件内部使用Hadoop 的标准的Writable 接口实现序列化和反序列化。它与Hadoop API中的MapFile 是互相兼容的。

MapFile即为排序后的SequeneceFile,它会额外生成一个索引文件提供按键的查找。文件不支持复写 *** 作,不能向已存在的SequenceFile(MapFile)追加存储记录,在执行文件写 *** 作的时候,该文件是不可读取的。

Avro是一种用于支持数据密集型的二进制文件格式。它的文件格式更为紧凑,若要读取大量数据时,Avro能够提供更好的序列化和反序列化性能。并且Avro数据文件天生是带Schema定义的,所以它不需要开发者在API 级别实现自己的Writable对象。最近多个Hadoop 子项目都支持Avro 数据格式,如Pig 、Hive、Flume、Sqoop和Hcatalog。

面向列:Parquet 、RCFile、ORCFile

RCFile是Hive推出的一种专门面向列的数据格式。 它遵循“先按列划分,再垂直划分”的设计理念。当查询过程中,针对它并不关心的列时,它会在IO上跳过这些列。

ORCFile (Optimized Record Columnar File)提供了一种比RCFile更加高效的文件格式。其内部将数据划分为默认大小为250M的Stripe。每个Stripe包括索引、数据和Footer。索引存储每一列的最大最小值,以及列中每一行的位置。

Parquet 是一种支持嵌套结构的列式存储格式。Parquet 的存储模型主要由行组(Row Group)、列块(Column Chuck)、页(Page)组成。

1、行组,Row Group:Parquet 在水平方向上将数据划分为行组,默认行组大小与 HDFS Block 块大小对齐,Parquet 保证一个行组会被一个 Mapper 处理。

2、列块,Column Chunk:行组中每一列保存在一个列块中,一个列块具有相同的数据类型,不同的列块可以使用不同的压缩。

3、页,Page:Parquet 是页存储方式,每一个列块包含多个页,一个页是最小的编码的单位,同一列块的不同页可以使用不同的编码方式。

一般原始表数据使用文本格式存储,其他的都是列式存储。

目前在Hadoop中常用的几种压缩格式:lzo,gzip,snappy,bzip2,主要特性对比如下:

其性能对比如下:

2.1 lzo

hadoop中最流行的压缩格式,压缩/解压速度也比较快,合理的压缩率,支持split。适用于较大文本的处理。

对于lzo压缩,常用的有LzoCodec和lzopCodec,可以对sequenceFile和TextFile进行压缩。对TextFile压缩后,mapred对压缩后的文件默认是不能够进行split *** 作,需要对该lzo压缩文件进行index *** 作,生成lzo.index文件,map *** 作才可以进行split。如果设置LzoCodec,那么就生成.lzo后缀的文件,可以用LzoIndexer 进行支持split的index计算,如果设置LzopCodec,那么生成.lzo_deflate后缀的文件,不支持建立index。


欢迎分享,转载请注明来源:内存溢出

原文地址: https://outofmemory.cn/tougao/11603637.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-17
下一篇 2023-05-17

发表评论

登录后才能评论

评论列表(0条)

保存