Hive如何处理大量小文件_教程

1.动态分区插入数据的时候，会产生大量的小文件，从而导致map数量的暴增

2.数据源本身就包含有大量的小文件

3.reduce个数越多，生成的小文件也越多

1 从HIVE角度来看的话呢，小文件越多，map的个数也会越多，每一个map都会开启一个JVM虚拟机，每个虚拟机都要创建任务，执行任务，这些流程都会造成大量的资源浪费，严重影响性能

2 在HDFS中，每个小文件约占150byte，如果小文件过多则会占用大量的内存。这样namenode内存容量严重制约了集群的发展

4.1 使用Hadoop achieve把小文件进行归档

4.2 重建表，建表时减少reduce的数量

4.3 通过参数调节，设置map/reduce的数量

4.3.1设置map输入合并小文件的相关参数：

4.3.2 设置map输出和reduce输出进行合并的相关参数：

hive优化之小文件合并

文件数目过多，会给HDFS带来压力，并且会影响处理效率，可以通过合并Map和Reduce的结果文件来消除这样的影响：

set hive.merge.mapfiles = true ##在 map only 的任务结束时合并小文件

set hive.merge.mapredfiles = false ## true 时在 MapReduce 的任务结束时合并小文件

set hive.merge.size.per.task = 256*1000*1000 ##合并文件的大小

set mapred.max.split.size=256000000##每个 Map 最大分割大小

set mapred.min.split.size.per.node=1##一个节点上 split 的最少值

set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat##执行 Map 前进行小文件合并

欢迎分享，转载请注明来源：内存溢出

Hive如何处理大量小文件