如何每日增量加载数据到Hive分区表_IT百科

方法一：利用编辑器直接插入控制字符，以Vi为例。进入Vi：Shell代码收藏代码$visupply-20110101.txt在Vi命令模式下，键入:setlist，设置控制字符可见，成功后Vi会立即显示一个行结束标志$。填入Hive表中需要的每列数据，比如我这里需要创建一个分区表：Hiveshell代码收藏代码hive(ch09)>createtablesupply(idint,partstring,quantityint)partitionedby(dayint)hive(ch09)>altertablesupplyaddpartition(day=20110101)hive(ch09)>altertablesupplyaddpartition(day=20110102)hive(ch09)>altertablesupplyaddpartition(day=20110103)可以看到一共需要三列数据，分别是id,part,quantity。在Vi中进入编辑模式，并填入：Vi代码收藏代码10part10100$我在这里是想输入10作为ID,part10作为part,100作为quantity,最后的$是行结束标志。然后移动光标到需要插入分隔符的地方，首先键入Ctrl+V,再键入字段分隔符Ctrl+A:Vi代码收藏代码10^Apart10100$依次插入其他分隔符，并完成编辑：Vi代码收藏代码10^Apart10^A100$11^Apart11^A90$12^Apart12^A110$13^Apart13^A80$这时候可以导入数据到HiveTable了：Hiveshell代码收藏代码hive(ch09)>loaddatalocalinpath'${env:HOME}/data/supply-20110103.txt'overwriteintotablesupply>partition(day='20110103')Copyingdatafromfile:/root/data/supply-20110103.txtCopyingfile:file:/root/data/supply-20110103.txtLoadingdatatotablech09.supplypartition(day=20110103)rmr:DEPRECATED:Pleaseuse'rm-r'instead.Moved:'hdfs://n8.example.com:8020/user/hive/warehouse/ch09.db/supply/day=20110103'totrashat:hdfs://n8.example.com:8020/user/root/.Trash/CurrentPartitionch09.supply{day=20110103}stats:[num_files:1,num_rows:0,total_size:54,raw_data_size:0]Tablech09.supplystats:[num_partitions:3,num_files:3,num_rows:0,total_size:147,raw_data_size:0]OKTimetaken:0.522seconds查看一下刚才load的数据，确保正确：Hiveshell代码收藏代码hive(ch09)>select*fromsupplywhereday='20110103'OKidpartquantityday10part101002011010311part11902011010312part121102011010313part138020110103Timetaken:0.229seconds可以看到数据完全正确，这里还可以看到，Hive自动把select*这样的 *** 作转换成文件系统 *** 作，没有生成任何MapReduceJob。方法二：自定义HiveTable的分隔符。Hiveshell代码收藏代码CREATETABLEsupply(idINT,partSTRING,quantityINT)PARTITIONEDBY(dayINT)ROWFORMATDELIMITEDFIELDSTERMINATEDBY'.'COLLECTIONITEMSTERMINATEDBY','MAPKEYSTERMINATEDBY'='STOREDASSEQUENCEFILE这样就可以避开控制字符。出自：/blog/1922887

hive 分区表：

分区字段的物理表现：

hive分区表，其真实的表现其实就是在存储hive表的文件夹的下面，创建新的文件夹，

文件夹的名字是分区字段=字段取值这种格式的。

分区的优点：

当分区表的数据很大的时候，可以指定查询表格之中的部分数据。

设置表格分区字段需要的注意点：

1：分区字段的取值不要很多，因为这样会造成表的文件夹的下面会出现很多的小的文件夹

2: 一般可以将sql之中 where 之中出现的字段作为分区的字段。（可以当作分区字段选取的一个参考）

查看表格是否是分区表：

desc formatted table_name

分区表的话，会有Partition Information

向分区表插入数据：

情况分为：

1：向表格之中插入数据，明确指定插入的分区的名字

2：向表格之中插入数据，不明确指定插入的数据的名字，而是根据插入的数据的某个字段的取值来自动决定数据

被插入到哪一个分区之中。被称为动态分区。

如何开启hive 动态分区的功能？

set hive.exec.dynamici.partition=true

hive 动态分区：有两种模式：

严格模式和非严格模式

严格模式：

动态分区的时候，必须有一个分区是静态的。

非严格模式，对分区是否是静态的不在意。

如何设置动态分区的模式？

set hive.exec.dynamic.partition.mode=nostrict

默认的模式是strict 严格模式。

插入数据时明确指定需要插入的分区的值：

sql demo ：

1:load data [local] inpath 'path' into table xxx partition(partition_fields partiton_type)

2:insert into table table_a partition(partition_fields partition_type)

select * from table_b [....]

使用insert 的时候，需要注意前后表的表的字段数目是匹配的，

如果表的前后字段是不匹配的话，那么就是会报错。

向分区表之中插入数据的时候，根据数据的某个字段的值，来创建分区，

以及决定数据被插入到哪一个分区之中。

sql demo:

对一个分区进行动态分区：

首先要设置两个参数：

set hive.exec.dynamici.partition=true

set hive.exec.dynamic.partition.mode=nostrict

然后就是可以使用动态分区了。

分区值的推断，是根据后面查询的最后字段来决定的，只有一个分区，

那么就是查询的最后一个字段，如果是两个，那么就是从后往前的字段进行匹配。

insert into table pp partition(`date`) select name,age,`date` from par

这里的sql demo

是将par 的`date` 字段作为pp表之中 `date`分区的取值。

部分动态分区：

就是多个分区，但是前面的分区的取值是取静态的，然后后面的分区的取值是未定的。

类似于 partition(country='china',city)

这里需要注意的是顺序，静态分区在前面，动态分区在后面。

然后就是多个分区，完全的动态分区：

完全动态分区的时候，就是使用后面select 查询的表进行分区数据的匹配。

、

动态分区在实际使用的时候会遇到的问题：

动态分区的一个使用场景：

首先加载数据到一个表格a之中，然后将这个表格之中再次转化到另外一个

表格b之中,表a转化到表b的时候，使用动态分区。

因为直接使用load 加载数据的时候，对于分区表而言，加载数据只能指定固定的分区名，

无法使用动态分区来加载数据。

相应的问题就是：

如果a表本身含有很多的文件，那么使用动态分区的时候，

那么在b表的时候，就是会产生很多的小文件。

原因如下：

如果 a表之中数据文件是200个，

那么动态分区的时候，可能会产生200个map,

然后一个map包含的数据之中，可能有多个分区的取值，

所以一个map 会产生多个文件。

所以后果就是，在新的b表之中的每个分区下面，会产生很多的小文件。

总结来说：不好的影响就是可能会产生很多的小文件。

解决的方式：

因为动态分区转化成为的mapredue job 是没有reduce,所以数目不好控制，

所以可以采用的方式，就是手动增加reduce的数目，

可以使用distributed by 来增加 reduce的数目。

insert into table table_a partition('partition_name')

select * from table_b

dirtribute by partitoin_name

但是这样的方式，就是可能导致 reduce之间包含的数据量的不均匀。

所以解决的方法就是：

distribute by rand()

使用hash 随机分区，这样的方式，来讲数据均匀分配到reduce之中。

然后每个reduce 会产生分区取值数目的文件，

例子： reduce数目为 200 分区的取值数位24

那么最后产生的文件的数目就是 200* 24个文件。

其实可以通过exlpain 来解析sql的执行计划，这样的话，

可以看出是否具有reduce *** 作。

查询表的分区信息：

show partitions table_name

向分区表之中增加分区：

alter table table_name add partition(pfield=pvalue,...)

如果表格之中有多个分区的话，那么增加分区的时候，也是多个分区

一同增加的。

删除分区：

alter table table_name drop partition(pfield=pval)

分区信息修改：

分区信息的修改分为分区名的修改和分区数据的修改两种

分区名的修改

alter table table_name partition(pfield=pvalue) rename to partition(pfield=pvalue)

分区数据的修改：

alter table table_name partition(pfield=pvalue) set location 'data_location'

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/bake/11750044.html

如何每日增量加载数据到Hive分区表

发表评论

评论列表（0条）