Hive 创建外部分区表

Hive 创建外部分区表,第1张

1、hive 创肢烂建外部表

create external table t_ods_test (

uid string COMMENT '用户id',

terminal string COMMENT '终端类型',

adslotid string COMMENT '广蔽或告位id',

cid string COMMENT 'cid',

amount string COMMENT '库存量',

local string COMMENT '地域',

tags string COMMENT '标签' )

partitioned by (year string,month string,day string) row format delimited fields  terminated by '\t'

STORED AS TEXTFILE location '/user/qgw/hh/app/usertagview'

2、hive 外部表,增加分区

alter table t_ods_test add partition (year='2017', month='10', day='宏饥伍18') location '2017/10/18'

摘要: Hive , Shell

Hive复制表包括两种

对于非分区表如果要完全复制一张表到另一张表,直接使用CREATE TABLE ... AS语句即可,比如以下复制一个表的两个字段以及字段的值到另一个表

对于分区表如果使用CREATE TABLE ... AS语句则分区失效,但是可以执行不报错,且字段和数据都能完全复制

以上有一张分区表,以dt字段作为桐瞎分区,使用CREATE TABLE ... AS进行全表复制

检查表结构和表数据量都没有问题

检查分区,报错此表不是分区表,is not a partitioned table,但是在表结构中确实存在本来的分区字段dt,此时dt字段的分区功能失效,但是数据保留住了

分区表的全称复制且带有分区的 *** 作方法需要使用 LIKE 语句复制到分区信息,具体步骤如下

第一步复制得到一张空表,具有原表的表源态结构和分区信息

下一步使用hdfs命令 *** 作将原表在hdfs的存储路径复制到新表的路径, 一张表的存储路径是一个目录,该目录下还存在子目录,每一个子目录代表一个分区,在分区目录下就是数据文件,数据文件是part开头格式,由Hive的分桶策略将同一分区下的数据进行划分

复制语句采用 * 通配符将原表目录下所有文件复制到新表路径下,查看新表的hdfs路径下数据文件

此时新表虽然对应数仓目录下有数据文件,但是在Hive客户端还是查不到数据为空表, 因为一个个数据分区不存在在新表的元数据中,数据是以分区目录为单位聚合的,新表目前查不到一雹轮源个分区则自然查不到数据

下一步修复表的分区元数据,使用 MSCK REPAIR TABLE 命令

由输出的执行过程可见MSCK REPAIR TABLE命令先检查了表的分区信息是否存在在元数据,然后对不存在的分区信息进行修复,修复后该表即可正常使用

MSCK REPAIR TABLE 的作用是 只需要只用这一个命令就可以 快速 , 自动化 地添加(修复)全部分区 ,在Hive中如果先建分区表,并且以数据拷贝到对应HDFS目录这种方式作为初始化,需要手动添加分区才能使用,如果分区过多,使用 ALTER TABLE ADD PARTITION 极为不变,下面做一下测试看ALTER TABLE ADD PARTITION是否也能完成分区表的完全复制

下一步采用手动添加1个分区dt='20201209'

验证了手动分区能够完成, MSCK REPAIR TABLE只是自动化的扫描一遍数仓目录下的分区信息(dt='20201209' 到 dt='20210317') ,如果编写一个Shell脚本也能实现如下

运行这个Shell脚本后能达到同样的效果,但是这个脚本执行了15分钟,需要频繁启动和关闭Hive进程

直接用hive load data 把天的数据导入月分区,导入时指定分区,不用提前创建。

Syntax

LOAD DATA [LOCAL] INPATH '颤虚饥filepath' [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=val1, partcol2=val2 ...)]

具体可以参考官方文誉闹档,了解HIVS SQL DML *** 作:

https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DML#LanguageManualDML-InsertingdataintoHiveTablesfromqueries

即需求场景应该是:按照天为目录生成了多个数据文件,但想要在HIVE中通过月来茄返建立分区以便进行统计分析;


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/bake/11989950.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-20
下一篇 2023-05-20

发表评论

登录后才能评论

评论列表(0条)

保存