hive是怎么建表中用到其他表时怎么用

hive是怎么建表中用到其他表时怎么用,第1张

1.创建表的语句:Create [EXTERNAL] TABLE [IF NOT EXISTS] table_name [(col_name data_type [COMMENT col_comment], ...)] [COMMENT table_comment] [PARTITIONED BY (col_name data_type [COMMENT col_comment], ...)] [CLUSTERED BY (col_name, col_name, ...) [SORTED BY (col_name [ASC|DESC], ...)] INTO num_buckets BUCKETS] [ROW FORMAT row_format] [STORED AS file_format] [LOCATION hdfs_path]

稍微解释下

CREATE TABLE 创建一个指定名字的表。如果相同名字的表已经存在,则抛出异常;用户可以用 IF NOT EXIST 选项来忽略这个异常。EXTERNAL 关键字可以让用户创建一个外部表,在建表的同时指定一个指向实际数据的路径(LOCATION),Hive 创建内部表时,会将数据移动到数据仓库指向的路径;若创建外部表,仅记录数据所在的路径,不对数据的位置做任何改变。在删除表的时候,内部表的元数据和数 据会被一起删除,而外部表只删除元数据,不删除数据。如果文件数据是纯文本,可以使用 STORED AS TEXTFILE。如果数据需要压缩,使用 STORED AS SEQUENCE 。有 分区的表可以在创建的时候使用 PARTITIONED BY 语句。一个表可以拥有一个或者多个分区,每一个分区单独存在一个目录下。而且,表和分区都可以对某个列进行 CLUSTERED BY *** 作,将若干个列放入一个桶(bucket)中。也可以利用SORT BY 对数据进行排序。这样可以为特定应用提高性能。

创建普通的表:create table test_table (id int,name string,no int) row format delimited fields terminated by ',' stored as textfile;

//指定了字段的分隔符为逗号,所以load数据的时候,load的文本也要为逗号,否则加载后为NULL。hive只支持单个字符的分隔符,hive默认的分隔符是\001

4

创建带有partition的表:create table test_part (id int,name string,no int) partitioned by (dt string) row format delimited fields terminated by '\t' stored as textfile

用创建用\t作分隔符的表,PT为分区字段,

加载如下:

load data local inpath '/home/zhangxin/hive/test_hive.txt' overwrite into table test_part partition (dt='2012-03-05')

//local是本地文件,注意不是你电脑上的文件,是hadoop所在的本地文件

//如果是在hdfs里的文件,则不需要local。 overwrite into是覆盖表分区,仅仅是这个分区的数据内容,如果是追加,则不需要overwrite

5

创建external表:(外部表)create external table test_external (id int,name string,no int) row format delimited fields terminated by ',' location '/home/zhangxin/hive/test_hive.txt'

//用逗号分隔的表,且无分区, location后是外部表数据的存放路径

6

创建与已知表相同结构的表 Like:只复制表的结构,而不复制表的内容。create table test_like_table like test_bucket

[参考 link ]

[参考 link ]

[参考 link ]

[参考 link ]

这种表也被称作Internal Table.这是Hive中的默认的类型.如果你在创建表的时候没有指明Managed或者External,那么默认就会给你创建Managed Table。

Managed Table的数据,会存放在HDFS中的特定的位置中,通常是/user/hduser/hive/warehouse.当然,也不一定,看你的Hive的配置文件中是如何配置的。

External Table特别适用于想要在Hive之外使用表的数据的情况.当你删除External Table时,只是删除了表的元数据,它的数据并没有被删除。

分隔符设置开始语句

设置字段与字段之间的分隔符

设置一个复杂类型(array,struct)字段的各个item之间的分隔符

设置一个复杂类型(Map)字段的key value之间的分隔符

设置行与行之间的分隔符

TEXTFILE

SEQUENCEFILE

RCFILE

ORCFILE

可以考虑用sed将双引号替换掉,然后加载到hive里

建表可以用以下语句

create table t_name(t1 String,t2 String,t3 String,t4 String,t5 String,t6 String,t7 String,t8 String,t9 String,t10 String)

row format delimited fields terminated by ','

--逗号分隔


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/sjk/6937183.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-03-30
下一篇 2023-03-30

发表评论

登录后才能评论

评论列表(0条)

保存