稍微解释下
CREATE TABLE 创建一个指定名字的表。如果相同名字的表已经存在,则抛出异常;用户可以用 IF NOT EXIST 选项来忽略这个异常。EXTERNAL 关键字可以让用户创建一个外部表,在建表的同时指定一个指向实际数据的路径(LOCATION),Hive 创建内部表时,会将数据移动到数据仓库指向的路径;若创建外部表,仅记录数据所在的路径,不对数据的位置做任何改变。在删除表的时候,内部表的元数据和数 据会被一起删除,而外部表只删除元数据,不删除数据。如果文件数据是纯文本,可以使用 STORED AS TEXTFILE。如果数据需要压缩,使用 STORED AS SEQUENCE 。有 分区的表可以在创建的时候使用 PARTITIONED BY 语句。一个表可以拥有一个或者多个分区,每一个分区单独存在一个目录下。而且,表和分区都可以对某个列进行 CLUSTERED BY *** 作,将若干个列放入一个桶(bucket)中。也可以利用SORT BY 对数据进行排序。这样可以为特定应用提高性能。
创建普通的表:create table test_table (id int,name string,no int) row format delimited fields terminated by ',' stored as textfile;
//指定了字段的分隔符为逗号,所以load数据的时候,load的文本也要为逗号,否则加载后为NULL。hive只支持单个字符的分隔符,hive默认的分隔符是\001
4
创建带有partition的表:create table test_part (id int,name string,no int) partitioned by (dt string) row format delimited fields terminated by '\t' stored as textfile
用创建用\t作分隔符的表,PT为分区字段,
加载如下:
load data local inpath '/home/zhangxin/hive/test_hive.txt' overwrite into table test_part partition (dt='2012-03-05')
//local是本地文件,注意不是你电脑上的文件,是hadoop所在的本地文件
//如果是在hdfs里的文件,则不需要local。 overwrite into是覆盖表分区,仅仅是这个分区的数据内容,如果是追加,则不需要overwrite
5
创建external表:(外部表)create external table test_external (id int,name string,no int) row format delimited fields terminated by ',' location '/home/zhangxin/hive/test_hive.txt'
//用逗号分隔的表,且无分区, location后是外部表数据的存放路径
6
创建与已知表相同结构的表 Like:只复制表的结构,而不复制表的内容。create table test_like_table like test_bucket
[参考 link ][参考 link ]
[参考 link ]
[参考 link ]
这种表也被称作Internal Table.这是Hive中的默认的类型.如果你在创建表的时候没有指明Managed或者External,那么默认就会给你创建Managed Table。
Managed Table的数据,会存放在HDFS中的特定的位置中,通常是/user/hduser/hive/warehouse.当然,也不一定,看你的Hive的配置文件中是如何配置的。
External Table特别适用于想要在Hive之外使用表的数据的情况.当你删除External Table时,只是删除了表的元数据,它的数据并没有被删除。
分隔符设置开始语句
设置字段与字段之间的分隔符
设置一个复杂类型(array,struct)字段的各个item之间的分隔符
设置一个复杂类型(Map)字段的key value之间的分隔符
设置行与行之间的分隔符
TEXTFILE
SEQUENCEFILE
RCFILE
ORCFILE
可以考虑用sed将双引号替换掉,然后加载到hive里建表可以用以下语句
create table t_name(t1 String,t2 String,t3 String,t4 String,t5 String,t6 String,t7 String,t8 String,t9 String,t10 String)
row format delimited fields terminated by ','
--逗号分隔
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)