Hive的几种常见的数据导入方式_教程

零．Hive的几种常见的数据导入方式

常用的的有三种：

1.从本地文件系统中导入数据到Hive表；

2.从HDFS上导入数据到Hive表；

3.在创建表的时候通过从别的表中查询出相应的记录并插入到所创建的表中。

Hive配置：

HDFS中Hive数据文件存放目录（启动hive后腔槐HDFS自动创建）：

HDFS： /usr/hive/warehouse

hadoop fs -mkdir /usr/hive/warehouse 命令创立

本地数据存放目录：

本地：/home/santiago/data/hive

一．从本地文件系统中导入数据到Hive表

1.在hive中建表

hive>show databases

OKdefaultTime taken: 1.706 seconds, Fetched: 1 row(s)

hive>create table guo_test(Name string,String string)

>row format delimited

>fields terminated by ','

>stored as textfile；

hive>伍告友 show tables

guo_test

Time taken: 0.024 seconds, Fetched: 1 row(s)123456789101112

2.在本地文件建立同类型数据表

santi@hdp:~/data/hive$ ls

hive_test.txt

santi@hdp:~/data/hive$ cat hive_test.txt

santi,you are a zhazha.1234

3.导入数据并测试

hive>load data local inpath '/home/santi/data/hive/hive_test.txt' into table guo_test

hive>select * from guo_test

hive>dfs -ls /usr/hive/warehouse/guo_test

#hadoop fs -ls /usr/hive/warehouse

Found 1 items

drwxrwxr-x - santiago supergroup 0 2017-01-14 21:13

/usr/hive/warehouse/guo_test12345678

发现hive-site,xml设置的HDFS文件存储位置中多了guo_test这个文件夹

#hadoop fs -ls /usr/hive/warehouse/guo_test

Found 1 items-rwxrwxr-x 1 santiago supergroup 24 2017-01-14 21:13

/usr/hive/warehouse/guo_test/hive_test.txt

hive>select * from guo_test

santi you are a zhazha.12345678

在该文件夹中找到了所写入hive数据仓库的文件。

[注]本地数据写入成功，但是从本地将数据导入到Hive表的过程中，其实是友行先将数据临时复制到HDFS的一个目录下（典型的情况是复制到上传用户的HDFS home目录下,比如/home/santi/），然后再将数据从临时目录下移动到对应的Hive表的数据目录里面(临时目录不保留数据)。

二．从HDFS文件系统中导入数据到Hive表

1.在HDFS文件系统上建立数据文件

hdfs上没有vim命令，则需要将本地数据文件手动传入到HDFS上

/data/hive# vim data_HDtoHive/data/hive# cat data_HDtoHivedata from, HDFS to Hive #hadoop fs -put /home/santi/data/hive/data_HDtoHive /usr/data/input//数据传入# hadoop fs -ls /usr/data/input12345

2导入数据

hive>load data inpath '/usr/data/input/data_HDtoHive' into table guo_test

hive>select * from guo_test

data fromHDFS to Hive

santi you are a zhazha.

Time taken: 0.172 seconds, Fetched: 2 row(s)123456

数据写入成功

数据存hive配置的数据存储位置中。

[注]

从本地导入数据语句为

hive>load data local inpath ‘/home/santi/data/hive/hive_test.txt’ into table guo_test

从HDFS中导入数据的语句为

hive>load data inpath ‘/usr/data/input/data_HDtoHive’ into table guo_test

差距在local这个命令这里。

而从HDFS系统上导入到Hive表的时候，数据转移。HDFS系统上查找不到相关文件。

三．从HIVE表选取数据插入新的HIVE表

命令为create table 表名 as selecr xxx from 表名。

hive>create table hivedata_test1

>as

>select name

>from guo_test

hive>select * from hivedata_test1

data fromsanti

Time taken: 0.116 seconds, Fetched: 2 row(s)123456789

[注]hive是分区表有稍微区别

在Hive中，表的每一个分区对应表下的相应目录，所有分区的数据都是存储在对应的目录中。比表有a和b两个分区，则对应a=xxx,b=xx对应表的目录为/user/hive/warehouse/a=xxx

user/hive/warehouse/b=xx，所有属于这个分区的数据都存放在这个目录中。

hive>create table hivedata_test2(

>Name string)

>partitioned by

>(String string)

>ROW FORMAT DELIMITED

>FIELDS TERMINATED BY ','>STORED AS TEXTFILE

hive>insert into table hivedata_test2

>partition(String='best')

>select Name

>from guo_test

hive>select * from hivedata_test2

data from best

santi best

Time taken: 1.549 seconds, Fetched: 2 row(s)# hadoop fs -ls /usr/hive/warehouse/hivedata_test2Found 1 items

drwxrwxr-x -santiago supergroup 0 2017-02-14 17:40

/usr/hive/warehouse/hivedata_test2/string=best

Hive中辩闹默认将NULL存为\N，NULL类型的字符串如何检索？

创建一个测试表及准备测试数据，SQL如下老耐：

测试数据如下：

将数据Load到test_null表中显示如下：

如上图所5、6两条数据均显示的为NULL，通过数据我们无法真实的区别那条数据的age真正的为空。

通过指定查询条件可以检索出空值和NULL类型字符串数据

使用is null可以检索出存储为\N的数据（即id为6的这条数据）

使用=’NULL’可以检索出为NULL字符串的数据（即id为5的这条数据）

1 可以通过建表语句中指定Hive保存和标识NULL，也可以通过alter修改已存在的表，建表指携含罩定方式如下：

2 在Hive中是通过serialization.null.format参数来保存和标识NULL，通过将表的该参数修改为NULL表示为空值

1.Hive在对表进行Put和Load数据 *** 作时，Hive是不支持数据类型的校验，在使用insert into table select…方式向表中插入数据时，对于类型异常的数据会在表中插入一个\N空的值（\N为Hive中默认NULL标识）

2.可以使用serialization.null.format来指定Hive中保存和标识NULL，可以设置为默认的\N，也可以为NULL或''

3.如果表中存在大量的NULL值，则在Hive的数据文件中会产生大量的\N数据，浪费存储空间，那我们可以将serialization.null.format设置为''

对spark、hive、impala、hdfs的常用命令作了如下总结，欢迎大家补充！

1. Spark的使用：

以通过SecureCRT访问IP地址：10.10.234.198 为例进行说明：

先输入：ll //查询集群是否装有spark

>su - mr

>/home/mr/spark/bin/beeline -u "jdbc:hive2:/bigdata198:18000/" -n mr -p ""

&gt.show databases//显示其中数据库，例如

>use bigmax//使用数据库bigmax

>show tables//查询目录中所有的表

>desc formatted TableName//显示表的详细信息，包括分区、字段、地址等信息闷歼

>desc TableName//显示表中的字段和分区信息

>select count(*) from TableName//显示表中数据数量，可以用来判断表是否为空

>drop table TableName//删除表的信息

>drop bigmax //删除数据库bigmax

>describe database zxvmax //查询数据库zxvmax信息

创建一个表

第一步：

>create external table if not exists lte_Amaze //创建一个叫lte_Amaze的表

( //括号中每一行为表中的各个字段的名称和其所属的数据类型，并用空格隔开

DateTime String,

MilliSec int,

Network int,

eNodeBID int,

CID int,

IMSI String,

DataType int,

AoA int,

ServerRsrp int,

ServerRsrq int,

TA int,

Cqi0 Tinyint,

Cqi1 Tinyint //注意，最后一个字段结束后，没有逗号

)

partitioned by (p_date string, p_hour INT) //以p_date和p_hour作为分区

row format delimited fields terminated by ',' /*/*表中行结构是以逗号作为分隔符，与上边的表中字段以逗号结尾相一致*/

stored as textfile//以文本格式进行保存

第二步：添加分区，指定分区的位置

>alter table lte_Amaze add partition (p_date='2015-01-27',p_hour=0) location'/lte/nds/mr/lte_nds_cdt_uedetail/p_date=2015-01-27/p_hour=0'

//添加lte_Amaze表中分区信息，进察罩袜行赋值。

//并制定分区对应目录/lte/nds/mr下表lte_nds_cdt_uedetail中对应分区信息

第三步:察看添加的结果

>show partitions lte_Amaze； //显示表的分区信息

2. hdfs使用：

#su - hdfs //切换到hdfs用户下、

#hadoop fs –ls ///查看进程

# cd /hdfs/bin //进入hdfs安装bin目录

>hadoop fs -ls /umtsd/cdt/ //查询/umtsd/cdt/文件目录败激

>hadoop fs -mkdir /umtsd/test //在/umtsd目录下创建test目录

>hadoop fs -put /home/data/u1002.csv /impala/data/u5002 //将home/data/u1002.csv这个文件put到hdfs文件目录上。put到hdfs上的数据文件以逗号“,”分隔符文件（csv）,数据不论类型，直接是数据，没有双引号和单引号

>hadoop fs -rm /umtsd/test/test.txt //删除umtsd/test目录下的test.txt文件

>hadoop fs -cat /umtsd/test/test.txt //查看umtsd/test目录下的test.txt文件内容

3hive *** 作使用：

#su - mr //切换到mr用户下

#hive //进入hive查询 *** 作界面

hive>show tables//查询当前创建的所有表

hive>show databases//查询当前创建的数据库

hive>describe table_name{或者desc table_name}//查看表的字段的定义和分区信息，有明确区分（impala下该命令把分区信息以字段的形式显示出来，不怎么好区分）

hive>show partitions table_name//查看表对应数据现有的分区信息，impala下没有该命令

hive>quit//退出hive *** 作界面

hive>desc formatted table_name查看表结构，分隔符等信息

hive>alter table ceshi change id id int修改表的列数据类型 //将id数据类型修改为int 注意是两个id

hive>SHOW TABLES '.*s'按正条件（正则表达式）显示表，

[mr@aico ~]$ exit退出mr用户 *** 作界面，到[root@aico]界面

impala *** 作使用：

#su - mr //切换到mr用户下

#cd impala/bin //进入impala安装bin目录

#/impala/bin>impala-shell.sh -i 10.10.234.166/localhost //进入impala查询 *** 作界面

[10.10.234.166:21000] >show databases//查询当前创建的数据库

[10.10.234.166:21000] >use database_name//选择使用数据库,默认情况下是使用default数据库

[10.10.234.166:21000] >show tables//查询当前数据库下创建的所有表

[10.10.234.166:21000] >describe table_name//查看表的字段的定义,包括分区信息，没有明确区分

[10.10.234.166:21000] >describe formatted table_name//查看表对应格式化信息，包括分区，所属数据库，创建用户，创建时间等详细信息。

[10.10.234.166:21000] >refresh table_name//刷新一下，保证元数据是最新的

[10.10.234.166:21000] >alter TABLE U107 ADD PARTITION(reportDate="2013-09-27",rncid=487)LOCATION '/umts/cdt/

MREMITABLE/20130927/rncid=487' //添加分区信息，具体的表和数据的对应关系

[10.10.234.166:21000] >alter TABLE U100 drop PARTITION(reportDate="2013-09-25",rncid=487)//删除现有的分区，数据与表的关联

[10.10.234.166:21000] >quit//退出impala *** 作界面

[mr@aicod bin]$ impala-shell得到welcome impala的信息，进入impala 查询 *** 作界面

[aicod:21000] >按两次tab键，查看可以用的命令

alter describe help profile shell values

connect drop history quit show version

create exit insert select unset with

desc explain load set use

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/tougao/12288240.html

Hive的几种常见的数据导入方式

发表评论

评论列表（0条）