HIVE是类SQL的语言,它们的查询语言是相似的;但处理的数据规模、数据量不同。
是hadoop的一个客户端,其本质是将HQL转换为MapReduce程序。
hive官方网站
2、查询语句 2.1 基本数据类型INT、BIGINT、DOUBLE、STRING
2.2 集合数据类型HIVE有三种复杂数据类型ARRAY、MAP和STRUCT。
相关知识点:
-
DML和DDL、DQL、DCL
-
DDL(data define language),数据定义语言。包括创建数据库中的对象——表、视图、索引等;
- 创建:CREATE DATAbase/SCHEMA, TABLE, VIEW, FUNCTION, INDEX;
- 删除:DROp DATAbase/SCHEMA, TABLE, VIEW, INDEX;
- 替代:ALTER DATAbase/SCHEMA, TABLE, VIEW
- 清空:TRUNCATE TABLE;
- 修复:MSCK REPAIR TABLE (or ALTER TABLE RECOVER PARTITIONS);
- 展示:SHOW DATAbaseS/SCHEMAS, TABLES, TBLPROPERTIES, VIEWS, PARTITIONS, FUNCTIONS, INDEX[ES], COLUMNS, CREATE TABLE;
- 描述:DESCRIBE DATAbase/SCHEMA, table_name, view_name, materialized_view_name。
-
DML(data managed language),数据处理语言。包括插入、更新、删除;
- 导入:Load file to table;
- 导出:Writing data into thie filesystem from queries;
- 插入:Inserting data into table from queries/ SQL;
- 更新:Update;
- 删除:Delete;
- 合并:Merge。
-
DQL(),数据查询语言。基本结构由 SELECT、FROM、WEHERE 子句构成查询块;
-
DCL(),数据控制语言。授予或者收回数据库的权限,控制或者 *** 纵事务发生的时间及效果、对数据库进行监视等。
-
-
管理表和外部表
管理表(内部表)和外部表,区别是在删除时,管理表是都删除掉,而外部表只是删除元数据,而在HDFS上的数据还是保存的。对于内外部共享使用的数据,要建立外部表,这样在hive不需要使用时可以删除,并且不会影响其他的使用。对于中间表和临时表是建立管理表(内部表)。而且外部表可以防止数据丢失,即使误删了还是可以再建表找回数据的。
管理表和外部表的转换,
-- 注意:语句区分大小写 alter table student2 set tblproperties('EXTERNAL'='TRUE'); -- FALSE是外部表改为管理表 -- 查询表的类型 desc formatted student2;
- 指定分隔符
create table test(id int,name string); row format delimited fields terminated by ','; --指定行之间的分隔符
-
修改表
- 重命名表
alter table table_name rename to new_table_name;
注意:如果new_table_name是已经存在的,则会报错。
-
增加、修改和删除表分区
参照后面。
-
增加、修改和替换列信息
可以更改列名和列的类型。
alter table table_name change [column] col_old_name col_new_name column_type; alter table table_name add|replace columns (col_name data_type,...)
select ... from ...
-
算术运算符
包括加减乘除、取余%、与&、或|、异或^、取反~。
-
常用函数
count、max、min、sum、avg
-
where
where语句后不能使用别名,涉及到语句进行的顺序。
-
比较运算符
A<=>B -- 如果A、B都为null,则返回TRUE;如果仅有一边为null,则返回FALSE A<>B,A!=B -- A或者B为null,则返回NULL;如果A不等于B,则返回TRUR,否则返回FALSE between -- 左闭右闭
-
like和rlike
%代表零个或多个字符(任意字符)
_代表一个字符
rlike是正则表达式
groupby ... having ...
-
where和having的区别:
- where针对表中的列发挥作用,查询数据;having针对查询结果中的列发挥作用,筛选数据。
- where后面不能写分组函数,而having后面可以使用分组函数,即sum、avg等。
- having只用于group by分组统计语句。
-
inner join(join),内连接
-
left join,左外连接
-
左连接,left join + where,或者left join + not in和子查询,第二种不推荐耗时较久。
-
right join,右外连接
-
右连接,
-
full outer join(full join),满外连接,此时结合nvl(a,b)函数,当a为null时,输出b,反之相同。
-
多表连接
笛卡尔积
2.3.4 排序以下四个函数在hive中都有排序和聚集的作用,然而,它们在执行时所启动的MR却各不相同。
- 全局排序(order by)
ASC,默认升序;DESC,降序
hive中的order by 语句和其他的sql方言中定义是一样的,其会对查询结果集执行一个全局排序,这也就是说会有一个所有的数据都通过一个reduce进行处理的过程,对于大数据集,这个过程将消耗很大的时间来执行。
- 局部排序(sort by)
hive增加了一个可供选择的方式,也就是sort by ,其实会在每个reduce中对数据(数据是随机分配的,为了防止数据倾斜)进行排序,也就是执行一个局部排序过程。这可以保证每个reduce的输出数据都是有序的(但并非全局有效)。这样就可以提高后面进行的全局排序的效率了。
-- 在sort by之前我们还有配置属性: set mapreduce.job.reduces=2;//配置两个ruduce,默认一个,不然sort by是没有用处的。 select * from zxz_5 sort by nid,year(ntime) desc ;
- 分区(distribute by)
distribute by的功能是:distribute by 控制map结果的分发,它会将具有相同字段的map输出分发到一个reduce节点上做处理。即就是,某种情况下,我们需要控制某个特定行到某个reducer中,这种 *** 作一般是为后续可能发生的聚集 *** 作做准备。
select * from table_name z distribute by year(z.ntime) sort by year(z.ntime) asc,z.temperature desc;
特别的,因为distribute by 通常和sort by 一起用,所以当distribute by 遇上 sort by时,distribute by要放在前面,这个不难理解,因为要先通过distribute by 将待处理的数据从map端做分发,这样,sort by 这个擅长局部排序的才能去放开的干活。不然要是没有distribute by的分发,那么sort by 将要处理全部的数据,即全局排序,这不是sort by的活,这样做只能拖慢集群工作效率。
- cluster by
如果sort by和distribute by中所用的列相同,当是多个列时,也需要排序的顺序也是相同的,可以缩写为cluster by以便同时指定两者所用的列。
from recrds select year,temperature cluster by year;2.3.5 分区表和分桶表 (1)分区表
分区表就是对应一个HDFS文件系统上的独立的文件夹,该文件夹是该分区所有的数据文件。HIVE中的分区就是分目录,把一个大的数据集根据也去需要分割成小的数据集。在查询时通过where字句中的表达式选择查询所需要的指定的分区(必须有分区字段,才能避免全局扫描),这样的查询效率会提高很多。
- 分区
-- partitioned by语句 //创建分区表 create table dept_partition(deptno int,dname string,loc string) partitioned by (day string) row format delimited fields terminated by 't'; //加载数据到分区表 load data local inpath '/opt/module/hive/datas/dept_20200401.log' into table dept_partition partition(day='20200401'); //查询分区表的数据 select * from dept_partition where day='20200401'; select * from dept_partition where day='20200401' union select * from dept_partition where day='20200402' union select * from dept_partition where day='20200403'; //增加分区 -- 创建单个分区 alter table dept_partition add partition(day='20200404'); -- 同时添加多个分区 alter table dept_partition add partition(day='20200405') partition(day='20200406'); //删除分区 --删除单个分区 alter table dept_partition drop partition(day='20200401'); --删除多个分区 alter table dept_partition drop partition(day='20200401'),partition(day='20200402'); //查看分区表有多少分区 show partitions dept_partition; //查看分区表结构 desc formatted dept_partition;
- 二级分区
即在建分区表时,partitioned by后包括两个字段。
//创建二级分区表 create table dept_partition2(deptno int,dname string,loc string) partitoned by(day string,hour string) row format delimited fields ternimated by 't'; //正常加载数据 load data local inpath '/opt/module/hive/datas/dept_20200401.log' into table dept_partition2 partition(day='20200401',hour='11'); //查询分区数据 select * from dept_partition2 where day='20200401' and hour='11';
以上两种都属于静态分区,需要指定要写入的分区名称。
- 动态分区(dynamic partition)
静态分区需要手动指定分区名称,当分区非常多时,无法一一指定。此时可以使用动态分区表。 建表语句不变,导入数据的方式改变了。
//设置动态分区所需属性 set hive.exec.dynamic.partition=true; --开启动态分区,必须参数 set hive.exec.dynamic.partition.mode=nonstrict(默认static); --允许所有分区都是动态的,否则必须有静态分区字段,必须参数 set hive.exec.max.dynamic.partitions.pernode=100; --(默认100,表示每个mapper或reducer可以创建的最大动态分区数。需要根据实际数据来设定) set hive.exec.max.dynamic.partitions=1000;--(默认值,表示所有执行MR的节点上可创建的最大动态分区数) //创建分区表 create table table_name(id int,name string) partition by (city string); //装载数据并动态以city建立分区 -- 因为table_name只有两个字段,所以查询三个字段时,系统默认将最后一个字段city作为分区名,分区字段也默认 也是表中的字段,且依次排在表字段最后面,不是按照字段名称推断分区字段。 insert overwrite table table_name partition(city) select id,name,city from src_table; //多个分区字段(部分静态分区、部分动态分区) create table target_table(id int) partitioned by (state string,city string); -- partition(state="china",city),表示state为静态分区,city为动态分区,以src_table中的city字段为 分区名 insert overwrite table target_table partition(state="china",city) select id,city from src_table; -- state和city均使用动态分区 insert overwrite table target_table partition(state,city) select id,state,city from src_table;
注:分区字段要排在最后。
(2)分桶表(clustered by)分区提供了一个隔离数据和优化查询的便利方式,不过并非所有的数据都可形成合理的分区,尤其是需要确定合适大小的分区划分方式,(不合理的数据分区划分方式可能导致有的分区数据过多,而某些分区没有什么数据的尴尬情况)。
数据分桶是将数据集分解为更容易管理的若干部分的另一种技术。分区针对的是数据的存储路径;分桶针对的是数据文件。
优点:方便抽样;提高join效率。
//创建分桶表 create stu_buck(id int,name string) clustered by(id) into 4 buckets row format delimited fields terminated by 't'; //查看表结构 desc formatted stu_buck; //load导入数据 load data inpath '/student.txt' into table stu_buck; //insert导入数据 insert into table stu_buck select * from student_insert;
分桶规则:hive的分桶采用对分桶字段的值进行哈希,然后除以桶的个数求余的方式决定该条记录存放在哪个桶当中。ruduce的个数推荐设置为-1,让Job自行决定需要用多少个reduce或者将reduce的个数设置为大于或等于分桶表的桶数。
(3)抽样查询对于非常大的数据集,有时用户需要使用的是一个具有代表性的查询结果而不是全部结果。hive可以通过对表进行抽样来满足这个需求。
语法:tablesample(bucket x out of y),注意x的值必须小于y的值,否则会报错。y推荐是table总bucket数的倍数或者因子。hive根据y的大小,决定抽样的比例;x表示从哪个bucket开始抽取。
select * from stu_buck tablesample(bucket 1 out of 4 on id);
上面的语句表示从stu_buck表中抽取桶数/4个bucket的数据,当桶数等于4时,即抽取1个bucket的数据。而x=1则表示从第一个桶开始抽取。
2.4 函数 2.4.1 系统内置函数- 查看系统自带的函数
show functions;
- 显示自带的函数的用法
desc function upper;
- 详细显示自带的函数的用法
desc function extended upper;
UDF:一进一出
UDAF:多进一出
UDTF:一进多出
上面的一和多指的是行数。
2.4.2 常用内置函数- 空字段赋值(NVL)
-- 如果员工的comm为null,则用-1代替 select comm,nvl(comm,-1) from emp;
- case when then else end
select dept_id ,sum(case when sex='男' then 1 else 0 end) as maleCnt ,sum(case when sex='女' then 1 else 0 end) as femaleCnt from emp group by dept_id -- 如果仅有两种情况,还可以用if else select dept_id ,sum(if(sex='男',1,0)) as maleCnt ,sum(if(sex='女',1,0)) as femaleCnt from emp group by dept_id
- 行转列
concat(string a/col,string b/col,...):返回输入字符串连接后的结果,支持输入任意个字符串。
concat_ws(separator,string1(array
select a, b, concat_ws(',' , collect_set(cast(c as string))) from table group by a,b;
collect_set:有两个作用,第一个是去重,去除group by后的重复元素,第二个是形成一个集合,将group by后属于同一组的第三列集合起来成为一个集合。与concat_ws结合使用就是将这些元素以逗号分隔形成字符串。函数只接受基本数据类型。它的主要作用是将某字段的值进行去重汇总,产生array类型字段。输入多行,输出一行。
collect_list(col):与collect_set相比,collect_list不会做去重。
- 列转行
explode(col):将hive一列中复杂的array或者map结构拆分为多行。
lateral view:用于和split、explode等UDTF一起使用,它能够将一列数据拆分成多行数据,在此基础上可以对拆分后的数据进行聚合(和原来的表相关联)。
split(str,regex):传入字符串和分隔符。
-- 将某一字段全部展开 select explode(split(category,',')) from movie_info; -- 全部语句 select movie ,category_name from movie_name laternal VIEW explode(split(category,',')) movie_info_tmp as category_name;-- 侧写表
- 窗口函数(开窗函数)
over():指定分析函数工作的数据窗口大小,这个数据窗口大小可能会随着行的变化而变化。给每条数据都开窗。
substring(str,开始索引,截取长度):截取字符串。
current row:当前行
n preceding:往前n行
n following:往后n行
unbounded:起点。unbounded preceding:表示从前面的起点;unbounded following:表示到后面的终点。
lag(col,n,default_val):往前第n行数据,缺失时用default_val替代。
lead(col,n,default_val):往后第n行数据,缺失时用default_val替换。
ntile(n):用于将分组数据按照顺序切分成n片,返回当前记录所在的切片值。n为整数。
-- over select name ,count(*) over() as cnt -- 此时over未加条件,因此count是针对全部数据,即count(name) from table_name; -- over和group by select name ,count(*) over() -- 针对group by后的全部数据统计 from business where substring(orderdate,0,7)='2020-04' group by name; -- over和partition by select name ,orderdate ,cost ,sum(cost) over(partition by name,month(orderdate)) from business; -- 顾客按照日期进行累加消费金额 select name ,orderdate ,cost, sum(cost) over(partition by name order by orderdate) -- 此时为默认窗口范围,从开始到当前行 from business; select name ,orderdate ,cost, sum(cost) over(partition by name order by orderdate rows between 1 preceding and 1 following) -- 此时为当前行、前一行和后一行 from business; --顾客上一次的购买时间 select name ,orderdate ,lag(orderdate,1,orderdate) over(partition by name order by orderdate) --取当前行的前一行 ,lead(orderdate,1,orderdate) over(partition by name order by orderdate) --取当前行的后一行 from business; -- 取前20%时间的订单信息 select name ,orderdate ,cost ,ntile(5) over(order by orderdate) as groupId from business;
- Rank
rank():排序相同时会重复(会并列),总数不会变。
dense_rank():排序相同时会重复(会并列),总数会减少。
row_number():会根据顺序计算,不会重复排序(不会并列)。
- 其他函数
Hive常用函数大全一览
2.5 hive优化 2.5.1 explain查看执行计划explain explorarion
- 查看下面这条语句的执行计划
-- 没有生成MR任务的 explain select * from table; -- 走MR任务的语句 select deptno,avg(sal) as avg_sal from emp group by deptno;2.5.2 Fetch 抓取
fetch抓取是指,hive中对某些情况的查询是可以不必使用mapreduce计算。
hive中有些查询走mr有些不走,是因为设置hive.fecth.task.conversion默认为more,在全局查找、字段查找、limit查找都不走mapreduce。
2.5.3 本地模式大多数的hadoop job是需要hadoop提供的完整的可扩展性来处理大数据集的。不过,又是hive的输入数据量是非常小的。在这种情况下,为查询出发执行任务消耗的时间可能会比实际job执行时间要多得多。对于大多数这种情况,hive可以通过本地模式在单台机器上处理所有的任务,对于小数据集,执行时间可以明显呗缩短。
通过设置hibe.exec.mode.local.auto=true,来让hive在适当的时候自动启动这个优化。
2.5.4 表的优化 (1) 小表大表Join(Map Join)小表放左,大表放右。现在自动选择Mapjoin默认为true。大表、小表放的顺序不影响了。
map join原理和场景
Hive的mapjoin原理与参数说明
(2) 大表Join大表- 空key过滤
有时join超时是因为某些key对应的数据太多,而相同key对应的数据都会发送到相同的reducer上(造成数据倾斜),从而导致内存不够。此时我们应该仔细分析这些异常的key,很多情况下这些key对应的数据是异常数据,我们需要在sql语句中进行过滤。即先对表进行过滤再进行left join。
使用场景:非inner join(两种表inner join时会自动过滤空值);不需要字段为null的;
- 空key转换
有时虽然某个key为空对应的数据很多,但是相应的数据不是异常数据,必须要包含再join得结果中,此时我们可以给表中key为空的字段赋一个随机的值(要注意给定随机值后不能改变join的结果),使得数据随机均匀地分布到不同的reducer上。
- SMB(sort merge bucket join)
分桶表join可有效剪短时间。
smb是sort merge bucket *** 作,首先进行排序,继而合并,然后放到所对应的bucket中去,bucket是hive中和分区表类似的技术,就是按照key进行hash,相同的hash值都放到相同的buck中去。在进行两个表联合的时候。我们首先进行分桶,在join会大幅度的对性能进行优化。也就是说,在进行联合的时候,是table1中的一小部分和table1中的一小部分进行联合,table联合都是等值连接,相同的key都放到了同一个bucket中去了,那么在联合的时候就会大幅度的减小无关项的扫描。
- group by
默认情况下,map阶段同一key数据分发给一个reduce,当一个key数据过大时就产生倾斜。
并不是所有的据合 *** 作都需要在reduce端完成,很多据合 *** 作都可以先在map端进行部分聚合,最后在redcue端得出最终结果。
-- 是否在map端进行聚合,默认为true set hive.map.aggr=true -- 在map端进行聚合 *** 作的条目数目 set hive.gruopby.mapaggr.checkinterval=100000 -- 有数据倾斜的时候进行负载均衡,默认为false set hive.groupby.skewindata=true
- count distinct去重统计
必须在一个reduce task中完成,
-- 除了分桶表,可以使用以下方式 select count(*) from (select id from emp group by id) t1;
- 笛卡尔积
Hive只能使用一个reducer来完成笛卡尔积。
- 行列过滤
列处理:在select时只选择需要的列,尽量少用select *;如果有分区,尽量使用分区过滤。
行处理:在分区裁剪时,当使用外关联时,如果将副表的过滤条件写在where后面,那么就会先全表关联,之后再过滤;因此,应该先对表进行筛选,再进行关联。
-- 通过子查询后,再关联表 select b.id from bigtable b join (select id from bigtable where id<10) o on b.id=o.id;
- 分区
见上面内容
- 分桶
见上面内容
2.5.5 合理设置Map和Reduce数- 复杂文件增加map数
- 小文件进行合并
- 合理设置Redcue数
om (select id from emp group by id) t1;
- 笛卡尔积 Hive只能使用一个reducer来完成笛卡尔积。 - 行列过滤 **列处理**:在select时只选择需要的列,尽量少用`select *`;如果有分区,尽量使用分区过滤。 **行处理**:在分区裁剪时,当使用外关联时,如果将副表的过滤条件写在where后面,那么就会先全表关联,之后再过滤;因此,应该先对表进行筛选,再进行关联。 ```sql -- 通过子查询后,再关联表 select b.id from bigtable b join (select id from bigtable where id<10) o on b.id=o.id;
- 分区
见上面内容
- 分桶
见上面内容
2.5.5 合理设置Map和Reduce数- 复杂文件增加map数
- 小文件进行合并
- 合理设置Redcue数
尚硅谷大数据Hive教程(基于hive3.x丨hive3.1.2)
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)