HiveSQL核心技能之表连接_sql

目标：

1、掌握HQL中的各种连接及其组合使用；

2、掌握数据分析中业务指标思路转换的技巧；

3、区分好full join 和 union all 的使用场景；

4、在多表连接时，注意各种细节和业务逻辑；

5、复杂表连接要学会分步骤处理

需注意：

1、表连接时，必须进行重命名；

2、on后面使用的连接条件必须起到 唯一键值 的作用（有时会有多个字段组合）；

3、inner可省略不写，效果是一样的

4、表连接时不能使用 a join b join c这种方式，不然会极度浪费电脑的资源和延长查询时间，要在子查询的表里先做好筛选之后在连接；

1）找出在2019年购买后又退款的用户（记得要去重）

注意：一定要先去重，再做表连接，养成良好的习惯（虽然可以先连接再去重，但是那么做会使执行效率很低）

2）在2017年和2018年都购买的用户

3）在2017年、2018年、2019年都有交易的用户

进行左连接之后，以左表为全集，返回能够匹配上的右边表的匹配结果，没有匹配上的则显示NULL。

拓展：

right join：以右表为全集，返回能够匹配上的左边表的匹配结果，没有匹配上的则显示NULL，可以由left join改写出同样的结果。

4）在2019年购买，但是没有退款的用户

5）在2019年由购买的用户的学历分布

6）在2017年和2018年都购买，但是没有在2019年购买的用户

查询两个表的所有用户时使用full join是一个比较好的方法（需要用到coalesce函数：

注：coalesce函数，coalesce(expression1,expression2,...,expression n)，依次参考各参数表达式，遇到非null值即停止并返回该值，如果所有的表达式都是空值，最终将返回一个空值。

注：表合并时字段名称必须一致，字段顺序必须一致，而且不用填写连接条件

7）2017-2019年由交易的所有用户数

union all 和 union 的区别：

union all 不会去重，不会排序，效率较快；union 会去重且排序，效率较慢。

如果表很大时，推荐先去重，再进行 union all ，不能直接对表进行 union all，不然效率很慢。

8）2019年每个用户的支付和退款金额汇总

也可以使用 full join 的方式：

9）2019年每个支付用户的支付金额和退款金额

10）首次激活时间在2017年，但是一直没有支付的用户年龄段分布

步骤总结：

1、先筛选出年份为2017注册的用户；

2、没有支付的人；

3、年龄段分布

注意：由于age也是在user_info的表格里，第三步用的字段需要在第一步进行预处理，所以在限制时间的时候需要同时对年龄段进行预处理，这样在第三步的时候才会由年龄段这个字段；需要注意对 case when 的字段进行重命名才能进行后续的 *** 作

11）2018、2019年交易的用户，其激活时间段分布

步骤总结：

1. 取出2018和2019年所有的交易用户的交集

2. 取出所有用户的激活时间

3. 统计时间分布

说明：hive 的表存放位置模式是由 hive-site.xml 当中的一个属性指定的，默认是存放在该配置文件设置的路径下，也可在创建数据库时单独指定存储路径。

数据库有一些描述性的属性信息，可以在创建时添加：

查看数据库的键值对信息

修改数据库的键值对信息

与mysql查询语句是一样的语法

删除一个空数据库，如果数据库下面有数据表，那么就会报错

强制删除数据库，包含数据库下面的表一起删除(请谨慎 *** 作)

[]里的属性为可选属性，不是必须的，但是如果有可选属性，会使 sql 语句的易读性更好，更标准与规范。

例如：[comment '字段注释信息'][comment '表的描述信息']等，[external]属性除外

1. CREATE TABLE

创建一个指定名字的表，如果相同名字的表已存在，则抛出异常提示：表已存在，使用时可以使用IF NOT EXISTS语句来忽略这个异常。

如果创建的表名已存在，则不会再创建，也不会抛出异常提示：表已存在。否则则自动创建该表。

2. EXTERNAL

顾名思义是外部的意思，此关键字在建表语句中让使用者可以创建一个外部表，如果不加该关键字，则默认创建内部表。

外部表在创建时必须同时指定一个指向实际数据的路径（LOCATION），Hive在创建内部表时，会将数据移动到数据仓库指向的路径；

若创建外部表，仅记录数据所在的路径，不对数据的位置作任何改变。

内部表在删除后，其元数据和数据都会被一起删除。

外部表在删除后，只删除其元数据，数据不会被删除。

3. COMMENT

用于给表的各个字段或整张表的内容作解释说明的，便于他人理解其含义。

4. PARTITIONED BY

区分表是否是分区表的关键字段，依据具体字段名和类型来决定表的分区字段。

5. CLUSTERED BY

依据column_name对表进行分桶，在 Hive 中对于每一张表或分区，Hive 可以通过分桶的方式将数据以更细粒度进行数据范围划分。Hive采用对列值哈希，然后除以桶的个数求余的方式决定该条记录存放在哪个桶当中。

6. SORTED BY

指定表数据的排序字段和排序规则，是正序还是倒序排列。

7. ROW FORMAT DELIMITED FIELDS TERMINATED BY ' '

指定表存储中列的分隔符，这里指定的是' '，也可以是其他分隔符。

8. STORED AS SEQUENCEFILE|TEXTFILE|RCFILE

指定表的存储格式，如果文件数据是纯文本格式，可以使用STORED AS TEXTFILE，如果数据需要压缩，则可以使用STORED AS SEQUENCEFILE。

9. LOCATION

指定 Hive 表在 hdfs 里的存储路径，一般内部表（Managed Table）不需要自定义，使用配置文件中设置的路径即可。

如果创建的是一张外部表，则需要单独指定一个路径。

1. 使用create table语句创建表

例子：

2. 使用create table ... as select...语句创建表

例子：

使用 create table ... as select ...语句来创建新表sub_student，此时sub_student 表的结构及表数据与 t_student 表一模一样，相当于直接将 t_student 的表结构和表数据复制一份到 sub_student 表。

注意：

(1). select 中选取的列名（如果是 * 则表示选取所有列名）会作为新表 sub_student 的列名。

(2). 该种创建表的方式会改变表的属性以及结构，例如不能是外部表，只能是内部表，也不支持分区、分桶。

如果as select后的表是分区表，并且使用select *，则分区字段在新表里只是作为字段存在，而不是作为分区字段存在。

在使用该种方式创建时，create 与 table 之间不能加 external 关键字，即不能通过该种方式创建外部目标表，默认只支持创建内部目标表。

(3). 该种创建表的方式所创建的目标表存储格式会变成默认的格式textfile。

3.使用like语句创建表

例子：

注意：

(1). 只是将 t_student 的表结构复制给 sub1_student 表。

(2). 并不复制 t_student 表的数据给 sub1_student 表。

(3). 目标表可以创建为外部表，即:

hive配置远程metastore的方法：

1）首先配置hive使用本地MySQL存储metastore（服务器A

111.121.21.23）（也可以使用远程mysql存储）

2）配置完成后，在服务器A启动服务：/etc/init.d/Hadoop-hive-metastore

start

（默认监听端口是：9083）

3）配置hive客户端，修改hive-site.xml：（服务器B-需要有hadoop环境）

<name>hive.metastore.local</name>

<value>false</value>

<description>controls

whether

connect

remote

metastore

server

open

new

metastore

server

Hive

Client

JVM</description>

</property>

<name>hive.metastore.uris</name>

<value>thrift://127.0.0.1:9083</value>

</property>

4）hive

执行测试hql

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/sjk/9979836.html

HiveSQL核心技能之表连接

发表评论

评论列表（0条）