Hive 初识+环境搭建

Hive 初识+环境搭建,第1张

Hive 初识+环境搭建 1. Hive 1.1 Hive 是什么

Hive 是基于 Hadoop 的一个数据仓库工具,用于解决海量结构化数据的统计,可以将结构化的数据映射为一张数据库表,并提供类SQL查询功能

本质:Hive 将 HQL(Hive Query Language)转换为 MapReduce 程序!

1.2 Hive 特点

可扩展:Hive 可自由的扩展到集群的规模,一般不用重启服务

延展性:Hive 支持自定义函数,用户可以根据自己的需区来实现自己的函数

容错性:Hive 具备良好的容错性,节点出现问题 SQL 仍可以完成执行

弊端:

Hive 的 HQL 表达能力有限,无法表达迭代式算法,不擅长数据挖掘

Hive 的效率较低,Hive 调优比较困难,粒度较粗

1.3 数据仓库

数据仓库是一种面向商务智能的数据管理系统,仅适用于查询和分析,通常涉及大量的历史数据。在实际应用中,数据仓库中的数据一般来自应用日志文件或事务应用等。

数据仓库的特点:

  • 面向主题:数据仓库可高校分析关于特定主题(领域)的数据
  • 集成:数据仓库可在不同来源的数据类型之间建立一致性
  • 相对稳定:数据进入到仓库后,数据将保持稳定,不会发生变化
  • 随时间变化:数据仓库随时间变化,不断增加新的、删去旧的数据内容
2. Hive 环境搭建

版本说明:

CenOS:7

mysql:8.0.25 安装步骤,查看博客CentOS7 离线安装 MySQL-8.0.25

Hadoop:2.7.7

Hive:2.3.9 下载地址 https://hive.apache.org/downloads.html

2.1 准备

1、将 Hive 安装包上传至 /opt 目录

ls /opt
apache-hive-2.3.9-bin.tar.gz

2、加压 Hive 安装包到当前目录

tar -zxvf apache-hive-2.3.9-bin.tar.gz

3、将解压后的 Hive 包重命名

mv apache-hive-2.3.9-bin hive-2.3.9

4、上传 mysql 的驱动包到 /opt/hive-2.3.9/lib 目录下

mysql-connector-java-8.0.25.jar

驱动下载地址:https://repo1.maven.org/maven2/mysql/mysql-connector-java/8.0.25/mysql-connector-java-8.0.25.jar

2.2 配置

1、添加环境变量

echo "export HIVE_HOME=/opt/hive-2.3.9" >> /etc/profile
echo "export PATH=$HIVE_HOME/bin:$PATH" >> /etc/profile
source /etc/profile

2、修改配置文件 hive-env.sh,添加下面的配置

cd /opt/hive-2.3.9/conf/
cp hive-env.sh.template hive-env.sh
vim hive-env.sh
HADOOP_HOME=/opt/hadoop-2.7.7
HIVE_CONF_DIR=/opt/hive-2.3.9/conf
JAVA_HOME=/opt/jdk1.8

3、添加配置文件 hive-site.xml,添加下面的配置,修改为自己的URL

vim hive-site.xml




  
    javax.jdo.option.ConnectionURL
    jdbc:mysql://node1:3306/metastore
  
  
    javax.jdo.option.ConnectionDriverName
    com.mysql.cj.jdbc.Driver
  
  
    javax.jdo.option.ConnectionUserName
    root
  
  
    javax.jdo.option.ConnectionPassword
    123456
  

2.3 启动 Hive

1、在本地使用数据库连接工具,连上 Linux 上的数据库,添加新的数据库

CREATE SCHEMA metastore;

2、初始化 metastore

cd /opt/hive-2.3.9/bin
./schematool -initSchema -dbType mysql
# 初始化成功
Starting metastore schema initialization to 2.3.0
Initialization script hive-schema-2.3.0.mysql.sql
Initialization script completed
schemaTool completed

3、启动 Hive

hive

 


❤️ END ❤️

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zaji/5664850.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-12-16
下一篇 2022-12-16

发表评论

登录后才能评论

评论列表(0条)

保存