Hive 是基于 Hadoop 的一个数据仓库工具,用于解决海量结构化数据的统计,可以将结构化的数据映射为一张数据库表,并提供类SQL查询功能
1.2 Hive 特点本质:Hive 将 HQL(Hive Query Language)转换为 MapReduce 程序!
可扩展:Hive 可自由的扩展到集群的规模,一般不用重启服务
延展性:Hive 支持自定义函数,用户可以根据自己的需区来实现自己的函数
容错性:Hive 具备良好的容错性,节点出现问题 SQL 仍可以完成执行
1.3 数据仓库弊端:
Hive 的 HQL 表达能力有限,无法表达迭代式算法,不擅长数据挖掘
Hive 的效率较低,Hive 调优比较困难,粒度较粗
数据仓库是一种面向商务智能的数据管理系统,仅适用于查询和分析,通常涉及大量的历史数据。在实际应用中,数据仓库中的数据一般来自应用日志文件或事务应用等。
数据仓库的特点:
- 面向主题:数据仓库可高校分析关于特定主题(领域)的数据
- 集成:数据仓库可在不同来源的数据类型之间建立一致性
- 相对稳定:数据进入到仓库后,数据将保持稳定,不会发生变化
- 随时间变化:数据仓库随时间变化,不断增加新的、删去旧的数据内容
2.1 准备版本说明:
CenOS:7
mysql:8.0.25 安装步骤,查看博客CentOS7 离线安装 MySQL-8.0.25
Hadoop:2.7.7
Hive:2.3.9 下载地址 https://hive.apache.org/downloads.html
1、将 Hive 安装包上传至 /opt 目录
ls /opt
apache-hive-2.3.9-bin.tar.gz
2、加压 Hive 安装包到当前目录
tar -zxvf apache-hive-2.3.9-bin.tar.gz
3、将解压后的 Hive 包重命名
mv apache-hive-2.3.9-bin hive-2.3.9
4、上传 mysql 的驱动包到 /opt/hive-2.3.9/lib 目录下
mysql-connector-java-8.0.25.jar
2.2 配置驱动下载地址:https://repo1.maven.org/maven2/mysql/mysql-connector-java/8.0.25/mysql-connector-java-8.0.25.jar
1、添加环境变量
echo "export HIVE_HOME=/opt/hive-2.3.9" >> /etc/profile echo "export PATH=$HIVE_HOME/bin:$PATH" >> /etc/profile source /etc/profile
2、修改配置文件 hive-env.sh,添加下面的配置
cd /opt/hive-2.3.9/conf/ cp hive-env.sh.template hive-env.sh vim hive-env.sh
HADOOP_HOME=/opt/hadoop-2.7.7 HIVE_CONF_DIR=/opt/hive-2.3.9/conf JAVA_HOME=/opt/jdk1.8
3、添加配置文件 hive-site.xml,添加下面的配置,修改为自己的URL
vim hive-site.xml
2.3 启动 Hivejavax.jdo.option.ConnectionURL jdbc:mysql://node1:3306/metastore javax.jdo.option.ConnectionDriverName com.mysql.cj.jdbc.Driver javax.jdo.option.ConnectionUserName root javax.jdo.option.ConnectionPassword 123456
1、在本地使用数据库连接工具,连上 Linux 上的数据库,添加新的数据库
CREATE SCHEMA metastore;
2、初始化 metastore
cd /opt/hive-2.3.9/bin ./schematool -initSchema -dbType mysql
# 初始化成功 Starting metastore schema initialization to 2.3.0 Initialization script hive-schema-2.3.0.mysql.sql Initialization script completed schemaTool completed
3、启动 Hive
hive
❤️ END ❤️
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)