2021年全国行业职业技能竞赛暨第四届全国大学生大数据技能竞赛——职教学生组线上选拔赛_随笔

2021年全国行业职业技能竞赛暨第四届全国大学生大数据技能竞赛——职教学生组线上选拔赛 2021年全国行业职业技能竞赛暨第四届全国大学生大数据技能竞赛——职教学生组线上选拔赛

2021年全国行业职业技能竞赛暨第四届全国大学生大数据技能竞赛——职教学生组线上选拔赛

前言

资料

前提条件

题目一、基础配置（30分）

题目二、Zookeeper搭建（30分）

题目三、Hadoop集群搭建（ 80分）

题目四、Hive集群搭建（30分）

题目五、Spark搭建（30分）

前言

根据2021年全国行业职业技能竞赛暨第四届全国大学生大数据技能竞赛——职教学生组线上选拔赛赛题整理，附上资料链接，如果有错误指出请提出改正，谢谢

资料

链接：https://pan.baidu.com/s/1Q2Z-roUoGSMkXNf1I4dThA
提取码：yikm

前提条件

由于比赛中已经安装有ntp和MySQL服务，我们现在虚拟机中安装配置。

ntp在三台机器上安装（master，slave1，slave2）

MySQL可以只在slave2中安装，将slave2作为数据库存储数据，使用client/thrift server的连接方式进行访问。

安装ntp：

yum install -y ntp

安装完成：

安装MySQL数据库：

卸载系统自带的Mariadb

rpm -qa|grep mariadb
rpm -e mariadb-libs-5.5.68-1.el7.x86_64 --nodeps
rpm -qa|grep mariadb

安装MySQL：

解压：

tar -xvf /usr/package277/mysql-5.7.25-1.el7.x86_64.rpm-bundle.tar

安装：

rpm -ivh mysql-community-common-5.7.25-1.el7.x86_64.rpm mysql-community-libs-5.7.25-1.el7.x86_64.rpm mysql-community-libs-compat-5.7.25-1.el7.x86_64.rpm mysql-community-client-5.7.25-1.el7.x86_64.rpm mysql-community-server-5.7.25-1.el7.x86_64.rpm

配置完毕！

题目一、基础配置（30分）

1.比赛框架
本次比赛为分布式集群搭建，共三台节点，其中master作为主节点，slave1、slave2为从节点；

2.比赛内容

基础配置：修改主机名、主机映射、时区修改、时间同步、定时任务、免密访问；
JDK安装：环境变量；
Zookeeper部署：环境变量、配置文件zoo.cfg、myid；
Hadoop部署：环境变量、配置文件修改、设置节点文件、格式化、开启集群；
Hive部署：Mysql数据库配置、服务器端配置、客户端配置。

3.版本说明

内置安装/依赖包（/usr/package277）

已安装服务

系统版本

hadoop-2.7.7.tar.gz

ntp

CentOS Linux release 7.3.1611 (Core)

zookeeper-3.4.14.tar.gz

mysql-community-server

apache-hive-2.3.4-bin.tar.gz

jdk-8u211-linux-x64.tar.gz

mysql-connector-java-5.1.47-bin.jar

core-site.xml参数配置详情

官方文档：http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-common/core-default.xml

core-default.xml与core-site.xml的功能是一样的，如果在core-site.xml里没有配置的属性，则会自动会获取core-default.xml里的相同属性的值

属性

值

说明

fs.default.name

hdfs://????

定义master的URI和端口

hadoop.tmp.dir

/????

临时文件夹，指定后需将使用到的所有子级文件夹都要手动创建出来，否则无法正常启动服务。

hdfs-site.xml参数配置详情

属性

值

说明

dfs.replication

???

hdfs数据块的复制份数，默认3，理论上份数越多跑数速度越快，但是需要的存储空间也更多。

dfs.namenode.name.dir

file:/usr/hadoop/hadoop-2.7.3/hdfs/????

NN所使用的元数据保存

dfs.datanode.data.dir

file:/usr/hadoop/hadoop-2.7.3/hdfs/????

真正的datanode数据保存路径，可以写多块硬盘，逗号分隔

yarn-site.xml参数配置详情

属性

值

说明

yarn.resourcemanager.admin.address

${yarn.resourcemanager.hostname}:18141

ResourceManager 对管理员暴露的访问地址。管理员通过该地址向RM发送管理命令等。

yarn.nodemanager.aux-services

mapreduce_shuffle

NodeManager上运行的附属服务。需配置成mapreduce_shuffle，才可运行MapReduce程序

mapred-site.xml参数配置详情

属性

值

说明

mapreduce.framework.name

yarn

指定MR运行框架，默认为local

基础环境配置

前提说明

相关安装包已经存放至环境/usr/package277/中
对应ntp和mysql已安装，可直接对其进行 *** 作和配置

1.修改主机名，便于识别节点；
2.工具包已保存在环境中；
3.修改hosts文件，添加集群节点映射，按照给出的节点IP和对应的主机名进行设置；
4.要求各节点时区修改为中国时区（中国标准时间CST+8）
5.安装ntp服务，要求主节点master为本地时钟源，从节点设置定时任务同步本地时间；
6.集群中数据传输需要节点之间免密访问，要求设置主节点之间到从节点的免密访问；
7.Hadoop技术基于Java语言，要求本地源下载对应安装包进行安装配置，注意安装路径要求，无需更改文件名，注意添加环境变量。

本环境用于为基础设置部分，用于后续的集群搭建。

考核条件如下：

1. 按照左侧虚拟机名称修改对应主机名（分别为master、slave1、slave2，使用hostnamectl命令）（2分）

*** 作环境: master、slave1、slave2

hostnamectl set-hostname master
hostnamectl set-hostname slave1
hostnamectl set-hostname slave2
bash

2. 修改云主机host文件添加左侧master、slave1、slave2三个节点IP与主机名映射（使用内网IP）（2分）

*** 作环境: master、slave1、slave2

vim /etc/hosts

添加ip+主机名：

:wq保存退出

ping测试：（ctrl+c停止）

ping slave1
ping slave2

3. 时区更改为上海时间（CST+0800时区）（2分）

*** 作环境: master、slave1、slave2

tzselect
依次输入
5
9
1
1

修改环境变量：

vim /etc/profile

加入：

TZ='Asia/Shanghai'; export TZ

生效环境变量：

source /etc/profile

查看时间：

date

在ntp同步之前关闭防火墙和selinux安全机制

*** 作环境: master、slave1、slave2

关闭防火墙：

systemctl stop firewalld
systemctl status firewalld
systemctl disable firewalld

关闭selinux安全机制：

vim /etc/sysconfig/selinux

4. 环境已经安装NTP，修改master节点NTP配置，设置master为本地时间服务器，屏蔽默认server，服务器层级设为10（2分）

*** 作环境: master

echo "server 127.127.1.0
fudge 127.127.1.0 stratum 10" >> /etc/ntp.conf

5. 开启NTP服务（2分）

*** 作环境: master

/bin/systemctl restart ntpd.service

6. 添加定时任务--在早十-晚五时间段内每隔半个小时同步一次本地服务器时间（24小时制、使用用户root任务调度crontab，服务器地址使用主机名）（2分）

*** 作环境: slave1、slave2

ntp同步master

ntpdate master

crontab -e
*/30 10-17 * * * usr/sbin/ntpdate master

查看任务：

crontab -l

7. master节点生成公钥文件id_rsa.pub(数字签名RSA，用户root，主机名master)（2分）

*** 作环境: master

ssh-keygen
三次回车

8. 建⽴master⾃身使⽤root⽤户ssh访问localhost免密登录（2分）

*** 作环境: master

ssh-copy-id localhost

输入yes和密码

9. 建⽴master使⽤root⽤户到slave1的ssh免密登录访问（2分）

*** 作环境: master

ssh-copy-id slave1

输入yes和密码：

10. 建⽴master使⽤root⽤户到slave2的ssh免密登录访问（2分）

*** 作环境: master

ssh-copy-id slave2

输入yes和密码：

ssh测试：

ssh slave1
exit
ssh slave2
exit

11. 将jdk安装包解压到/usr/java目录（安装包存放于/usr/package277/，路径自行创建，解压后文件夹为默认名称，其他安装同理）（5分）

*** 作环境: master、slave1、slave2

mkdir /usr/java
tar -zxvf /usr/package277/jdk-8u221-linux-x64.tar.gz -C /usr/java/

解压完毕：

12. 文件/etc/profile中配置系统环境变量JAVA_HOME，同时将JDK安装路径中bin目录加入PATH系统变量，注意生效变量，查看JDK版本（5分）

*** 作环境: master、slave1、slave2

vim /etc/profile

添加以下内容：

#java
export JAVA_HOME=/usr/java/jdk1.8.0_221
export PATH=$PATH:$JAVA_HOME/bin

生效环境变量：

source /etc/profile

查看版本：

java -version

版本不同解决方案：

（铃音大佬整理）

java安装后版本不一样怎么办

题目二、Zookeeper搭建（30分）

Zookeeper是一个分布式服务框架，是Apache Hadoop 的一个子项目，它主要是用来解决分布式应用中经常遇到的一些数据管理问题，如：统一命名服务、状态同步服务、集群管理、分布式应用配置项的管理等。
预装的配置文件zoo_sample.cfg下面默认有五个属性，分别是：

1.tickTime
心跳间隔，单位是毫秒，系统默认是2000毫秒，也就是间隔两秒心跳一次。
tickTime的意义：客户端与服务器或者服务器与服务器之间维持心跳，也就是每个tickTime时间就会发送一次心跳。通过心跳不仅能够用来监听机器的工作状态，还可以通过心跳来控制Flower跟Leader的通信时间，默认情况下FL的会话时常是心跳间隔的两倍。

2.initLimit
集群中的follower服务器(F)与leader服务器(L)之间初始连接时能容忍的最多心跳数（tickTime的数量）。

3.syncLimit
集群中flower服务器（F）跟leader（L）服务器之间的请求和答应最多能容忍的心跳数。

4.clientPort
客户端连接的接口，客户端连接zookeeper服务器的端口，zookeeper会监听这个端口，接收客户端的请求访问，端口默认是2181。

5.dataDir
该属性对应的目录是用来存放myid信息跟一些版本，日志，跟服务器唯一的ID信息等。
在集群Zookeeper服务在启动的时候，会回去读取zoo.cfg这个文件，从这个文件中找到这个属性然后获取它的值也就是dataDir 的路径，它会从这个路径下面读取myid这个文件，从这个文件中获取要启动的当前服务器的地址。

集群信息的配置：
在配置文件中，配置集群信息是存在一定的格式：service.N =YYY： A：B
N：代表服务器编号（准确对应对应服务器中myid里面的值）
YYY：服务器地址
A：表示 Flower 跟 Leader的通信端口，简称服务端内部通信的端口（默认2888）
B：表示是选举端口（默认是3888）
例如：server.1=master:2888:3888

配置文件参考

tickTime=2000

initLimit=10

syncLimit=5

clientPort=2181

# 配置数据存储路径

????

# 配置日志文件路径

????

# 配置集群列表

server.1=????

server.2=????

server.3=????

Zookeeper集群环境搭建（30分）

2.initLimit
集群中的follower服务器(F)与leader服务器(L)之间初始连接时能容忍的最多心跳数（tickTime的数量）。

3.syncLimit
集群中flower服务器（F）跟leader（L）服务器之间的请求和答应最多能容忍的心跳数。

4.clientPort
客户端连接的接口，客户端连接zookeeper服务器的端口，zookeeper会监听这个端口，接收客户端的请求访问，端口默认是2181。

配置文件参考

tickTime=2000

initLimit=10

syncLimit=5

clientPort=2181

# 配置数据存储路径

????

# 配置日志文件路径

????

# 配置集群列表

server.1=????

server.2=????

server.3=????

考核条件如下：

1. 将zookeeper安装包解压到指定路径/usr/zookeeper（安装包存放于/usr/package277/）（3分）

*** 作环境: master、slave1、slave2

mkdir /usr/zookeeper
tar -zxvf /usr/package277/zookeeper-3.4.14.tar.gz -C /usr/zookeeper/

2. 文件/etc/profile中配置系统变量ZOOKEEPER_HOME，同时将Zookeeper安装路径中bin目录加入PATH系统变量，注意生效变量（3分）

*** 作环境: master、slave1、slave2

vim /etc/profile
加入：
#zookeeper
export ZOOKEEPER_HOME=/usr/zookeeper/zookeeper-3.4.14
export PATH=$PATH:$ZOOKEEPER_HOME/bin
source /etc/profile

3. Zookeeper的默认配置文件为Zookeeper安装路径下conf/zoo_sample.cfg，将其修改为zoo.cfg（3分）

*** 作环境: master、slave1、slave2

cd /usr/zookeeper/zookeeper-3.4.14/conf/
ll
mv zoo_sample.cfg zoo.cfg
ll

4. 设置数据存储路径(dataDir)为/usr/zookeeper/zookeeper-3.4.14/zkdata（3分）

*** 作环境: master、slave1、slave2

5. 设置日志文件路径(dataLogDir)为/usr/zookeeper/zookeeper-3.4.14/zkdatalog（3分）

*** 作环境: master、slave1、slave2

6. 设置集群列表（要求master为1号服务器，slave1为2号服务器，slave2为3号服务器）（3分）

*** 作环境: master、slave1、slave2

4,5,6：

vim /etc/profile
修改：
dataDir=/usr/zookeeper/zookeeper-3.4.14/zkdata
加入：
dataLogDir=/usr/zookeeper/zookeeper-3.4.14/zkdatalog
server.1=master:2888:3888
server.2=slave1:2888:3888
server.3=slave2:2888:3888

7. 创建所需数据存储文件夹、日志存储文件夹（3分）

*** 作环境: master、slave1、slave2

cd /usr/zookeeper/zookeeper-3.4.14/
mkdir zkdata zkdatalog

8. 数据存储路径下创建myid，写入对应的标识主机服务器序号（3分）

*** 作环境: master、slave1、slave2

cd zkdata
echo "1" >>myid （master上）
echo "2" >>myid （slave1上）
echo "3" >>myid （slave2上）

9. 启动服务，查看进程QuorumPeerMain是否存在（3分）

*** 作环境: master、slave1、slave2

cd ..
bin/zkServer.sh start
jps

10. 查看各节点服务器角色是否正常(leader/follower)（3分）

*** 作环境: master、slave1、slave2

bin/zkServer.sh status

题目三、Hadoop集群搭建（ 80分）

Hadoop是由Java语言编写的，在分布式服务器集群上存储海量数据并运行分布式分析应用的开源框架，其核心部件是HDFS与MapReduce。

HDFS是一个分布式文件系统：引入存放文件元数据信息的服务器Namenode和实际存放数据的服务器Datanode，对数据进行分布式储存和读取。
MapReduce是一个计算框架：MapReduce的核心思想是把计算任务分配给集群内的服务器里执行。通过对计算任务的拆分（Map计算/Reduce计算）再根据任务调度器（JobTracker）对任务进行分布式计算。

配置文件

配置对象

主要内容

hadoop-env.sh

hadoop运行环境

用来定义Hadoop运行环境相关的配置信息；

core-site.xml

集群全局参数

定义系统级别的参数，包括HDFS URL、Hadoop临时目录等；

hdfs-site.xml

HDFS参数

定义名称节点、数据节点的存放位置、文本副本的个数、文件读取权限等；

mapred-site.xml

MapReduce参数

包括JobHistory Server 和应用程序参数两部分，如reduce任务的默认个数、任务所能够使用内存的默认上下限等；

yarn-site.xml

集群资源管理系统参数

配置ResourceManager ，nodeManager的通信端口，web监控端口等；

Hadoop的配置类是由资源指定的，资源可以由一个String或Path来指定,资源以XML形式的数据表示，由一系列的键值对组成。资源可以用String或path命名（示例如下），

String:指示hadoop在classpath中查找该资源；
Path:指示hadoop在本地文件系统中查找该资源。





  fs.default.name

   ????

常用属性解析:

1.core-site.xml参数

配置参数

说明

fs.default.name

用于指定NameNode的地址

hadoop.tmp.dir

Hadoop运行时产生文件的临时存储目录

2.hdfs-site.xml

配置参数

说明

dfs.replication

用于指定NameNode的地址

dfs.namenode.name.dir

NameNode在本地文件系统中持久存储命名空间和事务日志的路径

dfs.datanode.data.dir

DataNode在本地文件系统中存放块的路径

dfs.permissions

集群权限系统校验

dfs.datanode.use.datanode.hostname

datanode之间通过域名方式通信

注意：外域机器通信需要用外网IP，未配置hostname访问会访问异常。可以在Java api客户端使用conf.set("fs.client.use.datanode.hostname","true");。

3.mapreduce-site.xml

配置参数

说明

mapreduce.framework.name

指定执行MapReduce作业的运行时框架。属性值可以是local，classic或yarn。

4.yarn-site.xml

配置参数

说明

yarn.resourcemanager.admin.address

用于指定RM管理界面的地址（主机:端口）

yarn.nodemanager.aux-services

mapreduce 获取数据的方式，指定在进行mapreduce作业时，yarn使用mapreduce_shuffle混洗技术。这个混洗技术是hadoop的一个核心技术，非常重要。

yarn.nodemanager.auxservices.mapreduce.shuffle.class

用于指定混洗技术对应的字节码文件，值为org.apache.hadoop.mapred.ShuffleHandler

Hadoop完全分布式集群搭建（80分）

Hadoop是由Java语言编写的，在分布式服务器集群上存储海量数据并运行分布式分析应用的开源框架，其核心部件是HDFS与MapReduce。

HDFS是一个分布式文件系统：引入存放文件元数据信息的服务器Namenode和实际存放数据的服务器Datanode，对数据进行分布式储存和读取。
MapReduce是一个计算框架：MapReduce的核心思想是把计算任务分配给集群内的服务器里执行。通过对计算任务的拆分（Map计算/Reduce计算）再根据任务调度器（JobTracker）对任务进行分布式计算。

配置文件

配置对象

主要内容

hadoop-env.sh

hadoop运行环境

用来定义Hadoop运行环境相关的配置信息；

core-site.xml

集群全局参数

定义系统级别的参数，包括HDFS URL、Hadoop临时目录等；

hdfs-site.xml

HDFS参数

定义名称节点、数据节点的存放位置、文本副本的个数、文件读取权限等；

mapred-site.xml

MapReduce参数

包括JobHistory Server 和应用程序参数两部分，如reduce任务的默认个数、任务所能够使用内存的默认上下限等；

yarn-site.xml

集群资源管理系统参数

配置ResourceManager ，nodeManager的通信端口，web监控端口等；

String:指示hadoop在classpath中查找该资源；
Path:指示hadoop在本地文件系统中查找该资源。





  fs.default.name

   ????

常用属性解析:

1.core-site.xml参数

配置参数

说明

fs.default.name

用于指定NameNode的地址

hadoop.tmp.dir

Hadoop运行时产生文件的临时存储目录

2.hdfs-site.xml

配置参数

说明

dfs.replication

用于指定NameNode的地址

dfs.namenode.name.dir

NameNode在本地文件系统中持久存储命名空间和事务日志的路径

dfs.datanode.data.dir

DataNode在本地文件系统中存放块的路径

dfs.permissions

集群权限系统校验

dfs.datanode.use.datanode.hostname

datanode之间通过域名方式通信

注意：外域机器通信需要用外网IP，未配置hostname访问会访问异常。可以在Java api客户端使用

conf.set("fs.client.use.datanode.hostname","true");。

3.mapreduce-site.xml

配置参数

说明

mapreduce.framework.name

指定执行MapReduce作业的运行时框架。属性值可以是local，classic或yarn。

4.yarn-site.xml

配置参数

说明

yarn.resourcemanager.admin.address

用于指定RM管理界面的地址（主机:端口）

yarn.nodemanager.aux-services

mapreduce 获取数据的方式，指定在进行mapreduce作业时，yarn使用mapreduce_shuffle混洗技术。这个混洗技术是hadoop的一个核心技术，非常重要。

yarn.nodemanager.auxservices.mapreduce.shuffle.class

用于指定混洗技术对应的字节码文件，值为org.apache.hadoop.mapred.ShuffleHandler

考核条件如下：

1. 将Hadoop安装包解压到指定路径/usr/hadoop（安装包存放于/usr/package277/）（5分）

*** 作环境: master、slave1、slave2

mkdir /usr/hadoop
tar -zxvf /usr/package277/hadoop-2.7.7.tar.gz -C /usr/hadoop/

2. 文件/etc/profile中配置环境变量HADOOP_HOME，将Hadoop安装路径中bin目录和sbin目录加入PATH系统变量，注意生效变量（5分）

*** 作环境: master、slave1、slave2

vim /etc/profile
加入：
#hadoop
export HADOOP_HOME=/usr/hadoop/hadoop-2.7.7
export CLASSPATH=$CLASSPATH:$HADOOP_HOME/lib
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
source /etc/profile

3. 配置Hadoop运行环境JAVA_HOME（5分）

*** 作环境: master、slave1、slave2

进入目录（以下 *** 作都在此目录进行）：

cd /usr/hadoop/hadoop-2.7.7/etc/hadoop/
pwd

修改hadoop-env.sh

echo "export JAVA_HOME=/usr/java/jdk1.8.0_221" >> hadoop-env.sh

4. 设置全局参数，指定HDFS上NameNode地址为master,端口默认为9000（5分）

*** 作环境: master、slave1、slave2

5. 指定临时存储目录为本地/root/hadoopData/tmp(要求为绝对路径，下同)（5分）

*** 作环境: master、slave1、slave2

4，5：

vim core-site.xml

加入:


  fs.default.name
   hdfs://master:9000


  hadoop.tmp.dir
   /root/hadoopData/tmp

6. 设置HDFS参数，指定备份文本数量为2（5分）

*** 作环境: master、slave1、slave2

7. 设置HDFS参数，指定NN存放元数据信息路径为本地/root/hadoopData/name；指定DN存放元数据信息路径为本地/root/hadoopData/data(要求为绝对路径)（5分）

*** 作环境: master、slave1、slave2

8. 设置HDFS参数，关闭hadoop集群权限校验（安全配置），允许其他用户连接集群；指定datanode之间通过域名方式进行通信（5分）

*** 作环境: master、slave1、slave2

6,7,8：

vim hdfs-site.xml

加入：


 dfs.replication																
   2
 
 
 
   dfs.namenode.name.dir
   /root/hadoopData/name
 
  
  
    dfs.datanode.data.dir
    /root/hadoopData/data


 
   dfs.permissions
   false


	dfs.datanode.use.datanode.hostname
	true

9. 设置YARN运行环境JAVA_HOME参数（5分）

*** 作环境: master、slave1、slave2

echo "export JAVA_HOME=/usr/java/jdk1.8.0_221" >> yarn-env.sh

10. 设置YARN核心参数，指定ResourceManager进程所在主机为master，端口为18141;指定mapreduce 获取数据的方式为mapreduce_shuffle（5分）

*** 作环境: master、slave1、slave2

vim yarn-site.xml

加入：


 yarn.resourcemanager.admin.address
 master:18141


 yarn.nodemanager.auxservices.mapreduce.shuffle.class
 org.apache.hadoop.mapred.shuffleHandler


 yarn.nodemanager.aux-services
 mapreduce_shuffle

11. 设置计算框架参数，指定MR运行在yarn上（5分）

*** 作环境: master、slave1、slave2

mv mapred-site.xml.template mapred-site.xml
vim mapred-site.xml

加入：


   mapreduce.framework.name
   yarn

12. 设置节点文件，要求master为主节点； slave1、slave2为子节点（5分）

*** 作环境: master、slave1、slave2

echo "master" >> master

vim slaves

修改localhost为：

slave1
slave2

13. 对文件系统进行格式化（5分）

*** 作环境: master

cd /usr/hadoop/hadoop-2.7.7/
hadoop namenode -format

14. 启动Hadoop集群查看各节点服务（5分）

*** 作环境: master、slave1、slave2

sbin/start-all.sh

输入yes

15. 查看集群运行状态是否正常（10分）

*** 作环境: master

jps

进入浏览器输入：

master:50070

（windows记得做ip映射，在"C:WindowsSystem32driversetchosts"处修改）

成功！

题目四、Hive集群搭建（30分）

1.比赛框架
本次比赛为分布式集群搭建，共三台节点，其中master作为主节点，slave1、slave2为从节点；

2.比赛内容

基础配置：修改主机名、主机映射、时区修改、时间同步、定时任务、免密访问；
JDK安装：环境变量；
Zookeeper部署：环境变量、配置文件zoo.cfg、myid；
Hadoop部署：环境变量、配置文件修改、设置节点文件、格式化、开启集群；
Hive部署：Mysql数据库配置、服务器端配置、客户端配置。

3.版本说明

内置安装/依赖包（/usr/package277）

已安装服务

系统版本

hadoop-2.7.7.tar.gz

ntp

CentOS Linux release 7.3.1611 (Core)

zookeeper-3.4.14.tar.gz

mysql-community-server

apache-hive-2.3.4-bin.tar.gz

jdk-8u211-linux-x64.tar.gz

mysql-connector-java-5.1.47-bin.jar

4.数据仓库架构说明
集群中使用远程模式，使用外部数据库MySQL用于存储元数据，使用client/thrift server的连接方式进行访问。其中slave2作为mysql数据库，slave1作为hive服务器端，master作为hive客户端。

安装数据库（5分）

前提说明

相关安装包已经存放至环境/usr/package277/中
对应ntp和mysql已安装，可直接对其进行 *** 作和配置

1.环境中已经安装mysql-community-server，注意mysql5.7默认安装后为root用户随机生成一个密码；

直接查看密码：grep "temporary password" /var/log/mysqld.log
登入数据库：mysql -uroot -p
输入随机密码即可登录

2.根据要求设置密码，注意对应的安全策略修改；

设置密码强度为低级：set global validate_password_policy=????;
设置密码长度：set global validate_password_length=????;
修改本地密码：alter user 'root'@'localhost' identified by '????';

3.根据要求满足任意主机节点root的远程访问权限(否则后续hive无法连接mysql)；

GRANT ALL PRIVILEGES ON *.* TO '????'@'%' IDENTIFIED BY '????' WITH GRANT OPTION;

4.注意刷新权限；

flush privileges;

5.参考命令

启动mysql服务：systemctl start mysqld.service
关闭mysql服务：systemctl stop mysqld.service
查看mysql服务：systemctl status mysqld.service

考核条件如下：

1. 环境中已经安装mysql-community-server，关闭mysql开机自启服务（1分）

*** 作环境: slave2

systemctl disable mysqld.service

2. 开启MySQL服务（1分）

*** 作环境: slave2

systemctl start mysqld.service

3. 判断mysqld.log日志下是否生成初临时密码（1分）

*** 作环境: slave2

grep "temporary password" /var/log/mysqld.log

4. 设置mysql数据库本地root用户密码为123456（2分）

*** 作环境: slave2

mysql -uroot -p

输入初始密码即可登录

set global validate_password_policy=0;
set global validate_password_length=4;
alter user 'root'@'localhost' identified by '123456';

远程访问权限：

q 退出

以新密码登陆 MySQL：

mysql -uroot -p
123456

create user 'root'@'%' identified by '123456'; 
grant all privileges on *.* to 'root'@'%' with grant option;
flush privileges;
q

Hive基础环境配置（9分）

Hive是基于Hadoop的一个数据仓库工具，用来进行数据提取、转化、加载，这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。Hive数据仓库工具能将结构化的数据文件映射为一张数据库表，并提供SQL查询功能，能将SQL语句转变成MapReduce任务来执行。

1.讲指定版本的Hive安装包解压到指定路径，添加系统并生效；
2.修改Hive运行环境

# 配置Hadoop安装路径

export HADOOP_HOME=????

# 配置Hive配置文件存放路径为conf

export HIVE_CONF_DIR=????

# 配置Hive运行资源库路径为lib

export HIVE_AUX_JARS_PATH=????

3.由于客户端需要和Hadoop通信，为避免jline版本冲突问题，将Hive中lib/jline-2.12.jar拷贝到Hadoop中，保留高版本.

考核条件如下：

1. 将Hive安装包解压到指定路径/usr/hive（安装包存放于/usr/package277/（1分）

*** 作环境: master、slave1

mkdir /usr/hive
tar -zxvf /usr/package277/apache-hive-2.3.4-bin.tar.gz -C /usr/hive/

2. 文件/etc/profile中配置环境变量HIVE_HOME,将Hive安装路径中的bin目录加入PATH系统变量，注意生效变量（2分）

*** 作环境: master、slave1

vim /etc/profile
加入：
#hive 
export HIVE_HOME=/usr/hive/apache-hive-2.3.4-bin 
export PATH=$PATH:$HIVE_HOME/bin
source /etc/profile

3. 修改HIVE运行环境，配置Hadoop安装路径HADOOP_HOME（2分）

*** 作环境: master、slave1

4. 修改HIVE运行环境，配置Hive配置文件存放路径HIVE_CONF_DIR（1分）

*** 作环境: master、slave1

5. 修改HIVE运行环境，配置Hive运行资源库路径HIVE_AUX_JARS_PATH（1分）

*** 作环境: master、slave1

3,4,5：

cd /usr/hive/apache-hive-2.3.4-bin/conf/
mv hive-env.sh.template hive-env.sh
echo "export HADOOP_HOME=/usr/hadoop/hadoop-2.7.7
export HIVE_CONF_DIR=/usr/hive/apache-hive-2.3.4-bin/conf
export HIVE_AUX_JARS_PATH=/usr/hive/apache-hive-2.3.4-bin/lib" >> hive-env.sh

6. 解决jline的版本冲突，将$HIVE_HOME/lib/jline-2.12.jar同步至$HADOOP_HOME/share/hadoop/yarn/lib/下（2分）

*** 作环境: master,slave1

cp /usr/hive/apache-hive-2.3.4-bin/lib/jline-2.12.jar /usr/hadoop/hadoop-2.7.7/share/hadoop/yarn/lib/

配置HIVE元数据至MySQL（8分）

1.slave1作为服务器端需要和Mysql通信，所以服务端需要将Mysql的依赖包放在Hive的lib目录下。
mysql-connector-java是MySQL的JDBC驱动包，用JDBC连接MySQL数据库时必须使用该jar包。

2.配置文件参考：







hive.metastore.warehouse.dir

????







javax.jdo.option.ConnectionDriverName

????







javax.jdo.option.ConnectionURL 

jdbc:mysql://????:3306/hive?createDatabaseIfNotExist=true&useSSL=false







javax.jdo.option.ConnectionUserName

????







javax.jdo.option.ConnectionPassword

????

考核条件如下：

1. 驱动JDBC拷贝至hive安装目录对应lib下（依赖包存放于/usr/package277/）（ 1分）

*** 作环境: slave1

cp /usr/package277/mysql-connector-java-5.1.47-bin.jar /usr/hive/apache-hive-2.3.4-bin/lib/

2. 配置元数据数据存储位置为/user/hive_remote/warehouse（1分）

*** 作环境: slave1

3. 配置数据库连接为MySQL（1分）

*** 作环境: slave1

4. 配置连接JDBC的URL地址主机名及默认端口号3306，数据库为hive，如不存在自行创建，ssl连接方式为false（1分）

*** 作环境: slave1

5. 配置数据库连接用户（2分）

*** 作环境: slave1

6. 配置数据库连接密码（2分）

*** 作环境: slave1

2,3,4,5,6：

vim hive-site.xml

插入：


  

    hive.metastore.warehouse.dir
    /user/hive_remote/warehouse

    

    javax.jdo.option.ConnectionURL
    jdbc:mysql://slave2:3306/hive?createDatabaseIfNotExist=true&characterEncoding=UTF-8&useSSL=false
	JDBC connect string for a JDBC metastore

    

    javax.jdo.option.ConnectionDriverName
    com.mysql.jdbc.Driver

    

    javax.jdo.option.ConnectionUserName
    root

    

    javax.jdo.option.ConnectionPassword
    123456
 

    hive.metastore.schema.verification
    false
 

    datanucleus.schema.autoCreateALL
    true

配置HIVE客户端（4分）

1.master作为客户端,可进入终端进行 *** 作；
2.关闭本地模式;
3.将hive.metastore.uris指向metastore服务器URL;
4.配置文件参考：







hive.metastore.warehouse.dir

????







hive.metastore.local

????







hive.metastore.uris

thrift://????

考核条件如下：

1. 配置元数据存储位置为/user/hive_remote/warehouse（1分）

*** 作环境: master

2. 关闭本地metastore模式（1分）

*** 作环境: master

3. 配置指向metastore服务的主机为slave1，端口为9083（2分）

*** 作环境: master

1,2,3：

vim hive-site.xml

插入：




    hive.metastore.warehouse.dir
    /user/hive_remote/warehouse

    


    hive.metastore.local
    false

 


    hive.metastore.uris
    thrift://slave1:9083

启动Hive（4分）

1.服务器端初始化数据库，并启动metastore服务;
2.客户端开启Hive client，即可根据创建相关数据 *** 作。

考核条件如下：

1. 服务器端初始化数据库，启动metastore服务（2分）

*** 作环境: slave1

schematool -dbType mysql -initSchema

2. 客户端开启进入hive，创建hive数据库（2分）

*** 作环境: master

bin/hive --service metastore &

bin/hive
create database hive;

成功！

题目五、Spark搭建（30分）

Spark 是一种与 Hadoop 相似的开源集群计算环境，但是两者之间还存在一些不同之处，这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越，换句话说，Spark 启用了内存分布数据集，除了能够提供交互式查询外，它还可以优化迭代工作负载。

Spark 是在 Scala 语言中实现的，它将 Scala 用作其应用程序框架。与 Hadoop 不同，Spark 和 Scala 能够紧密集成，其中的 Scala 可以像 *** 作本地集合对象一样轻松地 *** 作分布式数据集。

Scala安装（6分）

使用Scala语言来实现Spark。Scala(Scalable Language)是一种多范式的编程语言，其设计的初衷是要集成面向对象编程和函数式编程的各种特性。
Scala运行于Java平台(java虚拟机上)，并兼容现有的Java程序。
面向对象(将对象当作参数传来传去) + 面向函数(方法，可以将函数当作参数传来传去)

考核条件如下：

1. 将Scala安装包解压到指定路径/usr/scala（安装包存放于/usr/package277/）（3分）

*** 作环境: master、slave1、slave2

mkdir /usr/scala
tar -zxvf /usr/package277/scala-2.10.3.tgz -C /usr/scala/

2. 文件/etc/profile中配置环境变量SCALA_HOME，将Scala安装路径中的bin目录加入PATH系统变量，注意生效变量（3分）

*** 作环境: master、slave1、slave2

vim /etc/profile
加入：
#scala
export SCALA_HOME=/usr/scala/scala-2.10.3
export PATH=$PATH:$SCALA_HOME/bin
source /etc/profile

scala -version

Spark集群搭建（24分）

Spark是Hadoop的子项目。环境中将Spark安装到基于Linux的系统中。

2021年全国行业职业技能竞赛暨第四届全国大学生大数据技能竞赛——职教学生组线上选拔赛

发表评论

评论列表（0条）