hadoop集群搭建

hadoop集群搭建,第1张

hadoop集群搭建
省赛题目解析    根据赛后指导视频再一次过一遍省赛题目
0.赛前准备
  • 主机名的修改
hostnamectl set-hostname master
hostnamectl set-hostname slave1
hostnamectl set-hostname slave2
# 立即执行指令
bash
  • echo指令介绍
用来输入信息,也能通过一些符号有其他的作用 比如 echo "nihao" >> text . txt 就是把字符串 "你好" 添加到 text . txt 文 件末尾
  • hosts映射
# 编辑文件 所有节点都需要 vi /etc/hosts 
# 添加以下内容 
内网ip master
内网ip slave1
内网ip slave2
内网ip slave3
1.集群安装搭建
  • 1.1 基础环境配置
1. 更新本地源
# 发信号给yum进程
pkill -9 yum
# 进入yum源配置文件
cd /etc/yum.repos.d
# 删除所有文件
rm -rf *
# 下载yum源 注意链接要是对的
wget http://10.10.63.5:8000/bigdata/repofile/bigdata.repo
# 清除yum缓存
yum clean all
2. 关闭防火墙
# 关闭防火墙
systemctl stop firewalld
# 查看状态
systemctl status firewalld
3.hosts 添加映射
# 编辑文件
vi /etc/hosts
# 添加以下内容
内网ip master
内网ip slave1
内网ip slave2

4.时区更改

# 直接在环境变量的配置文件里面写内容就行
# 或者用下面指令一步到位
echo "TZ='Asia/Shanghai';export TZ" >> /etc/profile && source/etc/profile
5. 安装 ntp
yum install -y ntp
6. 屏蔽默认 server ,设置 master 为本地时钟源,层级为 10
# 编辑ntp的配置文件
vi /etc/ntp.conf
# 注释掉默认配置
# server 0.centos.pool.ntp.org iburst
# server 1.centos.pool.ntp.org iburst
# server 2.centos.pool.ntp.org iburst
# server 3.centos.pool.ntp.org iburst
# 添加下面
server 127.127.1.0 # 本地时钟源
fudge 127.127.1.0 stratum 10 # stratum层级,其范围为0~15
7. 开启 ntp 服务
systemctl restart ntpd.service
8. 在早八 - 晚五时间段内每隔半个小时同步 — 次时间  
# 编写定时任务
crontab -e
# 编辑模式
i
# 指令 在两个子节点上创建任务去同步主节点的时间
*/30 8-17 * * * /usr/sbin/ntpdate master

# * 取值范围内的所有数字 / 每过多少个数字 - 从X到Z ,散列数字
# 更多 crontab 的例子
# 每一分钟执行一次 /bin/ls
* * * * * /bin/ls

# 在 12 月内, 每天的早上 6 点到 12 点,每隔 3 个小时 0 分钟执行一
次 /usr/bin/backup
0 6-12/3 * 12 * /usr/bin/backup

# 周一到周五每天下午 5:00 寄一封信给 alex@domain.name
0 17 * * 1-5 mail -s "hi" alex@domain.name < /tmp/maildata

# 每月每天的午夜 0 点 20 分, 2 点 20 分, 4 点 20 分....执行 echo
"haha"
20 0-23/2 * * * echo "haha"

# 每两个小时重启一次apache
0 */2 * * * /sbin/service httpd restart

# 每月1号和15号检查/home 磁盘
0 0 1,15 * * fsck /home

# 每隔两天的上午8点到11点的第3和第15分钟执行
3,15 8-11 */2 * * myCommand

9.ssh免密

# 在 master 上执行如下命令生成公私密钥
ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa
# 秘钥添加到认真文件中
cat /root/.ssh/id_dsa.pub >> /root/.ssh/authorized_keys
# 把主节点秘钥发送到子节点中 会提示输入密码
scp ~/.ssh/authorized_keys root@slave1:~/.ssh/
scp ~/.ssh/authorized_keys root@slave2:~/.ssh/

# 貌似就只要主节点访问子节点就行 可以吧所有节点的秘钥添加到
authorized_keys文件中然后把这个文件分发到每一台机子上,貌似还有个
slave3节点也可以先弄了

11,12,13 Java的安装

# 三台机子都要
# 创建目录
mkdir -p /usr/java && cd /usr/java

# 从本地源下载安装包 注意IP地址
wget http://10.10.63.5:8000/bigdata/bigdata_tar/jdk-8u171-
linux-x64.tar.gz
tar -zxvf jdk-8u171-linux-x64.tar.gz -C /usr/java/
rm -rf /usr/java/jdk-8u171-linux-x64.tar.gz

# 编辑环境变量
vim /etc/profile
:$   # 跳到最后一行
o    # 在下一行开始编辑

# 添加下面内容
export JAVA_HOME=/usr/java/jdk1.8.0_171
export CLASSPATH=$JAVA_HOME/lib/
export PATH=$PATH:$JAVA_HOME/bin
export PATH JAVA_HOME CLASSPATH

# 刷新环境变量
source /etc/profile
java -version

# 下载可以同时进行也可以主节点下载在分发到子节点,不过子节点的环境变
量还是要自己配的
scp -r /usr/java root@slave1:/usr/
scp -r /usr/java root@slave2:/usr/
  • 1.2 zookeeper集群环境搭建
下载安装配置环境变量
# 首先创建zookeeper的工作路径
mkdir -p /usr/zookeeper && cd /usr/zookeeper

# 从本地源下载安装包 注意IP地址
wget http://10.10.63.5:8000/bigdata/bigdata_tar/zookeeper-3.4.10.tar.gz

# 解压到/usr/zookeeper
tar -zxvf /usr/zookeeper/zookeeper-3.4.10.tar.gz -C/usr/zookeeper
rm -rf /usr/zookeeper/zookeeper-3.4.10.tar.gz

# 配置环境变量
vim /etc/profile
export ZOOKEEPER_HOME=/usr/zookeeper/zookeeper-3.4.10
PATH=$PATH:$ZOOKEEPER_HOME/bin


source /etc/profile

zoo.cfg 配置文件

cd /usr/zookeeper/zookeeper-3.4.10/conf
# mv zoo_sample.cfg zoo.cfg 直接写一个文件更方便
vi zoo.cfg

# 添加下面内容
tickTime=2000
initLimit=10
syncLimit=5
clientPort=2181
dataDir=/usr/zookeeper/zookeeper-3.4.10/zkdata
dataLogDir=/usr/zookeeper/zookeeper-3.4.10/zkdatalog
server.1=master:2888:3888
server.2=slave1:2888:3888
server.3=slave2:2888:3888
创建对应目录
cd /usr/zookeeper/zookeeper-3.4.10 && mkdir zkdata zkdatalog
配置 myid
# 在每一台机子的 zkdata目录下创建 myid 文件对应的是配置文件的 myid

cd zkdata
# master -> 1 slave1 -> 2 slave2 -> 3
echo 1 >> myid
echo 2 >> myid
echo 3 >> myid
启动 zookeeper
cd /usr/zookeeper/zookeeper-3.4.10
# 启动
zkServer.sh start
# 查看状态
zkServer.sh status
1.3Hadoop 集群环境搭建 下载安装配置环境变量
mkdir -p /usr/hadoop && cd /usr/hadoop
# 从本地源下载安装包 注意IP地址
wget http://10.10.63.5:8000/bigdata/bigdata_tar/hadoop-2.7.3.tar.gz
tar -zxvf hadoop-2.7.3.tar.gz -C /usr/hadoop/
rm -rf /usr/hadoop/hadoop-2.7.3.tar.gz

# 配置环境变量
vim /etc/profile
:$ # 跳到最后一行
o # 在下一行开始编辑

export HADOOP_HOME=/usr/hadoop/hadoop-2.7.3
export CLASSPATH=$CLASSPATH:$HADOOP_HOME/lib
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

source /etc/profile
cd $HADOOP_HOME/etc/hadoop
配置文件
所有机器都要配置
  • hadoop-env.sh 配置Hadoop运行环境
# 修改
export JAVA_HOME=${JAVA_HOME}
# 为
export JAVA_HOME=/usr/java/jdk1.8.0_171

# 或者使用指令直接写入
cd $HADOOP_HOME/etc/hadoop
echo "export JAVA_HOME=/usr/java/jdk1.8.0_171" >> hadoop-env.sh
  • core-site.xml
 




  
  
      fs.default.name
      hdfs://master:9000
  
  
  
      hadoop.tmp.dir
      /usr/hadoop/hadoop-2.7.3/hdfs/tmp
  
  
      io.file.buffer.size
      131072
  
  
      fs.checkpoint.period
      60
  
  
      fs.checkpoint.size
      67108864
  
  • hdfs-site.xml



        
        
                dfs.replication
                2
        
        
        
                dfs.namenode.name.dir
                file:/usr/hadoop/hadoop-2.7.3/hdfs/name
        
        
        
                dfs.datanode.data.dir
                file:/usr/hadoop/hadoop-2.7.3/hdfs/data
        
  • yarn-env.sh
 echo "export JAVA_HOME=/usr/java/jdk1.8.0_171" >> yarn-env.sh
  • yarn-site.xml


    
    
        yarn.resourcemanager.address
        master:18040
    
    
        yarn.resourcemanager.scheduler.address
        master:18030
    
    
        yarn.resourcemanager.webapp.address
        master:18088
    
    
        yarn.resourcemanager.resource-tracker.address
        master:18025
    
    
    
        yarn.resourcemanager.admin.address
        master:18141
    
    
    
        yarn.nodemanager.aux-services
        mapreduce_shuffle
    
    
        yarn.nodemanager.auxservices.mapreduce.shuffle.class
        org.apache.hadoop.mapred.ShuffleHandler
    
  • mapred-site.xml



    
        
        mapreduce.framework.name
        yarn
    
  • 设置节点文件
# 在 master 文件中写入 master,在 slave文件中写入 slave1 slave2
cd $HADOOP_HOME/etc/hadoop
echo master >> master && echo slave1 >> slave && echo slave2 >>
slave
格式化
# 主节点执行
cd /usr/hadoop/hadoop-2.7.3
hadoop namenode -format

cd /usr/hadoop/hadoop-2.7.3/sbin
start-all.sh
2.构建数据
  • 2.1安装数据仓库
# mysql 的基 *** 了 **在 slave2上 *** 作**
# 下载
yum -y install mysql-community-server

# 重启服务
systemctl daemon-reload

# 开启服务
systemctl start mysqld
systemctl ststus mysqld

# 开机自启动
systemctl enable mysqld

# 查看初始 随机的 密码
grep "temporary password" /var/log/mysqld.log

# 登录
mysql -uroot -p

# 设置密码强度为低级
set global validate_password_policy=0;

# 设置密码长度
set global validate_password_length=4;

# 修改本地密码
alter user 'root'@'localhost' identified by '123456';

# 退出终端
q

# 重新登录
mysql -uroot -p123456

# 创建用户
create user 'root'@'%' identified by '123456';

# 允许远程连接
grant all privileges on *.* to 'root'@'%' with grant option;

# 刷新权限
flush privileges;

# 创建数据库hongyaa
create database hongyaa;
  • 2.2 hive环境配置
下载安装配环境  
# 在 master和slave1 上 *** 作
mkdir -p /usr/hive && cd /usr/hive

# 从本地源下载安装包 注意IP地址
wget http://10.10.63.5:8000/bigdata/bigdata_tar/apache-hive-2.1.1-bin.tar.gz
tar -zxvf apache-hive-2.1.1-bin.tar.gz -C /usr/hive
rm -rf /usr/hbase/apache-hive-2.1.1-bin.tar.gz

# 配置环境变量
vim /etc/profile
:$
o
export HIVE_HOME=/usr/hive/apache-hive-2.1.1-bin
export PATH=$PATH:$HIVE_HOME/bin

source /etc/profile

修改运行环境和解决冲突

# 新建配置文件
cd $HIVE_HOME/conf $$ vim hive-env.sh

# 添加下面配置
# 配置 Hadoop安装路径
export HADOOP_HOME=/usr/hadoop/hadoop-2.7.3

# 配置 hive配置文件存放路径
export HIVE_CONF_DIR=/usr/hive/apache-hive-2.1.1-bin/conf

# 配置 hive运行资源库路径
export HIVE_AUX_JARS_PATH=/usr/hive/apache-hive-2.1.1-bin/lib

# 解决高版本冲突 指令
cp $HIVE_HOME/lib/jline-2.12.jar
$HIVE_HOME/share/hadoop/yarn/lib/
2.3 配置 hive 元数据到 mysql 
slave2 安装 mysql slave1 作为服务器连接 mysql master 作为客户端连接服务器,输入 *** 作指令
# slave1 进行 *** 作
cd /usr/hive/apache-hive-2.1.1-bin/lib
# 注意ip地址
wget http://10.10.63.5:8000/bigdata/bigdata_tar/mysql-connector-java-5.1.47-bin.jar

cd /usr/hive/apache-hive-2.1.1-bin/conf
vi hive-site.xml

# 添加以下内容

    
    
        hive.metastore.warehouse.dir
        /user/hive_remote/warehouse
    
    
    
        javax.jdo.option.ConnectionURL
        jdbc:mysql://slave2:3306/hive?
  createDatabaseIfNotExist=true&useSSL=false
    
    
    
        javax.jdo.option.ConnectionDriverName
        com.mysql.jdbc.Driver
    
    
    
        javax.jdo.option.ConnectionUserName
        root
    
    
    
        javax.jdo.option.ConnectionPassword
        123456
        
2.4 配置 hive 客户端
# master  *** 作
cd /usr/hive/apache-hive-2.1.1-bin/conf
vi hive-site.xml

# 添加以下内容

    
    
        hive.metastore.warehouse.dir
        /user/hive_remote/warehouse
    
    
    
        hive.metastore.local
        false
    
    
    
        hive.metastore.uris
        thrift://slave1:9083
    
  • 2.5 启动hive
# 初始化数据库

# slave1  *** 作
cd $HIVE_HOME

# 格式化数据库
schematool -dbType mysql -initSchema

# 开启服务
hive --service metastore

# master  *** 作
# 开启终端
hive

# 创建数据库
show databases;
create database student;
3.爬虫
3.1.1 爬取数据 难度不大,不过数据量有点多 ( 最后官方是 1274 条数据 ) , for 爬取的时候注意一下最 大值。 3.1.2 导入数据  
# 假设数据已经爬取下来了
# 创建数据库表
create database shopxo;
use shopxo;
create table goods(
    id int,
    title string,
    price double,
    views int,
    sales int,
    stock int
) row format delimited fields terminated by ',';

# 查看表结构
desc shopxo.goods;

# 导入数据
load data local inpath '/root/college020/goods.txt' into tablegoods;

# 验证总行数
insert overwrite local directory '/root/college021/' row
format delimited fields terminated by 't'
select count(*) from goods;

# id升序检查前三条
insert overwrite local directory '/root/college022/' row
format delimited fields terminated by 't'
select * from goods limit 3;
3.1.3 数据清洗
# 查找缺失值,将表中价格为空(null)的数据,写入至/root/college023/
insert overwrite local directory '/root/college023/' row
format delimited fields terminated by 't'
select * from goods where price is null;

# 缺失值处理,title中去除"连衣裙"、"女士"及空值null数据,创建中间
表goods1,存放过滤后的数据
create table goods1 as
select * from goods where title not like "%连衣裙%"
and title not like "%女士%"
and price is not null;

# 对中间表数据所有行进行统计,结果写入/rootlcollege024/
insert overwrite local directory '/root/college024/' rowformat
delimited fields terminated by 't'
select count(*) from goods1;
3.1.4 数据分析
# 查询中间表goods1,按照价格降序查找前三条商品信息(去重),格式为tile
price。结果写入/root/college025/

insert overwrite local directory '/root/college025/' row format
delimited fields terminated by 't'
select distinct title,price from goods1 order by price desc
limit 3;
3.1.5 数据切分
# 第一个元素title[0]作为对应商品品牌,对各品牌进行计数统计,将TOP10写入/root/college026/

insert overwrite local directory '/root/college026/'
row format delimitedb fields terminated by 't'
select t1.categray,count(*) count
from (select split(title,' ')[0] as categray from goods1 ) t1
group by t1.categray order by count desc limit 10;


# 对上题排名第一的品牌进行分析,根据其商品特征前6名进行特征统计,结果写入/root/college027/

insert overwrite local directory '/root/college027/'
row format delimitedb fields terminated by 't'
select persona ,count(*) num from (
select explode(split(title,' '))as persona from goods1
where title rlike"华为HUAWEI")a where persona !="华为HUAWEI"
group by persona order by num desc limit 6;
3.1.6 数据可视化  
// https://echarts.apache.org/examples/zh/editor.html?c=pie-
simple
option = {
    title: {
        text: '商品画像',
        left: 'center'
    },
    tooltip: {
        trigger: 'item',
        formatter: '{a} 
{b} : {c} ({d}%)' }, legend: { orient: 'vertical', left: 'left', data: ['MateBook', '512G', '14', '触控屏', '16G', 'mx350'] }, series: [ { name: '访问来源', type: 'pie', radius: '55%', center: ['50%', '60%'], data: [ {value: 150, name: 'MateBook'}, {value: 150, name: '512G'}, {value: 150, name: '14'}, {value: 120, name: '触控屏'}, {value: 120, name: '16G'}, {value: 120, name: 'mx350'} ] } ] };
4.数据分析
  • 4.1下载数据
    # master 节点执行 推荐重新开一个连接 之前的连接了hive之后还要用
    wget http://47.92.1.221/bigdata/data/loan.csv
    # 查看当前位置
    pwd
    
    # Hadoop创建文件夹
    hadoop fs -mkdir -p /college
    # 把文件上传到Hadoop中 注意文件的路径
    hadoop fs -put /root/loan.csv /college/
    # 查看
    hadoop fs -ls /college/
    # 查看前5条数据
    head -n 5 loan.csv
    
    # 在hive中创建数据库和表
    create database hive;
    use hive;
    create table loan(
        LoanStatus string,
        BorrowerRate decimal(10,5),
        ProsperScore int,
        Occupation string,
        EmploymentStatus string,
        IsBorrowerHomeowner string,
        CreditScoreRangeLower int,
        CreditScoreRangeUpper int,
        IncomeRange string
    ) row format delimited fields terminated by ',';
    
    # 数据导入到表中
    load data local inpath '/root/loan.csv' into table loan;
    
    # 统计结果写到本地
    insert overwrite local directory '/root/college000/' row
    format delimited fields terminated by 't'
    select count(*) from loan;
  • 4.2 贷款数据分析和可视化
# 以信用得分ProsperScore为变量,对借款进行计数统计(降序),结果写入
本地/root/college001/中

insert overwrite local directory '/root/college000/' row format
delimited fields terminated by 't'
select ProsperScore, count(*) as s from loan
group by ProsperScore
order by s desc;

# 解析 前面的指令就是写入到本地的意思 后面的数据分析其实就是sql语
句编写
5.动态增删节点
  • 5.1集群添加节点
# 配置本地源
pkill -9 yum && cd /etc/yum.repos.d && rm -rf * && wget
http://10.10.63.5:8000/bigdata/repofile/bigdata.repo
# 等本地源下载完毕在清缓存
yum clean all

# 关闭防火墙
systemctl stop firewalld

# 修改主机名
hostnamectl set-hostname slave3 && bash

# hosts映射 所有机子都要改

# 时区修改
echo "TZ='Asia/Shanghai';export TZ" >> /etc/profile && source/etc/profile

# 安装ntp
yum install -y ntp && ntpdate master

# 10分钟同步一次
crontab -e
*/10 * * * * /usr/sbin/ntpdate master

# ssh授权 master上执行
scp ~/.ssh/authorized_keys root@slave3:~/.ssh/

# 安装jdk和hadoop master 远程复制
scp -r /usr/java root@slave3:/usr/
scp -r /usr/hadoop root@slave3:/usr/

# 添加环境变量
vim /etc/profile
export JAVA_HOME=/usr/java/jdk1.8.0_171
export CLASSPATH=$JAVA_HOME/lib/
export PATH=$PATH:$JAVA_HOME/bin
export PATH JAVA_HOME CLASSPATH
export HADOOP_HOME=/usr/hadoop/hadoop-2.7.3
export CLASSPATH=$CLASSPATH:$HADOOP_HOME/lib
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

source /etc/profile

# slave3 清除临时数据节点
rm -rf $HADOOP_HOME/hdfs/

# master slave1 slave2 slave3 添加节点信息
cd $HADOOP_HOME/etc/hadoop && echo slave3 >> slave

# slave3 开启datanode
$HADOOP_HOME/sbin/hadoop-daemon.sh start datanode
$HADOOP_HOME/sbin/yarn-daemon.sh start nodemanager

# master 查看集群节点信息
hdfs dfsadmin -report

# master 刷新配置
hdfs dfsadmin -refreshNodes
  • 5.2集群删除节点
# master 节点 配置文件修改
cd $HADOOP_HOME/etc/hadoop && vi hdfs-site.xml

# 添加一个配置

    dfs.hosts.exclude
    /usr/hadoop/hadoop-2.7.3/hadoop/excludes


# 创建对应的文件
vi /usr/hadoop/hadoop-2.7.3/hadoop/excludes

# 写入要删除的节点名称
slave2

# 重新刷新节点和配置
hdfs dfsadmin -refreshNodes

# master 查看集群节点信息
hdfs dfsadmin -report

# 可以看到slave2 的状态是 Decommissioned(退役)

# 等一会 slave2 退役完成之后再关闭slave2 的节点 slave2 执行
cd $HADOOP_HOME/sbin
hadoop-daemon.sh stop datanode
yarn-daemon.sh stop nodemanager

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zaji/5652822.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-12-16
下一篇 2022-12-16

发表评论

登录后才能评论

评论列表(0条)

保存