省赛题目解析 根据赛后指导视频再一次过一遍省赛题目0.赛前准备
- 主机名的修改
hostnamectl set-hostname master hostnamectl set-hostname slave1 hostnamectl set-hostname slave2 # 立即执行指令 bash
- echo指令介绍
用来输入信息,也能通过一些符号有其他的作用 比如 echo "nihao" >> text . txt 就是把字符串 "你好" 添加到 text . txt 文 件末尾
- hosts映射
# 编辑文件 所有节点都需要 vi /etc/hosts # 添加以下内容 内网ip master 内网ip slave1 内网ip slave2 内网ip slave31.集群安装搭建
- 1.1 基础环境配置
# 发信号给yum进程 pkill -9 yum # 进入yum源配置文件 cd /etc/yum.repos.d # 删除所有文件 rm -rf * # 下载yum源 注意链接要是对的 wget http://10.10.63.5:8000/bigdata/repofile/bigdata.repo # 清除yum缓存 yum clean all2. 关闭防火墙
# 关闭防火墙 systemctl stop firewalld # 查看状态 systemctl status firewalld3.hosts 添加映射
# 编辑文件 vi /etc/hosts # 添加以下内容 内网ip master 内网ip slave1 内网ip slave2
4.时区更改
# 直接在环境变量的配置文件里面写内容就行 # 或者用下面指令一步到位 echo "TZ='Asia/Shanghai';export TZ" >> /etc/profile && source/etc/profile5. 安装 ntp
yum install -y ntp6. 屏蔽默认 server ,设置 master 为本地时钟源,层级为 10
# 编辑ntp的配置文件 vi /etc/ntp.conf # 注释掉默认配置 # server 0.centos.pool.ntp.org iburst # server 1.centos.pool.ntp.org iburst # server 2.centos.pool.ntp.org iburst # server 3.centos.pool.ntp.org iburst # 添加下面 server 127.127.1.0 # 本地时钟源 fudge 127.127.1.0 stratum 10 # stratum层级,其范围为0~157. 开启 ntp 服务
systemctl restart ntpd.service8. 在早八 - 晚五时间段内每隔半个小时同步 — 次时间
# 编写定时任务 crontab -e # 编辑模式 i # 指令 在两个子节点上创建任务去同步主节点的时间 */30 8-17 * * * /usr/sbin/ntpdate master
# * 取值范围内的所有数字 / 每过多少个数字 - 从X到Z ,散列数字 # 更多 crontab 的例子 # 每一分钟执行一次 /bin/ls * * * * * /bin/ls # 在 12 月内, 每天的早上 6 点到 12 点,每隔 3 个小时 0 分钟执行一 次 /usr/bin/backup 0 6-12/3 * 12 * /usr/bin/backup # 周一到周五每天下午 5:00 寄一封信给 alex@domain.name 0 17 * * 1-5 mail -s "hi" alex@domain.name < /tmp/maildata # 每月每天的午夜 0 点 20 分, 2 点 20 分, 4 点 20 分....执行 echo "haha" 20 0-23/2 * * * echo "haha" # 每两个小时重启一次apache 0 */2 * * * /sbin/service httpd restart # 每月1号和15号检查/home 磁盘 0 0 1,15 * * fsck /home # 每隔两天的上午8点到11点的第3和第15分钟执行 3,15 8-11 */2 * * myCommand
9.ssh免密
# 在 master 上执行如下命令生成公私密钥 ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa # 秘钥添加到认真文件中 cat /root/.ssh/id_dsa.pub >> /root/.ssh/authorized_keys # 把主节点秘钥发送到子节点中 会提示输入密码 scp ~/.ssh/authorized_keys root@slave1:~/.ssh/ scp ~/.ssh/authorized_keys root@slave2:~/.ssh/ # 貌似就只要主节点访问子节点就行 可以吧所有节点的秘钥添加到 authorized_keys文件中然后把这个文件分发到每一台机子上,貌似还有个 slave3节点也可以先弄了
11,12,13 Java的安装
# 三台机子都要 # 创建目录 mkdir -p /usr/java && cd /usr/java # 从本地源下载安装包 注意IP地址 wget http://10.10.63.5:8000/bigdata/bigdata_tar/jdk-8u171- linux-x64.tar.gz tar -zxvf jdk-8u171-linux-x64.tar.gz -C /usr/java/ rm -rf /usr/java/jdk-8u171-linux-x64.tar.gz # 编辑环境变量 vim /etc/profile :$ # 跳到最后一行 o # 在下一行开始编辑 # 添加下面内容 export JAVA_HOME=/usr/java/jdk1.8.0_171 export CLASSPATH=$JAVA_HOME/lib/ export PATH=$PATH:$JAVA_HOME/bin export PATH JAVA_HOME CLASSPATH # 刷新环境变量 source /etc/profile java -version # 下载可以同时进行也可以主节点下载在分发到子节点,不过子节点的环境变 量还是要自己配的 scp -r /usr/java root@slave1:/usr/ scp -r /usr/java root@slave2:/usr/
- 1.2 zookeeper集群环境搭建
# 首先创建zookeeper的工作路径 mkdir -p /usr/zookeeper && cd /usr/zookeeper # 从本地源下载安装包 注意IP地址 wget http://10.10.63.5:8000/bigdata/bigdata_tar/zookeeper-3.4.10.tar.gz # 解压到/usr/zookeeper tar -zxvf /usr/zookeeper/zookeeper-3.4.10.tar.gz -C/usr/zookeeper rm -rf /usr/zookeeper/zookeeper-3.4.10.tar.gz # 配置环境变量 vim /etc/profile export ZOOKEEPER_HOME=/usr/zookeeper/zookeeper-3.4.10 PATH=$PATH:$ZOOKEEPER_HOME/bin source /etc/profile
zoo.cfg 配置文件
cd /usr/zookeeper/zookeeper-3.4.10/conf # mv zoo_sample.cfg zoo.cfg 直接写一个文件更方便 vi zoo.cfg # 添加下面内容 tickTime=2000 initLimit=10 syncLimit=5 clientPort=2181 dataDir=/usr/zookeeper/zookeeper-3.4.10/zkdata dataLogDir=/usr/zookeeper/zookeeper-3.4.10/zkdatalog server.1=master:2888:3888 server.2=slave1:2888:3888 server.3=slave2:2888:3888创建对应目录
cd /usr/zookeeper/zookeeper-3.4.10 && mkdir zkdata zkdatalog配置 myid
# 在每一台机子的 zkdata目录下创建 myid 文件对应的是配置文件的 myid cd zkdata # master -> 1 slave1 -> 2 slave2 -> 3 echo 1 >> myid echo 2 >> myid echo 3 >> myid启动 zookeeper
cd /usr/zookeeper/zookeeper-3.4.10 # 启动 zkServer.sh start # 查看状态 zkServer.sh status1.3Hadoop 集群环境搭建 下载安装配置环境变量
mkdir -p /usr/hadoop && cd /usr/hadoop # 从本地源下载安装包 注意IP地址 wget http://10.10.63.5:8000/bigdata/bigdata_tar/hadoop-2.7.3.tar.gz tar -zxvf hadoop-2.7.3.tar.gz -C /usr/hadoop/ rm -rf /usr/hadoop/hadoop-2.7.3.tar.gz # 配置环境变量 vim /etc/profile :$ # 跳到最后一行 o # 在下一行开始编辑 export HADOOP_HOME=/usr/hadoop/hadoop-2.7.3 export CLASSPATH=$CLASSPATH:$HADOOP_HOME/lib export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin source /etc/profile cd $HADOOP_HOME/etc/hadoop配置文件
所有机器都要配置
- hadoop-env.sh 配置Hadoop运行环境
# 修改 export JAVA_HOME=${JAVA_HOME} # 为 export JAVA_HOME=/usr/java/jdk1.8.0_171 # 或者使用指令直接写入 cd $HADOOP_HOME/etc/hadoop echo "export JAVA_HOME=/usr/java/jdk1.8.0_171" >> hadoop-env.sh
- core-site.xml
fs.default.name hdfs://master:9000 hadoop.tmp.dir /usr/hadoop/hadoop-2.7.3/hdfs/tmp io.file.buffer.size 131072 fs.checkpoint.period 60 fs.checkpoint.size 67108864
- hdfs-site.xml
dfs.replication 2 dfs.namenode.name.dir file:/usr/hadoop/hadoop-2.7.3/hdfs/name dfs.datanode.data.dir file:/usr/hadoop/hadoop-2.7.3/hdfs/data
- yarn-env.sh
echo "export JAVA_HOME=/usr/java/jdk1.8.0_171" >> yarn-env.sh
- yarn-site.xml
yarn.resourcemanager.address master:18040 yarn.resourcemanager.scheduler.address master:18030 yarn.resourcemanager.webapp.address master:18088 yarn.resourcemanager.resource-tracker.address master:18025 yarn.resourcemanager.admin.address master:18141 yarn.nodemanager.aux-services mapreduce_shuffle yarn.nodemanager.auxservices.mapreduce.shuffle.class org.apache.hadoop.mapred.ShuffleHandler
- mapred-site.xml
mapreduce.framework.name yarn
- 设置节点文件
# 在 master 文件中写入 master,在 slave文件中写入 slave1 slave2 cd $HADOOP_HOME/etc/hadoop echo master >> master && echo slave1 >> slave && echo slave2 >> slave格式化
# 主节点执行 cd /usr/hadoop/hadoop-2.7.3 hadoop namenode -format cd /usr/hadoop/hadoop-2.7.3/sbin start-all.sh2.构建数据库
- 2.1安装数据仓库
# mysql 的基 *** 了 **在 slave2上 *** 作** # 下载 yum -y install mysql-community-server # 重启服务 systemctl daemon-reload # 开启服务 systemctl start mysqld systemctl ststus mysqld # 开机自启动 systemctl enable mysqld # 查看初始 随机的 密码 grep "temporary password" /var/log/mysqld.log # 登录 mysql -uroot -p # 设置密码强度为低级 set global validate_password_policy=0; # 设置密码长度 set global validate_password_length=4; # 修改本地密码 alter user 'root'@'localhost' identified by '123456'; # 退出终端 q # 重新登录 mysql -uroot -p123456 # 创建用户 create user 'root'@'%' identified by '123456'; # 允许远程连接 grant all privileges on *.* to 'root'@'%' with grant option; # 刷新权限 flush privileges; # 创建数据库hongyaa create database hongyaa;
- 2.2 hive环境配置
# 在 master和slave1 上 *** 作 mkdir -p /usr/hive && cd /usr/hive # 从本地源下载安装包 注意IP地址 wget http://10.10.63.5:8000/bigdata/bigdata_tar/apache-hive-2.1.1-bin.tar.gz tar -zxvf apache-hive-2.1.1-bin.tar.gz -C /usr/hive rm -rf /usr/hbase/apache-hive-2.1.1-bin.tar.gz # 配置环境变量 vim /etc/profile :$ o export HIVE_HOME=/usr/hive/apache-hive-2.1.1-bin export PATH=$PATH:$HIVE_HOME/bin source /etc/profile
修改运行环境和解决冲突
# 新建配置文件 cd $HIVE_HOME/conf $$ vim hive-env.sh # 添加下面配置 # 配置 Hadoop安装路径 export HADOOP_HOME=/usr/hadoop/hadoop-2.7.3 # 配置 hive配置文件存放路径 export HIVE_CONF_DIR=/usr/hive/apache-hive-2.1.1-bin/conf # 配置 hive运行资源库路径 export HIVE_AUX_JARS_PATH=/usr/hive/apache-hive-2.1.1-bin/lib # 解决高版本冲突 指令 cp $HIVE_HOME/lib/jline-2.12.jar $HIVE_HOME/share/hadoop/yarn/lib/2.3 配置 hive 元数据到 mysql
slave2 安装 mysql slave1 作为服务器连接 mysql master 作为客户端连接服务器,输入 *** 作指令
# slave1 进行 *** 作 cd /usr/hive/apache-hive-2.1.1-bin/lib # 注意ip地址 wget http://10.10.63.5:8000/bigdata/bigdata_tar/mysql-connector-java-5.1.47-bin.jar cd /usr/hive/apache-hive-2.1.1-bin/conf vi hive-site.xml # 添加以下内容2.4 配置 hive 客户端hive.metastore.warehouse.dir /user/hive_remote/warehouse javax.jdo.option.ConnectionURL jdbc:mysql://slave2:3306/hive? createDatabaseIfNotExist=true&useSSL=false javax.jdo.option.ConnectionDriverName com.mysql.jdbc.Driver javax.jdo.option.ConnectionUserName root javax.jdo.option.ConnectionPassword 123456
# master *** 作 cd /usr/hive/apache-hive-2.1.1-bin/conf vi hive-site.xml # 添加以下内容hive.metastore.warehouse.dir /user/hive_remote/warehouse hive.metastore.local false hive.metastore.uris thrift://slave1:9083
- 2.5 启动hive
# 初始化数据库 # slave1 *** 作 cd $HIVE_HOME # 格式化数据库 schematool -dbType mysql -initSchema # 开启服务 hive --service metastore # master *** 作 # 开启终端 hive # 创建数据库 show databases; create database student;3.爬虫
3.1.1 爬取数据 难度不大,不过数据量有点多 ( 最后官方是 1274 条数据 ) , for 爬取的时候注意一下最 大值。 3.1.2 导入数据
# 假设数据已经爬取下来了 # 创建数据库表 create database shopxo; use shopxo; create table goods( id int, title string, price double, views int, sales int, stock int ) row format delimited fields terminated by ','; # 查看表结构 desc shopxo.goods; # 导入数据 load data local inpath '/root/college020/goods.txt' into tablegoods; # 验证总行数 insert overwrite local directory '/root/college021/' row format delimited fields terminated by 't' select count(*) from goods; # id升序检查前三条 insert overwrite local directory '/root/college022/' row format delimited fields terminated by 't' select * from goods limit 3;3.1.3 数据清洗
# 查找缺失值,将表中价格为空(null)的数据,写入至/root/college023/ insert overwrite local directory '/root/college023/' row format delimited fields terminated by 't' select * from goods where price is null; # 缺失值处理,title中去除"连衣裙"、"女士"及空值null数据,创建中间 表goods1,存放过滤后的数据 create table goods1 as select * from goods where title not like "%连衣裙%" and title not like "%女士%" and price is not null; # 对中间表数据所有行进行统计,结果写入/rootlcollege024/ insert overwrite local directory '/root/college024/' rowformat delimited fields terminated by 't' select count(*) from goods1;3.1.4 数据分析
# 查询中间表goods1,按照价格降序查找前三条商品信息(去重),格式为tile price。结果写入/root/college025/ insert overwrite local directory '/root/college025/' row format delimited fields terminated by 't' select distinct title,price from goods1 order by price desc limit 3;3.1.5 数据切分
# 第一个元素title[0]作为对应商品品牌,对各品牌进行计数统计,将TOP10写入/root/college026/ insert overwrite local directory '/root/college026/' row format delimitedb fields terminated by 't' select t1.categray,count(*) count from (select split(title,' ')[0] as categray from goods1 ) t1 group by t1.categray order by count desc limit 10; # 对上题排名第一的品牌进行分析,根据其商品特征前6名进行特征统计,结果写入/root/college027/ insert overwrite local directory '/root/college027/' row format delimitedb fields terminated by 't' select persona ,count(*) num from ( select explode(split(title,' '))as persona from goods1 where title rlike"华为HUAWEI")a where persona !="华为HUAWEI" group by persona order by num desc limit 6;3.1.6 数据可视化
// https://echarts.apache.org/examples/zh/editor.html?c=pie- simple option = { title: { text: '商品画像', left: 'center' }, tooltip: { trigger: 'item', formatter: '{a}4.数据分析
{b} : {c} ({d}%)' }, legend: { orient: 'vertical', left: 'left', data: ['MateBook', '512G', '14', '触控屏', '16G', 'mx350'] }, series: [ { name: '访问来源', type: 'pie', radius: '55%', center: ['50%', '60%'], data: [ {value: 150, name: 'MateBook'}, {value: 150, name: '512G'}, {value: 150, name: '14'}, {value: 120, name: '触控屏'}, {value: 120, name: '16G'}, {value: 120, name: 'mx350'} ] } ] };
- 4.1下载数据
# master 节点执行 推荐重新开一个连接 之前的连接了hive之后还要用 wget http://47.92.1.221/bigdata/data/loan.csv # 查看当前位置 pwd # Hadoop创建文件夹 hadoop fs -mkdir -p /college # 把文件上传到Hadoop中 注意文件的路径 hadoop fs -put /root/loan.csv /college/ # 查看 hadoop fs -ls /college/ # 查看前5条数据 head -n 5 loan.csv # 在hive中创建数据库和表 create database hive; use hive; create table loan( LoanStatus string, BorrowerRate decimal(10,5), ProsperScore int, Occupation string, EmploymentStatus string, IsBorrowerHomeowner string, CreditScoreRangeLower int, CreditScoreRangeUpper int, IncomeRange string ) row format delimited fields terminated by ','; # 数据导入到表中 load data local inpath '/root/loan.csv' into table loan; # 统计结果写到本地 insert overwrite local directory '/root/college000/' row format delimited fields terminated by 't' select count(*) from loan;
- 4.2 贷款数据分析和可视化
# 以信用得分ProsperScore为变量,对借款进行计数统计(降序),结果写入 本地/root/college001/中 insert overwrite local directory '/root/college000/' row format delimited fields terminated by 't' select ProsperScore, count(*) as s from loan group by ProsperScore order by s desc; # 解析 前面的指令就是写入到本地的意思 后面的数据分析其实就是sql语 句编写5.动态增删节点
- 5.1集群添加节点
# 配置本地源 pkill -9 yum && cd /etc/yum.repos.d && rm -rf * && wget http://10.10.63.5:8000/bigdata/repofile/bigdata.repo # 等本地源下载完毕在清缓存 yum clean all # 关闭防火墙 systemctl stop firewalld # 修改主机名 hostnamectl set-hostname slave3 && bash # hosts映射 所有机子都要改 # 时区修改 echo "TZ='Asia/Shanghai';export TZ" >> /etc/profile && source/etc/profile # 安装ntp yum install -y ntp && ntpdate master # 10分钟同步一次 crontab -e */10 * * * * /usr/sbin/ntpdate master # ssh授权 master上执行 scp ~/.ssh/authorized_keys root@slave3:~/.ssh/ # 安装jdk和hadoop master 远程复制 scp -r /usr/java root@slave3:/usr/ scp -r /usr/hadoop root@slave3:/usr/ # 添加环境变量 vim /etc/profile export JAVA_HOME=/usr/java/jdk1.8.0_171 export CLASSPATH=$JAVA_HOME/lib/ export PATH=$PATH:$JAVA_HOME/bin export PATH JAVA_HOME CLASSPATH export HADOOP_HOME=/usr/hadoop/hadoop-2.7.3 export CLASSPATH=$CLASSPATH:$HADOOP_HOME/lib export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin source /etc/profile # slave3 清除临时数据节点 rm -rf $HADOOP_HOME/hdfs/ # master slave1 slave2 slave3 添加节点信息 cd $HADOOP_HOME/etc/hadoop && echo slave3 >> slave # slave3 开启datanode $HADOOP_HOME/sbin/hadoop-daemon.sh start datanode $HADOOP_HOME/sbin/yarn-daemon.sh start nodemanager # master 查看集群节点信息 hdfs dfsadmin -report # master 刷新配置 hdfs dfsadmin -refreshNodes
- 5.2集群删除节点
# master 节点 配置文件修改 cd $HADOOP_HOME/etc/hadoop && vi hdfs-site.xml # 添加一个配置# 创建对应的文件 vi /usr/hadoop/hadoop-2.7.3/hadoop/excludes # 写入要删除的节点名称 slave2 # 重新刷新节点和配置 hdfs dfsadmin -refreshNodes # master 查看集群节点信息 hdfs dfsadmin -report # 可以看到slave2 的状态是 Decommissioned(退役) # 等一会 slave2 退役完成之后再关闭slave2 的节点 slave2 执行 cd $HADOOP_HOME/sbin hadoop-daemon.sh stop datanode yarn-daemon.sh stop nodemanager dfs.hosts.exclude /usr/hadoop/hadoop-2.7.3/hadoop/excludes
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)