离线数据仓库----数据仓库搭建---伪分布式搭建

离线数据仓库----数据仓库搭建---伪分布式搭建,第1张

离线数据仓库----数据仓库搭建---伪分布式搭建 数据仓库搭建 1、开启hadoop的权限验证
关闭hadoop
stop-all.sh

修改hdfs-site.xml文件


dfs.permissions
true


启动hadoop
start-all.sh

2、在hive中创建数据库

数据仓库分层中,每一个层对应hive中一个数据库,对应hdfs中一个目录

通过root用户先创建

create database ods;
create database dwd;
create database dws;
create database dim;
create database ads;

3、在hdfs中创建5个目录

一个层对应一个目录

先用root用户创建

hadoop dfs -mkdir -p /daas/motl/ods/
hadoop dfs -mkdir -p /daas/motl/dim/
hadoop dfs -mkdir -p /daas/motl/dwd/
hadoop dfs -mkdir -p /daas/motl/dws/
hadoop dfs -mkdir -p /daas/motl/ads/


4、在linux中创建5个用户

每一个用户对应一个层

useradd ods
passwd ods
useradd dwd
passwd dwd
useradd dws
passwd dws
useradd dim
passwd dim
useradd ads
passwd ads


5、将目录权限赋值给不同用户
用root用户修改权限

hadoop dfs -chown ods:ods /daas/motl/ods/
hadoop dfs -chown dwd:dwd /daas/motl/dwd/
hadoop dfs -chown dws:dws /daas/motl/dws/
hadoop dfs -chown dim:dim /daas/motl/dim/
hadoop dfs -chown ads:ads /daas/motl/ads/



6、修改hive权限

如果不该启动用户进不了hive

删除hive的tmp目录
rm -rf /usr/local/soft/hive-1.2.1/tmp

修改权限
chmod 777 /usr/local/soft/hive-1.2.1

7、在ods中创建表

使用ods用户进入hive

ods_ddr
ods_oidd
ods_dpi
ods_wcdr
8、将四个表的数据上传到hdfs 9、增加分区
alter table ods.ods_ddr add if not exists partition(day_id='20180503') ;
alter table ods.ods_dpi add if not exists partition(day_id='20180503') ;
alter table ods.ods_oidd add if not exists partition(day_id='20180503') ;
alter table ods.ods_wcdr add if not exists partition(day_id='20180503') ;


10、为每一个用户在hdfs中创建一个目录

通过root用户

hadoop dfs -mkdir /user/dwd/
hadoop dfs -chown dwd:dwd /user/dwd

hadoop dfs -mkdir /user/dws/
hadoop dfs -chown dws:dws /user/dws

hadoop dfs -mkdir /user/dim/
hadoop dfs -chown dim:dim /user/dim

hadoop dfs -mkdir /user/ads/
hadoop dfs -chown ads:ads /user/ads
11、DWD层-位置融合表
将jar包脚本上传到服务器
DwdResRegnMergelocationMskD.sh
dwd-1.0.jar
common-1.0.jar

启动任务
sh DwdResRegnMergelocationMskD.sh 20180503
12、DWS层-停留表
将jar包脚本上传到服务器
DwsStaypointMskD.sh
dws-1.0.jar
common-1.0.jar

启动任务
sh DwsStaypointMskD.sh  20180503
13、维表接入 1、将维表数据导入到mysql – init_tour.sql 2、在hive中创建表

通过ods创建

ods_usertag_m.sql
ods_scenic_boundary.sql
ods_admincode.sql
3、使用datax将数据集成到hdfs
datax.py -p "-Dmonth_id=201805" usertag_mysql_to_usertag_hive_ods.json
datax.py scenic_boundary_mysql_to_scenic_boundary_hive_dim.json
datax.py admin_code_mysql_to_admin_code_hive_dim.json 
伪分布式搭建

1、克隆base 将所有资源个一台服务器

2、修改服务器配置

1、修改主机名

hostnamectl set-hostname mater

2、关闭防火墙

systemctl stop firewalld.service #停止firewall
systemctl disable firewalld.service #禁止firewall开机启动

3、修改ip地址

vim /etc/sysconfig/network-scripts/ifcfg-ens33

IPADDR=192.168.129.201

4、安装mysql

下载yum Repository
wget -i -c http://dev.mysql.com/get/mysql57-community-release-el7-10.noarch.rpm
安装yum Repository
yum -y install mysql57-community-release-el7-10.noarch.rpm

安装mysql5.7
yum -y install mysql-community-server
开机自启动
systemctl enable mysqld.service
启动mysql
systemctl start mysqld.service
查看状态
systemctl status mysqld.service

获取临时密码
grep "password" /var/log/mysqld.log

登录mysql
mysql -uroot -p 

关闭密码验证
set global validate_password_policy=0;
set global validate_password_length=1;

设置密码
alter user user() identified by "123456";

修改权限
use mysql;
GRANT ALL PRIVILEGES ON *.* TO 'root'@'%' IDENTIFIED BY '123456' WITH GRANT OPTION;  --修改权限
flush privileges;  --刷新权限
select host,user,authentication_string from user; --查看权限


卸载yum Repository
因为安装了Yum Repository,以后每次yum *** 作都会自动更新,需要把这个卸载掉:
yum -y remove mysql57-community-release-el7-10.noarch

3、安装hadoop

1、将hadoop安装文件复制过来, 配置环境变量

2、修改配置文件,改成伪分布式

vim slaves
改成master

3、删除hadoop tmp 目录

rm -rf /usr/local/soft/hadoop-2.7.6/tmp

4、做免密钥

ssh-keygen -t rsa
ssh-copy-id master

5、初始化hadoop

hadoop namenode -format

jps

2034 NameNode
2515 ResourceManager
2340 SecondaryNameNode
2167 DataNode
2840 Jps
2621 NodeManager

6、修改本地的hosts

C:WindowsSystem32driversetc

192.168.129.201 master
4、安装hive

1、将hive的文件复制过来

2、启动元数据服务

nohup hive --service metastore >> metastore.log 2>&1 &
5、安装zk

1、删除version-2文件

2、启动zk

zkServer.sh start
6、安装hbase

1、修改regionservers文件,改成master

2、启动hbase

start-hbase.sh
1、数据仓库分层

ods 数据接入层
dwd 数据明细层(基于ods层的数据构建模型,对数据进行脱敏,进行ETL)
dws 数据汇总层
dim 维表层
dal_tour 访问层 (旅游集市层)

2、在hive中创建库

create database ods;
create database dwd;
create database dws;
create database dim;
create database dal_tour;

3、创建ods层的表

表列表
ods_ddr
ods_dpi
ods_wcdr
ods_oidd
ods_usertag_m

4、上传数据到hdfs 数据量

合肥市一天–> 1-2 G (3G * 3 / 5) (2000万条数据)
全国一天 --> 100-200G (2000万*100条数据)

5、给每个表增加分区
alter table ods.ods_wcdr add if not exists partition(day_id='20180503') ;
alter table ods.ods_oidd add if not exists partition(day_id='20180503') ;
alter table ods.ods_dpi add if not exists partition(day_id='20180503') ;
alter table ods.ods_ddr add if not exists partition(day_id='20180503') ;

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zaji/5678744.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-12-17
下一篇 2022-12-17

发表评论

登录后才能评论

评论列表(0条)

保存