关闭hadoop stop-all.sh 修改hdfs-site.xml文件2、在hive中创建数据库启动hadoop start-all.sh dfs.permissions true
数据仓库分层中,每一个层对应hive中一个数据库,对应hdfs中一个目录
通过root用户先创建 create database ods; create database dwd; create database dws; create database dim; create database ads;3、在hdfs中创建5个目录
一个层对应一个目录
先用root用户创建 hadoop dfs -mkdir -p /daas/motl/ods/ hadoop dfs -mkdir -p /daas/motl/dim/ hadoop dfs -mkdir -p /daas/motl/dwd/ hadoop dfs -mkdir -p /daas/motl/dws/ hadoop dfs -mkdir -p /daas/motl/ads/4、在linux中创建5个用户
每一个用户对应一个层
useradd ods passwd ods useradd dwd passwd dwd useradd dws passwd dws useradd dim passwd dim useradd ads passwd ads5、将目录权限赋值给不同用户
用root用户修改权限 hadoop dfs -chown ods:ods /daas/motl/ods/ hadoop dfs -chown dwd:dwd /daas/motl/dwd/ hadoop dfs -chown dws:dws /daas/motl/dws/ hadoop dfs -chown dim:dim /daas/motl/dim/ hadoop dfs -chown ads:ads /daas/motl/ads/6、修改hive权限
如果不该启动用户进不了hive
删除hive的tmp目录 rm -rf /usr/local/soft/hive-1.2.1/tmp 修改权限 chmod 777 /usr/local/soft/hive-1.2.17、在ods中创建表
使用ods用户进入hive
ods_ddr ods_oidd ods_dpi ods_wcdr8、将四个表的数据上传到hdfs 9、增加分区
alter table ods.ods_ddr add if not exists partition(day_id='20180503') ; alter table ods.ods_dpi add if not exists partition(day_id='20180503') ; alter table ods.ods_oidd add if not exists partition(day_id='20180503') ; alter table ods.ods_wcdr add if not exists partition(day_id='20180503') ;10、为每一个用户在hdfs中创建一个目录
通过root用户
hadoop dfs -mkdir /user/dwd/ hadoop dfs -chown dwd:dwd /user/dwd hadoop dfs -mkdir /user/dws/ hadoop dfs -chown dws:dws /user/dws hadoop dfs -mkdir /user/dim/ hadoop dfs -chown dim:dim /user/dim hadoop dfs -mkdir /user/ads/ hadoop dfs -chown ads:ads /user/ads11、DWD层-位置融合表
将jar包脚本上传到服务器 DwdResRegnMergelocationMskD.sh dwd-1.0.jar common-1.0.jar 启动任务 sh DwdResRegnMergelocationMskD.sh 2018050312、DWS层-停留表
将jar包脚本上传到服务器 DwsStaypointMskD.sh dws-1.0.jar common-1.0.jar 启动任务 sh DwsStaypointMskD.sh 2018050313、维表接入 1、将维表数据导入到mysql – init_tour.sql 2、在hive中创建表
通过ods创建
ods_usertag_m.sql ods_scenic_boundary.sql ods_admincode.sql3、使用datax将数据集成到hdfs
datax.py -p "-Dmonth_id=201805" usertag_mysql_to_usertag_hive_ods.json datax.py scenic_boundary_mysql_to_scenic_boundary_hive_dim.json datax.py admin_code_mysql_to_admin_code_hive_dim.json伪分布式搭建
1、克隆base 将所有资源个一台服务器
2、修改服务器配置1、修改主机名
hostnamectl set-hostname mater
2、关闭防火墙
systemctl stop firewalld.service #停止firewall systemctl disable firewalld.service #禁止firewall开机启动
3、修改ip地址
vim /etc/sysconfig/network-scripts/ifcfg-ens33 IPADDR=192.168.129.201
4、安装mysql
下载yum Repository wget -i -c http://dev.mysql.com/get/mysql57-community-release-el7-10.noarch.rpm 安装yum Repository yum -y install mysql57-community-release-el7-10.noarch.rpm 安装mysql5.7 yum -y install mysql-community-server 开机自启动 systemctl enable mysqld.service 启动mysql systemctl start mysqld.service 查看状态 systemctl status mysqld.service 获取临时密码 grep "password" /var/log/mysqld.log 登录mysql mysql -uroot -p 关闭密码验证 set global validate_password_policy=0; set global validate_password_length=1; 设置密码 alter user user() identified by "123456"; 修改权限 use mysql; GRANT ALL PRIVILEGES ON *.* TO 'root'@'%' IDENTIFIED BY '123456' WITH GRANT OPTION; --修改权限 flush privileges; --刷新权限 select host,user,authentication_string from user; --查看权限 卸载yum Repository 因为安装了Yum Repository,以后每次yum *** 作都会自动更新,需要把这个卸载掉: yum -y remove mysql57-community-release-el7-10.noarch3、安装hadoop
1、将hadoop安装文件复制过来, 配置环境变量
2、修改配置文件,改成伪分布式
vim slaves 改成master
3、删除hadoop tmp 目录
rm -rf /usr/local/soft/hadoop-2.7.6/tmp
4、做免密钥
ssh-keygen -t rsa ssh-copy-id master
5、初始化hadoop
hadoop namenode -format jps 2034 NameNode 2515 ResourceManager 2340 SecondaryNameNode 2167 DataNode 2840 Jps 2621 NodeManager
6、修改本地的hosts
C:WindowsSystem32driversetc 192.168.129.201 master4、安装hive
1、将hive的文件复制过来
2、启动元数据服务
nohup hive --service metastore >> metastore.log 2>&1 &5、安装zk
1、删除version-2文件
2、启动zk
zkServer.sh start6、安装hbase
1、修改regionservers文件,改成master
2、启动hbase
start-hbase.sh1、数据仓库分层
ods 数据接入层
dwd 数据明细层(基于ods层的数据构建模型,对数据进行脱敏,进行ETL)
dws 数据汇总层
dim 维表层
dal_tour 访问层 (旅游集市层)
create database ods;
create database dwd;
create database dws;
create database dim;
create database dal_tour;
表列表
ods_ddr
ods_dpi
ods_wcdr
ods_oidd
ods_usertag_m
合肥市一天–> 1-2 G (3G * 3 / 5) (2000万条数据)
全国一天 --> 100-200G (2000万*100条数据)
alter table ods.ods_wcdr add if not exists partition(day_id='20180503') ; alter table ods.ods_oidd add if not exists partition(day_id='20180503') ; alter table ods.ods_dpi add if not exists partition(day_id='20180503') ; alter table ods.ods_ddr add if not exists partition(day_id='20180503') ;
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)