hdfs、hive、sqoop、spark环境搭建_python

python安装参考

hadoop安装包
链接：https://pan.baidu.com/s/1DQl8yUcuY9fgjvw_VWSzFQ
提取码：6666

下载jdk python hadoop hbase hvie 等放到 ~/software目录下然后解压到 ~/app目录下
```
tar -zxvf 压缩包名字 -C ~/app/
```

linux设置

#关闭selinux模式
setenforce 0
vi /etc/selinux/config
SELINUX=disabled

 #关闭防火墙
 systemctl stop firewalld
 systemctl disable firewalld
 
 # 禁用交换分区 swap
 swapon -a
 #修改交换分区为0
 vi /etc/fstab
/dev/mapper/centos_centos--master-swap swap                    swap    defaults        0 0
#查看交换分区使用情况
free -h
vi /etc/hosts
#添加
127.0.0.1 hadoop000

HDFS环境搭建

配置环境变量

vi ~/.bash_profile

export JAVA_HOME=/root/app/jdk1.8.0_321
export JRE_HOME=/root/app/jdk1.8.0_321/jre
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar:$JRE_HOME/lib:$CLASSPATH
export PATH=$JAVA_HOME/bin:$PATH

export HADOOP_HOME=/root/app/hadoop-2.6.0-cdh5.7.0
export PATH=$HADOOP_HOME/bin:$PATH

#保存退出后
source ~/.bash_profile

进入到解压后的hadoop目录修改配置文件

配置文件作用
- core-site.xml 指定hdfs的访问方式
- hdfs-site.xml 指定namenode 和 datanode 的数据存储位置
- mapred-site.xml 配置mapreduce
- yarn-site.xml 配置yarn

修改hadoop-env.sh

cd /root/app/hadoop-2.6.0-cdh5.7.0/etc/hadoop
vi hadoop-env.sh
#找到下面内容添加
# The java implementation to use.
export JAVA_HOME=/root/app/jdk1.8.0_321

单节点情况修改slaves
```
vi slaves
hadoop000
```

修改 core-site.xml 在节点中添加

<property>
  <name>fs.default.namename>
  <value>hdfs://hadoop000:8020value>
property>

修改hdfs-site.xml 在 configuration节点中添加

<property>
    <name>dfs.namenode.name.dirname>
    <value>/root/app/tmp/dfs/namevalue>
property>
<property>
    <name>dfs.datanode.data.dirname>
    <value>/root/app/tmp/dfs/datavalue>
property>
<property>
    <name>dfs.replicationname>
    <value>1value>
property>

修改 mapred-site.xml

默认没有这个从模板文件复制

cp mapred-site.xml.template mapred-site.xml

在mapred-site.xml 的configuration 节点中添加

 <property>
     <name>mapreduce.framework.namename>
     <value>yarnvalue>
 property>

修改yarn-site.xml configuration 节点中添加

<property>
    <name>yarn.nodemanager.aux-servicesname>
    <value>mapreduce_shufflevalue>
property>

来到hadoop的bin目录

    ./hadoop namenode -format (这个命令只运行一次)

启动hdfs 进入到 sbin
```
./start-dfs.sh
```
启动启动yarn 在sbin中
```
./start-yarn.sh
```

HBase 的安装

配置伪分布式环境

环境变量配置

vi ~/.bash_profile
export HBASE_HOME=/root/app/hbase-1.2.0-cdh5.7.0
export PATH=$HBASE_HOME/bin:$PATH
#保存退出后
source ~/.bash_profile

配置hbase-env.sh

cd /root/app/hbase-1.2.0-cdh5.7.0/conf
vi hbase-env.sh

export JAVA_HOME=/root/app/jdk1.8.0_321
#--如果你是使用hbase自带的zk就是true，如果使用自己的zk就是false
export HBASE_MANAGES_ZK=false

配置hbase-site.xml

<property>
    <name>hbase.rootdirname>　　--hbase持久保存的目录
    <value>hdfs://hadoop000:8020/opt/hbasevalue>   
property>
<property>
    <name>hbase.cluster.distributedname>  --是否是分布式
    <value>falsevalue>
property>
 <property>     
   <name>hbase.zookeeper.property.clientPortname>    --指定要连接zk的端口
       <value>2181value>    
 property>    
 <property>        
       <name>hbase.zookeeper.property.dataDirname>   
   <value>/root/app/hbase/zkDatavalue>    
 property>          
 <property>  
     <name>hbase.master.info.portname>  
     <value>60010value>  
 property>

启动hbase（启动的hbase的时候要保证hadoop集群已经启动）
```
cd /root/app/hbase-1.2.0-cdh5.7.0/bin
./start-hbase.sh
hbase shell
```
输入hbase shell（进入shell命令行）

Hive 安装部署

进入到解压后的hive目录找到 conf目录, 修改配置文件

cd /root/app/hive-1.1.0-cdh5.7.0/conf
cp hive-env.sh.template hive-env.sh
vi hive-env.sh

在hive-env.sh中指定hadoop的路径

HADOOP_HOME=/root/app/hadoop-2.6.0-cdh5.7.0

配置环境变量

vi ~/.bash_profile

export HIVE_HOME=/root/app/hive-1.1.0-cdh5.7.0
export PATH=$HIVE_HOME/bin:$PATH

source ~/.bash_profile

根据元数据存储的介质不同，分为下面两个版本，其中 derby 属于内嵌模式。

实际生产环境中则使用 mysql 来进行元数据的存储。

内置 derby 版：
bin/hive 启动即可使用
缺点：不同路径启动 hive，每一个 hive 拥有一套自己的元数据，无法共享

mysql 版：需要建立好数据库hive

上传 mysql驱动到 hive安装目录的lib目录下

mysql-connector-java-5.*.jar

vi conf/hive-site.xml 配置 Mysql 元数据库信息(MySql安装见文档)



<configuration>

    <property>
        <name>javax.jdo.option.ConnectionUserNamename>
        <value>rootvalue>
    property>
    <property>
        <name>javax.jdo.option.ConnectionPasswordname>
        <value>123456value>
    property>
   <property>
        <name>javax.jdo.option.ConnectionURLname>mysql
        <value>jdbc:mysql://127.0.0.1:3306/hive?useSSL=falsevalue>
    property>
    <property>
        <name>javax.jdo.option.ConnectionDriverNamename>
        <value>com.mysql.jdbc.Drivervalue>
    property>
        
  <property>
    <name>hive.exec.script.wrappername>
    <value/>
    <description/>
  property>
configuration>

启动

cd /root/app/hive-1.1.0-cdh5.7.0/bin
hive --service metastore &

hive

Sqoop安装

配置环境变量

vi ~/.bash_profile

export SQOOP_HOME=/root/app/sqoop-1.4.6-cdh5.7.0
export PATH=$SQOOP_HOME/bin:$PATH

source ~/.bash_profile

到 $SQOOP_HOME/conf 目录下配置sqoop_env.sh

cp sqoop-env-template.sh sqoop-env.sh
vi sqoop-env.sh
#在sqoop_env.sh中
export HADOOP_COMMON_HOME=/root/app/hadoop-2.6.0-cdh5.7.0
export HADOOP_MAPRED_HOME=/root/app/hadoop-2.6.0-cdh5.7.0
export HIVE_HOME=/root/app/hive-1.1.0-cdh5.7.0

拷贝 mysql驱动到$SQOOP_HOME/lib目录下

 cp ~/software/mysql-connector-java-5.1.49.jar  ~/app/sqoop-1.4.6-cdh5.7.0/lib/

测试sqoop环境

sqoop-version

看到如下输出说明sqoop安装成功

Sqoop 1.4.6-cdh5.7.0
git commit id
Compiled by jenkins on ******

spark的安装部署

cd /root/app/spark-2.4.7-bin-hadoop2.6/conf
cp slaves.template slaves
vi slaves
#localhost
hadoop000

修改配置文件

spark-env.sh(需要将spark-env.sh.template重命名)

配置java环境变量
- export JAVA_HOME=java_home_path
配置PYTHON环境
- export PYSPARK_PYTHON=/xx/pythonx_home/bin/pythonx
配置master的地址
- export SPARK_MASTER_HOST=node-teach
配置master的端口
export SPARK_MASTER_PORT=7077

cp spark-env.sh.template spark-env.sh
vi spark-env.sh

export SPARK_HOME=/root/app/spark-2.4.7-bin-hadoop2.6
export JAVA_HOME=/root/app/jdk1.8.0_321
export HADOOP_HOME=/root/app/hadoop-2.6.0-cdh5.7.0
export YARN_HOME=/root/app/hadoop-2.6.0-cdh5.7.0
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
export YARN_CONF_DIR=$YARN_HOME/etc/hadoop

export SPARK_MASTER_HOST=192.168.31.10
export SPARK_MASTER_PORT=7077
export SPARK_LIBRARY_PATH=.:$JAVA_HOME/lib:$JAVA_HOME/jre/lib:$HADOOP_HOME/lib/native
export SPARK_LOCAL_DIRS=/root/app/spark-2.4.7-bin-hadoop2.6/tmp
export PYSPARK_PYTHON=/root/app/python36/bin/python3.6

配置spark环境变量

vi ~/.bash_profile

export SPARK_HOME=/root/app/spark-2.4.7-bin-hadoop2.6
export PATH=$SPARK_HOME/bin:$PATH

source ~/.bash_profile

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/langs/568752.html

hdfs、hive、sqoop、spark环境搭建

发表评论

评论列表（0条）