hdfs、hive、sqoop、spark环境搭建

hdfs、hive、sqoop、spark环境搭建,第1张

python安装参考

hadoop安装包
链接:https://pan.baidu.com/s/1DQl8yUcuY9fgjvw_VWSzFQ
提取码:6666

  • 下载jdk python hadoop hbase hvie 等放到 ~/software目录下 然后解压到 ~/app目录下

    tar -zxvf 压缩包名字 -C ~/app/
    
  • linux设置

    #关闭selinux模式
    setenforce 0
    vi /etc/selinux/config
    SELINUX=disabled
    
     #关闭防火墙
     systemctl stop firewalld
     systemctl disable firewalld
     
     # 禁用交换分区 swap
     swapon -a
     #修改交换分区为0
     vi /etc/fstab
    /dev/mapper/centos_centos--master-swap swap                    swap    defaults        0 0
    #查看交换分区使用情况
    free -h
    vi /etc/hosts
    #添加
    127.0.0.1 hadoop000
    
HDFS环境搭建
  • 配置环境变量

    vi ~/.bash_profile
    
    export JAVA_HOME=/root/app/jdk1.8.0_321
    export JRE_HOME=/root/app/jdk1.8.0_321/jre
    export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar:$JRE_HOME/lib:$CLASSPATH
    export PATH=$JAVA_HOME/bin:$PATH
    
    export HADOOP_HOME=/root/app/hadoop-2.6.0-cdh5.7.0
    export PATH=$HADOOP_HOME/bin:$PATH
    
    #保存退出后
    source ~/.bash_profile
    
  • 进入到解压后的hadoop目录 修改配置文件

    • 配置文件作用

      • core-site.xml 指定hdfs的访问方式
      • hdfs-site.xml 指定namenode 和 datanode 的数据存储位置
      • mapred-site.xml 配置mapreduce
      • yarn-site.xml 配置yarn
    • 修改hadoop-env.sh

      cd /root/app/hadoop-2.6.0-cdh5.7.0/etc/hadoop
      vi hadoop-env.sh
      #找到下面内容添加
      # The java implementation to use.
      export JAVA_HOME=/root/app/jdk1.8.0_321
      
    • 单节点情况修改slaves

      vi slaves
      hadoop000
      
    • 修改 core-site.xml 在 节点中添加

      <property>
        <name>fs.default.namename>
        <value>hdfs://hadoop000:8020value>
      property>
      
    • 修改hdfs-site.xml 在 configuration节点中添加

      <property>
          <name>dfs.namenode.name.dirname>
          <value>/root/app/tmp/dfs/namevalue>
      property>
      <property>
          <name>dfs.datanode.data.dirname>
          <value>/root/app/tmp/dfs/datavalue>
      property>
      <property>
          <name>dfs.replicationname>
          <value>1value>
      property>
      
    • 修改 mapred-site.xml

    • 默认没有这个 从模板文件复制

      cp mapred-site.xml.template mapred-site.xml
      
    • ​在mapred-site.xml 的configuration 节点中添加

       <property>
           <name>mapreduce.framework.namename>
           <value>yarnvalue>
       property>
      
    • 修改yarn-site.xml configuration 节点中添加

      <property>
          <name>yarn.nodemanager.aux-servicesname>
          <value>mapreduce_shufflevalue>
      property>
      
    • 来到hadoop的bin目录

          ./hadoop namenode -format (这个命令只运行一次)
      
    • 启动hdfs 进入到 sbin

      ./start-dfs.sh
      
    • 启动启动yarn 在sbin中

      ./start-yarn.sh
      
HBase 的安装
  • 配置伪分布式环境

    • 环境变量配置

      vi ~/.bash_profile
      export HBASE_HOME=/root/app/hbase-1.2.0-cdh5.7.0
      export PATH=$HBASE_HOME/bin:$PATH
      #保存退出后
      source ~/.bash_profile
      
    • 配置hbase-env.sh

      cd /root/app/hbase-1.2.0-cdh5.7.0/conf
      vi hbase-env.sh
      
      export JAVA_HOME=/root/app/jdk1.8.0_321
      #--如果你是使用hbase自带的zk就是true,如果使用自己的zk就是false
      export HBASE_MANAGES_ZK=false  
      
    • 配置hbase-site.xml

      <property>
          <name>hbase.rootdirname>  --hbase持久保存的目录
          <value>hdfs://hadoop000:8020/opt/hbasevalue>   
      property>
      <property>
          <name>hbase.cluster.distributedname>  --是否是分布式
          <value>falsevalue>
      property>
       <property>     
         <name>hbase.zookeeper.property.clientPortname>    --指定要连接zk的端口
             <value>2181value>    
       property>    
       <property>        
             <name>hbase.zookeeper.property.dataDirname>   
         <value>/root/app/hbase/zkDatavalue>    
       property>          
       <property>  
           <name>hbase.master.info.portname>  
           <value>60010value>  
       property> 
      
    • 启动hbase(启动的hbase的时候要保证hadoop集群已经启动)

      cd /root/app/hbase-1.2.0-cdh5.7.0/bin
      ./start-hbase.sh
      hbase shell
      
    • 输入hbase shell(进入shell命令行)

Hive 安装部署
  • 进入到 解压后的hive目录 找到 conf目录, 修改配置文件

    cd /root/app/hive-1.1.0-cdh5.7.0/conf
    cp hive-env.sh.template hive-env.sh
    vi hive-env.sh
    

    在hive-env.sh中指定hadoop的路径

    HADOOP_HOME=/root/app/hadoop-2.6.0-cdh5.7.0
    
  • 配置环境变量

    vi ~/.bash_profile
    
    export HIVE_HOME=/root/app/hive-1.1.0-cdh5.7.0
    export PATH=$HIVE_HOME/bin:$PATH
    
    source ~/.bash_profile
    
  • 根据元数据存储的介质不同,分为下面两个版本,其中 derby 属于内嵌模式。


    实际生产环境中则使用 mysql 来进行元数据的存储。


    • 内置 derby 版:
      bin/hive 启动即可使用
      缺点:不同路径启动 hive,每一个 hive 拥有一套自己的元数据,无法共享

    • mysql 版: 需要建立好数据库hive

      • 上传 mysql驱动到 hive安装目录的lib目录下

        mysql-connector-java-5.*.jar

      • vi conf/hive-site.xml 配置 Mysql 元数据库信息(MySql安装见文档)

        
        
        <configuration>
        
            <property>
                <name>javax.jdo.option.ConnectionUserNamename>
                <value>rootvalue>
            property>
            <property>
                <name>javax.jdo.option.ConnectionPasswordname>
                <value>123456value>
            property>
           <property>
                <name>javax.jdo.option.ConnectionURLname>mysql
                <value>jdbc:mysql://127.0.0.1:3306/hive?useSSL=falsevalue>
            property>
            <property>
                <name>javax.jdo.option.ConnectionDriverNamename>
                <value>com.mysql.jdbc.Drivervalue>
            property>
                
          <property>
            <name>hive.exec.script.wrappername>
            <value/>
            <description/>
          property>
        configuration>
        
        

        启动

        cd /root/app/hive-1.1.0-cdh5.7.0/bin
        hive --service metastore &
        
        hive
        
Sqoop安装
  • 配置环境变量

    vi ~/.bash_profile
    
    export SQOOP_HOME=/root/app/sqoop-1.4.6-cdh5.7.0
    export PATH=$SQOOP_HOME/bin:$PATH
    
    source ~/.bash_profile
    
  • 到 $SQOOP_HOME/conf 目录下 配置sqoop_env.sh

    cp sqoop-env-template.sh sqoop-env.sh
    vi sqoop-env.sh
    #在sqoop_env.sh中
    export HADOOP_COMMON_HOME=/root/app/hadoop-2.6.0-cdh5.7.0
    export HADOOP_MAPRED_HOME=/root/app/hadoop-2.6.0-cdh5.7.0
    export HIVE_HOME=/root/app/hive-1.1.0-cdh5.7.0
    
  • 拷贝 mysql驱动到$SQOOP_HOME/lib目录下

     cp ~/software/mysql-connector-java-5.1.49.jar  ~/app/sqoop-1.4.6-cdh5.7.0/lib/
    
  • 测试sqoop环境

    sqoop-version
    

    看到如下输出 说明sqoop安装成功

    Sqoop 1.4.6-cdh5.7.0
    git commit id
    Compiled by jenkins on ******
    
spark的安装部署
cd /root/app/spark-2.4.7-bin-hadoop2.6/conf
cp slaves.template slaves
vi slaves
#localhost
hadoop000
  • 修改配置文件

    • spark-env.sh(需要将spark-env.sh.template重命名)

      • 配置java环境变量
        • export JAVA_HOME=java_home_path
      • 配置PYTHON环境
        • export PYSPARK_PYTHON=/xx/pythonx_home/bin/pythonx
      • 配置master的地址
        • export SPARK_MASTER_HOST=node-teach
      • 配置master的端口
      • export SPARK_MASTER_PORT=7077
      cp spark-env.sh.template spark-env.sh
      vi spark-env.sh
      
      export SPARK_HOME=/root/app/spark-2.4.7-bin-hadoop2.6
      export JAVA_HOME=/root/app/jdk1.8.0_321
      export HADOOP_HOME=/root/app/hadoop-2.6.0-cdh5.7.0
      export YARN_HOME=/root/app/hadoop-2.6.0-cdh5.7.0
      export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
      export YARN_CONF_DIR=$YARN_HOME/etc/hadoop
      
      export SPARK_MASTER_HOST=192.168.31.10
      export SPARK_MASTER_PORT=7077
      export SPARK_LIBRARY_PATH=.:$JAVA_HOME/lib:$JAVA_HOME/jre/lib:$HADOOP_HOME/lib/native
      export SPARK_LOCAL_DIRS=/root/app/spark-2.4.7-bin-hadoop2.6/tmp
      export PYSPARK_PYTHON=/root/app/python36/bin/python3.6
      
  • 配置spark环境变量

    vi ~/.bash_profile
    
    export SPARK_HOME=/root/app/spark-2.4.7-bin-hadoop2.6
    export PATH=$SPARK_HOME/bin:$PATH
    
    source ~/.bash_profile
    

欢迎分享,转载请注明来源:内存溢出

原文地址: https://outofmemory.cn/langs/568752.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-04-09
下一篇 2022-04-09

发表评论

登录后才能评论

评论列表(0条)

保存