python安装参考
hadoop安装包
链接:https://pan.baidu.com/s/1DQl8yUcuY9fgjvw_VWSzFQ
提取码:6666
-
下载jdk python hadoop hbase hvie 等放到 ~/software目录下 然后解压到 ~/app目录下
tar -zxvf 压缩包名字 -C ~/app/
-
linux设置
#关闭selinux模式 setenforce 0 vi /etc/selinux/config SELINUX=disabled #关闭防火墙 systemctl stop firewalld systemctl disable firewalld # 禁用交换分区 swap swapon -a #修改交换分区为0 vi /etc/fstab /dev/mapper/centos_centos--master-swap swap swap defaults 0 0 #查看交换分区使用情况 free -h vi /etc/hosts #添加 127.0.0.1 hadoop000
-
配置环境变量
vi ~/.bash_profile export JAVA_HOME=/root/app/jdk1.8.0_321 export JRE_HOME=/root/app/jdk1.8.0_321/jre export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar:$JRE_HOME/lib:$CLASSPATH export PATH=$JAVA_HOME/bin:$PATH export HADOOP_HOME=/root/app/hadoop-2.6.0-cdh5.7.0 export PATH=$HADOOP_HOME/bin:$PATH #保存退出后 source ~/.bash_profile
-
进入到解压后的hadoop目录 修改配置文件
-
配置文件作用
- core-site.xml 指定hdfs的访问方式
- hdfs-site.xml 指定namenode 和 datanode 的数据存储位置
- mapred-site.xml 配置mapreduce
- yarn-site.xml 配置yarn
-
修改hadoop-env.sh
cd /root/app/hadoop-2.6.0-cdh5.7.0/etc/hadoop vi hadoop-env.sh #找到下面内容添加 # The java implementation to use. export JAVA_HOME=/root/app/jdk1.8.0_321
-
单节点情况修改slaves
vi slaves hadoop000
-
修改 core-site.xml 在 节点中添加
<property> <name>fs.default.namename> <value>hdfs://hadoop000:8020value> property>
-
修改hdfs-site.xml 在 configuration节点中添加
<property> <name>dfs.namenode.name.dirname> <value>/root/app/tmp/dfs/namevalue> property> <property> <name>dfs.datanode.data.dirname> <value>/root/app/tmp/dfs/datavalue> property> <property> <name>dfs.replicationname> <value>1value> property>
-
修改 mapred-site.xml
-
默认没有这个 从模板文件复制
cp mapred-site.xml.template mapred-site.xml
-
在mapred-site.xml 的configuration 节点中添加
<property> <name>mapreduce.framework.namename> <value>yarnvalue> property>
-
修改yarn-site.xml configuration 节点中添加
<property> <name>yarn.nodemanager.aux-servicesname> <value>mapreduce_shufflevalue> property>
-
来到hadoop的bin目录
./hadoop namenode -format (这个命令只运行一次)
-
启动hdfs 进入到 sbin
./start-dfs.sh
-
启动启动yarn 在sbin中
./start-yarn.sh
-
-
配置伪分布式环境
-
环境变量配置
vi ~/.bash_profile export HBASE_HOME=/root/app/hbase-1.2.0-cdh5.7.0 export PATH=$HBASE_HOME/bin:$PATH #保存退出后 source ~/.bash_profile
-
配置hbase-env.sh
cd /root/app/hbase-1.2.0-cdh5.7.0/conf vi hbase-env.sh export JAVA_HOME=/root/app/jdk1.8.0_321 #--如果你是使用hbase自带的zk就是true,如果使用自己的zk就是false export HBASE_MANAGES_ZK=false
-
配置hbase-site.xml
<property> <name>hbase.rootdirname> --hbase持久保存的目录 <value>hdfs://hadoop000:8020/opt/hbasevalue> property> <property> <name>hbase.cluster.distributedname> --是否是分布式 <value>falsevalue> property> <property> <name>hbase.zookeeper.property.clientPortname> --指定要连接zk的端口 <value>2181value> property> <property> <name>hbase.zookeeper.property.dataDirname> <value>/root/app/hbase/zkDatavalue> property> <property> <name>hbase.master.info.portname> <value>60010value> property>
-
启动hbase(启动的hbase的时候要保证hadoop集群已经启动)
cd /root/app/hbase-1.2.0-cdh5.7.0/bin ./start-hbase.sh hbase shell
-
输入hbase shell(进入shell命令行)
-
-
进入到 解压后的hive目录 找到 conf目录, 修改配置文件
cd /root/app/hive-1.1.0-cdh5.7.0/conf cp hive-env.sh.template hive-env.sh vi hive-env.sh
在hive-env.sh中指定hadoop的路径
HADOOP_HOME=/root/app/hadoop-2.6.0-cdh5.7.0
-
配置环境变量
vi ~/.bash_profile export HIVE_HOME=/root/app/hive-1.1.0-cdh5.7.0 export PATH=$HIVE_HOME/bin:$PATH source ~/.bash_profile
-
根据元数据存储的介质不同,分为下面两个版本,其中 derby 属于内嵌模式。
实际生产环境中则使用 mysql 来进行元数据的存储。
-
内置 derby 版:
bin/hive 启动即可使用
缺点:不同路径启动 hive,每一个 hive 拥有一套自己的元数据,无法共享 -
mysql 版: 需要建立好数据库hive
-
上传 mysql驱动到 hive安装目录的lib目录下
mysql-connector-java-5.*.jar
-
vi conf/hive-site.xml 配置 Mysql 元数据库信息(MySql安装见文档)
<configuration> <property> <name>javax.jdo.option.ConnectionUserNamename> <value>rootvalue> property> <property> <name>javax.jdo.option.ConnectionPasswordname> <value>123456value> property> <property> <name>javax.jdo.option.ConnectionURLname>mysql <value>jdbc:mysql://127.0.0.1:3306/hive?useSSL=falsevalue> property> <property> <name>javax.jdo.option.ConnectionDriverNamename> <value>com.mysql.jdbc.Drivervalue> property> <property> <name>hive.exec.script.wrappername> <value/> <description/> property> configuration>
启动
cd /root/app/hive-1.1.0-cdh5.7.0/bin hive --service metastore & hive
-
-
-
配置环境变量
vi ~/.bash_profile export SQOOP_HOME=/root/app/sqoop-1.4.6-cdh5.7.0 export PATH=$SQOOP_HOME/bin:$PATH source ~/.bash_profile
-
到 $SQOOP_HOME/conf 目录下 配置sqoop_env.sh
cp sqoop-env-template.sh sqoop-env.sh vi sqoop-env.sh #在sqoop_env.sh中 export HADOOP_COMMON_HOME=/root/app/hadoop-2.6.0-cdh5.7.0 export HADOOP_MAPRED_HOME=/root/app/hadoop-2.6.0-cdh5.7.0 export HIVE_HOME=/root/app/hive-1.1.0-cdh5.7.0
-
拷贝 mysql驱动到$SQOOP_HOME/lib目录下
cp ~/software/mysql-connector-java-5.1.49.jar ~/app/sqoop-1.4.6-cdh5.7.0/lib/
-
测试sqoop环境
sqoop-version
看到如下输出 说明sqoop安装成功
Sqoop 1.4.6-cdh5.7.0 git commit id Compiled by jenkins on ******
cd /root/app/spark-2.4.7-bin-hadoop2.6/conf
cp slaves.template slaves
vi slaves
#localhost
hadoop000
-
修改配置文件
-
spark-env.sh(需要将spark-env.sh.template重命名)
- 配置java环境变量
- export JAVA_HOME=java_home_path
- 配置PYTHON环境
- export PYSPARK_PYTHON=/xx/pythonx_home/bin/pythonx
- 配置master的地址
- export SPARK_MASTER_HOST=node-teach
- 配置master的端口
- export SPARK_MASTER_PORT=7077
cp spark-env.sh.template spark-env.sh vi spark-env.sh export SPARK_HOME=/root/app/spark-2.4.7-bin-hadoop2.6 export JAVA_HOME=/root/app/jdk1.8.0_321 export HADOOP_HOME=/root/app/hadoop-2.6.0-cdh5.7.0 export YARN_HOME=/root/app/hadoop-2.6.0-cdh5.7.0 export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop export YARN_CONF_DIR=$YARN_HOME/etc/hadoop export SPARK_MASTER_HOST=192.168.31.10 export SPARK_MASTER_PORT=7077 export SPARK_LIBRARY_PATH=.:$JAVA_HOME/lib:$JAVA_HOME/jre/lib:$HADOOP_HOME/lib/native export SPARK_LOCAL_DIRS=/root/app/spark-2.4.7-bin-hadoop2.6/tmp export PYSPARK_PYTHON=/root/app/python36/bin/python3.6
- 配置java环境变量
-
-
配置spark环境变量
vi ~/.bash_profile export SPARK_HOME=/root/app/spark-2.4.7-bin-hadoop2.6 export PATH=$SPARK_HOME/bin:$PATH source ~/.bash_profile
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)