spark伪分布式搭建大全_随笔

spark伪分布式搭建大全 VMware

低端配置

1个处理器，2个内核；1024MB内存；30GB硬盘；一个低版本iso文件

高端安装

2个处理器，2个内核；2048内存；50GB硬盘；一个新版本iso文件

顶配越高越好

我选择第一种。除了上述说的配置之外，还有注意稍后安装 *** 作系统，其余一路点击确定即可。

Ubuntu

选择中文
什么都不要勾
分区设置
- swap 2GB
- / 28GB 逻辑 ext4
时区
用户名密码123456（怕忘了）
等待安装

输入法切换直接按shift即可

复制粘贴加上shift即可

FileZilla

在Windows安装好

然后看些教程

$ sudo apt-get install vsftpd
$ sudo vim /etc/vsftpd.conf
#找到
local_enable=YES
write_enable=YES
$ sudo /etc/init.d/vsftpd restart

#ifconfig命令不起作用
$ sudo apt install net-tools
$ ifconfig #查IP地址 然后连接Windows的FileZilla

Hadoop

版本2.7.1

创建hadoop用户

$ sudo useradd -m hadoop -s /bin/bash  #这里是用户user创建add
$ sudo passwd hadoop                   #输入两次密码
$ sudo adduser hadoop sudo             #添加add用户user hadoop 的权限sudo
#然后注销换hadoop上场

更新apt

$ sudo apt-get update
$ sudo apt-get install vim 
$ sudo apt-get install gedit  #比vim更友好

免密登录

$ sudo apt-get install openssh-server    #安装ssh
$ ssh localhost                          #登录本机
                                         #每次都要输入密码
$ exit                                   #先退出登录
$ cd ~/.ssh                              #执行了一次ssh localhost就有  
$ ssh-keygen -t rsa                      #生成密钥
                                         #id_rsa是私钥，id_rsa.pub是公钥
$ cat ./id_rsa.pub >> ./authorized_keys  #给大哥公钥
$ ssh localhost

安装Java环境

$ sudo tar -zxvf java包名 -C /usr/lib/jvm    #事先创建
$ vim ~/.bashrc
export JAVA_HOME= #pwd
export JRE_HOME=${JAVA_HOME}/jre
export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib
export PATH=${JAVA_HOME}/bin:$PATH
$ source ~/.bashrc
$ java -version

安装Hadoop2.7.1

$ sudo tar -zxvf 包名 -C /usr/local
$ sudo mv /usr/local/包名 /usr/local/hadoop
$ sudo chown -R hadoop ./hadoop              #修改文件权限
$ ./bin/hadoop version

单机模式

需要建立input文件夹放入文件

然后直接运行例子输出到output文件夹

下次运行前需要删掉output

伪分布式模式

需要配置xml文件

/usr/local/hadoop/etc/hadoop/core-site.xml


    
        hadoop.tmp.dir
        file:/usr/local/hadoop/tmp
        Abase for other temporary directories.
    
    
        fs.defaultFS
        hdfs://localhost:9000

/usr/local/hadoop/etc/hadoop/hdfs-site.xml


    
        dfs.replication
        1
    
    
        dfs.namenode.name.dir
        file:/usr/local/hadoop/tmp/dfs/name
    
    
        dfs.datanode.data.dir
        file:/usr/local/hadoop/tmp/dfs/data

问：文件的意义？

$ hdfs namenode -format
$ start-dfs.sh

关于下一次重启hdfs

$ stop-dfs.sh
$ cd /usr/local/hadoop
$ rm -rf tmp/
$ hdfs namenode -format
$ start-dfs.sh
# 打开http://192.168.10.131:50070

遇到的问题

hostname 主机名称

hosts 加一下IP地址和主机名称

Spark

版本2.4.0 without hadoop

解压缩改名授权

$ sudo tar -zxvf 包名 -C /usr/local/
$ cd /usr/local
$ sudo mv 文件夹名 spark
$ sudo chown -R hadoop:hadoop ./spark

配置相关文件

$ vim ~/.bashrc
export JAVA_HOME=/usr/lib/jvm/jdk1.8.0_162 #要更改
export JRE_HOME=${JAVA_HOME}/jre
export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib
export PATH=$PATH:${JAVA_HOME}/bin:/usr/local/hbase/bin
export HADOOP_HOME=/usr/local/hadoop
export SPARK_HOME=/usr/local/spark
export PYTHONPATH=$SPARK_HOME/python:$SPARK_HOME/python/lib/py4j-0.10.7-src.zip:$PYTHONPATH  #注意数字
export PYSPARK_PYTHON=python3
export PATH=$HADOOP_HOME/bin:$SPARK_HOME/bin:$PATH
$ source ~/.bashrc

验证Spark是否安装成功

$ cd /usr/local/spark
$ ./bin/run-example SparkPi 2>&1 | grep "Pi is roughly"

没有输出

$ ./bin/run-example SparkPi
Error...

原因：没启动Hadoop HDFS，没有配置环境变量

$ cd /usr/local/spark
$ cp ./conf/spark-env.sh.template ./conf/spark-env.sh
export SPARK_DIST_CLASSPATH=$(/usr/local/hadoop/bin/hadoop classpath)

Spark与Hadoop交互

#先启动Hadoop
$ cd /usr/local/hadoop
$ ./sbin/start-dfs.sh

伪分布式Spark只会用到HDFS读写文件

pyspark Python3

之前装CentOS需要自己装

Ubuntu好像自带，那没事了

启动

$ cd /usr/local/spark
$ ./bin/pyspark --master local[*]

Error…

还是没有启动HDFS

启动之后就可以进入spark-shell

然后输入jps发现多了个SparkSubmit

Hbase 安装

$ tar -zxvf 包名 -C /usr/local
$ sudo mv 文件夹名 hbase
$ vim ~/.bashrc
export PATH=$PATH:/usr/local/hbase/bin
$ source ~/.bashrc
$ sudo chown -R hadoop ./hbase
$ hbase/bin/hbase version

伪分布式配置

$ vim /usr/local/hbase/conf/hbase-env.sh
export JAVA_HOME=#pwd
export Hbase_CLASSPATH=/usr/local/hadoop/conf 
export Hbase_MANAGES_ZK=true

$ vim /usr/local/hbase/conf/hbase-site.xml

        
                hbase.rootdir
                hdfs://localhost:9000/hbase
        
        
                hbase.cluster.distributed
                true

$ start-hbase.sh
$ jps
$ stop-hbase.sh

MySQL

安装

$ sudo apt-get update
$ sudo apt-get install mysql-server

启动和关闭

$ service mysql start
$ sudo netstat -tap | grep mysql #LISTEN
$ mysql -u root -p
$ service mysql restart
$ service mysql stop

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/zaji/5572929.html

spark伪分布式搭建大全

发表评论

评论列表（0条）