在linux上如何配置spark环境，在linux上安装scala和spark老是失败_系统运维

方法/步骤

首先你的机器安装了jdk，我的新机器，所以早上刚在centos上折腾了jdk，没有的也可以去参考下

下载安装包

scala-2.11.4.tgz

spark-1.2.0-bin-hadoop2.4.tgz

后面的包忘了之前哪找的了，需要的可以私我。将包传到服务器，解压

tar zxvf scala-2.11.4.tgz

tar zxvf spark-1.2.0-bin-hadoop2.4.tgz

配置环境变量

vim /etc/profile

加上以下对应内容：

export JAVA_HOME=/home/yy/jdk1.8

export SCALA_HOME=/home/yy/scala

export SPARK_HOME=/home/yy/spark-1.2.0-bin-hadoop2.4

export PATH=$PATH:$JAVA_HOME/bin:$SCALA_HOME/bin:$SPARK_HOME/bin:$SPARK_HOME/sbin

执行source /etc/profile使配置生效

修改spark配置

进入spark-1.2.0-bin-hadoop2.4/conf

复制模板文件：

cp spark-env.sh.template spark-env.sh

cp slaves.template slaves

编辑spark-env.sh

添加上你的对应信息：

export JAVA_HOME=/home/yy/jdk1.8

export SCALA_HOME=/home/yy/scala

export SPARK_MASTER_IP=172.20.0.204

export SPARK_WORKER_MEMORY=2g

export HADOOP_CONF_DIR=/home/yy/spark-1.2.0-bin-hadoop2.4/conf

编辑slaves

添加上你的对应信息，所有的集群的机器：

172.20.0.204

172.20.0.205

到此为止，前面所有的安装配置动作，在你的另一个机器上(所有的slave机器)同样的做一遍，即我这里的205机器

进入spark-1.2.0-bin-hadoop2.4/sbin/目录

执行：./start-all.sh

如果没有设置ssh免密码登陆，会要求输入密码

这时候jps查看多了个master和worker

浏览器查看集群信息

master地址+8080端口

启动Running Applications

在bin目录下执行：

MASTER=spark://172.20.0.204:7077 ./spark-shell

这时候就可以看到运行的app啦

同时可以查看jobs内容

slave机器上也运行app，这时候就可以看到运行的applications有两个啦。

好了，环境就算先搭起来啦，后面就是去调用吧。

http://jingyan.baidu.com/article/7e440953308f122fc0e2ef81.html

我们已经在CentOS7中安装了spark，本节将展示如何在spark中通过scala方式交互的进行词频统计。

以上，就是在spark当中通过scala的交互方式进行词频统计。

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/yw/8300489.html

在linux上如何配置spark环境，在linux上安装scala和spark老是失败

发表评论

评论列表（0条）