在linux上如何配置spark环境,在linux上安装scala和spark老是失败

在linux上如何配置spark环境,在linux上安装scala和spark老是失败,第1张

方法/步骤

首先你的机器安装了jdk,我的新机器,所以早上刚在centos上折腾了jdk,没有的也可以去参考下

下载安装包

scala-2.11.4.tgz

spark-1.2.0-bin-hadoop2.4.tgz

后面的包忘了之前哪找的了,需要的可以私我。将包传到服务器,解压

tar zxvf scala-2.11.4.tgz

tar zxvf spark-1.2.0-bin-hadoop2.4.tgz

配置环境变量

vim /etc/profile

加上以下对应内容:

export JAVA_HOME=/home/yy/jdk1.8

export SCALA_HOME=/home/yy/scala

export SPARK_HOME=/home/yy/spark-1.2.0-bin-hadoop2.4

export PATH=$PATH:$JAVA_HOME/bin:$SCALA_HOME/bin:$SPARK_HOME/bin:$SPARK_HOME/sbin

执行source /etc/profile使配置生效

修改spark配置

进入spark-1.2.0-bin-hadoop2.4/conf

复制模板文件:

cp spark-env.sh.template spark-env.sh

cp slaves.template slaves

编辑spark-env.sh

添加上你的对应信息:

export JAVA_HOME=/home/yy/jdk1.8

export SCALA_HOME=/home/yy/scala

export SPARK_MASTER_IP=172.20.0.204

export SPARK_WORKER_MEMORY=2g

export HADOOP_CONF_DIR=/home/yy/spark-1.2.0-bin-hadoop2.4/conf

编辑slaves

添加上你的对应信息,所有的集群的机器:

172.20.0.204

172.20.0.205

到此为止,前面所有的安装配置动作,在你的另一个机器上(所有的slave机器)同样的做一遍,即我这里的205机器

进入spark-1.2.0-bin-hadoop2.4/sbin/目录

执行:./start-all.sh

如果没有设置ssh免密码登陆,会要求输入密码

这时候jps查看多了个master和worker

浏览器查看集群信息

master地址+8080端口

启动Running Applications

在bin目录下执行:

MASTER=spark://172.20.0.204:7077 ./spark-shell

这时候就可以看到运行的app啦

同时可以查看jobs内容

slave机器上也运行app,这时候就可以看到运行的applications有两个啦。

好了,环境就算先搭起来啦,后面就是去调用吧。

http://jingyan.baidu.com/article/7e440953308f122fc0e2ef81.html

我们已经在CentOS7中安装了spark,本节将展示如何在spark中通过scala方式交互的进行词频统计。

以上,就是在spark当中通过scala的交互方式进行词频统计。


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/yw/8300489.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-04-15
下一篇 2023-04-15

发表评论

登录后才能评论

评论列表(0条)

保存