在linux上如何配置spark环境，在linux上安装scala和spark老是失败_服务器

方法/步骤
首先你的机器安装了jdk，我的新机器，所以早上刚在centos上折腾了jdk，没有的也可以去参考下
下载安装包
scala-2114tgz
spark-120-bin-hadoop24tgz
后面的包忘了之前哪找的了，需要的可以私我。将包传到服务器，解压
tar zxvf scala-2114tgz
tar zxvf spark-120-bin-hadoop24tgz
配置环境变量
vim /etc/profile
加上以下对应内容：
export JAVA_HOME=/home/yy/jdk18
export SCALA_HOME=/home/yy/scala
export SPARK_HOME=/home/yy/spark-120-bin-hadoop24
export PATH=$PATH:$JAVA_HOME/bin:$SCALA_HOME/bin:$SPARK_HOME/bin:$SPARK_HOME/sbin
执行source /etc/profile使配置生效
修改spark配置
进入spark-120-bin-hadoop24/conf
复制模板文件：
cp spark-envshtemplate spark-envsh
cp slavestemplate slaves
编辑spark-envsh
添加上你的对应信息：
export JAVA_HOME=/home/yy/jdk18
export SCALA_HOME=/home/yy/scala
export SPARK_MASTER_IP=172200204
export SPARK_WORKER_MEMORY=2g
export HADOOP_CONF_DIR=/home/yy/spark-120-bin-hadoop24/conf
编辑slaves
添加上你的对应信息，所有的集群的机器：
172200204
172200205
到此为止，前面所有的安装配置动作，在你的另一个机器上(所有的slave机器)同样的做一遍，即我这里的205机器
进入spark-120-bin-hadoop24/sbin/目录
执行：/start-allsh
如果没有设置ssh免密码登陆，会要求输入密码
这时候jps查看多了个master和worker
浏览器查看集群信息
master地址+8080端口
启动Running Applications
在bin目录下执行：
MASTER=spark://172200204:7077 /spark-shell
这时候就可以看到运行的app啦
同时可以查看jobs内容
slave机器上也运行app，这时候就可以看到运行的applications有两个啦。
好了，环境就算先搭起来啦，后面就是去调用吧。
>在已有的 MySQL 服务器之上使用 Apache Spark （无需将数据导出到 Spark 或者 Hadoop 平台上），这样至少可以提升 10 倍的查询性能。使用多个 MySQL 服务器（复制或者 Percona XtraDB Cluster）可以让我们在某些查询上得到额外的性能提升。你也可以使用 Spark 的缓存功能来缓存整个 MySQL 查询结果表。

欢迎分享，转载请注明来源：内存溢出

原文地址: https://outofmemory.cn/zz/13434599.html

在linux上如何配置spark环境，在linux上安装scala和spark老是失败

发表评论

评论列表（0条）