集群模式执行spark程序报错testwords.txt不_软件运维

1、文件路径错误：确保程序中盯渣指定的文件路径与实际文件路径相同，尤其是在使用相对路径时。

2、文件不存在：确保文件实际存在于指定的路径中，如文件不存亮蚂在，则会导致错误。

3、权限不足：确保程序运行的用户有足够的权限访问文件，权限不足，则会导致错误。

4、资源不足敬则埋：集群资源不足，内存或磁盘空间，则导致程序无法读取文件。

5、网络问题：文件位于远程机器上，则会出现网络连接问题。

本文前提是已经正确安装好scala,sbt以及spark了简述将程序挂载到集群上运行的步骤：

1、构建sbt标准的项目工程结构：SBT项目工程结构图其中：~/build.sbt文件用来配置项目的基本信息（项目名、组织名、项目版本、使用的scala版本或者再次配置些项目所需的依赖包）；project/build.properties文件配置你要使用什么版本的sbt对项目 *** 作；project/plugins.sbt文件是给项目添加所需的插件；project/Build.scala文件是对项目进行些复杂的高级配置；详细的sbt安装配置实用参见博文：

2、到相应目录下编写程序，spark程序必须要创建一个SparkContext实例。SparkContext("master", "projectName", "SPARK_HOME", "yourProject.jar path")

3、sbt compile命令编译程序无错后，sbt package命令将程序打包。默认打包的jar文件存放路径为：项目根目录/target/scala-xx.xx.xx/your-project-name_xx.xx.xx-xx.jar

4、将打包好的jar问价添加到SPAK_CLASSPATH中（在linux中根据作用范围渗孝饥的不同有多种更改环境变量的方式，这里只说我的配置方式：spark根目录下的conf/spark-env.sh文件添加SPARK_CLASSPATH:xxxxxxxx）

5、配置好环境变量后就可以在spark的根目录下使用./run脚本运行你的程序了例慎谈如：./run spark.examples.SparkPi spark://masterIP:port注意，如果程序涉及IO *** 作起默认路径为SPARK_HOME；至于如何修改这个路径，有待研究

转载，仅供参考。丛返

Spark 的运行模式有 Local(也称单节点模式），Standalone(集群模式），Spark on Yarn(运行在Yarn上），Mesos以及K8s等常用模式，本文介绍前三种模式。

Spark-shell 参数

Spark-shell 是以一种交互式命令行方式将Spark应用程序跑在指定模式上，也可以通过Spark-submit提交指定运用程序，Spark-shell 底层调用的是Spark-submit,二者的使用参数一致的，通过- -help 查看参数：

sparkconf的传入有三种方式：

1.通过在spark应用程序开发的时候用set()方法进行指定

2.通过在spark应用程序提交的时候用过以上参数指定，一般使用此种方式，因为使用较为灵活

3.通过配置spark-default.conf，spark-env.sh文件进行指定，此种方式较shell方式级别低

Local模式

Local 模式是最简单的一种Spark运行方式，它采用单节点多线程（cpu)方式运行，local模式是一种OOTB（开箱即用）的方式，只需要在spark-env.sh导出JAVA_HOME,无需其他任何配置即可使用，因而常用于开发和学习

方式：./spark-shell - -master local[n] ，n代表线程升哗族数

Standalone模式

Spark on Yarn

on Yarn的俩种模式

客户端的Driver将应用提交给Yarn后，Yarn会先后启动ApplicationMaster和excutor,另外ApplicationMaster和executor都装在在container里运行，container默认的内存是1g，ApplicationMaster分配的内存是driver-memory,executor分配的内存是executor-memory.同时，因为Driver在客户端，所以程序的运行结果可以在客户端显示，Driver以进程名为SparkSubmit的形式存在。

Cluster 模式

1.由client向ResourceManager提交请求，并上传Jar到HDFS上

这期间包括吵弊四个步骤:

a).连接到RM

b).从RM ASM(applicationsManager)中获得metric，queue和resource等信息。

c).upload app jar and spark-assembly jar

d).设置运行环境和container上下文

2.ResourceManager向NodeManager申请资源，创建Spark ApplicationMaster（每个SparkContext都有一个ApplicationManager）

3.NodeManager启动Spark App Master，并向ResourceManager ASM注册

4.Spark ApplicationMaster从HDFS中找到jar文件，启动DAGScheduler和YARN Cluster Scheduler

5.ResourceManager向ResourceManager ASM注册申请container资源(INFO YarnClientImpl: Submitted application)

6.ResourceManager通知NodeManager分配Container，这是可以收到来自ASM关于container的报告。(每个container的对应一个executor)

7.Spark ApplicationMaster直接和container(executor)进行交互，完成这个分布式任务。

进芦樱入spark安装目录下的conf文件夹

[atguigu@hadoop102 module] mv slaves.template slaves

[atguigu@hadoop102 conf] vim slaves

hadoop102

hadoop103

hadoop104

4）修改spark-env.sh文件，添加如下配置：

[atguigu@hadoop102 conf]$ vim spark-env.sh

SPARK_MASTER_HOST=hadoop102

SPARK_MASTER_PORT=7077

5）分发spark包

[atguigu@hadoop102 module] sbin/start-all.sh

注意：如果遇到 “JAVA_HOME not set” 异常，可以在sbin目录下的spark-config.sh 文件中加入如下配置：

export JAVA_HOME=XXXX

官方求PI案例

spark-submit

--class org.apache.spark.examples.SparkPi

--master spark://server-2:7077

--executor-memory 1G

--total-executor-cores 2

/home/xxx/software/spark-2.4.4-bin-hadoop2.7/examples/jars/spark-examples_2.11-2.4.4.jar

100

spark-shell

--master spark://server-2:7077

--executor-memory 1g

--total-executor-cores 2

spark-shell --master spark://server-2:7077 --executor-memory 1g --total-executor-cores 2

参数：--master spark://server-2:7077 指定要连接的集群的master

Spark客户端直接连接Yarn，不需要额外构建Spark集群。有yarn-client和yarn-cluster两种模式，主要区别在于：Driver程序的运行节点。

yarn-client：Driver程序运行在客户端，适用于交互、调试，希望立即看到app的输出

yarn-cluster：Driver程序运行在由RM（ResourceManager）启动的AP（APPMaster）适用于生产环境。

安装使用

1）修改hadoop配置文件yarn-site.xml,添加如下内容：

2）修改spark-env.sh，添加如下配置：

[atguigu@hadoop102 conf]$ vi spark-env.sh

YARN_CONF_DIR=/opt/module/hadoop-2.7.2/etc/hadoop

3）分发配置文件

[atguigu@hadoop102 conf] xsync spark-env.sh

4）执行一个程序

spark-submit

--class org.apache.spark.examples.SparkPi

--master yarn

--deploy-mode client

/home/xxx/software/spark-2.4.4-bin-hadoop2.7/examples/jars/spark-examples_2.11-2.4.4.jar

100

注意：在提交任务之前需启动HDFS以及YARN集群。

日志查看

修改配置文件spark-defaults.conf

添加如下内容：

spark.yarn.historyServer.address=server-2:18080

spark.history.ui.port=18080

2）重启spark历史服务

[atguigu@hadoop102 spark] sbin/start-history-server.sh

starting org.apache.spark.deploy.history.HistoryServer, logging to /opt/module/spark/logs/spark-atguigu-org.apache.spark.deploy.history.HistoryServer-1-hadoop102.out

3）提交任务到Yarn执行

spark-submit

--class org.apache.spark.examples.SparkPi

--master yarn

--deploy-mode client

/home/xxx/software/spark-2.4.4-bin-hadoop2.7/examples/jars/spark-examples_2.11-2.4.4.jar

100

欢迎分享，转载请注明来源：内存溢出

原文地址: https://outofmemory.cn/yw/12311946.html

集群模式执行spark程序报错testwords.txt不

发表评论

评论列表（0条）