java 怎么提交应用程序到spark standalone集群中去运行_服务器

1、Spark脚本提交/运行/部署11spark-shell（交互窗口模式）运行Spark-shell需要指向申请资源的standalonespark集群信息，其参数为MASTER，还可以指定executor及driver的内存大小。sudospark-shell--executor-memory5g--driver-memory1g--masterspark://192168180216:7077spark-shell启动完后，可以在交互窗口中输入Scala命令，进行 *** 作，其中spark-shell已经默认生成sc对象，可以用：valuser_rdd1=sctextFile(inputpath,10)读取数据资源等。12spark-shell（脚本运行模式）上面方法需要在交互窗口中一条一条的输入scala程序；将scala程序保存在testscala文件中，可以通过以下命令一次运行该文件中的程序代码：sudospark-shell--executor-memory5g--driver-memory1g--masterspark//192168180216:7077

造成这种问题的原因猜测可能是之前运行spark上传的文件与当前的hadoop环境版本不兼容导致。
删除dfs/name 中的所有文件 hdfs dfs rm -r xx/dfs/name/，格式化namenode hdfs namenode -format，重新启动hadoop就可以了。

如何在 Amazon EMR Cluster上安装Apache Spark
Amazon EMRSparkAWS
摘要：Amazon EMR高级产品经理Jonathan Fritz详细介绍了如何在 Amazon EMR Cluster上安装Apache Spark。
在过去的五年之中，Amazon Elastic MapReduce (Amazon EMR)已经开始逐渐转变成一个超出Hadoop范畴之外的一种运行许多分布式计算框架Container。在Amazon EMR簇中，用户可以选择运行各种引擎，包括HBase, Impala, Spark, or Presto，并且还能使用Amazon EMR的众多功能，比如Amazon Simple Storage Service (Amazon S3)的快速处理功能，同时还可以和其他AWS功能服务建立联系，并且减轻使用压力（集群的创造和控制）。
对于Apache Spark，我们更多的感到的是一种格外的惊喜。是一个位于Apache Hadoop生态系统之中的用来高速、高效地处理大数据的引擎。通过引导和使用内存中，容错d性的分布式数据集（RDDS），非循环图（DAG）来定义数据转换，与HadoopMapReduce相比，Spark显示了显著的性能提升。
Amazon EMR对于Spark来说一点都不陌生，事实上，客户通过在Amazon EMR运行Spark来管理Hadoop集群很久了。为了能够让客户更加方便的在Amazon EMR集群上运行Spark，亚马逊AWS在2013年2月编写了如何运用Spark和Shark的文章。
Spark生态圈也发生了很多的变化：Spark已经逐渐完善到了1x版本，这种完善版能保证所有1x版本的API发布时有着极高的稳定性。由于Spark SQL的强劲功能，Shark已经逐渐退出了历史舞台，而且Spark可以再Yarn上运行（Hadoop2的资源管理器），我们已经修改了我们的引导动作，将Spark1x安装在Hadoop2x的AIM上，这样它同时也可以在Yarn顶端运行。这个引导动作同时也在Spark SQL，Spark Streaming，MLlib和GraphX上完成了安装于配置。
Spark的安装于引导程序在Amazon S3中的路径是：
s3://supportelasticmapreduce/spark/install-spark
或者你也可以在EMR Labs GitHub page上寻找更多的安装Spark引导脚本的信息。
利用这个安装引导动作，用户可以轻松的从控制器或AWS CLI向Amazon EMR配置器中进行安装（在这里展示具体的使用过程：但是你要用你的集群的开启SSH的密钥对来代替MyKeyPair）
awsemr create-cluster --name SparkCluster --ami-version 321 --
instance-type m3xlarge --instance-count 3 --ec2-attributes
KeyName=MyKeyPair --applications Name=Hive --bootstrap-actions
Path=s3://supportelasticmapreduce/spark/install-spark
正确安装的话，那么这个引导动作就会被顺利安装。
· Spark 081 on Hadoop 103 (AMI 2x)
· Spark 100 on Hadoop 220 (AMI 30x)
· Spark 110 on Hadoop 240 (AMI 31x and 32
同时，亚马逊AWS官方也上传了原始的在Amazon EMR上的Spark文章，用来作为Spark和Spark SQL 实例中全新的引导动作和语法的参照。
原文链接：>这里是结合Hadoop20使用的1，download:根据下载的spark的README中的描述下载合适的版本3，安装其实就是解压，配置/etc/profile环境变量exportSPARK_HOME=/data1/spark/sparkexportSCALA_HOME=/data1/spark/scala-293exportPATH=$PATH:$SPARK_HOME/bin:$SCALA_HOME/bin配置spark的conf下的spark-envshexportJAVA_HOME=/usr/java/defaultexportSCALA_HOME=/data1/spark/scala-293exportSPARK_MASTER_IP=19216801exportSPARK_MASTER_WEBUI_PORT=8080exportSPARK_WORKER_WEBUI_PORT=8000exportYARN_CONF_DIR=/data/hadoop/hadoop-20/etc/hadoop配置slaves(ip根据需要修改)1921680219216803分发spark目录和scala目录到几台服务器相同路径下4,启动进入主节点的spark目录的bin下stop-allsh是停掉集群，start-allsh启动集群，jps可以在主节点看到master进程，slave节点看到worker进程5，运行程序，运行例子进入spark目录下分布式运行/run-exampleorgapachesparkexamplesSparkPispark://19216801:7077/run-exampleorgapachesparkexamplesSparkLRspark://19216801:7077本地运行/run-exampleorgapachesparkexamplesSparkPilocal/run-exampleorgapachesparkexamplesSparkLRlocal

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/zz/12624226.html

java 怎么提交应用程序到spark standalone集群中去运行

发表评论

评论列表（0条）