spark standalone 怎么设置堆外内存_服务器

在已有的 MySQL 服务器之上使用 Apache Spark （无需将数据导出到 Spark 或者 Hadoop 平台上），这样至少可以提升 10 倍的查询性能。使用多个 MySQL 服务器（复制或者 Percona XtraDB Cluster）可以让我们在某些查询上得到额外的性能提升。你也可以使用 Spark 的缓存功能来缓存整个 MySQL 查询结果表。
思路很简单：Spark 可以通过 JDBC 读取 MySQL 上的数据，也可以执行 SQL 查询，因此我们可以直接连接到 MySQL 并执行查询。那么为什么速度会快呢？对一些需要运行很长时间的查询（如报表或者BI），由于 Spark 是一个大规模并行系统，因此查询会非常的快。MySQL 只能为每一个查询分配一个 CPU 核来处理，而 Spark 可以使用所有集群节点的所有核。在下面的例子中，我们会在 Spark 中执行 MySQL 查询，这个查询速度比直接在 MySQL 上执行速度要快 5 到 10 倍。
另外，Spark 可以增加“集群”级别的并行机制，在使用 MySQL 复制或者 Percona XtraDB Cluster 的情况下，Spark 可以把查询变成一组更小的查询（有点像使用了分区表时可以在每个分区都执行一个查询），然后在多个 Percona XtraDB Cluster 节点的多个从服务器上并行的执行这些小查询。最后它会使用map/reduce 方式将每个节点返回的结果聚合在一起形成完整的结果。

通过前面的介绍我们知道，Spark的客户端（Driver）有两种：Spark Submit和Spark Shell。这两种客户端相同点都是维护一个Spark Context对象，来向Spark集群提交任务；不同点是Spark Submit只能提交任务，不能交互，而Spark Shell是一个命令行工具，即可以提交任务，还可以人机交互。本节先来介绍Spark Submit客户端的使用。

例子：使用蒙特卡罗方法计算圆周率。

如图所示，蒙特卡罗方法求圆周率，使用的是概率的思想：往正方形区域随机撒点，总点数记为P2，落在单位圆区域内的点数记为P1，单位圆的面积为π，正方形的面子为4，π = P1 / P2 4。这里的P1和P2均由随机实验中得到，实验的次数（P2）越多，得到的结果就越精确。

Spark提供的测试用例$SPARK_HOME/examples/jars/spark-examples_211-210jar中就有蒙特卡罗求圆周率的例子SparkPI，我们就使用它来介绍Spark Submit的使用。

(1)如果配置了基于Zookeeper的Spark HA，需要先启动Zookeeper服务器

(2)启动Spark集群

使用Spark Submit的命令格式如下：

(1)提交SparkPI任务，随机实验次数为100：

(2)提交SparkPI任务，随机实验次数为1000：

(3)提交SparkPI任务，随机实验次数为10000：

可以看到上面三次实验的结果分别是：

一般对于随机实验来说，试验次数越多结果越精确。但是不免存在误差。如果想要获取更精确的圆周率，你可以输入更多的次数进行测试。但这不是本文介绍的重点。

至此，使用Spark Submit客户端提交Spark任务的方法已经介绍完毕，祝你玩的愉快！

Spark的安装模式一般分为三种：1伪分布模式：即在一个节点上模拟一个分布式环境，master和worker共用一个节点，这种模式一般用于开发和测试Spark程序；2全分布模式：即真正的集群模式，master和worker部署在不同的节点之上，一般至少需要3个节点（1个master和2个worker），这种模式一般用于实际的生产环境；3HA集群模式：即高可用集群模式，一般至少需要4台机器（1个主master，1个备master，2个worker），这种模式的优点是在主master宕机之后，备master会立即启动担任master的职责，可以保证集群高效稳定的运行，这种模式就是实际生产环境中多采用的模式。本小节来介绍Spark的全分布模式的安装和配置。

安装介质：
jdk-8u162-linux-x64targz 提取码：2bh8
hadoop-273targz 提取码：d4g2
scala-2126tgz 提取码：s2ly
spark-210-bin-hadoop27tgz 提取码：5kcf

准备3台Linux主机，按照下面的步骤在每台主机上执行一遍，设置成如下结果：

安装Linux *** 作系统比较简单，这里不再详细。参考：《 Linux从入门到精通1：使用 VMware Workstation 14 Pro 安装 CentOS 7 详细图文教程》

编辑hosts配置文件：# vi /etc/hosts，追加3行：

测试主机名是否可用：

（1）使用ssh-keygen工具生成秘钥对：

（2）将生成的公钥发给三台主机：master、slave1、slave2：

（3）测试秘钥认证是否成功：

由于各个主机上的时间可能不一致，会导致执行Spark程序出现异常，因此需要同步各个主机的时间。在实际生成环境中，一般使用时间服务器来同步时间，但是搭建时间服务器相对较为复杂。这里介绍一种简单的方法来快速同步每台主机主机的时间。我们知道，使用date命令可以设置主机的时间，因此这里使用putty的插件MTPuTTY来同时向每一台主机发送date命令，以到达同步时间的目的。

（1）使用MTPuTTY工具连接三台主机，点击MTPuTTY工具的Tools菜单下的“Send script…”子菜单，打开发送脚本工具窗口。

（2）输入命令：date -s 2018-05-28，然后回车（注意：一定要回车，否则只发送不执行），在下面服务器列表中选择要同步的主机，然后点击“Send script”，即可将时间同步为2018-05-28 00:00:00。

使用winscp工具将JDK安装包 jdk-8u144-linux-x64targz 上传到/root/tools/目录中，该目录是事先创建的。

进入/root/tools/目录，将jdk安装包解压到/root/training/目录中，该目录也是事先创建的。

使用winscp工具将Hadoop安装包 hadoop-273targz 上传到master节点的/root/tools/目录中，该目录是事先创建的。

进入/root/tools/目录，将hadoop安装包解压到/root/training/目录中，该目录也是事先创建的。

进入Hadoop配置文件目录：

(1) 配置hadoop-envsh文件：

(2) 配置hdfs-sitexml文件：

(3) 配置core-sitexml文件：

(4) 配置mapred-sitexml文件：
将模板文件mapred-sitexmltemplate拷贝一份重命名为mapred-sitexml然后编辑：

(5) 配置yarn-sitexml文件：

(6) 配置slaves文件：

将master上配置好的Hadoop安装目录分别复制给两个从节点slave1和slave2，并验证是否成功。

第一次启动需要输入yes继续。

启动成功后，使用jps命令查看各个节点上开启的进程：

使用命令行查看HDFS的状态：

使用浏览器查看HDFS的状态：

使用浏览器查看YARN的状态：

(1) 在HDFS上创建输入目录/input：

(2) 将本地数据文件datatxt上传至该目录：

(3) 进入到Hadoop的示例程序目录：

(4) 执行示例程序中的Wordcount程序，以HDFS上的/input/datatxt作为输入数据，输出结果存放到HDFS上的/out/wc目录下：

(5) 查看进度和结果：

可以通过终端打印出来的日志信息知道执行进度：

执行结束后可以在HDFS上的/out/wc目录下查看是否有_SUCCESS标志文件来判断是否执行成功。

如果执行成功，可以在输出目录下看到_SUCCESS标志文件，且可以在part-r-00000文件中查看到wordcount程序的结果：

由于Scala只是一个应用软件，只需要安装在master节点即可。

使用winscp工具将Scala安装包上传到master节点的/root/tools目录下：

进入/root/tools目录，将Scala安装包解压到安装目录/root/training/：

将Scala的家目录加入到环境变量PATH中：

使环境变量生效：

输入scala命令，如下进入scala环境，则证明scala安装成功：

我们先在master节点上配置好参数，再分发给两个从节点slave1和slave2。

使用winscp工具将Spark安装包上传到master节点的/root/tools目录下：

进入/root/tools目录，将Spark安装包解压到安装目录/root/training/下：

注意：由于Spark的命令脚本和Hadoop的命令脚本有冲突（比如都有start-allsh和stop-allsh等），
所以这里需要注释掉Hadoop的环境变量，添加Spark的环境变量：

按Esc:wq保存退出，使用source命令使配置文件立即生效：

进入Spark的配置文件目录下：

(1) 配置spark-envsh文件：

(2) 配置slaves文件：

将master上配置好的Spark安装目录分别复制给两个从节点slave1和slave2，并验证是否成功。

启动后查看每个节点上的进程：

使用浏览器监控Spark的状态：

使用spark-shell命令进入SparkContext（即Scala环境）：

启动了spark-shell之后，可以使用4040端口访问其Web控制台页面(注意：如果一台机器上启动了多个spark-shell，即运行了多个SparkContext，那么端口会自动连续递增，如4041,4042,4043等等)：

注意：由于我们将Hadoop从环境变量中注释掉了，这时只能手动进入到Hadoop的sbin目录停止Hadoop：

Spark中常用的端口总结：

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/zz/12705496.html

spark standalone 怎么设置堆外内存

发表评论

评论列表（0条）