Job、Stage、Task划分过程_软件运维

一、关系概览

二、Job/Stage/Task关系

一个Spark程序可以被划分为一个或多个Job，划分的依据是RDD的Action算子，每遇到一个RDD的Action *** 作就生成一个新的Job。

每个spark Job在具体执行过程中因为shuffle的存在，需要将其划分为一个或多个可以并行计算的stage，划分的依据是RDD间的Dependency关系，当遇到Wide Dependency时因需要进行shuffle *** 作，这涉及到了不同Partition之间进行数据合并，故以此为界划分不同的Stage。

Stage是由Task组组成的并行计算，因此每个stage中可能存在多个Task，这些Task执行相同的程序逻辑，只是它们 *** 作的数据不同。

一般RDD的一个Partition对应一个Task,Task可以分为ResultTask和ShuffleMapTask。

补充说明：

多个Stage可以并行（S1/S2），除非Stage之间存在依赖关系（S3依赖S1+S2）。

三、RDD/Partition/Records/Task关系

通常一个RDD被划分为一个或多个Partition，Partition是Spark进行数据处理的基本单位，一般来说一个Partition对应一个Task，而一个Partition中通常包含数据集中的多条记录(Record)。

注意不同Partition中包含的记录数可能不同。Partition的数目可以在创建RDD时指定，也可以通过reparation和coalesce等算子重新进行划分。

通常在进行shuffle的时候也会重新进行分区，这是对于key-valueRDD，Spark通常根据RDD中的Partitioner来进行分区，目前Spark中实现的Partitioner有两种：HashPartitioner和RangePartitioner，当然也可以实现自定义的Partitioner，只需要继承抽象类Partitioner并实现numPartitions and getPartition(key: Any)即可。

四、运行层次图

是。

该程序在运行时会创建一个JOB，并且将该自己以JOB后台方式运行，并且可以从前台传递参数到后台JOB。

SAP HANA DataBase 是S/4 HANA 所使用的数据库，类似于 Oracle DB 或微软的 SQL Server，HANA 是SAP自行研发的内存数据库产品，设计初衷是为了支持商业智能(BI)应用，优势在于能实时分析大量的业务数据，而不需要去对数据进行传统的建模、抽取、聚合等 *** 作。

1、一个应用程序对应多个job，一个job会有多个stage阶段，一个stage会有多个task

2、一个应用程序中有多少个行动算子就会创建多少个job作业；一个job作业中一个宽依赖会划分一个stage阶段；同一个stage阶段中最后一个算子有多少个分区这个stage就有多少个task，因为窄依赖每个分区任务是并行执行的，没有必要每个算子的一个分区启动一个task任务。如图所示阶段2最后一个map算子是对应5个分区，reducebykey是3个分区，总共是8个task任务。

3、当一个rdd的数据需要打乱重组然后分配到下一个rdd时就产生shuffle阶段，宽依赖就是以shuffle进行划分的。

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/yw/11447028.html

Job、Stage、Task划分过程

发表评论

评论列表（0条）