第一阶段:RDD+算子组成的有向无环图
第二阶段:DAGScheduler根据宽窄依赖将图划分成不同阶段的任务,并打包成TaskSet
第三阶段:由TaskScheduler遍历TaskSet 将TaskSet中的每个任务发送至worker执行
第四阶段:Worker线程池执中线程行任务
执行速度由 rdd中分区数量、stage的个数、和woker中核的数目决定
重试机制
若task发送失败,TaskScheduler会重试发送3次,3次依然失败,由DAGScheduler重新提交任务,若4次提交任务失败,则整个Application失败。
bilibili
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)