presto中split计算worker的分配调度机制分析

presto中split计算worker的分配调度机制分析,第1张

presto中split计算worker的分配调度机制分析
  1. presto的split

        在presto中,coordinator会将state切分成多个task提交到各个worker上并行执行。每个task的输入数据是一个或者多个split,split是表的表的一部分数据,比如Hive表是hdfs上边的一个文件。

        因为worker读取split数据需要读取hdfs文件,因为如果split能恰好分配到数据所在的worker节点进行读取和计算,能节省很多的网络传输消耗,有利于加速查询性能。

        presto中提供了两者的split分配调度方式供选择,一个是SimpleNodeSelector,另一个是基于网路拓扑的TopologyAwareNodeSelector,默认的调度方式为SimpleNodeSelector。

        另外presto也提供了两个优化项开关,分别是node-scheduler.optimized-local-scheduling和hive.force-local-scheduling。前者打开时候,presto尽可能地选择和split数据相同节点的,并且任务轻的worker进行调取,后者打开时候,presto会强制调取到和split数据相同节点的worker上执行,否则会报错。

       本文主要对SimpleNodeSelector和TopologyAwareNodeSelector的调度机制进行分析。

2.  SimpleNodeSelector的调度机制

       SimpleNodeSelector的调度机制只要在SimpleNodeSelector::computeAssignments中实现,其实现的逻辑如下:

3. TopologyAwareNodeSelector的调度机制

       TopologyAwareNodeSelector的调取机制主要在TopologyAwareNodeSelector::computeAssignments实现,其实现的逻辑主要是:

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zaji/5656508.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-12-16
下一篇 2022-12-16

发表评论

登录后才能评论

评论列表(0条)

保存