优缺点
二、YARN核心组件及架构
1. ResourceManger(RM):全局资源管理器,集群中只有一个活跃的RM,具体功能包括:处理客户端的请求;启动监控ApplicationMaster;监控NodeManger;资源的分配和调度。
2.ApplicationMaster(AM):每个应用程序(job任务)对应一个AM,负责计算job的资源情况,并向RM申请和任务的调度。具体功能包括:(1)计算job资源使用情况,与RM协商申请job的资源情况;(2)与NodeManger通信启动/停止Container,来执行/终止任务的具体执行;(3)监控任务的运行状态及失败处理。源备
3.NodeManager(NM):节点的资源管理器,每个节点启动一个,一般与DataNode一 一对应。具体功能包括:雹悔毁(1)监控和管理当前节点的资源使用情况;(2)通过心跳向RM汇报自身的资源使用情况;(3)处理RM的请求,分配执行AM的Container;(4):处理AM的请求,启动和停止执行任务的Container。
4.Container:资源的抽象,包括一系列描述信息,任务的运行前洞资源(节点、CPU、内存等),任务运行环境,启动命令等。
架构图见 yarn-arch
三、YARN运行流程
2. RM根据内部调度器,选取一个资源空闲的NM,启动一个Container来运行AM。
3.AM计算应用程序所需资源,向RM进行资源申请,申请字段包括:
message ResourceRequestProto {
optional PriorityProtopriority = 1 // 资源优先级
optional stringresource_name = 2 // 期望资源所在的host
optional ResourceProtocapability = 3 // 资源量(mem、cpu)
optional int32num_containers = 4 // 满足条件container个数
optional boolrelax_locality = 5 //default = true
}
AM会根据文件的存储地址,分析运行需要的资源等,向RM申请一个期望的资源列表,RM同时考虑各个节点资源使用情况,最终分配一个资源列表。
4. RM返回资源列表,以cotainer结构
message ContainerProto {
optional ContainerIdProtoid = 1 //container id
optional NodeIdProtonodeId = 2 //container(资源)所在节点
optional stringnode_http_address = 3
optional ResourceProtoresource = 4 //分配的container数量
optional PriorityProtopriority = 5 //container的优先级
optional hadoop.common.TokenProtocontainer_token = 6 //container token,用于安全认证
}
5. AM与NM通信,分配Container并执行任务,以 ContainerLaunchContext 结构发出请求。同时监控各个节点的运行情况(定期心跳),如果失败,AM可将该节点的任务调度到其他节点运行。
一个NN可以启动多个Container。
ContainerLaunchContext结构:
message ContainerLaunchContextProto {
repeated StringLocalResourceMapProtolocalResources = 1 //该Container运行的程序所需的在资源,例如:jar包
optional bytestokens = 2//Security模式下的SecurityTokens
repeated StringBytesMapProtoservice_data = 3
repeated StringStringMapProtoenvironment = 4 //Container启动所需的环境变量
repeated stringcommand = 5 //该Container所运行程序的命令,比如运行的为java程序,即$JAVA_HOME/bin/java org.ourclassrepeated ApplicationACLMapProto application_ACLs = 6//该Container所属的Application的访问控制列表
}
RM负责AM的启动和监控,若异常可重新运行。
AM负责真个job任务的运行、监控,及失败处理 *** 作。
四、YARN的调度器
先进先出FIFO
Cap 容量调度器
Fire 公平调度器
您好,我来为您解答:1、在程序中,我将文件读入格式设定为WholeFileInputFormat,即不对文件进洞银行切分。
2、为了控制reduce的处理过程,map的输出键的格式为组合键格式。与常规的<key,value>不同,这里变为了<textpair,value>,TextPair的格式为<key1,key2>。
3、为了适应组合键,重新设定了分组函数,即GroupComparator。分组规则为,只要TextPair中的key1相同(不要求key2相同),则数据被分配到一个reduce容器中。这样,当相同key1的数据进入reduce容器后,key2起到了一碰激个数据标识的作用纳吵宴
转载,仅供参考。。
如果我的回答没能帮助您,请继续追问。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)