怎样在yarn框架上运行jar包并返回

怎样在yarn框架上运行jar包并返回,第1张

您好,需要通过Java程序提腔颂交Yarn的MapReduce的计算任务。与一般的通过Jar包提交MapReduce任务不同,通过程序提交MapReduce任务需羡键要有点小变动,详见以下代码。 以下为MapReduce主程伍派郑序,有几点需要提一下: 1、在程序中,我将文件读入格式设定为W...

一、YARN:Hadoop集群中的同一资源调度系统。Hadoop2.0后引入,主要功能有:负责集群中资源的统一调度,响应客户端的请求。

优缺点

二、YARN核心组件及架构

1. ResourceManger(RM):全局资源管理器,集群中只有一个活跃的RM,具体功能包括:处理客户端的请求;启动监控ApplicationMaster;监控NodeManger;资源的分配和调度。

2.ApplicationMaster(AM):每个应用程序(job任务)对应一个AM,负责计算job的资源情况,并向RM申请和任务的调度。具体功能包括:(1)计算job资源使用情况,与RM协商申请job的资源情况;(2)与NodeManger通信启动/停止Container,来执行/终止任务的具体执行;(3)监控任务的运行状态及失败处理。源备

3.NodeManager(NM):节点的资源管理器,每个节点启动一个,一般与DataNode一 一对应。具体功能包括:雹悔毁(1)监控和管理当前节点的资源使用情况;(2)通过心跳向RM汇报自身的资源使用情况;(3)处理RM的请求,分配执行AM的Container;(4):处理AM的请求,启动和停止执行任务的Container。

4.Container:资源的抽象,包括一系列描述信息,任务的运行前洞资源(节点、CPU、内存等),任务运行环境,启动命令等。

架构图见 yarn-arch

三、YARN运行流程

2. RM根据内部调度器,选取一个资源空闲的NM,启动一个Container来运行AM。

3.AM计算应用程序所需资源,向RM进行资源申请,申请字段包括:

message ResourceRequestProto {  

optional PriorityProtopriority = 1 // 资源优先级  

optional stringresource_name = 2 // 期望资源所在的host  

optional ResourceProtocapability = 3 // 资源量(mem、cpu)  

optional int32num_containers = 4 // 满足条件container个数  

optional boolrelax_locality = 5  //default = true   

}  

AM会根据文件的存储地址,分析运行需要的资源等,向RM申请一个期望的资源列表,RM同时考虑各个节点资源使用情况,最终分配一个资源列表。

4. RM返回资源列表,以cotainer结构

message ContainerProto {  

optional ContainerIdProtoid = 1 //container id  

optional NodeIdProtonodeId = 2 //container(资源)所在节点  

optional stringnode_http_address = 3  

optional ResourceProtoresource = 4 //分配的container数量  

optional PriorityProtopriority = 5 //container的优先级  

optional hadoop.common.TokenProtocontainer_token = 6 //container token,用于安全认证  

}

5. AM与NM通信,分配Container并执行任务,以 ContainerLaunchContext 结构发出请求。同时监控各个节点的运行情况(定期心跳),如果失败,AM可将该节点的任务调度到其他节点运行。

一个NN可以启动多个Container。

ContainerLaunchContext结构:

message ContainerLaunchContextProto {  

repeated StringLocalResourceMapProtolocalResources = 1 //该Container运行的程序所需的在资源,例如:jar包  

optional bytestokens = 2//Security模式下的SecurityTokens  

repeated StringBytesMapProtoservice_data = 3  

repeated StringStringMapProtoenvironment = 4 //Container启动所需的环境变量  

repeated stringcommand = 5 //该Container所运行程序的命令,比如运行的为java程序,即$JAVA_HOME/bin/java org.ourclassrepeated ApplicationACLMapProto application_ACLs = 6//该Container所属的Application的访问控制列表  

RM负责AM的启动和监控,若异常可重新运行。

AM负责真个job任务的运行、监控,及失败处理 *** 作。

四、YARN的调度器

先进先出FIFO

Cap 容量调度器

Fire 公平调度器

您好,我来为您解答:

1、在程序中,我将文件读入格式设定为WholeFileInputFormat,即不对文件进洞银行切分。

2、为了控制reduce的处理过程,map的输出键的格式为组合键格式。与常规的<key,value>不同,这里变为了<textpair,value>,TextPair的格式为<key1,key2>。

3、为了适应组合键,重新设定了分组函数,即GroupComparator。分组规则为,只要TextPair中的key1相同(不要求key2相同),则数据被分配到一个reduce容器中。这样,当相同key1的数据进入reduce容器后,key2起到了一碰激个数据标识的作用纳吵宴

转载,仅供参考。。

如果我的回答没能帮助您,请继续追问。


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/yw/12432278.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-25
下一篇 2023-05-25

发表评论

登录后才能评论

评论列表(0条)

保存