大数据工具——oozie调度_随笔

大数据工具——oozie调度一、基础命令

#提交任务。-config是指定oozie任务的job.properties文件位置,submit是提交任务，每次提交任务后会把任务放到服务器并生产一个jobId,但是并不会运行这个任务
oozie job -oozie http://namenode.com:11000/oozie -config /root/test1/job.properties -submit

#执行该任务，0000000-180927111227906-oozie-oozi-W这个是jobId，每个任务的id是唯一的，这个是由提交任务之后产生的
oozie job -oozie http://namenode.com:11000/oozie -start 0000002-211008094443862-oozie-oozi-W

#运行该任务，运行=提交+执行
oozie job -oozie http://namenode.com:11000/oozie -config /root/test1/job.properties -run

# 后边加上 -D 可以代替job.properties中参数
oozie job -oozie http://namenode.com:11000/oozie  -run -D oozie.use.system.libpath=true

#查看任务的信息，可以查看到每个执行项状态
oozie job -oozie http://nn.com:11000/oozie -info 0000017-211008094443862-oozie-oozi-W

#查看任务的日志,可以查看每个任务的输出内容及日志内容
oozie job -oozie http://namenode.com:11000/oozie -log 0000008-211008094443862-oozie-oozi-W

#可以查看任务的指定项的状态，比如查看action的name为process-select的执行状态
oozie job -oozie http://namenode.com:11000/oozie -info 0000023-211008094443862-oozie-oozi-C@1

#杀死任务
oozie job -oozie http://namenode.com:11000/oozie -kill 0000008-211008094443862-oozie-oozi-W

二、配置文件

配置文件只是用来讲解方便，不能直接拿来使用，官网上有打包好的任务

1.job.properties

#hsfs端口地址
nameNode=hdfs://hgdp-001:8020　　　　　

#resourceManager的端口
jobTracker=hgdp-001:8032　
　　　　　　　
#oozie队列
queueName=default　　　　　　　　　　　　

#输入参数
input=2017-05-09　　　　　　　　　　　　　

#自定义目录
hdfspath=user/root　　　　　　　　　　　

#自定义全局目录
examplesRoot=ocn-itv-oozie　　　　　　

#是否启动系统lib库
oozie.use.system.libpath=True　　　　

#参数设置
sparkopts=--executor-memory 1G    

#coordinator任务开始时间
start=2017-09-04T00:05+0800　　　　

#coordinator任务结束时间
end=2017-09-04T00:36+0800　　　　　

start2=2017-09-01T00:06+0800

end2=2017-09-04T00:36+0800

#用户自定义lib库(存放jar包)
oozie.libpath=${nameNode}/${hdfspath}/${examplesRoot}/lib/　　　　　　　　　

workflowAppUri=${nameNode}/${hdfspath}/${examplesRoot}/wf/spark/fork/

#coordinator定时调度对应的workflow.xml所在目录
workflowAppUri2=${nameNode}/${hdfspath}/${examplesRoot}/wf/spark/single/　　

appPath=${nameNode}/${hdfspath}/${examplesRoot}/cd/single/

#bundle调用对应的coordinator.xml所在目录
appPath2=${nameNode}/${hdfspath}/${examplesRoot}/cd/single1/  
  　　　　
#bundle.xml所在目录
oozie.bundle.application.path=${nameNode}/${hdfspath}/${examplesRoot}/bd/bd1/

2.coordinator.xml


    
        60
        1
    
    
        
            ${input_prefix}/${YEAR}${MONTH}${DAY}
            
        
        
            ${output_prefix}
            
        
    
    
        
            ${coord:current(-2)}
        
    
    
        
            ${coord:current(+5)}
        
    
    
        
            ${wf_application_path}
            
                
                    WF_INPUT
                    
                        ${coord:dataIn('INPUT_PREFIX')}/${coord:formatTime(coord:dateOffset(coord:nominalTime(), -2, 'HOUR'), 'HH')}*
                    
                
                
                    WF_OUTPUT
                    
                        ${coord:dataOut('OUTPUT_PREFIX')}/stat-data/hour/${coord:formatTime(coord:dateOffset(coord:nominalTime(), -2, 'HOUR'), 'yyyyMMdd')}/${coord:formatTime(coord:dateOffset(coord:nominalTime(), -2, 'HOUR'), 'HH')}
                    
                    
                    CURRENT_DATE
                    ${coord:formatTime(coord:dateOffset(coord:nominalTime(), -2, 'HOUR'), 'yyyyMMdd')}
                
                
                    CURRENT_HOUR
                    ${coord:formatTime(coord:dateOffset(coord:nominalTime(), -2, 'HOUR'), 'HH')}
                
                
                    oozie.use.system.libpath
                    true

3.workflow.xml


    
    
        
            mapred.job.queue.name
            root
        
    
    
    
    
        
            ${ssh_user}@${ssh_ip}
            sh ${shell_dir}/upload.sh
            
        
        
        
    
    
    
        
        
    
    
        
            ${job_tracker}
            ${name_node}
            
                
            
            yarn-cluster
            cluster
            HttpTracebase_${CURRENT_DATE}${CURRENT_HOUR}
            com.haohan.usertrace.analyzer.jobs.basicdata.HttpBasic
            ${jar_path}
            --driver-memory 2g  num-executors 100 --executor-memory 2g --executor-cores 2 --conf spark.network.timeout=1000
            ${WF_INPUT}/*
            ${WF_OUTPUT}/
        
        
        
    
	
        
            ${wf:conf('IF_EXSIT') eq "true"}
            
        
    
    
        
            ${ssh_user}@${ssh_ip}
            sh ${shell_dir}/day.sh
        
        
        
    
    
        Action failed, error message[${wf:errorMessage(wf:lastErrorNode())}]

参考博客:
oozie详解：里边部分配置讲解更详细

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/zaji/5699546.html

大数据工具——oozie调度

发表评论

评论列表（0条）