MapReduce之job配置信息介绍

MapReduce之job配置信息介绍,第1张

MapReduce之job配置信息介绍 一.job

hadoop中的MapReduce可以使用Java进行MapReduce的逻辑撰写。其中就需要job进行相关配置。job作为MapReduce的配置信息以及启动项直接打包成jar包,hadoop可以运行这个jar包实现mapreduce的功能。本文主要从源码中,将job的配置项信息提取出来,希望对大家对于hadoop的学习和工作有所帮助。

二、job的方法详细介绍 返回值方法描述StringgetTrackingURL()获取将显示某些作业进度信息的 URLStringgetJobFile()获取提交的作业配置的路径LonggetStartTime()获取作业开始时间LonggetFinishTime()获取作业结束时间StringgetSchedulingInfo()获取作业调度信息JobPrioritygetPriority()获取作业的优先级StringgetJobName()获取作业的名称StringgetHistoryUrl()获取历史的URL路径booleanisRetired()判断节点是否已经退役ClustergetCluster()获取集群voidsetCluster设置集群StringgetTaskFailureEventString()返回导致作业失败的原因TaskReport[]getTaskReports获取作业任务的当前状态信息。floatmapProgress()获取Map作业执行进度floatreduceProgress()获取Reduce作业执行进度floatcleanupProgress()获取作业清理任务的进度floatsetupProgress()获取初始化任务的进度booleanisComplete()检查作业是否完成booleanisSuccessful()判断作业是否成功voidkillJob()关闭正在运行的作业voidsetPriority(JobPriority jobPriority)设置作业的优先级voidsetPriorityAsInteger(int jobPriority)设置作业优先级intconvertPriorityToInteger(JobPriority jobPriority)将一个作业的优先级返回为int类型,其数值范围为0-5,数值越大优先级越大TaskCompletionEvent[]getTaskCompletionEvents(final int startFrom, final int numEvents)获取指示组件任务完成(成功/失败)的事件TaskCompletionEvent[]getTaskCompletionEvents(final int startFrom)获取指示组件任务完成(成功/失败)的事件booleankillTask(final TaskAttemptID taskId, final boolean shouldFail)关闭指示的任务voidkillTask(final TaskAttemptID taskId)关闭指示的任务voidfailTask(final TaskAttemptID taskId)指定任务失败CountersgetCounters()获取当前作业的当前计数String[]getTaskDiagnostics(final TaskAttemptID taskid)获取给定任务尝试的诊断消息voidsetNumReduceTasks(int tasks)设定ReduceTask的数量voidsetWorkingDirectory(Path dir)设置默认文件系统的当前工作目录。void**setInputFormatClass(Class cls ) **设置job的输入格式(InputFormat)void**setOutputFormatClass(Class cls) **设置job的输出格式(OutputFormat)voidsetMapperClass(Class cls )设置job的MappervoidsetJarByClass(Class cls)通过查找给定类的来源来设置 JarvoidsetJar(String jar)设置作业 jarvoidsetUser(String user)为作业(job)设置报告的用户名称voidsetCombinerClass(Class cls)为作业设置组合器类(Combiner)voidsetReducerClass(Class cls)为作业设置ReducervoidsetPartitionerClass(Class cls )设置job的Partitioner,用于作业切片voidsetMapOutputKeyClass(Class theClass)设置Map作业输出键值对的键类型voidsetMapOutputValueClass(Class theClass)设置Map作业输出的键值对的值类型voidsetOutputKeyClass(Class theClass)设置作业输出键值对的键类型voidsetOutputValueClass(Class theClass)设置作业输出键值对的值类型voidsetCombinerKeyGroupingComparatorClass (Class cls)定义比较器,该比较器控制将哪些键组合在一起以进行对组合器的单次调用voidsetSortComparatorClass(Class cls)定义排序比较器voidsetGroupingComparatorClass(Class cls)定义比较器,该比较器控制将哪些键组合在一起以进行对Reducer.reduce(Object, Iterable, Reducer.Context)的单个调用voidsetJobName(String name)设置用户指定的作业名称。voidsetSpeculativeExecution(boolean speculativeExecution)为此作业打开或关闭推测执行voidsetMapSpeculativeExecution(boolean speculativeExecution)为Map任务打开或关闭此作业的推测执行voidsetReduceSpeculativeExecution(boolean speculativeExecution)为reduce 任务打开或关闭此作业的推测执行voidsetJobSetupCleanupNeeded(boolean needed)指定作业是否需要作业设置和作业清理voidsetCacheArchives(URI[] archives)设置一个缓存集合voidsetCacheFiles(URI[] files)设置缓存文件voidaddCacheArchive(URI uri)增加本地缓存voidaddCacheFile(URI uri)增加本地缓存文件voidaddFileToClassPath(Path file)将文件路径添加到当前的类路径条目集 它还将文件添加到缓存voidaddArchiveToClassPath(Path archive)将归档路径添加到当前的类路径条目集voidcreateSymlink()最初打算启用符号链接,但目前无法禁用符号链接voidsetMaxMapAttempts(int n)设置运行Map任务的最大尝试次数voidsetMaxReduceAttempts(int n)设置运行Reduce任务的最大尝试次数voidsetProfileEnabled(boolean newValue)设置系统是否应该为此作业中的某些任务收集分析器信息voidsetProfileParams(String value)设置探查器配置参数voidsetProfileTaskRange(boolean isMap, String newValue)设置Map的范围或缩小到轮廓voidsetCancelDelegationTokenUponJobCompletion(boolean value)设置允许 JobTracker 在作业完成时取消 HDFS 委托令牌的标志voidsetUseNewAPI()默认为新 API,除非它们被明确设置或使用旧的 mapper 或 reduce 属性voidsetSharedCacheUploadPolicies(Configuration conf,Map policies, boolean areFiles)设置共享缓存上传策略配置参数MapgetSharedCacheUploadPolicies(Configuration conf, boolean areFiles)从配置参数反序列化共享缓存上传策略的映射MapgetFileSharedCacheUploadPolicies(Configuration conf)获取文件的共享缓存上传策略MapgetArchiveSharedCacheUploadPolicies( Configuration conf)获取}的共享缓存上传策略voidconnect()连接booleanisConnected()判断是否连接JobSubmittergetJobSubmitter(FileSystem fs, ClientProtocol submitClient)仅用于通过单元测试进行模拟,获取作业提交voidsubmit()将作业提交到集群并立即返回booleanwaitForCompletion(boolean verbose)将作业提交到集群并等待它完成booleanmonitorAndPrintJob()在取得进展和任务失败时实时监控作业和打印状态voidprintTaskEvents(TaskCompletionEvent[] events,Job.TaskStatusFilter filter, boolean profiling, IntegerRanges mapRanges,IntegerRanges reduceRanges)输出任务事件intgetProgressPollInterval(Configuration conf)monitorAndPrintJob() 打印状态的间隔intgetCompletionPollInterval(Configuration conf)waitForCompletion() 应该检查的时间间隔TaskStatusFiltergetTaskOutputFilter(Configuration conf)获取任务输出过滤器voidsetTaskOutputFilter(Configuration conf,TaskStatusFilter newValue)修改配置以设置任务输出过滤器ReservationIdgetReservationId()获取提交作业的预留voidsetReservationId(ReservationId reservationId)设置作业提交到的预留voidclose()关闭job

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zaji/5699929.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-12-17
下一篇 2022-12-17

发表评论

登录后才能评论

评论列表(0条)

保存