hadoop可以有多个输入一个输出吗

hadoop可以有多个输入一个输出吗,第1张

hadoop可以有多个输入一个输出。根据查询相关公开信息显示,Hadoop可以有多个输入和一个输出。Hadoop的MapReduce功能可以将多个输入源联合起来,并将结果输出到单一的结果文件中。

1.多路径输入

1)FileInputFormat.addInputPath 多次调用加载不同路径

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat

String in0 = args[0]

String in1 = args[1]

String out = args[2]

FileInputFormat.addInputPath(job,new Path(in0))

FileInputFormat.addInputPath(job,new Path(in1))

FileOutputFormat.setOutputPath(job,new Path(out))

2)FileInputFormat.addInputPaths一次调用加载 多路径字符串用逗号隔开

FileInputFormat.addInputPaths(job, "hdfs://RS5-112:9000/cs/path1,hdfs://RS5-112:9000/cs/path2")

2.多种输入

MultipleInputs可以加载不同路径的输入文件,并且每个路径可用不同的maper

MultipleInputs.addInputPath(job, new Path("hdfs://RS5-112:9000/cs/path1"), TextInputFormat.class,MultiTypeFileInput1Mapper.class)

MultipleInputs.addInputPath(job, new Path("hdfs://RS5-112:9000/cs/path3"), TextInputFormat.class,MultiTypeFileInput3Mapper.class)


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/tougao/7962807.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-04-12
下一篇 2023-04-12

发表评论

登录后才能评论

评论列表(0条)

保存