hadoop框架中文件拆分是怎么被触发

hadoop框架中文件拆分是怎么被触发,第1张

JobTracker,创建一个InputFormat的实例,调用它的getSplits()方法胡隐,把输入目录的文件拆分成FileSplist作裤坦厅为Mapper task 的输入,生成Mapper task加入Queue.

源码中体现了拆分的数信禅量

long goalSize = totalSize / (numSplits == 0 ? 1 : numSplits)

long minSize = Math.max(job.getLong(org.apache.hadoop.mapreduce.lib.input.FileInputFormat.SPLIT_MINSIZE, 1), minSplitSize)//minSplitSize!

文件的名字有联系的。而且在主节点master上有记录,读取的时候会找出所有的文件。

拆分的时候单纯按照默瞎悔启认的大小分割的,不前激管任何结构,即使是一行的数据磨如也会拆开


欢迎分享,转载请注明来源:内存溢出

原文地址: https://outofmemory.cn/tougao/12159536.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-21
下一篇 2023-05-21

发表评论

登录后才能评论

评论列表(0条)

保存