hadoop框架中文件拆分是怎么被触发

网线线序 • 2023-5-21 • 教程 • 阅读 9

JobTracker，创建一个InputFormat的实例，调用它的getSplits()方法胡隐，把输入目录的文件拆分成FileSplist作裤坦厅为Mapper task 的输入，生成Mapper task加入Queue.

源码中体现了拆分的数信禅量

long goalSize = totalSize / (numSplits == 0 ? 1 : numSplits)

long minSize = Math.max(job.getLong(org.apache.hadoop.mapreduce.lib.input.FileInputFormat.SPLIT_MINSIZE, 1), minSplitSize)//minSplitSize！

文件的名字有联系的。而且在主节点master上有记录，读取的时候会找出所有的文件。

拆分的时候单纯按照默瞎悔启认的大小分割的，不前激管任何结构，即使是一行的数据磨如也会拆开

欢迎分享，转载请注明来源：内存溢出

文件时候有的它的也会

打赏

微信扫一扫

支付宝扫一扫

上一篇 2023-05-21

下一篇 2023-05-21

登录后才能评论