源码中体现了拆分的数信禅量
long goalSize = totalSize / (numSplits == 0 ? 1 : numSplits)
long minSize = Math.max(job.getLong(org.apache.hadoop.mapreduce.lib.input.FileInputFormat.SPLIT_MINSIZE, 1), minSplitSize)//minSplitSize!
文件的名字有联系的。而且在主节点master上有记录,读取的时候会找出所有的文件。拆分的时候单纯按照默瞎悔启认的大小分割的,不前激管任何结构,即使是一行的数据磨如也会拆开
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)