HDFS的Block和切片（split）的区别

effect • 2022-11-16 • 随笔 • 阅读 4

HDFS的Block和切片（split）的区别 1.Block（数据块）

数据被切分后的一个整体称之为块
在Hadoop1中默认大小为64MB，在Hadoop2及其以后默认大小为128MB
同一个文件中，每个数据块大小要一致（不同文件中，块的大小可以不一致。文件大小不同，可以设置不同的块的数量）
根据文件大小及集群节点的数量综合考虑块的大小
数据块的个数=Ceil（文件大小/每个块的大小）

2.Split（切片）

是逻辑意义上的Split
通常在M/R程序或者其他数据处理技术上用
根据处理的数据量的情况，Split size是允许用户自定义的

1.Split只是一个概念上的切片，单单存在于虚拟之中

而Block是物理上的分割，将存储的数据进行分割

2.为了MapReduce处理的时候减少由于Split和Block之间大小不一致，Split的大小在默认的情况下和HDFS的Block切块大小一样大

3.一个Split不会包含零点几或者几点几个Block，一定是包含大于等于1个整数个Block

4.Split和Block的关系是一对多的关系

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/zaji/5071116.html

大小数据文件大小切片默认

打赏

微信扫一扫

支付宝扫一扫

effect 一级用户组

linux虚拟机下 zookeeper 单机版安装步骤

上一篇 2022-11-16

【Structed Streaming】 *** 作 Streaming DataFrameDataSet

下一篇 2022-11-16

发表评论

登录后才能评论

评论列表（0条）