hdfs详解之块、小文件和副本数

hdfs详解之块、小文件和副本数,第1张

1、block:block是物理切块,在文件上传到HDFS文件系统后,对大文件将以每128MB的大小切分若干,存放在不同的DataNode上。例如一个文件130M,那么他会存被切分成2个块,一个块128M,另一个块2M.

1、HDFS 适应场景: 大文件存储,小文件是致命的

2、如果小文件很多的,则有可能将NN(4G=42亿字节)撑爆。例如:1个小文件(阈值<=30M),那么NN节点维护的字节大约250字节。一亿个小文件则是250b * 1亿=250亿.将会把NN节点撑爆。如果一亿个小文件合并成100万个大文件:250b * 1百万=2亿字节。

3、在生产上一般会:

1)调整小文件阈值

2)合并小文件:

a.数据未落地到hdfs之前合并

b.数据已经落到hdfs,调用spark service服务 。每天调度去合并 (-15天 业务周期)

3)小文件的危害:

a.撑爆NN。

b.影响hive、spark的计算。占用集群计算资源

1、如果是伪分布式,那么副本数只能为一。

2、生成上副本数一般也是官方默认参数: 3份

如果一个文件130M,副本数为3。那么第一个block128M,有三份。另外一个block2M,也有三份。

题目:

blockSize128M,副本数3份,那么一个文件260M,请问多少块,多少实际存储?

260%128=2....4M 3个块 3个副本=9块

260M 3=780M

64GB和0B。根据查询相友改关资料信息显示,1024B等于1KB,1024KB等于1MB,1024MB等于1GB,1024GB等于1TB。最小的文件可以是0字节,也就旦正是0B,模告悔最大的文件为。

1. 压缩插件阀值的大小需要根据具体情况来确定。

2. 阀值越大,压缩插件的压缩比会越高,但同时也会增加压缩的时间和计算资源消耗。

3. 如果你的慎裂网站需渣雀要提高页面加载速度,建议阀值设置在较小的范围内,比如 70%!~(MISSING) 80%!。

(MISSING)但是如果你的网站有大量的图片或视频等大型文件需要加载,可以适当增加阀值,达到更好的压缩效果。

4. 需要注意的是,不同的压缩插件可能对阀值的设置有所不同,需要根据具体的插如孝早件使用说明进行设置。


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/tougao/12266657.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-24
下一篇 2023-05-24

发表评论

登录后才能评论

评论列表(0条)

保存