NameNode和SecondaryNameNode的关系(HDFS)

NameNode和SecondaryNameNode的关系(HDFS),第1张

NameNode和SecondaryNameNode的关系(HDFS) 1.引言

首先我们对比一下这两的名字,就一个区别,后者多了个Secondary,即次要的意思,可以理解为次要的NameNode;

那么我们先不谈其他的,就只看字面意思,那么第一想法就是SNN是NN的候补,即NN挂了那么SNN就继承它的衣钵;又或者SNN是NN的“秘书”,帮忙它做事。

NameNode是干嘛的?它负责管理整个文件系统的元数据。那么元数据我们存在哪?内存或者磁盘?假设我们存在内存中,那存取速度很快啊,不过一旦断电,数据就丢失了,可靠性差;那么如果存在磁盘,可靠性起来了,但是效率又低了。

2.门槛 2.1需要先明确的点

在NameNode被格式化之后,在$HADOOP_HOME/data/dfs/name/current目录下,我们能看到如下文件:

fsimage文件:元数据的一个永久性的检查点,包含HDFS文件系统的所有目录和文件inode的序列化信息。也就是说它在磁盘中备份元数据。

edits文件:存放HDFS文件系统的所有更新 *** 作的路径,文件系统客户端执行的所有写 *** 作都会先被记录到edits文件中。

3.原理

首先我们想,引入了磁盘备份fsimage,可靠性确实提升了,但是当内存中元数据更新时,fsimage不更新就会导致数据不一致性,如果同步更新又拖慢速度。所以引入了edits文件,该文件只进行追加 *** 作,也就是说每当元数据有增改时,只是更新内存然后把更新 *** 作追加到edits中,并不是当时实时就修改fsimage,而是后续的fsimage和edits合并得到元数据。

然后我们看2中的图也发现存在一个edits其后面带有inprocess表示正在进行中的,也就是当前 *** 作都是追加到该edits文件中。

比如举个例:

假如此时我内存中有一个数据e=1,fsimage中也是e=1,此时客户端来了三个 *** 作,e+1,e*2,e-1,这时候明显结果值是2,4,3,那么内存中的e也会依次如上更新,而fsimage中的e仍然为1,只是把e+1,e*2,e-1这三个 *** 作追加收到edits,而是每次关闭的时候fsimage和edtis里面的 *** 作合并,开启的时候就加载到内存中,这样的话就避免了频繁的磁盘读写了。假如在开启工作期间edits记录了过多的 *** 作,这样就会导致了关闭的时候合并得非常慢。因此需要谁来负责定期的进行fsimage和edits的合并。这便是SNN。那么这样SNN的主要作用就很明显了,用于fsimage和edits的合并

4.本质

第一步:

开启时,加载edits和images到内存

第二步:

客户端对NameNode进行增删改查,这时候将 *** 作追加到edits_inprocess_xx文件中且修改内存中元数据。

第三步:

SNN每隔一段时间(默认一个小时,可以通过dfs.namenode.checkpoint.period设置)就问NN是否需要CheckPoint,当然还有一种情况就是一分钟检查一次 *** 作次数(可通过dfs.namenode.checkpoint.check.period),当 *** 作次数达到1百万时(可通过dfs.namenode.checkpoint.txns设置),SNN也会请求CheckPoint。

 

ps:hdfs-default.xml中的默认配置截图

 

第四步:

NN同意后,会滚动edits日志,生成新的edits_inprocess_xx+1用于存后续 *** 作,而将edits_inporcess_xx变为edits_xx。

第五步:

SNN将edits_xx和fsimage拷贝过来

加载到内存并合并生成新的fsimage.chkpoint 

 第六步:

SNNS将fsimage.chkpoint拷贝会NameNode,NameNode将其重命名为fsimage

第七步:

此时edits_inprocess_xx+1和fsimage.chkpoint重命名得到的fsimage合并在一起就是最新的元数据,完成了一个闭环,后面 *** 作就是不断重复这些步骤。

5.总结

简单来说就是元数据存在内存中,磁盘中也以fsimage的形式备份一份,不过在crud改的时候不会同步修改磁盘而是以 *** 作的形式追加到edits中,断电的时候就合并fsimage和edits得到元数据这样即保证了内存的高效率,又拥有磁盘的高可靠行。而SNN就是充当定期进行fsimage和edits合并的角色。可以理解为辅助NN,而不是传统的那种热备关系。

说通俗点,SNN并不是能够替补NN的嫡长子,而是能辅助NN工作的秘书。

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zaji/5694659.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-12-17
下一篇 2022-12-17

发表评论

登录后才能评论

评论列表(0条)

保存