HDFS是一个分布式文件存储系统,可以支持数千台以上规模的集群。单台节点发生故障的概率比较低,但是当集群中节点非常多的时候,集群中有节点发生故障的概率就很高了。因此需要有效的手段来及时检查出慢节点,指导我们进行故障排查、硬件维修、慢节点规避等等。
本文就来简要介绍一下HDFS中关于慢节点检测的相关功能。
介绍慢节点之前,我们得先回顾一下HDFS写pipeline的模型。如下图所示:
在写pipeline的过程中,如果出现了网络慢节点,步骤1的耗时会明显增加,如果出现的是磁盘慢节点,步骤2的耗时会明显增加,因此,HDFS的慢节点监控,主要是监控步骤1和步骤2的耗时。网络慢节点用Slow Peer指代,磁盘慢节点用Slow Disk指代。
网络慢节点的汇总报告信息由SlowPeerReports类表示。
SlowPeerReports里面有个Map数据结构,映射关系是:
DataNode’s DataNodeUUID -> its aggregate latency as seen by the reporting node.
翻译过来是:Datanode的DataNodeUUID -> 此datanode被观察到的聚合后的延迟。
SlowPeerReports类的构造方法是私有的,因此不能直接new。不过它提供了一个static类型的create方法,用来在其他类中创建SlowPeerReports对象。如下图:
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)