物理距离指的是两台服务器之间的物理位置距离,通常是指两台服务器所在的数据中心之间的距离。这种情况下,副本会被放置在距离原始副本最近的服务器上,以减少网络延迟和带宽占用。
网络距离指的是两台服务器之间的网络距离,也就是它们之间的网络延迟。这种情况下,副本会被放置在网络延迟最小的服务器上,以保证数据的可用性和读取速度。
不同的副本放置策略可以根据集群的结构指凳和应用的需求来选择使用。例如,如果集群中的服务器分布在多个数据中心,并且希望尽可能减少网络延迟,那么可以使用网络距离作枣粗为副本放置策略。如果集群中的服务器都在同一数据中心内,并且希望尽量减少带宽占用。
hdfs上的文件是按照块方式进行存储的
块的大小通过hdfs-site.xml里面的参数进行配置,value值是以B为单位的
hadoop1默认块大小64M,hadoop2默认块大小128M
机架感知策略是hdfs的副本放置的方式
2.7以友谨团前是第一个复本而言:
如果是外部客户端上传数据,则此时namenode会选择一个相对空闲节点存放第一个复本,
如果DataNode本晌贺身就是客户端,本身上传,好比伪分布式,都在你这台电脑上,内部上传,则第一个复本放在本节点上
第二个副本,在2.7以前,第二个副本要放到和第一个副本不同机架的节点上,为了防止一个机架挂了,都消失了
第三个副本在2.7以前,放到和第二个副本相同机架上,相同机架之间传输的快
如果是外部客户端上传数据,则此时namenode会选择一个相对空闲节点存放第一个复本,
如果DataNode本身就是客户端,本身上传,好比伪分布式,都在你这台电脑上,内部上传,则第一个复本放在本节点上
第二个副本,在2.7后,第二个副本要放到和第一个副本相同机架的节点上,
第三个副本在2.7后,放到和第二个副本不同机架上
默认是不开启的,需要如好橘下配置
hadoop-site.xml配置文件中配置一个选项:
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)