hadoop集群防止磁盘损坏导致block丢失的解决方案_IT百科

原理：数据冗余方案实质上是通过增加block数据副本数来防止block丢失，通过牺牲存储来保证数据安全。本方案主要针对于解决异常情况一。hadoop集群目前默认设置的数据副本数为3，也就是说最多能同时容忍不同主机的二块盘出现损坏，当出现不同主机三块盘同时损坏时，就可能出现block丢失情况。

方法：

（1）hadoop 集群动态设置 block 副本：

将/user文件夹下的数据设置5个副本：

（2）hadoop 集群整体提高 block 副本数方法：

通过ambari修改hdfs配置文件：

可以修改为5，则设置集群数据副本数为5.

保存并重启hdfs生效。

注：这样即使三台主机的磁盘出现损坏，这个文件夹的数据也不会丢。除非同时五台主机的磁盘出现损坏，这个文件夹下的数据才可能丢失。

原理：当一个主机的磁盘出现损坏时，集群会立刻对这块盘上的数据通过副本机制恢复到其它主机上。磁盘存储数据量越大，恢复时间会随之增长。我们通过优化hadoop集群的副本恢复参数来提升它的副本恢复速度，从而整体缩短副本恢复时间。本方案主要针对于解决异常情况二，防止出现数据恢复过程中的数据丢失。

方法：

通过ambari添加如下参数：

通过ambari保存配置并重启hdfs服务即可。

原理：hadoop 集群配置机架感知后，同一机架内的所有主机只存储block数据的1~2个副本，总会有一个副本在其它机架。当同一机架内多个主机出现坏盘情况时，至少还有一个block副本可以提供访问和恢复，不会出现block数据丢失情况。

方法：

hadoop集群本身自带机架感知功能，在集群部署是没有使用的话，那么集群所有主机默认在一个机架下: /default-rack

可以通过ambari添加机架感知功能，具体 *** 作如下（两种方法，选其中一个即可）：

单个主机设置：

批量设置：

2. 设置完成后，需要重启hdfs 、mapreduce。

3.查看机架命令：

<name>dfs.cluster.administrators</name>

</property>

<name>dfs.block.access.token.enable</name>

</property>

<name>dfs.datanode.failed.volumes.tolerated</name>

</property>

<name>dfs.replication.max</name>

</property>

<name>dfs.datanode.du.reserved</name>

</property>

<name>dfs.blockreport.initialDelay</name>

</property>

<name>dfs.datanode.data.dir</name>

<value>file:///data/hadoop/hdfs/dn</value>

</property>

<name>dfs.client.read.shortcircuit</name>

</property>

<name>dfs.datanode.max.transfer.threads</name>

</property>

<name>dfs.namenode.http-address</name>

<value>hadoop01:50070</value>

</property>

<name>dfs.client.read.shortcircuit.streams.cache.size</name>

<!-- 在客户端读取前会创建一个FileinputStreamCache，就是由前两个参数控制大小和过期时间,

dfs.client.read.shortcircuit.streams.cache.size和dfs.client.read.shortcircuit.streams.cache.expiry.ms -->

</property>

<name>dfs.namenode.avoid.write.stale.datanode</name>

<!-- 表明是否要避免写为“过时”的心跳消息尚未收到的NameNode超过指定的时间间隔数据节点。写 *** 作将避免使用陈旧的数据节点，除非多数据节点的配置比例

（dfs.namenode.write.stale.datanode.ratio）被标记为失效。见dfs.namenode.avoid.read.stale.datanode为读取一个类似的设置。 -->

</property>

<name>dfs.namenode.avoid.read.stale.datanode</name>

</property>

<name>dfs.namenode.stale.datanode.interval</name>

<!--dfs.client.read.shortcircuit.streams.cache.size和dfs.client.read.shortcircuit.streams.cache.expiry.ms

以及dfs.client.read.shortcircuit.skip.checksum和dfs.client.read.shortcircuit.buffer.size.其中，

在客户端读取前会创建一个FileinputStreamCache，就是由前两个参数控制大小和过期时间的，其中key就是Datanode+block；

后两个参数就是决定是否跳过校验以及校验的块大小.-->

</property>

<name>dfs.permissions.enabled</name>

</property>

<name>dfs.datanode.ipc.address</name>

</property>

<name>dfs.namenode.name.dir</name>

<value>file:///data/hadoop/hdfs/nn</value>

</property>

<name>dfs.journalnode.http-address</name>

</property>

<name>dfs.heartbeat.interval</name>

</property>

<name>dfs.datanode.data.dir.perm</name>

</property>

<name>fs.permissions.umask-mode</name>

</property>

<name>dfs.datanode.balance.bandwidthPerSec</name>

</property>

<name>dfs.namenode.accesstime.precision</name>

</property>

<name>dfs.namenode.write.stale.datanode.ratio</name>

</property>

<name>dfs.namenode.checkpoint.dir</name>

<value>file:///data/hadoop/hdfs/snn</value>

</property>

<name>dfs.journalnode.edits.dir</name>

<value>/grid/0/hdfs/journal</value>

</property>

<name>dfs.blocksize</name>

<!-- 2.X 版本默认值：134217728 说明：这个就是hdfs里一个文件块的大小了，默认128M；太大的话会有较少map同时计算，

太小的话也浪费可用map个数资源，而且文件太小namenode就浪费内存多。对于较大集群，可设为256MB，根据需要进行设置。-->

</property>

<name>dfs.replication</name>

</property>

<name>dfs.block.local-path-access.user</name>

<value>hbase</value>

</property>

<name>dfs.datanode.address</name>

</property>

<name>dfs.datanode.http.address</name>

</property>

<name>dfs.https.namenode.https-address</name>

<value>c6401.ambari.apache.org:50470</value>

</property>

<name>dfs.webhdfs.enabled</name>

</property>

<name>dfs.namenode.handler.count</name>

</property>

<name>dfs.namenode.secondary.http-address</name>

<value>hadoop02:50090</value>

</property>

<name>dfs.permissions.superusergroup</name>

</property>

<name>dfs.namenode.safemode.threshold-pct</name>

</property>

<name>dfs.domain.socket.path</name>

<value>/var/lib/hadoop-hdfs/dn_socket</value>

</property>

</configuration>

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/bake/11558480.html

hadoop集群防止磁盘损坏导致block丢失的解决方案

发表评论

评论列表（0条）