(2)zookeeper:实现namenode的切换,确保集群只有一个active
(3)格式化zkfc,让在zookeeper中生成ha节点
(4)格式化nn:就是格式化hdfs
与普通文件系统一样,HDFS文件系统必须要先格式化,创建元数据数据结构以后才能使用。
(5)conf下的一些配置文件的作用
hadoop-envsh:用于定义hadoop运行环境相关的配置信息,比如配置JAVA_HOME环境变量、为hadoop的JVM指定特定的选项、指定日志文件所在的目录路径以及master和slave文件的位置等;
core-sitexml: 用于定义系统级别的参数,它作用于全部进程及客户端,如HDFS URL、Hadoop的临时目录以及用于rack-aware集群中的配置文件的配置等,此中的参数定义会覆盖core-defaultxml文件中的默认配置;
hdfs-sitexml: HDFS的相关设定,如文件副本的个数、块大小及是否使用强制权限等,此中的参数定义会覆盖hdfs-defaultxml文件中的默认配置;
mapred-sitexml:mapreduce的相关设定,如reduce任务的默认个数、任务所能够使用内存的默认上下限等,此中的参数定义会覆盖mapred-defaultxml文件中的默认配置;
masters: hadoop的secondary-masters主机列表,当启动Hadoop时,其会在当前主机上启动NameNode和JobTracker,然后通过SSH连接此文件中的主机以作为备用NameNode;
slaves:Hadoop集群的slave(datanode)和tasktracker的主机列表,master启动时会通过SSH连接至此列表中的所有主机并为其启动DataNode和taskTracker进程;
Hadoop-metrics2properties:控制metrics在hadoop上如何发布属性
Log4jproperties:系统日志文件、namenode审计日志、tarsktracker子进程的任务日志属性
(6)hadooptmpdir属性用于定义Hadoop的临时目录,其默认为/tmp/hadoop-${username}。HDFS进程的许多目录默认都在此目录中,/hadoop/tmp目录,需要注意的是,要保证运行Hadoop进程的用户对其具有全部访问权限。
fsdefaultname属性用于定义HDFS的名称节点和其默认的文件系统,其值是一个URI,即NameNode的RPC服务器监听的地址(可以是主机名)和端口(默认为8020)。其默认值为file:///,即本地文件系统。
dfsnamedir属性定义的HDFS元数据持久存储路径,默认为${hadooptmpdir}/dfs/name
dfsreplication属性定义保存副本的数量,默认是保存3份,由于这里只有两台slave。所以设置2。
(7)可以通过修改下面几个参数对集群读写性能进行优化
dfsdatanodehandlercount(加大)DN的服务线程数。这些线程仅用于接收请求,处理业务命令
dfsnamenodehandlercount(加大) NN的服务线程数。用于处理RPC请求
dfsnamenodeavoidreadstaledatanode(true)决定是否避开从脏DN上读数据。脏DN指在一个指定的时间间隔内没有收到心跳信息。脏DN将被移到可以读取(写入)节点列表的尾端。尝试开启
dfsnamenodeavoidwritestaledatanode(true) 和上面相似,是为了避免向脏DN写数据HDFS联邦能够解决对文件系统数据的流式处理访问。HDFS 提供文件权限和身份验证。
HDFS的简介:
HDFS(Hadoop Distributed File System)是hadoop项目的核心子项目,是分布式计算中数据存储管理的基础。是基于流数据模式访问和处理超大文件的需求而开发的, 可以运行于廉价的商用服务器上。
它所具有的高容错、 高可靠性、 高可扩展性、 高获得性、 高吞吐率等特征为海量数据提供了不怕故障的存储, 为超大数据集(Large Data Set) 的应用处理带来了很多便利。
HDFS是开源的,存储着Hadoop应用将要处理的数据,类似于普通的Unix和linux文件系统,不同的是它是实现了google的GFS文件系统的思想,是适用于大规模分布式数据处理相关应用的、可扩展的分布式文件系统。
HDFS的功能:
1)数据的分布式存储和处理。
2)Hadoop 提供了一个命令接口来与 HDFS 进行交互。
3)namenode 和 datanode 的内置服务器可帮助用户轻松检查群集的状态。
4)对文件系统数据的流式处理访问。
5)HDFS 提供文件权限和身份验证。名称节点是hdfs集群的主服务器是用来存放元数据的。名称节点主要以元数据的形式进行管理和存储,用于维护文件系统名称并管理客户端对文件的访问,名称节点记录对文件系统名称空间或其属性的任何更改 *** 作,HDFS负责整个数据集群的管理,并且在配置文件中可以设置备份数量,这些信息都由名称节点存储。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)