哪个目录保存了hadoop集群的命令

哪个目录保存了hadoop集群的命令,第1张

sbin目录。根据sbin目录相关使用说明得知存放hadoop集群的管理命令的是sbin目录。Hadoop是Apache旗下的一个用java语言实现开源软件框架,是一个开发和运行处理大规模数据的软件平台。

(1)journalnode:使两个namenode之间的数据实现共享(hadoop层面的)。系统层面的是NFS。

(2)zookeeper:实现namenode的切换,确保集群只有一个active

(3)格式化zkfc,让在zookeeper中生成ha节点

 (4)格式化nn:就是格式化hdfs

与普通文件系统一样,HDFS文件系统必须要先格式化,创建元数据数据结构以后才能使用。

(5)conf下的一些配置文件的作用

hadoop-envsh:用于定义hadoop运行环境相关的配置信息,比如配置JAVA_HOME环境变量、为hadoop的JVM指定特定的选项、指定日志文件所在的目录路径以及master和slave文件的位置等;

core-sitexml: 用于定义系统级别的参数,它作用于全部进程及客户端,如HDFS URL、Hadoop的临时目录以及用于rack-aware集群中的配置文件的配置等,此中的参数定义会覆盖core-defaultxml文件中的默认配置;

hdfs-sitexml: HDFS的相关设定,如文件副本的个数、块大小及是否使用强制权限等,此中的参数定义会覆盖hdfs-defaultxml文件中的默认配置;

mapred-sitexml:mapreduce的相关设定,如reduce任务的默认个数、任务所能够使用内存的默认上下限等,此中的参数定义会覆盖mapred-defaultxml文件中的默认配置;

masters: hadoop的secondary-masters主机列表,当启动Hadoop时,其会在当前主机上启动NameNode和JobTracker,然后通过SSH连接此文件中的主机以作为备用NameNode;

slaves:Hadoop集群的slave(datanode)和tasktracker的主机列表,master启动时会通过SSH连接至此列表中的所有主机并为其启动DataNode和taskTracker进程;

Hadoop-metrics2properties:控制metrics在hadoop上如何发布属性

Log4jproperties:系统日志文件、namenode审计日志、tarsktracker子进程的任务日志属性

(6)hadooptmpdir属性用于定义Hadoop的临时目录,其默认为/tmp/hadoop-${username}。HDFS进程的许多目录默认都在此目录中,/hadoop/tmp目录,需要注意的是,要保证运行Hadoop进程的用户对其具有全部访问权限。

fsdefaultname属性用于定义HDFS的名称节点和其默认的文件系统,其值是一个URI,即NameNode的RPC服务器监听的地址(可以是主机名)和端口(默认为8020)。其默认值为file:///,即本地文件系统。

dfsnamedir属性定义的HDFS元数据持久存储路径,默认为${hadooptmpdir}/dfs/name

dfsreplication属性定义保存副本的数量,默认是保存3份,由于这里只有两台slave。所以设置2。

(7)可以通过修改下面几个参数对集群读写性能进行优化

dfsdatanodehandlercount(加大)DN的服务线程数。这些线程仅用于接收请求,处理业务命令

dfsnamenodehandlercount(加大)  NN的服务线程数。用于处理RPC请求

dfsnamenodeavoidreadstaledatanode(true)决定是否避开从脏DN上读数据。脏DN指在一个指定的时间间隔内没有收到心跳信息。脏DN将被移到可以读取(写入)节点列表的尾端。尝试开启

dfsnamenodeavoidwritestaledatanode(true)  和上面相似,是为了避免向脏DN写数据

环境及软件准备:

win7(64位)

cygwin 179-1

jdk-6u25-windows-x64zip

hadoop-0202targz

1安装jdk,并置java环境变量包括:JAVA_HOME,PATH,CLASSPATH

2安装Hadoop,版本为0202,我是直接放到/home目录下,并解压

tar –zxvf

hadoop-0202targz

3配置Hadoop,需要修改hadoop的配置文件,它们位于conf子目录下,分别是hadoop-envsh、core-sitexml、hdfs-sitexml

和mapred-sitexml

(1) 修改hadoop-envsh:

只需要将JAVA_HOME 修改成JDK 的安装目录即可

export

JAVA_HOME=/cygdrive/d/java/jdk160_25

(注意:路径不能是windows 风格的目录d:\java\jdk160_25,而是LINUX

风格/cygdrive/d/java/jdk160_25)

(2) 修改core-sitexml:(指定namenode)

<configuration>

<property>

<name>fsdefaultname</name>

<value>hdfs://localhost:9000</value>

</property>

</configuration>

(3)修改hdfs-sitexml(指定副本为1)

<configuration>

<property>

<name>dfsreplication</name>

<value>1</value>

</property>

</configuration>

(4) 修改mapred-sitexml (指定jobtracker)

<configuration>

<property>

<name>mapredjobtracker</name>

<value>localhost:9001</value>

</property>

</configuration>

4验证安装是否成功,并运行Hadoop

(1) 验证安装

$ bin/hadoop

Usage: hadoop [--config confdir] COMMAND

where COMMAND is one of:

namenode -format format the DFS filesystem

secondarynamenode run the DFS secondary namenode

namenode run the DFS namenode

datanode run a DFS datanode

dfsadmin run a DFS admin client

mradmin run a Map-Reduce admin client

fsck run a DFS filesystem checking utility

fs run a generic filesystem user client

balancer run a cluster balancing utility

jobtracker run the MapReduce job Tracker node

pipes run a Pipes job

tasktracker run a MapReduce task Tracker node

job manipulate MapReduce jobs

queue get information regarding JobQueues

version print the version

jar <jar> run a jar file

distcp <srcurl> <desturl> copy file or directories recursively

archive -archiveName NAME <src> <dest> create a hadoop archive

daemonlog get/set the log level for each daemon

or

CLASSNAME run the class named CLASSNAME

Most commands print help when invoked w/o parameters

(2) 格式化并启动Hadoop

bi

以上就是关于哪个目录保存了hadoop集群的命令全部的内容,包括:哪个目录保存了hadoop集群的命令、hadoop集群中的几个重要概念、在Windows上运行Hadoop,配置好java,cygwin,hadoop之后,要怎么做等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!

欢迎分享,转载请注明来源:内存溢出

原文地址: https://outofmemory.cn/web/10184544.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-06
下一篇 2023-05-06

发表评论

登录后才能评论

评论列表(0条)

保存