Hadoop安装

Hadoop安装,第1张

创建hadoop用户

1、sudo useradd -m hadoop

2、sudo passwd hadoop

3、sudo adduser hadoop sudo

4、虚拟机:最后注销当前用户(点击屏幕右上角的齿轮,选择注销),返回登陆界面。在登陆界面中选择刚创建的hadoop 用户进行登陆。

5、重新登录检查当前用户是谁:whoami 出现hadoop 成功

6、更新aptsudo apt-get update更新apt3.安装SSH,

7、配置免密登陆sudo apt-get install sshsudo apt-get install pdsh 安装ssh

8、安装Java环境sudo apt install openjdk-8-jdk 安装java

9、vim ~/.bashrc 进入之后按I 然后输入export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64 

10、按esc 然后按:wq! 回车 完成 此步骤改变环境变量source ~/.bashrc输入java -version检验

11、安装Hadoopwget https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/hadoop-2.9.2/hadoop-2.9.2.tar.gz 安装命令

12、sudo tar -zxf ~/hadoop-2.9.2.tar.gz -C /usr/local 解压命令

13、cd /usr/local/ #进入用户安装目录

14、sudo mv ./hadoop-2.9.2/ ./hadoopsudo chown -R hadoop ./hadoop # 修改文件权限(hadoop-2.9.2默认拥有者是root,这里我们让hadoop也成为拥有者)

15、cd /usr/local/hadoop./bin/hadoop version # 查看hadoop版本信息,成功显示则安装成功

16、cd /usr/local/hadoop进入目录

17、mkdir ./input创建目录

18、ls查看当前目录

19、cp ./etc/hadoop/*.xml ./input

20、./bin/hadoop jar ./share/hadoop/mapreduce/hadoop-mapreduce-examples-*.jar grep ./input ./output 'dfs[a-z.]+'

21、cat ./output/*查看

22、rm -r ./output删除output文件

23、 cd /usr

24、 cd local

25、ls

26、 cd hadoop

27、 ls

28、cd  /usr/local/hadoop/etc/hadoop/

29、Ls

30、vi hdfs-site.xml

31、cd /usr/local/hadoop

2.1 准备

克隆三台虚拟机:hadoop102 hadoop103 hadoop104,

修改克隆虚拟机的静态 IP:vim /etc/sysconfig/network-scripts/ifcfgens33

修改主机名称 vim /etc/hostname

配置 Linux 克隆机主机名称映射 hosts 文件:vim /etc/hosts

reboot

安装 JDK 前,一定确保提前删除了虚拟机自带的 JDK

解压、配置 JDK 环境变量,测试:java -version

Hadoop 下载地址:https://archive.apache.org/dist/hadoop/common/hadoop-3.1.3/

解压、将 Hadoop 添加到环境变量

2.2 Hadoop 重要目录

bin 目录:存放对 Hadoop 相关服务(hdfs,yarn,mapred)进行 *** 作的脚本

etc 目录:Hadoop 的配置文件目录,存放 Hadoop 的配置文件

lib 目录:存放 Hadoop 的本地库(对数据进行压缩解压缩功能)

sbin 目录:存放启动或停止 Hadoop 相关服务的脚本

share 目录:存放 Hadoop 的依赖 jar 包、文档、和官方案例

2.3 Hadoop运行模式

Hadoop 运行模式包括:本地模式、伪分布式模式以及完全分布式模式

本地模式:单机运行,只是用来演示一下官方案例。生产环境不用。

伪分布式模式:也是单机运行,但是具备 Hadoop 集群的所有功能,一台服务器模 拟一个分布式的环境。个别缺钱的公司用来测试,生产环境不用。

完全分布式模式:多台服务器组成分布式环境。生产环境使用。

完全分布式运行模式(开发重点) 分析:1)准备 3 台客户机(关闭防火墙、静态 IP、主机名称) 2)安装 JDK 3)配置环境变量 4)安装 Hadoop 5)配置环境变量 6)配置集群 7)单点启动 8)配置 ssh 9)群起并测试集群

编写集群分发脚本 xsync

scp安全拷贝语法:

scp -r $pdir/$fname $user@$host:$pdir/$fname

命令 递归 要拷贝的文件路径/名称 目的地用户@主机:目的地路径/名称

rsync 远程同步工具语法:

rsync -av $pdir/$fname $user@$host:$pdir/$fname

命令 选项参数 要拷贝的文件路径/名称 目的地用户@主机:目的地路径/名称

rsync 和 scp 区别:用 rsync 做文件的复制要比 scp 的速度快,rsync 只对差异文件做更 新。scp 是把所有文件都复制过去。

rsync 主要用于备份和镜像。具有速度快、避免复制相同内容和支持符号链接的优点。

SSH 无密登录配置

命令:ssh-keygen -t rsa

然后敲(三个回车),就会生成两个文件 id_rsa(私钥)、id_rsa.pub(公钥)

将公钥拷贝到要免密登录的目标机器上:ssh-copy-id hadoop102

2.4 集群安装

注意

NameNode 和 SecondaryNameNode 不要安装在同一台服务器

ResourceManager 也很消耗内存,不要和 NameNode、SecondaryNameNode 配置在 同一台机器上。

Hadoop 配置文件分两类:默认配置文件和自定义配置文件,只有用户想修改某一默认 配置值时,才需要修改自定义配置文件,更改相应属性值

自定义配置文件:core-site.xml、hdfs-site.xml、yarn-site.xml、mapred-site.xml 四个配置文件存放在 $HADOOP_HOME/etc/hadoop 这个路径

如何在linux下安装hadoop

建议使用自动化部署吧。 这个还是不太难做到哦。 能否看一下my网名呢?帮助搞定一下

一、前期准备:

下载hadoop: :hadoop.apache./core/releases.

:hadoop.apache./mon/releases.

:apache./dyn/closer.cgi/hadoop/core/

:labs.xiaonei./apache-mirror/hadoop/core/hadoop-0.20.1/hadoop-0.20.1.tar.gz

:labs.xiaonei./apache-mirror/hadoop/

二、硬体环境

共有3台机器,均使用的CentOS,Java使用的是jdk1.6.0。

三、安装JAVA6

sudo apt-get install sun-java6-jdk

/etc/environment

开启之后加入:#中间是以英文的冒号隔开,记得windows中是以英文的分号做为分隔的

CLASSPATH=.:/usr/local/java/lib

JAVA_HOME=/usr/local/java

三、配置host表

[root@hadoop ~]# vi /etc/hosts

127.0.0.1 localhost

192.168.13.100 namenode

192.168.13.108 datanode1

192.168.13.110 datanode2

[root@test ~]# vi /etc/hosts

127.0.0.1 localhost

192.168.13.100 namenode

192.168.13.108 datanode1

[root@test2 ~]# vi /etc/host

127.0.0.1 localhost

192.168.13.100 namenode

192.168.13.110 datanode2

新增使用者和使用者组

addgroup hadoop

adduser hadoop

usermod -a -G hadoop hadoop

passwd hadoop

配置ssh:

服务端:

su hadoop

ssh-keygen -t rsa

cp id_rsa.pub authorized_keys

客户端

chmod 700 /home/hadoop

chmod 755 /home/hadoop/.ssh

su hadoop

cd /home

mkdir .ssh

服务端:

chmod 644 /home/hadoop/.ssh/authorized_keys

scp authorized_keys datanode1:/home/hadoop/.ssh/

scp authorized_keys datanode2:/home/hadoop/.ssh/

ssh datanode1

ssh datanode2

 如果ssh配置好了就会出现以下提示资讯

The authenticity of host [dbrg-2] can't be established.

Key fingerpr is 1024 5f:a0:0b:65:d3:82:df:ab:44:62:6d:98:9c:fe:e9:52.

Are you sure you want to continue connecting (yes/no)?

OpenSSH告诉你它不知道这台主机但是你不用担心这个问题你是第次登入这台主机键入“yes”这将把

这台主机“识别标记”加到“~/.ssh/know_hosts”档案中第 2次访问这台主机时候就不会再显示这条提示信

不过别忘了测试本机ssh dbrg-1

 

mkdir /home/hadoop/HadoopInstall

tar -zxvf hadoop-0.20.1.tar.gz -C /home/hadoop/HadoopInstall/

cd /home/hadoop/HadoopInstall/

ln -s hadoop-0.20.1 hadoop

export JAVA_HOME=/usr/local/java

export CLASSPATH=.:/usr/local/java/lib

export HADOOP_HOME=/home/hadoop/HadoopInstall/hadoop

export HADOOP_CONF_DIR=/home/hadoop/hadoop-conf

export PATH=$HADOOP_HOME/bin:$PATH

cd $HADOOP_HOME/conf/

mkdir /home/hadoop/hadoop-conf

cp hadoop-env.sh core-site.xml hdfs-site.xml mapred-site.xml masters slaves /home/hadoop/hadoop-conf

vi $HADOOP_HOME/hadoop-conf/hadoop-env.sh

# The java implementation to use. Required. --修改成你自己jdk安装的目录

export JAVA_HOME=/usr/local/java

export HADOOP_CLASSPATH=.:/usr/local/java/lib

# The maximum amount of heap to use, in MB. Default is 1000.--根据你的记忆体大小调整

export HADOOP_HEAPSIZE=200

vi /home/hadoop/.bashrc

export JAVA_HOME=/usr/local/java

export CLASSPATH=.:/usr/local/java/lib

export HADOOP_HOME=/home/hadoop/HadoopInstall/hadoop

export HADOOP_CONF_DIR=/home/hadoop/hadoop-conf

export PATH=$HADOOP_HOME/bin:$PATH

配置

namenode

#vi $HADOOP_CONF_DIR/slaves

192.168.13.108

192.168.13.110

#vi $HADOOP_CONF_DIR/core-site.xml

<?xml version="1.0"?>

<?xml-stylesheet type=text/xsl href="configuration.xsl"?>

<!-- Put site-specific property overrides in this file. -->

<configuration>

<property>

<name>fs.default.name</name>

<value>hdfs:192.168.13.100:9000</value>

</property>

</configuration>

#vi $HADOOP_CONF_DIR/hdfs-site.xml

<?xml version="1.0"?>

<?xml-stylesheet type=text/xsl href="configuration.xsl"?>

<!-- Put site-specific property overrides in this file. -->

<configuration>

<property>

<name>dfs.replication</name>

<value>3</value>

<description>Default block replication.

The actual number of replications can be specified when the file is created.

The default is used if replication is not specified in create time.

</description>

</property>

</configuration>

#vi $HADOOP_CONF_DIR/mapred-site.xml

<?xml version="1.0"?>

<?xml-stylesheet type=text/xsl href="configuration.xsl"?>

<!-- Put site-specific property overrides in this file. -->

<configuration>

<property>

<name>mapred.job.tracker</name>

<value>192.168.13.100:11000</value>

</property>

</configuration>

~

在slave上的配置档案如下(hdfs-site.xml不需要配置):

[root@test12 conf]# cat core-site.xml

<?xml version="1.0"?>

<?xml-stylesheet type=text/xsl href="configuration.xsl"?>

<!-- Put site-specific property overrides in this file. -->

<configuration>

<property>

<name>fs.default.name</name>

<value>hdfs:namenode:9000</value>

</property>

</configuration>

[root@test12 conf]# cat mapred-site.xml

<?xml version="1.0"?>

<?xml-stylesheet type=text/xsl href="configuration.xsl"?>

<!-- Put site-specific property overrides in this file. -->

<configuration>

<property>

<name>mapred.job.tracker</name>

<value>namenode:11000</value>

</property>

</configuration>

启动

export PATH=$HADOOP_HOME/bin:$PATH

hadoop namenode -format

start-all.sh

停止s-all.sh

在hdfs上建立danchentest资料夹,上传档案到此目录下

$HADOOP_HOME/bin/hadoop fs -mkdir danchentest

$HADOOP_HOME/bin/hadoop fs -put $HADOOP_HOME/README.txt danchentest

cd $HADOOP_HOME

hadoop jar hadoop-0.20.1-examples.jar wordcount /user/hadoop/danchentest/README.txt output1

09/12/21 18:31:44 INFO input.FileInputFormat: Total input paths to process : 1

09/12/21 18:31:45 INFO mapred.JobClient: Running job: job_200912211824_0002

09/12/21 18:31:46 INFO mapred.JobClient: map 0% reduce 0%

09/12/21 18:31:53 INFO mapred.JobClient: map 100% reduce 0%

09/12/21 18:32:05 INFO mapred.JobClient: map 100% reduce 100%

09/12/21 18:32:07 INFO mapred.JobClient: Job plete: job_200912211824_0002

09/12/21 18:32:07 INFO mapred.JobClient: Counters: 17

09/12/21 18:32:07 INFO mapred.JobClient: Job Counters

09/12/21 18:32:07 INFO mapred.JobClient: Launched reduce tasks=1

检视输出结果档案,这个档案在hdfs上

[root@test11 hadoop]# hadoop fs -ls output1

Found 2 items

drwxr-xr-x - root supergroup 0 2009-09-30 16:01 /user/root/output1/_logs

-rw-r--r-- 3 root supergroup 1306 2009-09-30 16:01 /user/root/output1/part-r-00000

[root@test11 hadoop]# hadoop fs -cat output1/part-r-00000

(BIS), 1

(ECCN) 1

检视hdfs执行状态,可以通过web介面来访问:192.168.13.100:50070/dfshealth.jsp检视map-reduce资讯,

可以通过web介面来访问:192.168.13.100:50030/jobtracker.jsp下面是直接命令列看到的结果。

出现08/01/25 16:31:40 INFO ipc.Client: Retrying connect to server: foo.bar./1.1.1.1:53567. Already tried 1 time(s).

的原因是没有格式化:hadoop namenode -format

如何在windows下安装hadoop

建议你在windows上安装linux的虚拟机器,然后在linux上安装hadoop

1、安装Cygwin

下载cygwin的setup.exe,双击执行:

选择从Inter安装:

设定安装目录:

设定安装包目录:

设定“Inter Connection”的方式,选择“Direct Connection”:

选择一个下载站点:

“下一步”之后,可能会d出下图的“Setup Alert”对话方块,直接“确定”即可

在“Select Packages”对话方块中,必须保证“Net Category”下的“OpenSSL”被安装:

如果还打算在eclipse 上编译Hadoop,则还必须安装“Base Category”下的“sed”:

“Devel Category”下的subversion 建议安装:

下载并安装:

当下载完后,会自动进入到“setup”的对话方块:

在上图所示的对话方块中,选中“Create icon on Desk”,以方便直接从桌面上启动

Cygwin,然后点选“完成”按钮。至此,Cgywin 已经安装完成。

2、配置环境变数

需要配置的环境变数包括PATH 和JAVA_HOME:将JDK 的bin 目录、Cygwin 的bin 目录

以及Cygwin 的usr\bin( *** in)目录都新增到PATH 环境变数中;JAVA_HOME 指向JRE 安装目录。

3、windows系统上执行hadoop丛集,伪分散式模式安装步骤:

①启动cygwin,解压hadoop安装包。通过cygdrive(位于Cygwin根目录中)可以直接对映到windows下的各个逻辑磁碟分割槽。例如hadoop安装包放在分割槽D:\下,则解压的命令为$ tar -zxvf /cygdrive/d/hadoop-0.20.2.tar.gz,解压后可使用ls命令检视,如下图:

预设的解压目录为使用者根目录,即D:\cygwin\home\lsq(使用者帐户)。

②编辑conf/hadoop-env.sh档案,将JAVA_HOME变数设定为java的安装目录。例如java安装在目录C:\Program Files\java\jdk1.6.0_13,如果路径没空格,直接配置即可。存在空格,需将Program Files缩写成Progra_1,如下图:

③依次编辑conf目录下的core-site.xml、mapred-site.xml和hdfs-site.xml档案,如下图:

④安装配置SSH

点选桌面上的Cygwin图示,启动Cygwin,执行ssh-host-config命令,然后按下图上的选择输入:

当提示Do you want to use a different name?输入yes,这步是配置安装的sshd服务,以哪个使用者登入,预设是cyg_server这个使用者,这里就不事先新建cyg_server这个使用者,用当前本机的超管本地使用者:chenx,后续根据提示,2次输入这个账户的密码

出现Host configuration finished. Have fun! 一般安装顺利完成。如下图:

输入命令$ start sshd,启动SSH,如下图:

注:sshd服务安装完之后,不会预设启动,如果启动报登入失败,不能启动,可在服务属性-Log On视窗手工修改,在前述的过程之中,cygwin不会校验密码是否正确,应该只是校验了2次的输入是否一致,然后再手工启动。不知道为什么,sshd服务如果选择local system的登入方式,后续会有问题,所以sshd服务最好设定成当前的登入使用者。

⑤配置ssh登入

执行ssh-keygen命令生成金钥档案

输入如下命令:

cd ~/.ssh

ls -l

cat id_rsa.pub >>authorized_keys

完成上述 *** 作后,执行exit命令先退出Cygwin视窗,如果不执行这一步 *** 作,下面的 *** 作可能会遇到错误。接下来,重新执行Cygwin,执行ssh localhost命令,在第一次执行ssh localhost时,会有“are you sure you want to continue connection<yes/no>?”提示,输入yes,然后回车即可。当出现下图提示,即顺利完成该步:

⑥hadoop执行

格式化namenode

开启cygwin视窗,输入如下命令:

cd hadoop-0.20.2

mkdir logs

bin/hadoop namenode –format

启动Hadoop

在Cygwin 中,进入hadoop 的bin 目录,

执行./start-all.sh 启动hadoop;

可以执行./hadoop fs -ls /命令,检视hadoop 的根目录;

可以执行jps 检视相关程序;

如下图:(如果显示和下图类似,一般hadoop安装/启动成功)

如何在hadoop 环境下安装hive

不行。 安装 vm 下载:去官网下 VMware-player-5.0.1-894247.zip 安装和配置ubanto 下载:去官网下 ubuntu-12.10-desk-i386.iso 开启vm,载入ubanto iso档案,进行安装更新 进入ubanto,如果是第一个进入,则需要设定root的密码

如何在ubantu环境下安装hadoop

上apache的hadoop页下编译好的包,解压,配一些档案就行了 很容易 网上教程很多

如何在 Linux 下安装 PyCharm

PyCharm 是由 Jetbrains 公司开发的一个跨平台编辑器。如果你之前是在 Windows 环境下进行开发,那么你会立刻认出 Jetbrains 公司,它就是那个开发了 Resharper 的公司。 这篇文章将讨论如何在 Linux 系统上获取、安装和执行 PyCharm 。

如何在linux下安装opencv

新建一个perl,名为bar.pl

内容如下:

#!/usr/bin/perl

while (<>){

chomp

s/([^-]+) - .*/\1/g

system "apt-get install ".$_

}

然后apt-cache search opencv | perl bar.pl


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/tougao/6064378.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-03-13
下一篇 2023-03-13

发表评论

登录后才能评论

评论列表(0条)

保存