如何为大数据处理构建高性能Hadoop集群_服务器

越来越多的企业开始使用Hadoop来对大数据进行处理分析，但Hadoop集群的整体性能却取决于CPU、内存、网络以及存储之间的性能平衡。而在这篇文章中，我们将探讨如何为Hadoop集群构建高性能网络，这是对大数据进行处理分析的关键所在。
关于Hadoop
“大数据”是松散的数据集合，海量数据的不断增长迫使企业需要通过一种新的方式去管理。大数据是结构化或非结构化的多种数据类型的大集合。而 Hadoop则是Apache发布的软件架构，用以分析PB级的非结构化数据，并将其转换成其他应用程序可管理处理的形式。Hadoop使得对大数据处理成为可能，并能够帮助企业可从客户数据之中发掘新的商机。如果能够进行实时处理或者接近实时处理，那么其将为许多行业的用户提供强大的优势。
Hadoop是基于谷歌的MapReduce和分布式文件系统原理而专门设计的，其可在通用的网络和服务器硬件上进行部署，并使之成为计算集群。
Hadoop模型
Hadoop的工作原理是将一个非常大的数据集切割成一个较小的单元，以能够被查询处理。同一个节点的计算资源用于并行查询处理。当任务处理结束后，其处理结果将被汇总并向用户报告，或者通过业务分析应用程序处理以进行进一步分析或仪表盘显示。
为了最大限度地减少处理时间，在此并行架构中，Hadoop“moves jobs to data”，而非像传统模式那样“moving data to jobs”。这就意味着，一旦数据存储在分布式系统之中，在实时搜索、查询或数据挖掘等 *** 作时，如访问本地数据，在数据处理过程中，各节点之间将只有一个本地查询结果，这样可降低运营开支。
Hadoop的最大特点在于其内置的并行处理和线性扩展能力，提供对大型数据集查询并生成结果。在结构上，Hadoop主要有两个部分：
Hadoop分布式文件系统(HDFS)将数据文件切割成数据块，并将其存储在多个节点之内，以提供容错性和高性能。除了大量的多个节点的聚合I/O，性能通常取决于数据块的大小——如128MB。而传统的Linux系统下的较为典型的数据块大小可能是4KB。
MapReduce引擎通过JobTracker节点接受来自客户端的分析工作，采用“分而治之”的方式来将一个较大的任务分解成多个较小的任务，然后分配给各个TaskTrack节点，并采用主站/从站的分布方式(具体如下图所示)：
Hadoop系统有三个主要的功能节点：客户机、主机和从机。客户机将数据文件注入到系统之中，从系统中检索结果，以及通过系统的主机节点提交分析工作等。主机节点有两个基本作用：管理分布式文件系统中各节点以及从机节点的数据存储，以及管理Map/Reduce从机节点的任务跟踪分配和任务处理。数据存储和分析处理的实际性能取决于运行数据节点和任务跟踪器的从机节点性能，而这些从机节点则由各自的主机节点负责沟通和控制。从节点通常有多个数据块，并在作业期间被分配处理多个任务。
部署实施Hadoop
各个节点硬件的主要要求是市县计算、内存、网络以及存储等四个资源的平衡。目前常用的并被誉为“最佳”的解决方案是采用相对较低成本的旧有硬件，部署足够多的服务器以应对任何可能的故障，并部署一个完整机架的系统。
Hadoop模式要求服务器与SAN或者NAS进行直接连接存储(DAS)。采用DAS主要有三个原因，在标准化配置的集群中，节点的缩放数以千计，随着存储系统的成本、低延迟性以及存储容量需求不断提高，简单配置和部署个主要的考虑因素。随着极具成本效益的1TB磁盘的普及，可使大型集群的TB级数据存储在DAS之上。这解决了传统方法利用SAN进行部署极其昂贵的困境，如此多的存储将使得Hadoop和数据存储出现一个令人望而却步的起始成本。有相当大一部分用户的Hadoop部署构建都是采用大容量的DAS服务器，其中数据节点大约1-2TB，名称控制节点大约在1-5TB之间，具体如下图所示：
来源：Brad Hedlund, DELL公司
对于大多数的Hadoop部署来说，基础设施的其他影响因素可能还取决于配件，如服务器内置的千兆以太网卡或千兆以太网交换机。上一代的CPU和内存等硬件的选择，可根据符合成本模型的需求，采用匹配数据传输速率要求的千兆以太网接口来构建低成本的解决方案。采用万兆以太网来部署Hadoop也是相当不错的选择。
万兆以太网对Hadoop集群的作用
千兆以太网的性能是制约Hadoop系统整体性能的一个主要因素。使用较大的数据块大小，例如，如果一个节点发生故障(甚至更糟，整个机架宕机)，那么整个集群就需要对TB级的数据进行恢复，这就有可能会超过千兆以太网所能提供的网络带宽，进而使得整个集群性能下降。在拥有成千上万个节点的大型集群中，当运行某些需要数据节点之间需要进行中间结果再分配的工作负载时，在系统正常运行过程中，某个千兆以太网设备可能会遭遇网络拥堵。
每一个Hadoop数据节点的目标都必须实现CPU、内存、存储和网络资源的平衡。如果四者之中的任意一个性能相对较差的话，那么系统的潜在处理能力都有可能遭遇瓶颈。添加更多的CPU和内存组建，将影响存储和网络的平衡，如何使Hadoop集群节点在处理数据时更有效率，减少结果，并在Hadoop集群内添加更多的HDFS存储节点。
幸运的是，影响CPU和内存发展的摩尔定律，同样也正影响着存储技术(TB级容量的磁盘)和以太网技术(从千兆向万兆甚至更高)的发展。预先升级系统组件(如多核处理器、每节点5-20TB容量的磁盘，64-128GB内存)，万兆以太网卡和交换机等网络组件是重新平衡资源最合理的选择。万兆以太网将在Hadoop集群证明其价值，高水平的网络利用率将带来效益更高的带宽。下图展示了Hadoop集群与万兆以太网的连接：
许多企业级数据中心已经迁移到10GbE网络，以实现服务器整合和服务器虚拟化。随着越来越多企业开始部署Hadoop，他们发现他们完全不必要大批量部署1U的机架服务器，而是部署更少，但性能更高的服务器，以方便扩展每个数据节点所能运行的任务数量。很多企业选择部署2U或4U的服务器(如戴尔 PowerEdge C2100)，每个节点大约12-16个核心以及24TB存储容量。在这种环境下的合理选择是充分利用已经部署的10GbE设备和Hadoop集群中的 10GbE网卡。
在日常的IT环境中构建一个简单的Hadoop集群。可以肯定的是，尽管有很多细节需要微调，但其基础是非常简单的。构建一个计算、存储和网络资源平衡的系统，对项目的成功至关重要。对于拥有密集节点的Hadoop集群而言，万兆以太网能够为计算和存储资源扩展提供与之相匹配的能力，且不会导致系统整体性能下降。

性能运行快。Docker容器是一个开源的应用容器引擎，搭建hadoop好处是提供比传统虚机更好的性能，运行更快。docker让开发者可以以统一的方式打包他们的应用以及依赖包到一个可移植的容器中，然后发布到任何安装了docker引擎的服务器上也可以实现虚拟化。

1修改hadoop目录下的conf/hdfs-sitexml文件下dfsreplication属性为3。

<property>
    <name>dfsreplication</name>
    <value>3</value>
</property>
<property>
   <name>dfsdatadir</name>
   <value>/hadoop/data</value>
</property>

2修改地址解析文件/etc/hosts，加入形如

192168137110  master
192168137111  slave1
192168137112  slave2

3其他重要配置文件core-sitexml/mapred-sitexml等修改相应属性。

4把hadoop目录下的conf/ masters文件修改成形如下：

master

把hadoop目录下的conf/ slaves文件修改成形如下：　

master
slave1
slave2

注：如果用虚拟机去做这件事，首先你的电脑配置不会太差，毕竟你要开三个虚拟机；其次，我建议你使用ambari，

cloudera等工具搭建，比较简单，不过初学的话，自己动手可以更熟悉整个框架。

*** 作系统
我们选择Linux作为 *** 作系统。Linux有许多不同的发行版，包括Ubuntu、RedHat和CentOS等，无论选择哪一个都可以。基于支持和许可费用的考虑，我们最终选择了CentOS 57。最好是定制一个CentOS的映像，把那些需要的软件都预装进去，这样所有的机器可以包含相同的软件和工具，这是一个很好的做法。
根据Cloudera的建议，OS层应该采用以下设置：
文件系统
Ext3文件系统
取消atime
不要使用逻辑卷管理
利用alternatives来管理链接
使用配置管理系统(Yum、Permission、sudoers等)
减少内核交换
撤销一般用户访问这些云计算机的权限
不要使用虚拟化
至少需要以下Linux命令：
/etc/alternatives
ln、chmod、chown、chgrp、mount、umount、kill、rm、yum、mkdir
硬件要求
由于Hadoop集群中只有两种节点(Namenode/Jobtracker和Datanode/Tasktracker)，因此集群内的硬件配置不要超过两种或三种。
图2 - Hadoop集群服务器角色
硬件建议：
Namenode/Jobtracker：1Gb/s以太网口x2、16GB内存、4个CPU、100GB磁盘
Datanode：1Gb/s以太网口x2、8GB内存、4个CPU、多个磁盘，总容量500GB以上
实际的硬件配置可以与我们建议的配置不同，这取决于你们需要存储和处理的数据量。但我们强烈建议不要在集群中混用不同的硬件配置，以免那些较弱的机器成为系统的瓶颈。
Hadoop的机架感知
Hadoop有一个“机架感知”特性。管理员可以手工定义每个slave数据节点的机架号。为什么要做这么麻烦的事情有两个原因：防止数据丢失和提高网络性能。
图3 - Hadoop集群的机架感知
为了防止数据丢失，Hadoop会将每个数据块复制到多个机器上。想象一下，如果某个数据块的所有拷贝都在同一个机架的不同机器上，而这个机架刚好发生故障了(交换机坏了，或者电源掉了)，这得有多悲剧为了防止出现这种情况，必须要有一个人来记住所有数据节点在网络中的位置，并且用这些知识来确定——把数据的所有拷贝们放在哪些节点上才是最明智的。这个“人”就是Name Node。
另外还有一个假设，即相比不同机架间的机器，同一个机架的机器之间有着更大的带宽和更小的延时。这是因为，机架交换机的上行带宽一般都小于下行带宽。而且，机架内的延时一般也小于跨机架的延时(但也不绝对)。
机架感知的缺点则是，我们需要手工为每个数据节点设置机架号，还要不断地更新这些信息，保证它们是正确的。要是机架交换机们能够自动向Namenode提供本机架的数据节点列表，那就太棒了。
Hadoop软件的安装和配置
Hadoop集群有多种构建方式：
手工下载tar文件并复制到集群中
利用Yum仓库
利用Puppet等自动化部署工具
我们不建议采用手工方式，那只适合很小的集群(4节点以下)，而且会带来很多维护和排障上的问题，因为所有的变更都需要用scp或ssh的方式手工应用到所有的节点上去。
从以下方面来看，利用Puppet等部署工具是最佳的选择：
安装
配置
维护
扩展性
监控
排障
Puppet是Unix/Linux下的一个自动化管理引擎，它能基于一个集中式的配置执行增加用户、安装软件包、更新服务器配置等管理任务。我们将主要讲解如何利用Yum和Puppet来安装Hadoop。
利用Yum/Puppet搭建Hadoop集群
要利用Puppet搭建Hadoop集群，首先要符合以下前置条件：
包含所有必需Hadoop软件的中央仓库
用于Hadoop部署的Puppet装载单(manifest)
用于Hadoop配置管理的Puppet装载单
用于集群维护的框架(主要是sh或ksh脚本)，以支持集群的start/stop/restart
利用puppet构建整个服务器(包括 *** 作系统和其它软件)
注：如果要用Yum来安装Hadoop集群，则所有服务器应该预先构建完成，包括 *** 作系统和其它软件都应安装完毕，yum仓库也应在所有节点上设置完毕。
构建Datanode/Tasktracker
如果用Yum安装Datanode/Tasktracker，需在所有数据节点上执行以下命令：
yum install hadoop-020-datanode –y
yum install hadoop-020-tasktracker –y
换成Puppet的话，则是：
class setup_datanode {
if ($is_datanode == true) {
make_dfs_data_dir { $hadoop_disks: }
make_mapred_local_dir { $hadoop_disks: }
fix_hadoop_parent_dir_perm { $hadoop_disks: }
}
# fix hadoop parent dir permissions
define fix_hadoop_parent_dir_perm() {
…
}
# make dfs data dir
define make_dfs_data_dir() {
…
}
# make mapred local and system dir
define make_mapred_local_dir() {
…
}
} # setup_datanode
构建Namenode(及辅助Namenode)
如果用Yum安装Namenode，需在所有数据节点上执行以下命令：
yum install hadoop-020-namenode –y
yum install hadoop-020-secondarynamenode –y
换成Puppet的话，则是：
class setup_namenode {
if ($is_namenode == true or $is_standby_namenode == true) {

}
exec {"namenode-dfs-perm":

}
exec { "make ${nfs_namenode_dir}/dfs/name":

}
exec { "chgrp ${nfs_namenode_dir}/dfs/name":

}
if ($standby_namenode_host != "") {

}
exec { "own $nfs_standby_namenode_dir":

}
}
# /standby_namenode_hadoop
if ($standby_namenode_host != "") {

}
exec { "own $standby_namenode_hadoop_dir":

}
}
}
}
class setup_secondary_namenode {
if ($is_secondarynamenode == true) {

}

}
exec {"namenode-dfs-perm":

}
}
}
构建JobTracker
如果用Yum安装Jobtracker，需在所有数据节点上执行以下命令：
yum install hadoop-020-jobtracker –y
换成Puppet的话，则是使用与构建Namenode相同的装载单，唯一的区别在于，在Jobtracker机器上，会启动Jobtracker——即将该机器上的is_jobtracker设置为true。

ubuntu1604安装hadoop302单机模式

进行NameNode格式化
进入/usr/local/hadoop

启动NameNode 和 DataNode

输入jps，会出现如下进程

关闭dfs

配置mapred-sitexml

sudo vim /etc/hostname
将内容修改为master/slave1/slave2

ubuntu 1604安装hadoop302单机模式

解释下：第一个fsdefaultFS设置master机为namenode hadooptmpdir配置Hadoop的一个临时目录，用来存放每次运行的作业jpb的信息。

dfsnamenodenamedir是namenode存储永久性的元数据的目录列表。这个目录会创建在master机上。dfsnamenodedatadir是datanode存放数据块的目录列表，这个目录在slave11和slave1机都会创建。 dfsreplication 设置文件副本数，这里两个datanode，所以设置副本数为2。

解释下：这里设置的是运行jobtracker的服务器主机名和端口，也就是作业将在master主机的9001端口执行

Hadoop300在Ubuntu1604上分布式部署
ubuntu1604搭建hadoop集群环境
hadoop分布式集群安装

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。

用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高速运算和存储。

Hadoop实现了一个分布式文件系统（Hadoop Distributed File System），简称HDFS。HDFS有高容错性的特点，并且设计用来部署在低廉的（low-cost）硬件上；而且它提供高吞吐量（high throughput）来访问应用程序的数据，适合那些有着超大数据集（large data set）的应用程序。

Hadoop的框架最核心的设计就是：HDFS和MapReduce。HDFS为海量的数据提供了存储，而MapReduce则为海量的数据提供了计算。

广义的Hadoop，一般称为Hadoop生态系统，如下所示。
Hadoop生态系统中这些软件的作用：

HDFS 采用了主从（Master/Slave）结构模型，一个HDFS集群包括一个名称节点（NameNode）和若干个数据节点（DataNode）。
HDFS采用Java语言开发，因此任何支持JVM的机器都可以部署名称节点和数据节点。

在配置好Hadoop 集群之后，可以通过浏览器访问 >

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/zz/12624887.html

如何为大数据处理构建高性能Hadoop集群

发表评论

评论列表（0条）