Flink1.8 集群搭建完全指南(1)：Hadoop伪分布式_安全

Flink是目前在国内非常流行的大数据的计算框架，其设计理念可以完美的实现数据的批流计算一体化。Flink的集群，如果要使用到JobManager的HA，以及Yarn的资源调度的话，整体的部署过程还是比较复杂的。本系列文章将完整介绍Hadoop，Kerberos，SASL，Yarn，以及Flink集群的搭建过程，一步步完成整个系统环境的部署。

Hadoop的HDFS在Flink中用作JobManager的HA，Yarn可以用于Flink任务的资源调度，因此是必不可少的。下面我们先搭建好一个Hadoop的集群。

对于一些不熟悉Hadoop集群的搭建的同学，我们先来看下伪分布式集群的搭建，可以快速的熟悉简化的配置过程，以及Hadoop的各配置文件等。

以下是我用于部署该服务的机器：

在伪分布式集群中，所有的服务都在同一节点启动，但它们之间也同样通过ssh的方式访问，所以需要配置ssh免密码登录，配置的方式如下：

测试以下命令，成功跳转即可：

在集群搭建完成后，可以运行Hadoop的示例任务，检查集群是否能够正常工作，命令如下：

该程序会打印PI的值，则执行成功。在Yarn的Web页面，可以看到有一个成功的Application。

下一节我们会介绍Hadoop的分布式集群，Kerberos和SASL等的部署。

租用云服务
按需部署和d性灵活
传统大数据平台有几个通病：建设周期过长，扩容不便，因此一般都会适当放大大数据建设规模，造成早期资源闲置浪费，也埋下了后期资源不足的隐患，影响业务发展。云计算很早就解决了d性建设的问题，我们可以按需进行大数据平台建设，并伴随业务的增长而快速d性伸缩，企业可以做到按需支付成本。此外，Hadoop/Spark 大数据生态系统中组件众多，每种组件对硬件资源的要求不同，而传统大数据平台建设中，往往很难兼顾资源需求上的差异。和其他独享型规格族提供了不同的配置，可以为每个 Hadoop/Spark 组件节点「量体裁衣」来选择实例，最大限度避免资源浪费。当遇到临时性突发的大数据分析需求时，借助大数据平台的规模和分析能力，可以快速获得需要的结果，当任务完成后，又能立即释放资源，节省成本。
• 性价比
采用独享计算架构 + 本地存储设计，CPU 的计算性能在实例间是独享的，这种设计能有效保障大数据计算能力的稳定性。配备高性能企业级 6TB SATA 硬盘，存储吞吐能力可以达到最大 5GB/s，有效缩短 HDFS 文件读取和写入时间。基于SDN 和网络加速技术，在 10GE 组网环境下，最大可提供 20Gbps 网络带宽，可满足大数据分析节点间数据交互需求，例如 MapReduce 计算框架下 Shuffle 过程等，缩短分析任务整体运行时间。最重要的一点是，上做了非常大的交付创新，支持包月、包年的预付费支付模式，同时也支持按小时付费的使用模型，真正做到即开即用，按量付费，没有运维，钱不浪费，云本身的d性优势就很明显，加上业务上的优化，确实加分不少。
• 可靠性
独有的部署集（Deployment Set）机制，可以保证用户采用实例构建大数据平台时，在任何规模下都可以充分将实例按业务可靠性要求，进行机架、交换机、可用区等级别容灾保护。同时，还可以充分享用全球高效、稳定的机房和网络基础设施，大大降低客户建设复杂度和成本。这在传统模式下是很难做到，既能做到全局的安全性又能做到局部的d性伸缩，或许，这就是云的终极形态吧。总之还是非常推荐这款实例的，中大型企业对大数据处理平台的稳定性、性价比、部署周期都有比较强的要求的可以考虑一下。

（1）准备工作
1）
安装JDK
6或者JDK
7
2）
安装scala
210x
(注意版本)
2）下载Intellij
IDEA最新版（本文以IntelliJ
IDEA
Community
Edition
1311为例说明，不同版本，界面布局可能不同）
3）将下载的Intellij
IDEA解压后，安装scala插件，流程如下：
依次选择“Configure”–>
“Plugins”–>
“Browse
repositories”，输入scala，然后安装即可
（2）搭建Spark源码阅读环境（需要联网）
一种方法是直接依次选择“import
project”–>
选择spark所在目录
–>
“SBT”，之后intellij会自动识别SBT文件，并下载依赖的外部jar包，整个流程用时非常长，取决于机器的网络环境（不建议在windows
下 *** 作，可能遇到各种问题），一般需花费几十分钟到几个小时。注意，下载过程会用到git，因此应该事先安装了git。
第二种方法是首先在linux *** 作系统上生成intellij项目文件，然后在intellij
IDEA中直接通过“Open
Project”打开项目即可。在linux上生成intellij项目文件的方法（需要安装git，不需要安装scala，sbt会自动下载）是：在
spark源代码根目录下，输入sbt/sbt
gen-idea
注：如果你在windows下阅读源代码，建议先在linux下生成项目文件，然后导入到windows中的intellij
IDEA中。
（3）搭建Spark开发环境
在intellij
IDEA中创建scala
project，并依次选择“File”–>
“project
structure”
–>
“Libraries”，选择“+”，将spark-hadoop
对应的包导入，比如导入spark-assembly_210-090-incubating-hadoop220jar（只需导入该jar
包，其他不需要），如果IDE没有识别scala
库，则需要以同样方式将scala库导入。之后开发scala程序即可：
编写完scala程序后，可以直接在intellij中，以local模式运行，方法如下：
点击“Run”–>
“Run
Configurations”，在d出的框中对应栏中填写“local”，表示将该参数传递给main函数，如下图所示，之后点击“Run”–>
“Run”运行程序即可。
如果想把程序打成jar包，通过命令行的形式运行在spark
集群中，可以按照以下步骤 *** 作：
依次选择“File”–>
“Project
Structure”
–>
“Artifact”，选择“+”–>
“Jar”
–>
“From
Modules
with
dependencies”，选择main函数，并在d出框中选择输出jar位置，并选择“OK”。
最后依次选择“Build”–>
“Build
Artifact”编译生成jar包。

安装流程

我们先来回顾上一篇我们完成的单节点的Hadoop环境配置，已经配置了一个CentOS 68 并且完成了java运行环境的搭建，Hosts文件的配置、计算机名等诸多细节。

其实完成这一步之后我们就已经完成了Hadoop集群的搭建的一半的工作了，因为我们知道通过虚拟机搭建所搭建的好处就是直接拷贝机器。多台同步进行 *** 作，减少分别配置的时间消耗浪费。这也是虚拟化技术所带来的优势。

下面，咱们进去分布式系统的详细 *** 作过程。

1、首先需要在VMWare中将之前创建的单实例的计算机进行拷贝。

这里根据之前第一篇文章的规划，我们至少需要再克隆出三台计算机，作为DataNode数据节点的数据存储。之前的上一台机器作为Master主节点进行管理。

这里先来梳理一下整个Hadoop集群的物理架构图，大家有一个直接的观念和认识，上表中已经和明确了，总共需要5台服务器来使用，四台用来搭建Hadoop集群使用，另外一台（可选）作为MySQL等外围管理Hadoop集群来使用。

前期准备
l 两台linux虚拟机（本文使用redhat5，IP分别为 IP1、IP2）
l JDK环境（本文使用jdk16，网上很多配置方法，本文省略）
l Hadoop安装包（本文使用Hadoop104）
搭建目标
210作为主机和节点机，211作为节点机。
搭建步骤
1修改hosts文件
在/etc/hosts中增加：
IP1 hadoop1
IP2 hadoop2

2 实现ssh无密码登陆
21 主机（master）无密码本机登陆
ssh-keygen -t dsa -P '' -f ~/ssh/id_dsa
直接回车，完成后会在 ~/ssh/ 生成两个文件： id_dsa 和 id_dsapub 。
这两个是成对出现，类似钥匙和锁。
再把 id_dsapub 追加到授权 key 里面 ( 当前并没有 authorized_key s文件 ) ：
cat ~/ssh/id_dsapub >> ~/ssh/authorized_keys

ssh localhost hostname
还是要输入密码，一般这种情况都是因为目录或文件的权限问题，看看系统日志，确实是权限问题
ssh下的authorized_keys权限为600，其父目录和祖父目录应为755
22 无密码登陆节点机（slave）
slave上执行：
ssh-keygen -t dsa -P '' -f ~/ssh/id_dsa

生成ssh目录。
将master上的authorized_keys复制到slave上：
scp authorized_keys hadoop2:~/ssh/

实验：在master上执行
ssh hadoop2

实现无密码登陆。
3 配置Hadoop
31拷贝hadoop
将hadoop-104targz ,拷贝到usr/local 文件夹下，然后解压。
解压命令：
tar –zxvf hadoop-104targz

32查看 cat /etc/hosts
IP1 hadoop1
IP2 hadoop2

33 配置 conf/masters 和 conf/slaves
conf/masters：
1

IP1

conf/slaves：
1
2

IP2
IP2

34 配置 conf/hadoop-envsh
加入
1

export JAVA_HOME=/home/elvis/soft/jdk170_17

35 配置 conf/core-sitexml
1
2
3
4

<property>
<name>fsdefaultname</name>
<value>hdfs://IP1:9000</value>
</property>

36 配置 conf/hdfs-sitexml
加入
<property>
<name>dfs>

欢迎分享，转载请注明来源：内存溢出

原文地址: https://outofmemory.cn/yw/13336283.html

Flink1.8 集群搭建完全指南(1)：Hadoop伪分布式

发表评论

评论列表（0条）