大数据 hadoop 三种运行模式的区别、及详细配置讲解_软件运维

基于Hadoop进行开发时，有时候会被Hadoop的运行模式弄得晕头转向，傻傻分不清各种运行模则判孝式的区别，给日常开发带来很多困惑，不同集群配置文件也各不相不同。弄明白Hadoop的运行模式和对配置文件的作用要做到心中明了，在工作中才能得手顺心。

hadoop的配置文件均以XML文件进行配置，它有四个最常见的配置文件，分别为：

core-site.xml文件主要用于配置通用属性。

hdfs-site.xml文件用于配置Hdfs的属性。

mapred-site.xml文件用于配置Mapreduce的属性。

yarn-site.xml文件用于配置Yarn的属性。

一般来说，这四种配置文件都存储在hadoop默认的安装目录etc/hadoop子目录中。不过我们也可以在搭建集群时根据实际需求，把etc/hadoop目录和其下的文件复制到另外一个位置。这样可以把配置文件和安装文件分离开来冲旅，方便管理。

注意：如果把etc/hadoop目录和其下的文件复制到另外一孙稿个位置。

我们需要在环境变量中将hadoop_conf_dir设置成指向新目录。

1、本地运行模式

无需任何守护进程 ，所有的程序都运行在同一个JVM上执行。在本地模式下调试MR程序非常高效方便，一般该模式主要是在学习或者开发阶段调试使用。

2、伪分布式模式

Hadoop守护进程运行在本地机器上 ，模拟一个小规模的集群，换句话说，可以配置一台机器的Hadoop集群，伪分布式是完全分布式的一个特例。

3、完全分布式模式

Hadoop守护进程运行在一个集群上 。这种运行模式也就是我们常见的各种云，主要用于大规模的生产环境中。

注意：分布式要启动守护进程，是指在使用分布式hadoop时，要先启动一些准备程序进程，然后才能使用。 比如start-dfs.sh start-yarn.sh，而本地模式不需要启动这些守护进程。

注意：在本地模式下，将使用本地文件系统和本地MapReduce运行器。在分布式模式下，将启动HDFS和YARN守护进程。

对于那些不需要调用类似用户登录这些必须要appid的功能，我尺判们可以直接在创建项目的时候，不填appid，这样小程序就不受合法域名的限制，可以直接访问我们局域网内部的后台。

而对于用户登录、微信支付等这些api，必须要appid，也必须通过腾讯的服务器，这时候我们就必册誉须让我们的后台能被外网访问到，而且在合法域名配置里面，只能是https。一般我们在开发时，肯定都已经买好了外网服务器(比如阿里云ecs)，配置州困段什么的也不是本文重点，本文假设你已经有一台ecs，备案、ssl证书什么的都搞定了。

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/yw/12514661.html

大数据 hadoop 三种运行模式的区别、及详细配置讲解

发表评论

评论列表（0条）