spark和hadoop的区别:诞生的先后顺序、计算不同、平台不同。
诞生的先后顺序,hadoop属于第一代开源大数据处理平台,而spark属于第二代。属于下一代的spark肯定在综合评价上要优于第一代的hadoop。
计算不同spark和hadoop在分布式计算的底层思路上,其实是极为相似的,即mapreduce分布式运算模型:将运算分成两个阶段,阶段1-map,负责从上游拉取数据后各自运算,然后将运算结果shuffle给下游的reduce,reduce再各自对通过shuffle读取来的数据进行聚合运算spark和hadoop在分布式计算的具体实现上,又有区别;hadoop中的mapreduce运算框架,一个运算job,进行一次map-reduce的过程;而spark的一个job中,可以将多个map-reduce过程级联进行。
平台不同spark和hadoop区别是,spark是一个运算平台,而hadoop是一个复合平台(包含运算引擎,还包含分布式文件存储系统,还包含分布式运算的资源调度系统),所以,spark跟hadoop来比较的话,主要是比运算这一块大数据技术发展到目前这个阶段,hadoop主要是它的运算部分日渐式微,而spark目前如日中天,相关技术需求量大,offer好拿。
CDH53 Oozie服务搭建
编写人:胡旻 版本:V_05 修改时间:20150215(Oozie版本CDH53组件V400)
版权所有转载请注明
一Oozie简介
Oozie是一个管理Hdoop作业(job)的工作流程调度管理服务。
1 Oozie的工作流是一系列动作的直接周期图(Directed Acyclical Graphs)。这些动作是典型的Hadoop任务(MapReduce,Streaming, Pipes, Pig, Hive, Sqoop, etc)2 Oozie协调作业就是通过时间(频率)和有效数据触发当前的Oozie工作流程3 Oozie可以将一系列协调作业捆绑作为一个任务进行管理4 Oozie 是一个可扩展,数据感知的服务,允许你在Hadoop上使用运行一系列独立的任务二.软件包
Oozie采用服务器客户端模式,对于安装Oozie有两种包选择,针对Oozie服务器(oozie)和客户端(oozie-client)的独立的RPM包。
三.安装需求
安装Oozie服务器需要满足
1 *** 作系统的支持(如:支持CDH5的 *** 作系统)2 Oracle JDK的支持
3 如果不想用自带的derby还需要一个可以支持的数据库安装Oozie Client需要满足
Oracle JDK的支持
四.安装Oozie
Oozie包含两个独立包;一个是客户端包(oozie-client)另一个是服务包(oozie)。选择你需要的合适的包进行安装。
使用yum方式安装Oozie服务包
$ sudo yum install oozie
使用yum方式安装Oozie客户端包
$ sudo yum install oozie-client
五.配置Oozie
1配置Hadoop任务的使用版本
Oozie客户端不会和HadoopMapReduce任务进行直接的交互,所以其不需要任何MapReduce的设置Oozie服务能够对接使用MRv1或YARN,但是不能同时使用。
文件类型
安装路径
二进制包
/usr/lib/oozie/
配置信息
/etc/oozie/conf/
文档
/usr/share/doc/oozie-400+cdh530+334
例子
/usr/share/doc/oozie-400+cdh530+334
数据
/usr/share/doc/oozie-400+cdh530+334
日志
/var/log/oozie
临时文件
/var/tmp/oozie/
PID文件
/var/run/oozie/
2 使用MySQL配置Oozie
安装和启动mysql,使用mysql命令台工具,创建Oozie数据库和Oozie的mysql用户$ mysql -u root -p
Enter password:
mysql> create database oozie;
Query OK, 1 row affected (003 sec)
mysql> grant all privileges on oozie to 'oozie'@'localhost' identified by 'oozie';Query OK, 0 rows affected (003 sec)
mysql> grant all privileges on oozie to 'oozie'@'%' identified by 'oozie';Query OK, 0 rows affected (003 sec)
mysql> exit
Bye
3配置Oozie使用MySQL,编辑oozie-sitexml中属性文件如下,配置oozie-sitexml$ sudo vim /etc/oozie/conf/oozie-sitexml
<property>
<name>oozieserviceJPAServicejdbcdriver</name>
<value>commysqljdbcDriver</value>
</property>
<property>
<name>oozieserviceJPAServicejdbcurl</name>
<value>jdbc:mysql://localhost:3306/oozie</value>
</property>
<property>
<name>oozieserviceJPAServicejdbcusername</name>
<value>oozie</value>
</property>
<property>
<name>oozieserviceJPAServicejdbcpassword</name>
<value>oozie</value>
</property>
4 添加MySQL JDBC 驱动包(JAR文件)给Oozie
拷贝或软连接mysql的JDBC驱动JAR文件到/var/lib/oozie/ 文件夹5 建立Oozie数据库模式
在设置完Oozie 数据库信息和创建相应的数据库,创建Oozie数据库模式,Oozie为这个目的提供了一个数据库工具运行Oozie数据库工具
$ sudo -u oozie /usr/lib/oozie/bin/ooziedbsh create -run你应该看到以下输出
Validate DB Connection
DONE
Check DB schema does not exist
DONE
Check OOZIE_SYS table does not exist
DONE
Create SQL schema
DONE
DONE
Create OOZIE_SYS table
DONE
Oozie DB has been created for Oozie version '400-cdh530'
The SQL commands have been written to: /tmp/ooziedb-5737263881793872034sql6 允许Oozie Web Console
为了允许Oozie webconsole, 下载添加ExtJS库到 Oozie服务器步骤1:下载库
从>
以上就是关于求大数据分析技术全部的内容,包括:求大数据分析技术、大数据需要学编程吗、spark和hadoop的区别等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)