求大数据分析技术

求大数据分析技术,第1张

spark和hadoop的区别:诞生的先后顺序、计算不同、平台不同。

诞生的先后顺序,hadoop属于第一代开源大数据处理平台,而spark属于第二代。属于下一代的spark肯定在综合评价上要优于第一代的hadoop。

计算不同spark和hadoop在分布式计算的底层思路上,其实是极为相似的,即mapreduce分布式运算模型:将运算分成两个阶段,阶段1-map,负责从上游拉取数据后各自运算,然后将运算结果shuffle给下游的reduce,reduce再各自对通过shuffle读取来的数据进行聚合运算spark和hadoop在分布式计算的具体实现上,又有区别;hadoop中的mapreduce运算框架,一个运算job,进行一次map-reduce的过程;而spark的一个job中,可以将多个map-reduce过程级联进行。

平台不同spark和hadoop区别是,spark是一个运算平台,而hadoop是一个复合平台(包含运算引擎,还包含分布式文件存储系统,还包含分布式运算的资源调度系统),所以,spark跟hadoop来比较的话,主要是比运算这一块大数据技术发展到目前这个阶段,hadoop主要是它的运算部分日渐式微,而spark目前如日中天,相关技术需求量大,offer好拿。

CDH53 Oozie服务搭建

编写人:胡旻 版本:V_05 修改时间:20150215(Oozie版本CDH53组件V400)

版权所有转载请注明

一Oozie简介

Oozie是一个管理Hdoop作业(job)的工作流程调度管理服务。

1 Oozie的工作流是一系列动作的直接周期图(Directed Acyclical Graphs)。这些动作是典型的Hadoop任务(MapReduce,Streaming, Pipes, Pig, Hive, Sqoop, etc)2 Oozie协调作业就是通过时间(频率)和有效数据触发当前的Oozie工作流程3 Oozie可以将一系列协调作业捆绑作为一个任务进行管理4 Oozie 是一个可扩展,数据感知的服务,允许你在Hadoop上使用运行一系列独立的任务二.软件包

Oozie采用服务器客户端模式,对于安装Oozie有两种包选择,针对Oozie服务器(oozie)和客户端(oozie-client)的独立的RPM包。

三.安装需求

安装Oozie服务器需要满足

1 *** 作系统的支持(如:支持CDH5的 *** 作系统)2 Oracle JDK的支持

3 如果不想用自带的derby还需要一个可以支持的数据库安装Oozie Client需要满足

Oracle JDK的支持

四.安装Oozie

Oozie包含两个独立包;一个是客户端包(oozie-client)另一个是服务包(oozie)。选择你需要的合适的包进行安装。

使用yum方式安装Oozie服务包

$ sudo yum install oozie

使用yum方式安装Oozie客户端包

$ sudo yum install oozie-client

五.配置Oozie

1配置Hadoop任务的使用版本

Oozie客户端不会和HadoopMapReduce任务进行直接的交互,所以其不需要任何MapReduce的设置Oozie服务能够对接使用MRv1或YARN,但是不能同时使用。

文件类型

安装路径

二进制包

/usr/lib/oozie/

配置信息

/etc/oozie/conf/

文档

/usr/share/doc/oozie-400+cdh530+334

例子

/usr/share/doc/oozie-400+cdh530+334

数据

/usr/share/doc/oozie-400+cdh530+334

日志

/var/log/oozie

临时文件

/var/tmp/oozie/

PID文件

/var/run/oozie/

2 使用MySQL配置Oozie

安装和启动mysql,使用mysql命令台工具,创建Oozie数据库和Oozie的mysql用户$ mysql -u root -p

Enter password:

mysql> create database oozie;

Query OK, 1 row affected (003 sec)

mysql> grant all privileges on oozie to 'oozie'@'localhost' identified by 'oozie';Query OK, 0 rows affected (003 sec)

mysql> grant all privileges on oozie to 'oozie'@'%' identified by 'oozie';Query OK, 0 rows affected (003 sec)

mysql> exit

Bye

3配置Oozie使用MySQL,编辑oozie-sitexml中属性文件如下,配置oozie-sitexml$ sudo vim /etc/oozie/conf/oozie-sitexml

<property>

<name>oozieserviceJPAServicejdbcdriver</name>

<value>commysqljdbcDriver</value>

</property>

<property>

<name>oozieserviceJPAServicejdbcurl</name>

<value>jdbc:mysql://localhost:3306/oozie</value>

</property>

<property>

<name>oozieserviceJPAServicejdbcusername</name>

<value>oozie</value>

</property>

<property>

<name>oozieserviceJPAServicejdbcpassword</name>

<value>oozie</value>

</property>

4 添加MySQL JDBC 驱动包(JAR文件)给Oozie

拷贝或软连接mysql的JDBC驱动JAR文件到/var/lib/oozie/ 文件夹5 建立Oozie数据库模式

在设置完Oozie 数据库信息和创建相应的数据库,创建Oozie数据库模式,Oozie为这个目的提供了一个数据库工具运行Oozie数据库工具

$ sudo -u oozie /usr/lib/oozie/bin/ooziedbsh create -run你应该看到以下输出

Validate DB Connection

DONE

Check DB schema does not exist

DONE

Check OOZIE_SYS table does not exist

DONE

Create SQL schema

DONE

DONE

Create OOZIE_SYS table

DONE

Oozie DB has been created for Oozie version '400-cdh530'

The SQL commands have been written to: /tmp/ooziedb-5737263881793872034sql6 允许Oozie Web Console

为了允许Oozie webconsole, 下载添加ExtJS库到 Oozie服务器步骤1:下载库

从>

以上就是关于求大数据分析技术全部的内容,包括:求大数据分析技术、大数据需要学编程吗、spark和hadoop的区别等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!

欢迎分享,转载请注明来源:内存溢出

原文地址: https://outofmemory.cn/web/9863897.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-02
下一篇 2023-05-02

发表评论

登录后才能评论

评论列表(0条)

保存