Hbase和Hive在Hadoop中的功能有什么联系他们怎么分别作业的.两个数据库不会有重复信息导致资源浪费吗_工具

简单来说hive用来批量处理数据，HBase用来快速索引数据。

HBase是一个分布式的基于列存储的非关系型数据库。HBase的查询效率很高，主要由于查询和展示结果。

hive是分布式的关系型数据库。主要用来并行分布式处理大量数据。hive中的所有查询除了"select from table;"都是需要通过Map\Reduce的方式来执行的。由于要走Map\Reduce，即使一个只有1行1列的表，如果不是通过select from table;方式来查询的，可能也需要8、9秒。但hive比较擅长处理大量数据。当要处理的数据很多，并且Hadoop集群有足够的规模，这时就能体现出它的优势。

通过hive的存储接口，hive和Hbase可以整合使用。参见：>

由FaceBook开发，贡献给APache。

Hive是基于Hadoop的一个数据仓库工具，依赖HDFS完成数据存储，依赖于MapReduce处理数据。其本身并不存储数据。Hive 定义了简单的类 SQL 查询语言，称为 HQL，通过编写HiveQL语句，运行具体的MapReduce任务。

1）采用批处理方式处理海量数据。

2）提供了ETL工具。

Hive的体系结构可以分为以下几部分：

Hive 对外提供了三种服务模式，即 Hive 命令行模式（CLI），Hive 的 Web 模式（WUI），Hive 的远程服务（Client）。Hive 远程服务通过 JDBC 等访问来连接 Hive ，这是日常中最需要的方式。

元数据存储在Mysql或Derby中。Hive 中的元数据包括表的名字，表的列和分区及其属性，表的属性（是否为外部表等），表的数据所在目录等。

由Cloudera公司开发的新型查询系统。

Impala元数据存储在Hive中，不能独立运行，依赖Hive元数据。

Impala执行查询时，不需要转换成MapReduce任务，可以直接与HDFS或HBase进行交互查询，查询效率远远高于Hive。

Impala采用与Hive相同的SQL语法，ODBC驱动程序和用户接口。

Impala主要由Impalad， State Store和CLI组成，执行查询的时候分布在多个节点上进行。

Impalad：负责协调客户端提交变得查询的执行，与HDFS的数据节点运行在同一节点上。

State Store：负责收集分布在集群中各个Impalad进城的资源信息用于查询调度。

CLI：提供给用户查询使用的命令行工具（Impala Shell使用python实现），同时Impala还提供了Hue，JDBC， ODBC使用接口。

DBeaver中配置的使用JDBC来访问。

其具体执行过程如下：

1、试用场景：

Hive：跑批

Impala：实时交互

2、计算方式：

Hive：依赖于MapReduce框架

Impala：直接分发执行计划到各个Impalad执行查询

3、资源使用情况：

Hive执行过程中，若内存放不下所有数据则会使用外存。

Impala只用内存。

这种情况应该是hive分区已经创建了，hive的元数据已经有了，你还没有给分区插入数据。

可以执行show partitions xxxx，看看分区是否已经存在。

show create table xxxx，看看表对应的HDFS目录是否有。

然后你往分区里插入一点数据，看一下分区目录是否创建。

1动态分区插入数据的时候，会产生大量的小文件，从而导致map数量的暴增

2数据源本身就包含有大量的小文件

3reduce个数越多，生成的小文件也越多

1 从HIVE角度来看的话呢，小文件越多，map的个数也会越多，每一个map都会开启一个JVM虚拟机，每个虚拟机都要创建任务，执行任务，这些流程都会造成大量的资源浪费，严重影响性能

2 在HDFS中，每个小文件约占150byte，如果小文件过多则会占用大量的内存。这样namenode内存容量严重制约了集群的发展

41 使用Hadoop achieve把小文件进行归档

42 重建表，建表时减少reduce的数量

43 通过参数调节，设置map/reduce的数量

431设置map输入合并小文件的相关参数：

432 设置map输出和reduce输出进行合并的相关参数：

我在学习了几个月的大数据之后，终于接到了老板派来的活啦！有核心技术在手，感觉走路都轻快了许多呢。这个需求呢实际上非常简单且明确。

现在老板需要我对招聘市场不同岗位的核心技能点做一个调研，现在我们手上大概有一些数据，数据是一些招聘相关的数据，在数据中有一个字段为岗位描述，顾名思义，找过工作的同学都能知道岗位描述是啥意思，尤其是像你们没学大数据的同学，可能已经翻看了无数工作机会还没有找到工作吧吼吼，我学习完大数据之后可是立马找到工作了呢。

岗位描述实际就是一段话，表示这个岗位需要应聘者具备某些能力或者技能来足以胜任这份工作。有了这个数据，我初步的调研方案是这样的：

针对性的分析这个字段的数据，把其中所有的关键词给取出来，然后按照每一条数据对应的岗位，根据岗位进行分组计数，那样的话我就可以得出每一个岗位对应的每一个关键词出现的次数了，然后当然出现次数最多的那几个关键词就是该岗位的核心技能关键词啦。计划非常完美。

现在的我满脑子都是将任务完美完成，然后得到老板赏识，升职加薪，迎娶白富美的桥段。可是万事俱备，只欠东风。有一个非常重要的问题就是如何将一堆文本（岗位描述）转换成一个个的词？也就是我们常说的分词，今天我们就来介绍一下如何完美地完成这个任务。干货时间到。

首先这次任务咱们使用Hive来进行数据处理和分析，通过查询Hive文档发现Hive内置函数无法实现分词，但是Hive提供UDF支持用户自定义函数来实现更多的功能。开发UDF的过程大致分为（使用Java语言）：

创建一个用于编写UDF的Maven项目导入相关大数据依赖，其中最重要的是hive-exec和hadoop-common创建一个类并且继承自UDF类重写类中的evaluate()方法，并且在方法中定义逻辑对Maven项目进行打包，将jar包上传至HDFS中在Hive中添加方法关联该jar包中的UDF类，之后就可以使用该方法实现想要的功能了需要注意的是，继承自UDF类，evaluate()方法的输入是一条数据，输出也是一条数据，可以想象一下就是在Hive中一条数据进来，经过转换后返回一条转换后的数据，这与我们常用的lower()/upper()函数类似。在Hive中，还有其他形式的自定义函数类，比如UDAF、UDTF，其中UDAF是多行输入返回一行，例如聚合函数sum()/count()，UDTF是一行输入返回多行，例如爆炸函数explode()。具体详情同学们自行搜索学习吧。

下面开始编写分词的UDF，首先当然是导入相关依赖了，实现分词的库有很多，我选择的是java常用的IK分词器，依赖的名称是ikanalyzer。

之后我们可以定义相关的黑名单词和偏好词，因为我们要最终得到我们想要的关键词，那么们最好把一些没什么用的词去掉，例如“我的”，“岗位”，“很好”等等这一系列词存放成黑名单，因为最后我们不想把得出来的关键词是这种没有意义的词。当然偏好词也有必要，因为分词工具都是通过一定的语料和算法来进行分词的，它有时候也会将一些词分错，例如“机器学习”这个词，可能分词工具会将它分为“机器”“学习”这两个词，但是很明显对于岗位来说，这明显就是一个技能词，所以我们将这种专有名词设置成偏好词让分词器下次遇到这些词的时候不要分错。

将停止词放入stopworddic中，将偏好词放入extworddic中，每一个词占一行即可，然后在IKAnalyzercfgxml中配置这两个文件的路径，之后IK分词器就会自动的加载我们自定义的停止词和偏好词了。

接下来编写主类UDF。

UDF的大致意思就是对传入的字符串做分词，分词后在通过特殊符号“\001”来对每一个词进行拼接，最终返回一个拼接好的字符串。

根据开发UDF的步骤，将UDF打成jar包并上传到HDFS，并在Hive中创建方法关联该jar包。

总之使用HiveSQL一通十三招将所有的任务完成，SQL在这就不给大伙儿解释了，最终我们由原始数据，得到了最终我们想要的数据。

从我们对数据的处理和分析结果来看，算法岗位（job_tag）对关键字（sub）“算法”、“c++”、“机器学习”这些技术都有相当大的需求，因为在算法岗位描述中，“算法”这个词出现6366次，“c++”出现3706次，“机器学习”出现3385次，都是出现次数最高的几个关键词。

今天我的分享就到这啦，你学会了吗？

以上就是关于Hbase和Hive在Hadoop中的功能有什么联系他们怎么分别作业的.两个数据库不会有重复信息导致资源浪费吗全部的内容，包括:Hbase和Hive在Hadoop中的功能有什么联系他们怎么分别作业的.两个数据库不会有重复信息导致资源浪费吗、spark、hive、impala、hdfs的常用命令、大数据专题--Hive 与 impala等相关内容解答，如果想了解更多相关内容，可以关注我们，你们的支持是我们更新的动力！

欢迎分享，转载请注明来源：内存溢出

原文地址: https://outofmemory.cn/sjk/10153355.html

Hbase和Hive在Hadoop中的功能有什么联系他们怎么分别作业的.两个数据库不会有重复信息导致资源浪费吗

发表评论

评论列表（0条）