一招教你使用Hive处理文本数据

一招教你使用Hive处理文本数据,第1张

我在学习了几个月的大数据之后,终于接到了老板派来的活啦!有核心技术在手,感觉走路都轻快了许多呢。这个需求呢实际上非常简单且明确。

现在老板需要我对招聘市场不同岗位的核心技能点做一个调研,现在我们手上大概有一些数据,数据是一些招聘相关的数据,在数据中有一个字段为岗位描述,顾名思义,找过工作的同学都能知道岗位描述是啥意思,尤其是像你们没学大数据的同学,可能已经翻看了无数工作机会还没有找到工作吧吼吼,我学习完大数据之后可是立马找到工作了呢。

岗位描述实际就是一段话,表示这个岗位需要应聘者具备某些能力或者技能来足以胜任这份工作。有了这个数据,我初步的调研方案是这样的:

针对性的分析这个字段的数据,把其中所有的关键词给取出来,然后按照每一条数据对应的岗位,根据岗位进行分组计数,那样的话我就可以得出每一个岗位对应的每一个关键词出现的次数了,然后当然出现次数最多的那几个关键词就是该岗位的核心技能关键词啦。计划非常完美。

现在的我满脑子都是将任务完美完成,然后得到老板赏识,升职加薪,迎娶白富美的桥段。可是万事俱备,只欠东风。有一个非常重要的问题就是如何将一堆文本(岗位描述)转换成一个个的词?也就是我们常说的分词,今天我们就来介绍一下如何完美地完成这个任务。干货时间到。

首先这次任务咱们使用Hive来进行数据处理和分析,通过查询Hive文档发现Hive内置函数无法实现分词,但是Hive提供UDF支持用户自定义函数来实现更多的功能。开早困发UDF的过程大悄中致分为(使用Java语言):

创建一个用于编写UDF的Maven项目导入相关大数据依赖,其中最重要的是hive-exec和hadoop-common创建一个类并且继承自UDF类重写类中的evaluate()方法,并且在方法中定义逻辑对Maven项目进行打包,将jar包上传至HDFS中在Hive中添加方法关联该jar包中的UDF类,之后就可以使用该方法实现想要的功能了需要注意的是,继承自UDF类,evaluate()方法的输入是一条数据,输出也是一条数据,可以想象一下就是在Hive中一条数据进来,经过转换后返回一条转换后的数据,这与我们常用的lower()/upper()函数类似。在Hive中,还有其他形式的自定义函数类,比如UDAF、UDTF,其中UDAF是多行输入返回一行,例如聚合函数sum()/count(),UDTF是一行输入返回多行,例如爆炸函数explode()。具体详情同学们自行搜索学习吧。

下面开始编写分词的UDF,首先当然是导入相关依赖了,实现分词的库有很多,我选择的是java常用的IK分词器,依赖的名称是ikanalyzer。

之后我们可以定义相关的黑名单词和偏好词,因为我们要最终得到我们想要的关键词,那么们最好把一些没什么用的词去掉,例如“我的”,“岗位”,“很好”等等这一系列词存放成黑名单,因为最后我们不想把得出来的关键词是这种没有意启睁山义的词。当然偏好词也有必要,因为分词工具都是通过一定的语料和算法来进行分词的,它有时候也会将一些词分错,例如“机器学习”这个词,可能分词工具会将它分为“机器”“学习”这两个词,但是很明显对于岗位来说,这明显就是一个技能词,所以我们将这种专有名词设置成偏好词让分词器下次遇到这些词的时候不要分错。

将停止词放入stopword.dic中,将偏好词放入extword.dic中,每一个词占一行即可,然后在IKAnalyzer.cfg.xml中配置这两个文件的路径,之后IK分词器就会自动的加载我们自定义的停止词和偏好词了。

接下来编写主类UDF。

UDF的大致意思就是对传入的字符串做分词,分词后在通过特殊符号“\001”来对每一个词进行拼接,最终返回一个拼接好的字符串。

根据开发UDF的步骤,将UDF打成jar包并上传到HDFS,并在Hive中创建方法关联该jar包。

总之使用HiveSQL一通十三招将所有的任务完成,SQL在这就不给大伙儿解释了,最终我们由原始数据,得到了最终我们想要的数据。

从我们对数据的处理和分析结果来看,算法岗位(job_tag)对关键字(sub)“算法”、“c++”、“机器学习”这些技术都有相当大的需求,因为在算法岗位描述中,“算法”这个词出现6366次,“c++”出现3706次,“机器学习”出现3385次,都是出现次数最高的几个关键词。

今天我的分享就到这啦,你学会了吗?

在测试hive的load性能时,我们在建表时指定使用 | 作为分隔符。这样就需要考虑一个问题:如果外部文本中 | 作为文本内容出现时,如何区分到底是分隔符还是清虚文本内容。

首先测试hive是否能智能区分分隔符与文本内容,结果表明:当分隔符与文本内容相同时,会产生数据混淆问题。

SQL如何解决这一问题

参考链接: 如何在sqlldr中导入多字符分隔符文件

SQL中对此的解决办法是采用多字符分隔符,以降低产生数据混淆的概率。

Hive中对这一问题的解决思路与SQL相同

然而hive中默认只支持单字符分割符,如果指定多字符分隔符将会报错。

参考链接: hive如何处理多分隔符数据

hive处理日志,自定义inputformat

hive创建表指定分隔符,不支持多个字符作为分隔符

解决办法:

1. 利用hive自带的序列化/反序列化的方式RegexSe

这种方式稍微复杂一点,对数据的控制能力也要弱一些,它使用正则表达式来匹配和处明橘理数据,性能也会有所影响。但它的优点是可以自定义表属性信息激正团 SERDEPROPERTIES ,在 SerDe 中通过这些属性信息可以有更多的定制行为。

2. 自定义 outputformat 和 inputformat

Hive 的 outputformat/inputformat 与 hadoop 的 outputformat/inputformat 相当类似, inputformat 负责把输入数据进行格式化,然后提供给 Hive,outputformat 负责把 Hive 输出的数据重新格式化成目标格式再输出到文件,这种对格式进行定制的方式较为底层,对其进行定制也相对简单,重写 InputFormat 中 RecordReader 类中的 next 方法即可。


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/tougao/12144243.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-21
下一篇 2023-05-21

发表评论

登录后才能评论

评论列表(0条)

保存