hadoop是什么意思与大数据有什么关系

hadoop是什么意思与大数据有什么关系,第1张

一、hadoop是什么意思?

Hadoop是具体的开源框架,是工具,用来做海量数据的存储和计算的。

二、hadoop与大数据的关系

首先,大数据本身涉及到一个庞大的技术体系,从学科的角度来看,涉及到数学、统计学和计算机三大学科,同时还涉及到社会学、经济学、医学等学科,所以大数据本身的知识量还是非常大的。

从当前大数据领域的产业链来看,大数据领域涉及到数据采集、数据存储、数据分析和数据应用等环节,不同的环节需要采用不同的技术,但是这些环节往往都要依赖于大数据平台,而Hadoop则是当前比较流行的大数据平台之一。

Hadoop平台经过多年的发展已经形成了一个比较完善的生态体系,而且由于Hadoop平台是开源的,所以很多商用的大数据平台也是基于Hadoop搭建的,所以对于初学大数据的技术人员来说,从Hadoop开始学起是不错的选择。

当前Hadoop平台的功能正在不断得到完善,不仅涉及到数据存储,同时也涉及到数据分析和数据应用,所以对于当前大数据应用开发人员来说,整体的知识结构往往都是围绕大数据平台来组织的。随着大数据平台逐渐开始落地到传统行业领域,大数据技术人员对于大数据平台的依赖程度会越来越高。

当前从事大数据开发的岗位可以分为两大类,一类是大数据平台开发,这一类岗位往往是研发级岗位,不仅岗位附加值比较高,未来的发展空间也比较大,但是大数据平台开发对于从业者的要求比较高,当前有不少研究生在毕业后会从事大数据平台开发岗位。

另一类是大数据应用开发岗位,这类岗位的工作任务就是基于大数据平台(Hadoop等)来进行行业应用开发,在工业互联网时代,大数据应用开发岗位的数量还是比较多的,而且大数据应用开发岗位对于从业者的要求也相对比较低。

hadoop一般是应用于冷数据处理,对于实时数据,如果非要使用,可以变着方法使用。方法一:在hadoop上使用hbase数据库,以为hbase是不走Map/Reduce的,所以 *** 作在毫秒级。

方法二:将业务数据用程序分成实时数据和冷数据,实时数据存于关系数据库,冷数据存到hadoop。比如:将最近一个月的数据存到关系数据库,用做实时响应业务处理。将一个月以前的数据存到hadoop,用作历史数据查询以及统计分析,数据挖掘等。

答:主要体现在以下几个方面:1数据类型。关系数据库采用关系模型,具有丰富的数据类型和储存方式。HBase则采用了更加简单的数据模型,它把数据储存为未经解释的字符串,用户可以把不同格式的结构化数据和非结构化数据都序列化成字符串保存到HBase中,用户需要自己编写程序把字符串解析成不同的数据类型。

2数据 *** 作。关系数据库中包含了丰富的 *** 作,如插入、删除、更新、查询等,其中会涉及复杂的多表连接,通常是借助多个表之间的主外键关联来实现的。HBase *** 作则不存在复杂的表与表之间的关系,只有简单的插入、查询、删除、清空等,因为HBase在设计上就避免了复杂的表与表之间的关系,通常只采用单表的主键查询,所以它无法实现像关系数据库中那样的表与表之间的连接 *** 作。

3存储模式。关系数据库是基于行模式存储的,元祖或行会被连续地存储在磁盘页中。在读取数据时,需要顺序扫描每个元组,然后从中筛选出查询所需要的属性。如果每个元组只有少量属性的值对于查询是有用的,那么基于行模式存储就会浪费许多磁盘空间和内存带宽。HBase是基于列存储的,每个列族都由几个文件保存,不同列族的文件是分离的,它的优点是:可以降低I/O开销,支持大量并发用户查询,因为仅需要处理可以回答这些查询的列,而不是处理与查询无关的大量数据行;同一个列族中的数据会被一起进行压缩,由于同一列族内的数据相似度较高,因此可以获得较高的数据压缩比。

4数据索引。关系数据库通常可以针对不同列构建复杂的多个索引,以提高数据访问性能。与关系数据库不同的是,HBase只有一个索引——行键,通过巧妙的设计,HBase中所有访问方法,或者通过行键访问,或者通过行键扫描,从而使整个系统不会慢下来。由于HBase位于Hadoop框架之上,因此可以使用Hadoop MapReduce来快速、高效地生成索引表。

6数据维护。在关系数据库中,更新 *** 作会用最新的当前值去替换记录中原来的旧值,旧值被覆盖后就不会存在。而在HBase中执行更新 *** 作时,并不会删除数据旧的版本,而是生成一个新的版本,旧有的版本仍旧保留。

7可伸缩性。关系数据库很难实现横向扩展,纵向扩展的空间也比较有限。相反,HBase和BigTable这些分布式数据库就是为了实现灵活的水平扩展而开发的,因此能够轻易地通过在集群中增加或者减少硬件数量来实现性能的伸缩。

但是,相对于关系数据库来说,HBase也有自身的局限性,如HBase不支持事务,因此无法实现跨行的原子性。

注:本来也想来问这个问题,然后复制一下的。结果找不到,只好自己手打了,麻烦复制拿去用的同学点下赞呗。

2019327-16:40

以上就是关于hadoop是什么意思与大数据有什么关系全部的内容,包括:hadoop是什么意思与大数据有什么关系、hadoop namenode 中的的mysql数据库有什么用、试比较hadoop中的数据库hbase和传统关系数据库的不同等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/sjk/9655068.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-04-30
下一篇 2023-04-30

发表评论

登录后才能评论

评论列表(0条)

保存