hadoop就是什么问题的一种开源实现

hadoop就是什么问题的一种开源实现,第1张

hadoop主要实现了两部分,一是分布式存储系统,也就是HDFS,可以让你把东西存储到多台机器上,而你却感觉在使用一台机器一样,二是分布式计算框架MapReduce(第二代为YARN),也可以让你很简单的编写出并行运行的代码。

因为hadoop之前的大多数离线计算是基本sql的,所以会sql的比会编程的多,所以facebook在mapreduce的基础上包装了一层框架,可以用sql的形式在hadoop上进行离线计算,框架会把sql转化成mapreduce任务去执行,这个框架叫hive。

hive默认分析的是hdfs上的文件,所以特点的太慢,可以考虑使用基于hdfs的一种分布式nosql数据库,叫hbase,让hive分析hbase里的数据,会快点。另外hive还有很多替代品

简单来说就是以下几点

1、数据采集与预处理:

Flume NG实时日志收集系统,支持在日志系统中定制各类数据发送方,用于收集数据;

Zookeeper是一个分布式的,开放源码的分布式应用程序协调服务,提供数据同步服务。

2、数据存储:

Hadoop作为一个开源的框架,专为离线和大规模数据分析而设计,HDFS作为其核心的存储引擎,已被广泛用于数据存储。

HBase,是一个分布式的、面向列的开源数据库,可以认为是hdfs的封装,本质是数据存储、NoSQL数据库。

3、数据清洗:MapReduce作为Hadoop的查询引擎,用于大规模数据集的并行计算

4、数据查询分析:

Hive的核心工作就是把SQL语句翻译成MR程序,可以将结构化的数据映射为一张数据库表,并提供 HQL(Hive SQL)查询功能。

Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。

5、数据可视化:对接一些BI平台,将分析得到的数据进行可视化,用于指导决策服务。

以上就是关于hadoop就是什么问题的一种开源实现全部的内容,包括:hadoop就是什么问题的一种开源实现、大数据核心技术有哪些、等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/sjk/10174767.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-06
下一篇 2023-05-06

发表评论

登录后才能评论

评论列表(0条)

保存