hadoop就是什么问题的一种开源实现_工具

hadoop主要实现了两部分，一是分布式存储系统，也就是HDFS,可以让你把东西存储到多台机器上，而你却感觉在使用一台机器一样，二是分布式计算框架MapReduce(第二代为YARN)，也可以让你很简单的编写出并行运行的代码。

因为hadoop之前的大多数离线计算是基本sql的，所以会sql的比会编程的多，所以facebook在mapreduce的基础上包装了一层框架，可以用sql的形式在hadoop上进行离线计算，框架会把sql转化成mapreduce任务去执行，这个框架叫hive。

hive默认分析的是hdfs上的文件，所以特点的太慢，可以考虑使用基于hdfs的一种分布式nosql数据库，叫hbase，让hive分析hbase里的数据，会快点。另外hive还有很多替代品

简单来说就是以下几点

1、数据采集与预处理：

Flume NG实时日志收集系统，支持在日志系统中定制各类数据发送方，用于收集数据；

Zookeeper是一个分布式的，开放源码的分布式应用程序协调服务，提供数据同步服务。

2、数据存储：

Hadoop作为一个开源的框架，专为离线和大规模数据分析而设计，HDFS作为其核心的存储引擎，已被广泛用于数据存储。

HBase，是一个分布式的、面向列的开源数据库，可以认为是hdfs的封装，本质是数据存储、NoSQL数据库。

3、数据清洗：MapReduce作为Hadoop的查询引擎，用于大规模数据集的并行计算

4、数据查询分析：

Hive的核心工作就是把SQL语句翻译成MR程序，可以将结构化的数据映射为一张数据库表，并提供 HQL(Hive SQL)查询功能。

Spark 启用了内存分布数据集，除了能够提供交互式查询外，它还可以优化迭代工作负载。

5、数据可视化：对接一些BI平台，将分析得到的数据进行可视化，用于指导决策服务。

以上就是关于hadoop就是什么问题的一种开源实现全部的内容，包括:hadoop就是什么问题的一种开源实现、大数据核心技术有哪些、等相关内容解答，如果想了解更多相关内容，可以关注我们，你们的支持是我们更新的动力！

欢迎分享，转载请注明来源：内存溢出

hadoop就是什么问题的一种开源实现