第一篇第一章（大数据的概述）_随笔

第一篇第一章（大数据的概述）

文章目录

- 一、大数据概述
- - 1.1 数据的产生与发展
  - 1.2 大数据的基础知识
  - 1.3 大数据架构

一、大数据概述 1.1 数据的产生与发展 whenwhowhat2003年GoogleGoogle File System2005年YahooHadoop2008年CCC《大数据计算：在商务、科学和社会领域创建革命性突破》2009年AMPLabSpark2011年麦肯锡《大数据：创新、竞争和生产力》2012年世界经济论坛《大数据，大影响》2015年国务院《促进大数据发展行动纲要》2016年党中央《大数据“十三五”规划》 1.2 大数据的基础知识

1.一定的Java知识
2.Linux的基本 *** 作

1.3 大数据架构 Hadoop核心详细介绍HDFS分布式文件系统，用于对大型文件的处理和拆分，为构建大规模集群和高可用的文件处理打下基础MapReduce分布式数据处理和执行环境，用于对大规模数据集进行运算Hive基于hadoop的一个数据仓库工具，可将结构化的数据文件映射为数据库表，并提供简单SQL查询功能，可以将SQL转化为MapReduce进行运算Hbase分布式的、面向列的开源数据库，它适合于类似大数据的非结构化的数据存储的数据库Sqoop一款开源的数据传输工具，主要用于在Hadoop与传统的数据库间数据的传递Flume由Cloudera提供的一个高可用、高可靠，分布式的海量日志采集、聚合和传输的系统 Spark核心详细介绍RDDd性分布式数据集，是分布式内存的抽象概念，它提供了高效的数据流处理Spark SQl它是用来处理结构化数据的Spark组件，提供了Dataframes的可编程抽象模型，可视为分布式的SQL查询引擎Spark Streaming它是基于Spark核心的流式计算的拓展，具有高吞吐量和容错能力强的特点MLlib一个Spark的扩展的机器学习库，包括通用的学习算法和工具KafKa一种高吞吐量、分布式的发布订阅消息系统，它可以处理消费者规模消息的数据

欢迎分享，转载请注明来源：内存溢出

原文地址: https://outofmemory.cn/zaji/5696138.html

第一篇第一章（大数据的概述）

发表评论

评论列表（0条）

第一篇 第一章（大数据的概述）

发表评论

评论列表（0条）

第一篇第一章（大数据的概述）