第一篇 第一章(大数据的概述)

第一篇 第一章(大数据的概述),第1张

第一篇 第一章(大数据的概述)

文章目录
    • 一、大数据概述
      • 1.1 数据的产生与发展
      • 1.2 大数据的基础知识
      • 1.3 大数据架构


一、大数据概述 1.1 数据的产生与发展 whenwhowhat2003年GoogleGoogle File System2005年YahooHadoop2008年CCC《大数据计算:在商务、科学和社会领域创建革命性突破》2009年AMPLabSpark2011年麦肯锡《大数据:创新、竞争和生产力》2012年世界经济论坛《大数据,大影响》2015年国务院《促进大数据发展行动纲要》2016年党中央《大数据“十三五”规划》 1.2 大数据的基础知识

1.一定的Java知识
2.Linux的基本 *** 作

1.3 大数据架构 Hadoop核心详细介绍HDFS分布式文件系统,用于对大型文件的处理和拆分,为构建大规模集群和高可用的文件处理打下基础MapReduce分布式数据处理和执行环境,用于对大规模数据集进行运算Hive基于hadoop的一个数据仓库工具,可将结构化的数据文件映射为数据库表,并提供简单SQL查询功能,可以将SQL转化为MapReduce进行运算Hbase分布式的、面向列的开源数据库,它适合于类似大数据的非结构化的数据存储的数据库Sqoop一款开源的数据传输工具,主要用于在Hadoop与传统的数据库间数据的传递Flume由Cloudera提供的一个高可用、高可靠,分布式的海量日志采集、聚合和传输的系统 Spark核心详细介绍RDDd性分布式数据集,是分布式内存的抽象概念,它提供了高效的数据流处理Spark SQl它是用来处理结构化数据的Spark组件,提供了Dataframes的可编程抽象模型,可视为分布式的SQL查询引擎Spark Streaming它是基于Spark核心的流式计算的拓展,具有高吞吐量和容错能力强的特点MLlib一个Spark的扩展的机器学习库,包括通用的学习算法和工具KafKa一种高吞吐量、分布式的发布订阅消息系统,它可以处理消费者规模消息的数据

欢迎分享,转载请注明来源:内存溢出

原文地址: https://outofmemory.cn/zaji/5696138.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-12-17
下一篇 2022-12-17

发表评论

登录后才能评论

评论列表(0条)

保存