- 欢迎使用Markdown编辑器
- 大数据历史
- 大数据带来的思维转变
- 大数据4V特征
- 大数据的产生阶段
- 科学研究四范式
- 大数据的计算模式
- 大数据技术框架——6层结构
- 数据收集
- 数据存储
- 资源管理与服务协调
- 计算引擎
- 数据分析
- 数据可视化
- GFS(对应的开源实现:HFS)
- BigTable(对应的开源实现:Hbase)
- 大数据发展的基石 :goodle,2003-2006,三篇论文:GFS,MapReduce,BigTable。
- Hadoop之父Doug Cutting 参考了相关论文,目前开源领域最有影响力之一的Hadoop框架。
全样而非抽样,效率而非精确,相关而非因果
大数据4V特征Volume 大量,Value 价值密度低,Velocity 快速,Variety 多样化
大数据的产生阶段-
运营式系统阶段
数据库管理
数据由运营活动被动产生 -
用户原创内容
数据爆发的标志:用户原创内容;时间:Web 2.0;
主动产生数据。 -
感知式系统
VR/AR
数据第三次大飞跃导致大数据产生
经验(实验),理论,计算,数据探索型(第四范式)
大数据的计算模式不同计算模式对实时性和吞吐量的要求不同
- 批处理计算
大规模数据批量处理
MapReduce、Spark
- 流计算
流式数据实时分析
Stream,Storm,Dstream,Flume
- 图计算
大规模图结构数据的处理
Pregel
- 查询分析计算
大规模数据存储管理和查询分析
Hive
从下往上数据收集、数据存储、资源管理与服务协调、数据分析、数据可视化
数据收集-
数据源特点
异构性、多样性、分布式、流式产生 -
收集系统特点
可靠性、可扩展性、安全性、低延迟
可扩展性:适配不同数据源&接受大量数据不产生系统瓶颈
可靠:数据传输过程中不能丢失
安全:敏感数据不能泄密 -
应用
结构化数据:canal(增量收集),Sqoop(全量收集)
非结构化数据:flume
分布式队列(缓存、数据总线):kafka
-
特点
容错性,可扩展性(数据量是增长的),支持多种数据模型(数据是异构的) -
应用
列簇式:HDFS,Hbase(建立在HDFS上的数据库)
纯列式:Kudu
资源状态 != 任务状态
引入统一资源管理层的好处:
资源利用率高、运维成本低、资源共享
-
资源利用率高
负载均衡 -
运维成本低
一管多:一个管理员即可完成多个框架的统一管理 -
数据共享
减少数据移动带来的硬件和时间成本 -
应用
Zookeeper、Yarn
计算引擎类别VS大数据计算模式
根据对实时性(吞吐量/延迟)的不同要求,(按延迟要求从低到高)分为三类:批处理、交互式、实时处理
- 批处理
对响应速度要求最低,追求高吞吐率
处理时间一般分钟到小时级别,甚至天级别
应用:构建搜索引擎的索引、数据挖掘、机器学习 - 交互式
处理时间一般为秒级别,需要系统与人交互
应用:数据查询、参数化报表生成、OLAP(联机分析处理online Analytical Processing) - 实时处理
对响应速度要求最高,处理时间要求在秒级以内
应用:广告系统、舆情分析、xyk欺诈检测 - 应用
批处理:MapReduce,Spark
流计算:Spark Streaming,Storm
图计算:Pregel
直接跟用户应用程序对接
数据可视化利用计算机图形学和图像处理技术
直接面向用户展示结果
分布式文件系统,良好的容错性(尤其突出)、可扩展性、可用性。
良好的容错性使其扩展性强:使得文件系统可以构建在大量普通廉价的机器上,便于横向扩展。
构建在GFS上的数据库——本质:稀疏、分布式、持久化的多维度排序映射表
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)