大数据框架概论

大数据框架概论,第1张

数据框架概论 大数据框架
  • 批处理框架
  • 流处理框架
  • 混合框架
批处理框架

批处理框架数据特征:有界、持久、大量
优势:处理大量数据任务
缺点:处理时间要求高 紧急的任务
例如:Apache Hadoop

流处理框架

流处理模式框架特征:数据无边界 适合用来处理必须对变动或者峰值做出响应
优势:处理几乎无限量的数据
缺点:同一时间只能处理一条或很少量的数据
例如:Apache Storm 和 Apache Samza

混合处理框架

混合处理模式框架特征:可以同时处理批处理和流处理工作负载
优势:提供一种数据处理的通用解决方案,提供自己的继承库、项、工具。
例如:Apache Spark 和 Apache Flink

KvCluster-Redis内存数据库
Redis(Remote Dictionary Server),即远程字典服务,可用作数据库也可以用作缓存,属于nosql系列数据库(non-relational)。使用Key-Value进行存储,默认端口号:6379
类型:

  • string 字符串
  • list 链表
  • set 集合
  • zset 有序集合
  • hash 哈希类型

Redis具有丰富的功能,可以为每个键值设置存活时间(TTL),到期后会被自动删除,可以限制数据占用的最大内存空间,占满后按规则删除不需要的键。

MongoDB

MongoDB是一个基于分布式文件存储的数据库,由C++编写,为WEB应用提供数据存储的解决方案。介于关系数据库和非关系型数据库之间的产品。
优势:高性能、易部署使用、存储数据方便。
缺点:不擅长进行事物查询
采用独特的MongoDB查询方式,基于内存存储,将热数据存在物理内存中,从而达到高速读写。MongoDB侧重于对数据进行 *** 作的应用系统,而Hadoop则侧重于对数据进行分析统计的应用。数据被分组存储在数据集中,被称为一个集合。存储在集合中的文档,被存储为键-值对的形式。

Hbase

典型的面向列的分布式数据库。
优势:海量数据处理,高可拓展,高性能,高可用,高效处理稀疏矩阵(NULL值不占用空间)
缺点:无索引,只支持Row key的随机访问,不支持SQL

依赖于HDFS的存储,Map Reduce 的计算,ZooKeeper的锁服务

Hive

Hive(数据仓库工具),建立在HDFS、MR上的数据仓库框架,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制,hive数据仓库工具能将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,能将SQL语句转变成MapReduce任务来执行。
优势:适合大数据集批处理作业,灵活可拓展。

Hive中数据存储在HDFS中,Hive中包含数据模型:表(Table),外部表(External Table),分区(Partition),桶(Bucket)。

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zaji/5638829.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-12-16
下一篇 2022-12-16

发表评论

登录后才能评论

评论列表(0条)

保存