1.流式数据库适合更小的储存。
2.在流式数据处理模式里,数据持续到达,系统及时处理新到达的数据,并不断产生输出。处理过的数据一般丢弃掉,当然也可以保存起来。流式数据处理模式强调数据处理的速度。部分原因是数据产生的速度很快,需要及时进行处理。由于流式数据处理系统能够对新到达的数据进行及时的处理,所以它能够给决策者提供最新的事物发展变化的趋势,以便对突发事件进行及时响应,调整应对措施。
数据库是“按照数据结构来组织、存储和管理数据的仓库”。是一个长期存储在计算机内的、有组织的、可共享的、统一管理的大量数据的集合。
流式处理占主导地位,Kafka和Spark成为主流应用
根据数据处理的时效性,大数据处理系统可以分为批式(batch)大数据和流式(streaming)大数据两类。其中,批式大数据又被称为历史大数据,流式大数据又被称为实时大数据。
以Hadoop为代表的批处理大数据系统需先将数据汇聚成批,经批量预处理后加载至分析型数据仓库中,以进行高性能实时查询。这类系统虽然可对完整大数据集实现高效的即席查询,但无法查询到最新的实时数据,存在数据迟滞高等问题。
以Spark Streaming、Storm、Flink为代表的流处理大数据系统将实时数据通过流处理,逐条加载至高性能内存数据库中进行查询。此类系统可以对最新实时数据实现高效预设分析处理模型的查询,数据迟滞低。
随着互联网、计算机行业快速发展,企业对数据的时效性越发重视,企业应用也逐渐由批处理数据平台向实时的流数据数据平台转移。以流数据处理为代表的Spark、kafka大数据系统近年来大放异彩,取代了Hadoop的主导地位。
更多数据参考前瞻产业研究院发布的《中国大数据产业发展前景与投资战略规划分析报告》
目前关系型内存数据库主要有MySQL(使用内存存储引擎)、SQL Server(In-Memory OLTP)、数蚕内存数据库、Oracle 内存数据库。MySQL:免费产品,内存存储引擎使用较少。
SQL Server:微软的商业化产品,是为了适应大数据等业务产品新添加的存储引擎,微软SQL语句兼容性好,商业化成熟度高。
数蚕内存数据库:数蚕科技针对中小型企业的内存数据库,目前成熟度较弱,c++接口特性良好,SQL特性较弱,只支持基本的SQL语句 *** 作,不支持事务。
Oracle 内存数据库:基于内存计算的关系数据库, 提供了响应时间极 短且吞吐量极高的应用程序。
非关系型内存数据库主要有FastDB、Memcached和Redis等主流内存数据库。结构简单,支持数据结构多以基础数据结构为主,一般应用于缓存等非关键数据存储,其优点是数据查询速度快,对下层编程接口良好。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)