Storm与Spark,Hadoop相比是否有优势

Storm与Spark,Hadoop相比是否有优势,第1张

Storm与Spark,Hadoop相比是否有优势

Storm优势就在于Storm是实时的连续性的分布式的计算框架,一旦运行起来,除非你将它杀掉,否则它一直处理计算或等待计算的状态.Spark和hadoop都做不到.

当然它们各自都有其应用场景,各有各的优势.可以配合使用.

下面我转一份别人的资料,讲的很清楚.

Storm与Spark、Hadoop这三种框架,各有各的优点,每个框架都有自己的最佳应用场景。

所以,在不同的应用场景下,应该选择不同的框架。

Storm是最佳的流式计算框架,Storm由Java和Clojure写成,Storm的优点是全内存计算,所以它的定位是分布式实时计算系统,按照Storm作者的说法,Storm对于实时计算的意义类似于Hadoop对于批处理的意义。

Storm的适用场景:

1)流数据处理

Storm可以用来处理源源不断流进来的消息,处理之后将结果写入到某个存储中去。

2)分布式RPC。由于Storm的处理组件是分布式的,而且处理延迟极低,所以可以作为一个通用的分布式RPC框架来使用。

SparkSpark是一个基于内存计算的开源集群计算系统,目的是更快速的进行数据分析。Spark由加州伯克利大学AMP实验室Matei为主的小团队使用Scala开发开发,类似于Hadoop MapReduce的通用并行计算框架,Spark基于Map Reduce算法实现的分布式计算,拥有Hadoop MapReduce所具有的优点,但不同于MapReduce的是Job中间输出和结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的Map Reduce的算法。

Spark的适用场景:

1)多次 *** 作特定数据集的应用场合

Spark是基于内存的迭代计算框架,适用于需要多次 *** 作特定数据集的应用场合。需要反复 *** 作的次数越多,所需读取的数据量越大,受益越大,数据量小但是计算密集度较大的场合,受益就相对较小。

2)粗粒度更新状态的应用

由于RDD的特性,Spark不适用那种异步细粒度更新状态的应用,例如Web服务的存储或者是增量的Web爬虫和索引。就是对于那种增量修改的应用模型不适合。

总的来说Spark的适用面比较广泛且比较通用。

Hadoop是实现了MapReduce的思想,将数据切片计算来处理大量的离线数据数据。Hadoop处理的数据必须是已经存放在HDFS上或者类似HBase的数据库中,所以Hadoop实现的时候是通过移动计算到这些存放数据的机器上来提高效率。

Hadoop的适用场景:

1)海量数据的离线分析处理

2)大规模Web信息搜索

3)数据密集型并行计算

简单来说:

Hadoop适合于离线的批量数据处理适用于对实时性要求极低的场景

Storm适合于实时流数据处理,实时性方面做得极好

Spark是内存分布式计算框架,试图吞并Hadoop的Map-Reduce批处理框架和Storm的流处理框架,但是Spark已经做得很不错了,批处理方面性能优于Map-Reduce,但是流处理目前还是弱于Storm,产品仍在改进之中

Strom是实时的流计算,而Spark和hadoop的mapreduce都不是实时的,就实时计算这块Strom绝对的优势,但是其他方面Strom是无法代替spark和hadoop的

Storm用于处理高速、大型数据流的分布式实时计算系统。为Hadoop添加了可靠的实时数据处理功能 Spark采用了内存计算。从多迭代批处理出发,允许将数据载入内存作反复查询,此外还融合数据仓库,流处理和图形计算等多种计算范式。Spark构建在HDFS...

应用场景不同不好比较。一般storm拿来做实时流数据的需求,而spark更适合拿来做离线数据分析。hadoop是生态圈,这里就假设你问的是hadoop核心计算框架mr.sprak和mr都适合拿来做离线数据分析,spark是快启动,在数据量不是非常大的时候(TB级别),spark有较明显的优势。

Storm用于处理高速、大型数据流的分布式实时计算系统。为Hadoop添加了可靠的实时数据处理功能

Spark采用了内存计算。从多迭代批处理出发,允许将数据载入内存作反复查询,此外还融合数据仓库,流处理和图形计算等多种计算范式。Spark构建在HDFS上,能与Hadoop很好的结合。它的RDD是一个很大的特点。

Hadoop当前大数据管理标准之一,运用在当前很多商业应用系统。可以轻松地集成结构化、半结构化甚至非结构化数据集。

Storm 实施处理

Spark 内存计算

Hadoop 批处理

Hadoop 生态圈比较强大

Spark是新生力量,有望取代Hadoop或者被纳入Hadoop阵营

spark与hadoop的比较我就不多说了,除了对硬件的要求稍高,spark应该是完胜hadoop(Map/Reduce)的。storm与spark都可以用于流计算,但storm对应的场景是毫秒级的统计与计算,而spark(stream)对应的是秒级的。这是主要的差别。一般很少有对实时要求那么高的场景(哪怕是在电信领域),如果统计与计算的周期是秒级的话,spark的性能是要优于storm的。

传统杂志相比电子阅读相比是否有优势

跟传统的纸质杂志相比网络杂志的成本远远低于传统杂志,只要有一个网络杂志制作就能做出成千上万的网络杂志,以及无限的复制。而传统杂志的成本则相对网络杂志来说就要高一点。

2.   相对于纸质杂志来说网络杂志更加好管理,永久保存、不占空间、携带方便、容易传输。

3.   3网络杂志的扩展速度和广度远高于纸质杂志,网络杂志只要发布在网上,之要几个小时就有成千上万的阅读量以及访问量。

4.   现在的社会是电子化、智能化、网络化的时代,刚好迎合了时代潮流的发展,这叫顺势发展,遵守时代规律。

5.   与纸质杂志相比,网络杂志所包含的信息量更大,有纸质的图文,还有纸质没有的和美妙的背景音乐。

6.   同样有图片,纸质版的是静态的,只是死死的一张图,而电子杂志里的图像可以360度旋转,看清图像的每一个细节;还可以直接动态更换图像的颜色,实现更加真实的视觉效果;而纸质杂志完全无法实现。

7.   电子杂志版面里的文字模块、图文模块、影音模块可以自由移动自由组合,而纸质杂志更换版面需要经过复杂的程序。

8.   电子杂志版面里的文字模块、图文模块、影音模块可以自由移动自由组合,而纸质杂志更换版面需要经过复杂的程序。

9.   纸质杂志制作是必须要专业人士来排版制作,一般的人根本无法参与;而制作电子杂志时,只要安装一个网络杂志制作iebook超级精灵,在花上一点熟悉的时间就能马上制作网络杂志,要求低,只要会电脑的人就能制作。

10.  纸质杂志的载体要消耗纸张、彩墨等材料,而电子杂志不再需要这些,秉承了地球、环保、绿色的环保理念。

实时大数据系统

相关知识:

Hadoop(大数据分析领域无可争辩的wang者)专注于批处理。这种模型对许多情形(比如为网页建立索引)已经足够,但还存在其他一些使用模型,它们需要来自高度动态的来源的实时信息。为了解决这个问题,就得借助 Nathan Marz 推出的 Storm(现在在 Twitter 中称为 BackType)。Storm 不处理静态数据,但它处理预计会连续的流数据。考虑到 Twitter 用户每天生成 1.4 亿条推文 (tweet),那么就很容易看到此技术的巨大用途。

但 Storm 不只是一个传统的大数据分析系统:它是复杂事件处理 (CEP) 系统的一个示例。CEP 系统通常分类为计算和面向检测,其中每个系统都可通过用户定义的算法在 Storm 中实现。举例而言,CEP 可用于识别事件洪流中有意义的事件,然后实时地处理这些事件。


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/sjk/6832147.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-03-29
下一篇 2023-03-29

发表评论

登录后才能评论

评论列表(0条)

保存