大数据-玩转数据-Hadoop+Storm与Spark架构方案比较_随笔

大数据-玩转数据-Hadoop+Storm与Spark架构方案比较大数据-玩转数据-Hadoop+Storm与Spark架构方案比较

Hadoop+Storm方案结构图

Spark方案结构图

Hadoop的数据处理工作在硬盘层面，借助HDFS(分布式文件系统)，可以将架构下每一台电脑中的硬盘资源聚集起来，之后使用集群管理和调度软件YARN，最后利用Map/Reduce计算框架，就可以在这上面进行计算编程。

由于Hadoop的计算过程放在硬盘，受制于硬件条件限制，数据的吞吐和处理速度明显不如使用内存来的快。

Spark和Storm两者最大的区别在于实时性：Spark是准实时，先收集一段时间的数据再进行统一处理，好比看网页统计票数每隔几秒刷新一次，而Storm则是完全实时，来一条数据就处理一条。

当然Storm实时处理方式所带来的缺点也是很明显的，不论离线批处理，高延迟批处理还是交互式查询都不如Spark框架。

不同的机制决定了两者架构适用的场景不同，比如炒股，股价的变化不是按秒计算的(Spark实时计算延迟度是秒级)，在高频交易中，高频获利与否往往就在1ms(0.001秒)之间，而这恰好就是Storm的实时计算延迟度。

Hadoop，尽管数据处理的速度和难易度都远比不过Spark和Storm。但是由于硬盘断电后数据可以长期保存，因此在处理需要长期存储的数据时还是需要借助Hadoop。

Hadoop由于具有非常好的兼容性，因此非常容易的同Spark和Storm进行结合，从而满足公司的不同需求。

欢迎分享，转载请注明来源：内存溢出

大数据-玩转数据-Hadoop+Storm与Spark架构方案比较