Spark

broaden • 2022-12-17 • 随笔 • 阅读 16

Spark

Spark是UC Berkeley AMP lab开发的一个集群计算的框架，类似于Hadoop，但有很多的区别（详细见3.4）。最大的优化是让计算任务的中间结果可以存储在内存中，不需要每次都写入HDFS，更适用于需要迭代的MapReduce算法场景中，可以获得更好的性能提升。例如一次排序测试中，对100TB数据进行排序，Spark比Hadoop快三倍，并且只需要十分之一的机器。Spark集群目前最大的可以达到8000节点，处理的数据达到PB级别，在互联网企业中应用非常广泛（详细见3.2）

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/zaji/5690304.html

集群排序计算数据节点

打赏

微信扫一扫

支付宝扫一扫

broaden 一级用户组

0 0

数据仓库第二讲-数据仓库建模

上一篇 2022-12-17

Hbase的API(java *** 作hbase）

下一篇 2022-12-17

发表评论

登录后才能评论

Spark

发表评论

评论列表（0条）