- 1.spark可以将数据缓存在内存中进行计算(cache)
- 2.spark是粗粒度资源调度,MR是细粒度资源调度。
- 3.DAG有向无环图
spark两个shuffle的中间结果不需要落地
MR两个shuffle的中间结果需要落地到HDFS,第二个shuffle的map端要重新读取HDFS上面的文件。
欢迎分享,转载请注明来源:内存溢出
spark两个shuffle的中间结果不需要落地
MR两个shuffle的中间结果需要落地到HDFS,第二个shuffle的map端要重新读取HDFS上面的文件。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)