spark-1-知识架构

我滴个神啊 • 2022-11-13 • 随笔 • 阅读 5

spark-1-知识架构

spark是用来进行分布式计算的，那分布式计算要解决那些问题呢？

得知道数据在哪吧
多个节点，如何把任何分发到各个节点：任务划分调度
多个节点，一个节点出错，总不能全部重算，需要容错，容错又有横、纵2个维度。所以需要血缘 + 缓存
调优
要求HA、可监控
为了解决以上问题，spark推出了rdd。

而spark是如何解决这些问题的，就是我们需要学习的。问题有以下这些：
1.任务划分调度
2.血缘
3.内存管理
4.调优
5.外加基础功能：通信、序列化、跟yarn交互
以上这些问题之外，还有一些零散的面试题：
1.spark为啥选择scala
2.spark为啥比mr快
3.spark宽窄依赖划分

欢迎分享，转载请注明来源：内存溢出

原文地址: https://outofmemory.cn/zaji/4966103.html

节点容错划分分布式血缘

打赏

微信扫一扫

支付宝扫一扫

我滴个神啊一级用户组

RHCE 防火墙服务

上一篇 2022-11-13

10月被裁，面了北京几个大厂，总结了面试出场率极高Java面试题

下一篇 2022-11-13

发表评论

登录后才能评论

评论列表（0条）