大数据-玩转数据-Spark-RDD编程基础-RDD持久化与分区（python版）

上网控制软件 • 2022-12-17 • 随笔 • 阅读 18

大数据-玩转数据-Spark-RDD编程基础-RDD持久化与分区（python版）大数据-玩转数据-Spark-RDD编程基础-RDD持久化与分区（python版）

一、持久化
根据Spark的RDD惰性计算机制，每次调用行动计算，都将触发一次从头计算，对于迭代计算，资源消耗代价较大。
我们可以用持久化（缓存）机制来避免这种重复计算。
persis(MEMORY_ONLY)：将RDD对象作为反序列化对象存储在JVM,如果内存不足,用LRU原则替换缓存中的内容。
persis(MEMORY_AND_DISK)：将RDD对象作为反序列化对象存储在JVM,如果内存不足,超出部分存储在硬盘。
而 cache() 方法会调用 persis(MEMORY_ONLY) 。

>>> list = ["Hadoop","Spark","Hive"

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/zaji/5698933.html

计算对象数据缓存分区

打赏

微信扫一扫

支付宝扫一扫

上网控制软件一级用户组

0 0

2022年的NFT

上一篇 2022-12-17

SpringBoot是如何管理RabbitMQ中的Channel？

下一篇 2022-12-17

发表评论

登录后才能评论

大数据-玩转数据-Spark-RDD编程基础-RDD持久化与分区（python版）

发表评论

评论列表（0条）