大数据-玩转数据-Spark-RDD编程基础-RDD持久化与分区(python版)

大数据-玩转数据-Spark-RDD编程基础-RDD持久化与分区(python版),第1张

数据-玩转数据-Spark-RDD编程基础-RDD持久化与分区(python版) 大数据-玩转数据-Spark-RDD编程基础-RDD持久化与分区(python版)

一、持久化
根据Spark的RDD惰性计算机制,每次调用行动计算,都将触发一次从头计算,对于迭代计算,资源消耗代价较大 。
我们可以用持久化(缓存)机制来避免这种重复计算。
persis(MEMORY_ONLY):将RDD对象作为反序列化对象存储在JVM,如果内存不足,用LRU原则替换缓存中的内容。
persis(MEMORY_AND_DISK): 将RDD对象作为反序列化对象存储在JVM,如果内存不足,超出部分存储在硬盘。
而 cache() 方法会调用 persis(MEMORY_ONLY) 。

>>> list = ["Hadoop","Spark","Hive"

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zaji/5698933.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-12-17
下一篇 2022-12-17

发表评论

登录后才能评论

评论列表(0条)

保存