一、持久化
根据Spark的RDD惰性计算机制,每次调用行动计算,都将触发一次从头计算,对于迭代计算,资源消耗代价较大 。
我们可以用持久化(缓存)机制来避免这种重复计算。
persis(MEMORY_ONLY):将RDD对象作为反序列化对象存储在JVM,如果内存不足,用LRU原则替换缓存中的内容。
persis(MEMORY_AND_DISK): 将RDD对象作为反序列化对象存储在JVM,如果内存不足,超出部分存储在硬盘。
而 cache() 方法会调用 persis(MEMORY_ONLY) 。
>>> list = ["Hadoop","Spark","Hive"
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)