pyspark --Action算子

钻井泥浆 • 2022-12-18 • 随笔 • 阅读 34

pyspark --Action算子

countByKey

reduce

fold

first

take 取前n个(位置上)

top

7.takeSample

7. takeOrdered

    rdd = sc.parallelize([1,3,2,4,7,9,6],1)
    print(rdd.takeOrdered(3))  # 1,2,3
    print(rdd.takeOrdered(3,lambda x:-x)) # 9,7,6

8.foreach
8. saveAsTextFile

9. foreachPartition

    rdd = sc.parallelize([1,3,2,4,7,9,6],3)
    def rid10(data):
        print("-------------------")
        result = list()
        for i in data:
            result.append(i*10)
        print(result)
    
    rdd.foreachPartition(rid10)

groupByKey与reduceByKey

总结：

欢迎分享，转载请注明来源：内存溢出

原文地址: https://outofmemory.cn/zaji/5717625.html

算子位置

打赏

微信扫一扫

支付宝扫一扫

钻井泥浆一级用户组

0 0

java8和java9的对比

上一篇 2022-12-18

Seata框架源码分析——AT模式

下一篇 2022-12-17

发表评论

登录后才能评论

pyspark --Action算子

发表评论

评论列表（0条）