大数据-玩转数据-Spark-RDD编程基础-RDD *** 作(python版)

大数据-玩转数据-Spark-RDD编程基础-RDD *** 作(python版),第1张

数据-玩转数据-Spark-RDD编程基础-RDD *** 作(python版) 大数据-玩转数据-Spark-RDD编程基础-RDD *** 作(python版)

RDD *** 作包括两种类型:转换(Transformation)和行动(Action)
1、转换 *** 作
RDD每次转换 *** 作都会都会产生新的RDD,供下一转换或行动使用,所以叫惰性求值,转换只记录了轨迹,不执行,行动才执行。
常用的RDD转换 *** 作API
filter(func) : 筛选出满足func函数的元素,并返回一个新的数据集
map(func):将每个元素传递到函数func中,并将结果返回已个新的数据集
flatMap(func):与map(func)相似,但每个输入元素都可映射到0或多个输出结果
groupByKey():应用到键值对的数据集时,返回一个新的(K,Iterable)形式的数据集
reduceByKey(func):应用于(K,V)键值对的数据集时,返回一个新的键值对的数据集(K,V),其中每个值都是将每个key传递到func中进行聚合后的集合

(1)、filter(func)

>>> lines = sc

欢迎分享,转载请注明来源:内存溢出

原文地址: https://outofmemory.cn/zaji/5698530.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-12-17
下一篇 2022-12-17

发表评论

登录后才能评论

评论列表(0条)

保存