RDD *** 作包括两种类型:转换(Transformation)和行动(Action)
1、转换 *** 作
RDD每次转换 *** 作都会都会产生新的RDD,供下一转换或行动使用,所以叫惰性求值,转换只记录了轨迹,不执行,行动才执行。
常用的RDD转换 *** 作API
filter(func) : 筛选出满足func函数的元素,并返回一个新的数据集
map(func):将每个元素传递到函数func中,并将结果返回已个新的数据集
flatMap(func):与map(func)相似,但每个输入元素都可映射到0或多个输出结果
groupByKey():应用到键值对的数据集时,返回一个新的(K,Iterable)形式的数据集
reduceByKey(func):应用于(K,V)键值对的数据集时,返回一个新的键值对的数据集(K,V),其中每个值都是将每个key传递到func中进行聚合后的集合
(1)、filter(func)
>>> lines = sc
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)