SparkCase中的随机抽样算子sample和take sample使用案例

SparkCase中的随机抽样算子sample和take sample使用案例,第1张

SparkCase中的随机抽样算子sample和take sample使用案例

SparkCase中的随机抽样算子sample和take sample使用案例

import org.apache.log4j.{Level, Logger}
import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}

object RDD算子_sample {

  def main(args: Array[String]): Unit = {

    Logger.getLogger("org").setLevel(Level.WARN)
    val conf = new SparkConf()
    conf.setMaster("local[2]")
    conf.setAppName("随机抽样算子测试")

    val sc = new SparkContext(conf)
    val rdd: RDD[String] = sc.parallelize(Seq("a", "b", "c", "d", "e", "f", "g"), 2)

    // 允许样本被重复抽取,抽20%
    val sampled: RDD[String] = rdd.sample(true, 0.2)
    sampled.foreach(println)

    val sample2: Array[String] = rdd.takeSample(true, 2)
    sample2.foreach(println)

    sc.stop()
  }
}

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zaji/5679565.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-12-17
下一篇 2022-12-17

发表评论

登录后才能评论

评论列表(0条)

保存