spark-hdfs-hive-hbase_随笔

spark-hdfs-hive-hbase

打开虚拟机

首先确保虚拟机上安装了hadoop spark hive hbase

然后依次启动

启动hbase 首先先确保先启动zekooper

hadoop启动命令 start-all.sh

hive 启动 hive --service hiveserver2 & 后台启动不想后台的话就不用加&

zkserve.sh start 启动zekooper

hbase start-hbase.sh

hive --service metastroe 启动spark

我这里少启动了一个spark 因为我开始是用rdd写的后续启动就是了

首先这里有一份文件

首先对文件进行上传

首先在hdfs上创建一个文件夹

然后上传文件

打开网页

http://192.168.80.181:50070/explorer.html#/app/data/exam

文件已经上传成功

然后打开idea 对数据进行查询

查询的话我们可以用sparkcontext sparksession 和 spark sql 3中方式

这里我先使用sparksession进行数据查询

打开idea 新建一个exam工程导入scala

sparkcontext  rdd书写
object Myeaxm {
  def main(args: Array[String]): Unit = {
    val conf=new SparkConf().setMaster("local[*]")
      .setAppName("test")
    val sc=new SparkContext(conf)
      .textFile("hdfs://192.168.80.181:9000/app/data/exam/returned_goods_log_7-9.csv")
    val header=sc.first()
    val rdd1=sc.filter(_!=header)
    val rdd=rdd1.map(_.split(",",-1))

    //    ①统计产生售后服务的订单号的个数。
    //    println(rdd.map(_ (3)).distinct.count())
    //    ②统计每个月分别产生售后服务的不同订单个数。
    //    println(rdd.map(x => (x(0), x(3))).distinct.map(x => (x._1, 1))
    //      .reduceByKey(_ + _).foreach(println))
    //    ③统计产生多次售后服务的订单及对应的售后服务次数。
        println(rdd1.map(x => (x(3), 1)).reduceByKey(_ + _)
          .filter(x => x._2 > 1).foreach(println))
    //    ④统计每个月每种售后服务问题类型占当月总售后服务量的占比(保留小数点后 3 位)，
    //    输出结果模式（月份，问题类型，占比）。

    //    ⑤统计每个月每个员工处理的任务状态为已完成状态的售后服务数量。
    //    rdd.map(x=>(x(0),x(12),x(13)))
    //      .filter(!_._2.trim.equals("")).filter(_._3.equals("已完成"))
    //      .map(x=>((x._1,x._2),1)).reduceByKey(_+_).foreach(println)
  }
}

sparkSession   
 val spark =SparkSession.builder()
      .appName("exam")
      .master("local[*]").getOrCreate()
    val df=spark.read.format("csv")
      .option("header","true")
      .load("D:\Download\returned_goods_log_7-9.csv")
    import spark.implicits._
    //    ①统计产生售后服务的订单号的个数。
//    df.select("订单号").distinct().agg(count($"订单号")).show()
    //    ②统计每个月分别产生售后服务的不同订单个数。
//    df.select("月份","订单号").distinct()
//      .groupBy("月份").agg(count($"订单号")).show()
    //    ③统计产生多次售后服务的订单及对应的售后服务次数。
//    df.select("订单号")
//      .groupBy($"订单号").agg(count("订单号") as "sum")
//      .where("sum >1").show()
    //    ④统计每个月每种售后服务问题类型占当月总售后服务量的占比(保留小数点后 3 位)，
    //    输出结果模式（月份，问题类型，占比）。

    val df1=df.select("月份","关联(问题类型)")
      .groupBy("月份","关联(问题类型)")
      .agg(count("关联(问题类型)") as "sum")
    val df2=df.select("月份","关联(问题类型)").groupBy("月份")
      .agg(count("关联(问题类型)") as "sum1")
    df1.join(df2,Seq("月份"),"left")
      .withColumn("占比",round($"sum"/$"sum1",3)).show()
    //    ⑤统计每个月每个员工处理的任务状态为已完成状态的售后服务数量。
    df.withColumn("state",$"任务状态")
      .withColumn("person",$"任务执行人")
      .where("state ='已完成' and trim(person)!=''" )
      .groupBy("月份","person")
      .agg(count("state").as("sum"))
      .select("月份","person","sum").show()
    spark.stop()

然后打开虚拟机启动hbase

start-hbase.sh 启动hbase要先启动zekooper zkServer.sh start

4 .Hive 中创建数据库 exam 类型是csv类型

create database exam

create external table exam.ex_exam_after_sales_service(
createMonth string,
createTime string,
createPerson string,
orderCode string,
productCode string,
serviceReasonType string,
serviceReasonDetail string,
resendProductCodeproductNum string,
returnOrderCode string,
resendPorductDetail string,
resendOrderCode string,
excutePerson string,
state string,
finishTime string,
provice string,
city string
)
row format serde 'org.apache.hadoop.hive.serde2.OpenCSVSerde'
with serdeproperties 
(
    'separatorChar' = ',',  

    'quoteChar' = '"',

    'escapeChar'= '\'
)
location '/app/data/exam/'
tblproperties('skip.header.line.count'='1')

然后创建外部表映射hbase

create external table exam.ex_exam_after_sales_service_statistics(
key string,
serviceReasonDetailCount int
)
stored by 'org.apache.hadoop.hive.hbase.HbaseStorageHandler'
with serdeproperties(
"hbase.columns.mapping"=":key,statistics:serviceReasonDetailCount"
)
tblproperties(
"hbase.table.name"="exam:after_sales_service")

with
t1 as (select concat(createMonth,serviceReasonDetail)
 as key from exam.ex_exam_after_sales_service)
insert into table ex_exam_after_sales_service_statistics
 select key,count(key) from t1 group by key  --往数据表中插入数据

查询hbase

scan 'exam:after_sales_service',{LIMIT=>10}

欢迎分享，转载请注明来源：内存溢出

原文地址: https://outofmemory.cn/zaji/5679023.html

spark-hdfs-hive-hbase

发表评论

评论列表（0条）