Spark期末复习--SparkSQL

Spark期末复习--SparkSQL,第1张

Spark期末复习--SparkSQL

Spark SQL是由Dataframe派生出来的,通过三步创建使用

  • 创建Dataframe
  • 将Dataframe注册成临时表
  • 使用临时表进行查询统计

使用RDD创建Dataframe

from pyspark.sql import SparkSession
sqlContext = SparkSession.builder.getOrCreate()

定义Dataframe的每一个字段名和数据类型

from pyspark.sql import Row
saleRows = salesRDD.map(lambda x:Row(
字段名=p[]))

使用sqlContext.createDataframe创建Dataframe

sale_df = sqlContext.createDataframe(saleRows)
sale_df.printSchema()

注册临时表

sale_df.registerTempTable('sale_table')

用Spark SQL查看项数

sqlContext.sql('select count(*) counts from sale_table').show()

查看数据

sqlContext.sql('select * from sale_table').show()

欢迎分享,转载请注明来源:内存溢出

原文地址: https://outofmemory.cn/zaji/5676447.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-12-17
下一篇 2022-12-16

发表评论

登录后才能评论

评论列表(0条)

保存