Spark期末复习--SparkSQL

火狐游览器 • 2022-12-17 • 随笔 • 阅读 78

Spark期末复习--SparkSQL

Spark SQL是由Dataframe派生出来的，通过三步创建使用

使用RDD创建Dataframe

from pyspark.sql import SparkSession
sqlContext = SparkSession.builder.getOrCreate()

定义Dataframe的每一个字段名和数据类型

from pyspark.sql import Row
saleRows = salesRDD.map(lambda x:Row(
字段名=p[]))

使用sqlContext.createDataframe创建Dataframe

sale_df = sqlContext.createDataframe(saleRows)
sale_df.printSchema()

注册临时表

sale_df.registerTempTable('sale_table')

用Spark SQL查看项数

sqlContext.sql('select count(*) counts from sale_table').show()

查看数据

sqlContext.sql('select * from sale_table').show()

欢迎分享，转载请注明来源：内存溢出

创建注册查看派生数据类型

打赏

微信扫一扫

支付宝扫一扫

上一篇 2022-12-17

下一篇 2022-12-16

登录后才能评论