Spark DataFrame数据写出

Spark DataFrame数据写出,第1张

Spark DataFrame数据写出 一、SparkSQL 统一API写出Dataframe数据
df.write.mode().format().option(K, V).save(PATH)
# mode, 传入模式字符串可选:append 追加,overwriter 覆盖,ignore 忽略,error 重复就报异常(默认)
# format, 传入格式字符串,可选:text,csv,json,parquet,orc,avro,jdbc
# 注意text源只支持单列df写出
# option 设置属性,如:.option("sep", ",")
# save 写出的路径,支持本地文件和HDFS
# Write text 写出,只能写出一个单列数据
df.select(F.concat_ws("---", "user_id", "movie_id", "rank", "ts")).
    write.
    mode("overwrite").
    format("text").
    save("../data/output/sql/text")
# Write CSV写出
df.write.mode("overwrite").
    format("csv").
    option("sep", ",").
    option("header", True).
    save("../data/output/sql/csv")
# Write Json写出
df.write.mode("overwrite").
    format("json").
    save("../data/output/sql/json")
# Write Parquet写出
df.write.mode("overwrite").
    format("parquet").
    save("../data/output/sql/parquet")
# 不给format,默认以parquet写出
df.write.mode("overwrite").save("../data/output/sql/default")
二、将数据写出到Hive表中

就是写入到被Hive元数据metaStore服务管理的地方

df.write.mode("append|overwrite|ignore|error").saveAsTable(参数1,参数2)
# 参数1:表名,如果指定数据库,可以写:数据库.表名
# 参数2:格式,推荐使用parquet

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zaji/5610873.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-12-15
下一篇 2022-12-15

发表评论

登录后才能评论

评论列表(0条)

保存