Spark DataFrame数据写出_随笔

Spark DataFrame数据写出一、SparkSQL 统一API写出Dataframe数据

df.write.mode().format().option(K, V).save(PATH)
# mode, 传入模式字符串可选：append 追加，overwriter 覆盖，ignore 忽略，error 重复就报异常（默认）
# format, 传入格式字符串，可选：text，csv，json，parquet，orc，avro，jdbc
# 注意text源只支持单列df写出
# option 设置属性，如：.option("sep", ",")
# save 写出的路径，支持本地文件和HDFS

# Write text 写出，只能写出一个单列数据
df.select(F.concat_ws("---", "user_id", "movie_id", "rank", "ts")).
    write.
    mode("overwrite").
    format("text").
    save("../data/output/sql/text")
# Write CSV写出
df.write.mode("overwrite").
    format("csv").
    option("sep", ",").
    option("header", True).
    save("../data/output/sql/csv")
# Write Json写出
df.write.mode("overwrite").
    format("json").
    save("../data/output/sql/json")
# Write Parquet写出
df.write.mode("overwrite").
    format("parquet").
    save("../data/output/sql/parquet")
# 不给format，默认以parquet写出
df.write.mode("overwrite").save("../data/output/sql/default")

二、将数据写出到Hive表中

就是写入到被Hive元数据metaStore服务管理的地方

df.write.mode("append|overwrite|ignore|error").saveAsTable(参数1,参数2)
# 参数1：表名，如果指定数据库，可以写：数据库.表名
# 参数2：格式，推荐使用parquet

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/zaji/5610873.html

Spark DataFrame数据写出

发表评论

评论列表（0条）