df.write.mode().format().option(K, V).save(PATH) # mode, 传入模式字符串可选:append 追加,overwriter 覆盖,ignore 忽略,error 重复就报异常(默认) # format, 传入格式字符串,可选:text,csv,json,parquet,orc,avro,jdbc # 注意text源只支持单列df写出 # option 设置属性,如:.option("sep", ",") # save 写出的路径,支持本地文件和HDFS
# Write text 写出,只能写出一个单列数据 df.select(F.concat_ws("---", "user_id", "movie_id", "rank", "ts")). write. mode("overwrite"). format("text"). save("../data/output/sql/text") # Write CSV写出 df.write.mode("overwrite"). format("csv"). option("sep", ","). option("header", True). save("../data/output/sql/csv") # Write Json写出 df.write.mode("overwrite"). format("json"). save("../data/output/sql/json") # Write Parquet写出 df.write.mode("overwrite"). format("parquet"). save("../data/output/sql/parquet") # 不给format,默认以parquet写出 df.write.mode("overwrite").save("../data/output/sql/default")二、将数据写出到Hive表中
就是写入到被Hive元数据metaStore服务管理的地方
df.write.mode("append|overwrite|ignore|error").saveAsTable(参数1,参数2) # 参数1:表名,如果指定数据库,可以写:数据库.表名 # 参数2:格式,推荐使用parquet
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)