今天我们看一下如何在Python 中使用 Delta Lake,毕竟现在很多人开发Spark任务是通过Python而不是scala,当然这也体现了Spark 生态的完善。
当然我们还是要看一下版本的兼容情况
通过上面的表格,我们可以使用Delta Lake 的最新版本,也就是1.0 但是我们的Spark 却不能使用最新版本的,只能使用3.1,这里我们就安装pyspark,执行
pip install pyspark==3.1.2
运行pyspark安装好了,我们就可以运行我们的pyspark
pyspark --packages io.delta:delta-core_2.12:1.0.0 --conf "spark.sql.extensions=io.delta.sql.DeltaSparkSess
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)