前面我们已经介绍了在各种环境中使用Delta Lake,你可以参考
- Spark SQL Scala版 使用 Delta Lake
- Spark SQL Shell 版 使用Delta Lake
- Spark SQL SQL 版 使用 Delta Lake
- Spark SQL Python版 使用 Delta Lake
从前面的学习我们知道Delta Lake是完全兼容了Spark API, 而且我们希据数据湖是可以实现我们的离线计算和实时计算使用同一套存储,而不是孤立的,也就是我们希望对数据的更新是离线程序和实时程序配合使用的。
今天我们就看一下如何在Spark Streaming 中使用 Delta Lake,需要注意的是这里我们指的是 Spark Structured Streaming,然后我们就可以通过readStream和writeStream来体验Delta Lake,Delta Lake 克服了流式系统和文件相关的许多限制
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)