Apache Hudi 是目前最流行的数据湖解决方案之一,Data Lake Analytics 集成了 Hudi 服务高效的数据 MERGE(UPDATE/DELETE)场景,Apache Flink 作为目前最流行的流计算框架,在流式计算场景有天然的优势,当前,Flink 社区也在积极拥抱 Hudi 社区,发挥自身 streaming 写/读的优势,同时也对 batch 的读写做了支持。
环境准备Hudi 有一个为 Flink 准备的 bundle jar,它应该在启动时加载到 Flink SQL Client 中。我们可以在路径下手动构建 jar hudi-source-dir/packaging/hudi-flink-bundle,或从Apache 官方存储库下载它,然后放入到flink的lib目录下 。
注意事项:
- 我们建议使用 hadoop 2.9.x+ 版本,因为某些对象存储只有在此之后才有文件系统实现
- fli
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)