湖仓方案DeltaLake、Hudi、Iceberg功能对比_随笔

湖仓方案DeltaLake、Hudi、Iceberg功能对比简介 DeltaLake

DeltaLake是一个致力于在数据湖之上构建湖仓一体架构的开源项目。
DeltaLake支持ACID事务，可扩展的元数据存储，在现有的数据湖（S3、ADLS、GCS、HDFS）之上实现流批数据处理的统一。
官网地址：https://delta.io
当前版本：1.1.0

Hudi

Hudi是新一代的流式数据湖平台，在开源的文件系统之上引入了数据库的表、事务、高效的更新/删除、索引、流式写服务、数据合并、并发控制等功能及特性。
官网地址：https://hudi.apache.org/
当前版本：0.10.0

Iceberg

Iceberg是一个用于处理海量分析数据集的开放表格式。支持 Spark, Trino, PrestoDB, Flink and Hive等计算引擎， *** 作Iceberg如SQL table一样。
官网地址：https://iceberg.apache.org （吐槽：官网打开真的很慢）
当前版本：0.12.1

功能对比对比项DeltaLakeApache HudiApache Icebergupdate/deleteYesYesYes文件合并ManuallyAutomaticManually历史数据清理AutomaticAutomaticManually文件格式parquetparquet and avroParquet,avro,orc计算引擎Hive/Spark/PrestoHive/Spark/Presto/FlinkHive/Spark/Presto/Flink存储引擎HDFS/S3/AzureHDFS/S3/OBS/ALLUXIO/AzureHDFS/S3SQL DMLYesYesYesACID transactionYesYesYesTimeLineYesYesYes索引NoYesNo可扩展的元数据存储YesYesYesSchema约束和演化YesYesYes 相同点

都支持update/delete都支持ACID, 原子性、一致性、隔离性、持久性，避免垃圾数据的产生，保证了数据质量都能支持主流的高可用存储HDFS、S3都提供了对Spark的支持，数据的写入都需要一个Spark Job去完成。都是以java package（–jars）方式引入到Spark。读写都是以java library的方式引入到相关的执行引擎（Spark/Hive/Presto/Flink），不需要启动额外的服务都可以自行管理元数据，元数据保存在HDFS/S3都支持Spark/Hive/Presto都支持TimeLine 不同点

部分功能描述 TimeLine

意思时间线，用于支持时间旅行（Time travel）。即根据用户的提供的时间戳，可以访问到历史某一事件点的数据快照。只要数据快照没有被清理掉，就可以被访问到。

Schema约束和演化

Schema约束（Schema Enforcement）:是指源和目标表的字段的数据类型需要一致，严格时可要求字段的数量一致。

Schema演化（Schema Evolution）:是指目标表可以根据源表的Schema变化而相应的变化，如增减字段，字段类型变更。一般不支持改变字段的顺序。

阅读相关

数据湖：《什么是数据湖》
湖仓一体：《什么是湖仓一体》

欢迎分享，转载请注明来源：内存溢出

原文地址: https://outofmemory.cn/zaji/5715260.html

湖仓方案DeltaLake、Hudi、Iceberg功能对比

发表评论

评论列表（0条）