数据湖及其相关概念_随笔

数据湖及其相关概念一、数据湖定义

下面是维基百科对于数据的定义：

其，大概的意思就是将没有经过清洗的等 *** 作的原生数据，将这些数据进行相关数据的存储，这些数据可以运用于计算机视觉，大数据分析甚至机器的数据支撑。
数据湖（Data Lake）是一个存储企业的各种各样原始数据的大型仓库，其中的数据可供存取、处理、分析及传输。目前，Hadoop是最常用的部署数据湖的技术，所以很多人会觉得数据湖就是Hadoop集群。数据湖是一个概念，而Hadoop是用于实现这个概念的技术。数据湖能处理所有类型的数据，如结构化数据，非结构化数据，半结构化数据等，数据的类型依赖于数据源系统的原始数据格式。非结构化数据（语音、图片、视频等）
根据海量的数据，挖掘出规律，反应给运营部门。
拥有非常强的计算能力用于处理数据。而不同与数据仓库的是：
数据仓库主要处理历史的、结构化的数据，而且这些数据必须与数据仓库事先定义的模型吻合。数据仓库分析的指标都是产品经理提前规定好的。按需分析数据。（日活、新增、留存、转化率等等）。

二、数据湖开源插件

现在基于数据湖的开发拥有三个框架，分别是hudi、iceberg和Delta lake这三个框架
1、hudi
下图为hudi的图标

目前来说，上述的这三个数据湖的开原框架，只有hudi相对来说较为完善。由于hudi和spark都是同一个公司设计的软件，因此在前期，其和spark是属于强绑定的状态，后来经过时间的发展，其代码解除了与spark的rdd算子的强绑定，进而可以支持flink。如果在目前急需使用数据湖相关技术，建议采取使用hudi技术。
2、iceberg
iceberg相对于hudi来说，其技术的成熟性没有hudi高。下图为iceberg的图标

相对于hudi对数据快照的，iceberg的核心思想就是在时间轴上跟踪表的所有变化。iceberg与现有主流计算型软件都没有强绑定，其可以在某种程度上减少了相关文件的之间的配置的困难问题。
3、Delta lake
Delta lake相对于上述的两个框架来说，其成熟程度没有上述两个框架成熟

Delta Lake是一个数据湖存储引擎，可以支持各种各样的数据接入，这些数据源可能是 Kafka、Kinesis、Spark 或者是其他数据湖，这些数据接入 Delta Lake 之后就存储在Bronze 层，Bronze 层可以为大数据常用的分布式存储 HDFS 或其他存储，这也保证了数据湖中数据存储的可扩展性。

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/zaji/5652519.html

数据湖及其相关概念

发表评论

评论列表（0条）