下面是维基百科对于数据的定义:
其,大概的意思就是将没有经过清洗的等 *** 作的原生数据,将这些数据进行相关数据的存储,这些数据可以运用于计算机视觉,大数据分析甚至机器的数据支撑。
数据湖(Data Lake)是一个存储企业的各种各样原始数据的大型仓库,其中的数据可供存取、处理、分析及传输。 目前,Hadoop是最常用的部署数据湖的技术,所以很多人会觉得数据湖就是Hadoop集群。数据湖是一个概念,而Hadoop是用于实现这个概念的技术。数据湖能处理所有类型的数据,如结构化数据,非结构化数据,半结构化数据等,数据的类型依赖于数据源系统的原始数据格式。非结构化数据(语音、图片、视频等)
根据海量的数据,挖掘出规律,反应给运营部门。
拥有非常强的计算能力用于处理数据。而不同与数据仓库的是:
数据仓库主要处理历史的、结构化的数据,而且这些数据必须与数据仓库事先定义的模型吻合。数据仓库分析的指标都是产品经理提前规定好的。按需分析数据。(日活、新增、留存、转化率等等)。
现在基于数据湖的开发拥有三个框架,分别是hudi、iceberg和Delta lake这三个框架
1、hudi
下图为hudi的图标
目前来说,上述的这三个数据湖的开原框架,只有hudi相对来说较为完善。由于hudi和spark都是同一个公司设计的软件,因此在前期,其和spark是属于强绑定的状态,后来经过时间的发展,其代码解除了与spark的rdd算子的强绑定,进而可以支持flink。如果在目前急需使用数据湖相关技术,建议采取使用hudi技术。
2、iceberg
iceberg相对于hudi来说,其技术的成熟性没有hudi高。下图为iceberg的图标
相对于hudi对数据快照的,iceberg的核心思想就是在时间轴上跟踪表的所有变化。iceberg与现有主流计算型软件都没有强绑定,其可以在某种程度上减少了相关文件的之间的配置的困难问题。
3、Delta lake
Delta lake相对于上述的两个框架来说,其成熟程度没有上述两个框架成熟
Delta Lake是一个数据湖存储引擎,可以支持各种各样的数据接入,这些数据源可能是 Kafka、Kinesis、Spark 或者是其他数据湖,这些数据接入 Delta Lake 之后就存储在Bronze 层,Bronze 层可以为大数据常用的分布式存储 HDFS 或其他存储,这也保证了数据湖中数据存储的可扩展性。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)