一文搞懂什么是数据湖(data lake)?

一文搞懂什么是数据湖(data lake)?,第1张

一文搞懂什么是数据湖(data lake)?

data lake数据湖,最早由Pentaho的CTO,James Dixon发明。他在博客中这样描述数据湖:如果你把数据集市看作是一家售卖干净的、规整包装的、便于消费的瓶装水的商店,那么数据湖就是更自然状态下的一大片水域。数据湖的内容从一个源头流入,各类用户可以前来检查,探索或者取样。



数据湖最重要的特点有两个,第一个是自然,第二个是可以被各类用户使用。我们先讲何为自然,自然在这里指自然而然,未经处理,原始状态。就像一大片湖水一样,原生态。类比到数据,就是原生的数据,未经任何转换和加工。那么我们得到原汁原味的数据有什么意义那,传统的etl为什么不再适用新的业务场景。究其根本,是数据科学家对数据有了更高的需求。随着硬件的快速升级换代,机器学习以及深度学习技术,越来越多的被数据科学家使用。舌尖上的中国,讲高端的食材,不需要特殊的烹饪方法。在此,我们讲,高端的算法往往需要数据保留原始样子,这样数据科学家可以选择更多的特征去训练模型。多年前,我在参与一个人工智能项目时,就曾经因为数据生产出来后,清洗掉了一些关键特征,导致后来花了大量人力去重新让数据拥有那些特征。


再讲被各类用户使用,数据湖拥有原始的数据和经过脱敏以及处理过的数据,这让不同的用户可以从数据湖活的想要的数据。数据分析师可以借助BI工具对简单处理的数据做快速的分析。数据科学家可以顺利的拿到原始数据,去做更高层级的加工分析,不会因为想要的数据被清洗掉了而无能为力。数据湖将被更多类型的用户使用,而不是仅仅服务于一两个web页面。

总结一下,数据湖是原始数据以及处理过数据的有机集合体,且更强调原汁原味的数据,可以满足不同用户群体的自助使用需求。

欢迎分享,转载请注明来源:内存溢出

原文地址: https://outofmemory.cn/zaji/5710972.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-12-17
下一篇 2022-12-17

发表评论

登录后才能评论

评论列表(0条)

保存