什么是数据湖
数据湖集中存储了海量的原始数据。对比分层结构的数据仓库,数据湖以扁平化的架构把数据存储在对象存储中。对象存储不仅会存储数据本身,也会存储元数据以及数据的唯一标识符,以提高数据查找和读取的性能。得益于廉价的对象存储和开放的文件存储格式,数据湖可以给大量的应用提供数据服务。
数据湖的发展有一部分原因是源于传统数据仓库的局限性。传统的数据仓库提供高效可扩展的分析服务,但是昂贵、专向, 越来越难以适配新生的业务需求。数据湖通常用于集中存储企业的所有数据,并且保持数据原始的样子,不需要像数据仓库提前预设schema(数据的结构化组织方式)。任何数据处理阶段的数据都可以存储在数据湖:原始数据、结构化数据、中间数据等。不同于传统的数据库和数据仓库,数据糊可以处理任意类型的数据,包括非结构化、半结构化数据,如图像、视频、音频和文档,这对于今日的机器学习和前沿的分析应用都是非常关键的。
为什么需要数据湖
首先,数据湖提供开放的文件格式,避免像数据仓库一样将用户锁定在一个特定的系统。基于对象存储,数据湖的建设和扩展成本低。其次,基于非结构化数据的前沿分析和机器学习在现今的企业战略优先级更高。最后,数据湖支持各种文件格式。这些一并使得数据湖成为数据存储层的明智选择。
数据湖具备以下的能力:
为数据科学和机器学习赋能数据湖使得用户以很低的延迟将原始数据转化为结构化数据,以支持SQL分析、数据科学和机器学习。原始数据可以无限期存储在数据湖,而只付出低廉的代价,以供机器学习和数据分析未来的使用。
集中式的管理数据把数据集中在数据湖可以打破数据筒仓,为下游用户提供一个统一的数据访问服务
快速对接各种数据源任何类型的数据都可以收集并无限制的存储在数据湖,包括批量的、流式的数据、视频、图像、二进制文件等。
自助工具数据湖极致地灵活,不同技术背景、不同语言的用户都可以使用。
数据湖面临的挑战
尽管数据有各种优点,但是仍然缺乏关键的功能:不支持事务,缺乏对数据质量和治理的约束,缺乏性能优化的手段。因此,数据湖在许多企业成为了数据沼泽。
可靠性问题数据湖的可靠性问题使得数据科学家、数据分析师对数据产生质疑。这些问题是由批流数据的融合、数据损坏的因素造成的。
性能低下随着数据湖的数据越来越多,查询性能变得越来越慢。元数据管理、不合理的数据分区等成为了性能的瓶颈。
面对这些挑战,走向何方
湖仓(LakeHouse)… (后续文章讲解)
数据湖 vs 数据仓库
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)