维基百科定义:数据湖是一类存储数据自然/原始格式的系统或存储,通常是对象块或者文件,包括原始系统所产生的原始数据拷贝以及为了各类任务而产生的转换数据,包括来自于关系型数据库中的结构化数据(行和列)、半结构化数据(如CSV、日志、XML、JSON)、非结构化数据(如email、文档、PDF等)和二进制数据(如图像、音频、视频)。
为什么需要数据湖?- 更快的开发节奏,fast time to market
- 多样性数据源,包括实时和批模式,结构化和非结果化数据
- 灵活选择数据集
- 相对于数据仓库,数据湖的数据结构无需事先定义。
- 快速可以导入新的类型数据,包括结构化、半结构和非结构化数据。
- 目的是信息发现,主力生产工具切换成为更为自由的notebook
- 数据安全是强制要求
- 元数据自助可查
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)