- 数据仓库,数据集市,数据孤岛,数据湖,数据中台
- 1.数据仓库
- 2.数据集市
- 3.数据孤岛
- 4.数据湖
- 5.数据中台
-
定义:数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理中的决策制定
-
作用
- 数据仓库用于支持决策,面向分析型数据处理,它不同于企业现有的 *** 作型数据库
- 数据仓库是对多个异构的数据源有效集成,集成后按照主题进行了重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改
- 这解释一下主题和主题域
- 主题域:主题域我们可以理解为是一个分析领域,比如订单分析
- 主题:每一个主题基本对应一个宏观分析领域,就拿上面的主题域订单分析来说,它所涉及到的分析对象为商品、地域、时间、类别,用户等,这些分析对象就是主题
- 这解释一下主题和主题域
-
数仓是一种思想,数仓是一种规范,数仓是一种解决方案,数据仓库是一个功能概念,是将企业的各业务系统产生的基础数据,通过维度建模的方式,将业务数据划分为多个主题(集市)统一存储,统一管理。
-
应用场景:一般都是作为商业智能系统、数据仪表盘等可视化报表服务的数据源。
- 定义:数据集市可以理解为是一种"小型数据仓库",它只包含单个主题,且关注范围也非全局,它属于数据仓库的下层
- 就拿公司来形容,数据仓库就是全公司,数据集市就是部门
- 分类
- 独立数据集市,这类数据集市有自己的源数据库和ETL架构;
- 非独立数据集市,这种数据集市没有自己的源系统,它的数据来自数据仓库
- 优点:相比数据仓库数据集市是数仓之上更聚焦的业务主题合集,更偏向于应对业务数据快速高效应用的需求
- 应用场景
- 一般用于商业智能系统中探索式和交互式数据分析应用
- 数据集市是一个结构概念,它可以说是数据仓库的一个子集
-
定义
- 企业发展到一定阶段,出现多个事业部,每个事业部都有各自数据,事业部之间的数据往往都各自存储,各自定义。每个事业部的数据就像一个个孤岛一样无法(或者极其困难)和企业内部的其他数据进行连接互动。”我们把这样的情况称为数据孤岛
- 简单说就是数据间缺乏关联性,数据库彼此无法兼容
-
造成的原因
- 业务系统之间各自为政、相互独立造成的数据孤岛,体现在业务不集成、流程不互通、数据不共享
- 最重要还是因为企业的工作是以部门为主的功能型,这样的话每个部门都会有业务数据的产生,有对数据保存和使用的需要,不同部门对数据的定义和使用可能存在比较大的差异,所以各部门之间的数据不能互通
- 信息部门建设的相对滞后,如果信息部门不能尽快满足业务对数据处理的要求,那业务部门就可能独自开发业务系统,这种情况还是普遍存在
-
分类
- 物理性数据孤岛
- 数据在不同部门相互独立存储,独立维护,彼此间相互孤立,形成了物理上的孤岛
- 逻辑性数据孤岛
- 不同部门站在自己的角度对数据进行理解和定义,使得一些相同的数据被赋予了不同的含义,无形中加大了跨部门数据合作的沟通成本
- 物理性数据孤岛
- 定义
- 2010年,Pentaho首席技术官James Dixon创造了“数据湖”一词
- 他把数据集市描述成一瓶清洗过的、包装过的和结构化易于使用的水
- 数据湖更像是在自然状态下的水,数据流从源系统流向这个湖。用户可以在数据湖里校验,取样或完全的使用数据
- 可以理解为为未经处理和包装的原生状态“水库”
- 特点
- 从源系统导入所有的数据,没有数据流失。
- 数据存储时没有经过转换或只是简单的处理。
- 数据转换和定义schema 用于满足分析需求。
- 应用场景
- 可作为数据仓库或者数据集市的数据源
- 数据湖是一种数据存储理念,存储企业各种各样的原始数据的大型仓库,包括结构化、非结构、二
进制图像、音频、视频等等
-
定义
- 数据中台是在政企数字化转型过程中,对各业务单元业务与数据的沉淀,构建包括数据技术、数据治理、数据运营等数据建设、管理、使用体系,实现数据赋能。数据中台,是新型信息化应用框架体系中的核心。
-
特点
- 利用大数据技术,对海量数据进行统一采集、计算、存储,并使用统一的数据规范进行管理,将企业内部所有数据统一处理形成标准化数据,挖掘出对企业最有价值的数据,构建企业数据资产库,提供一致的、高可用大数据服务。
- 数据中台不是一套软件,也不是一个信息系统,而是一系列数据组件的集合,企业基于自身的信息化建设基础、数据基础以及业务特点对数据中台的能力进行定义,基于能力定义利用数据组件搭建自己的数据中台
-
应用:政企行业大数据采集、治理、分析挖掘、指标应用等
-
数据中台是一个逻辑概念,为业务提供服务的主要方式是数据API,它包括了数据仓库,大数据、数据治理领域的内容
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)