各位小伙伴们好,其实关于这几者的区别网上一直有非常多的资料,但据LZ观察这些资料非常粗糙且没有讲到其本 质和区别,干货很少十分杂乱对于一些小伙伴来说容易懵,于是想从自己的理解出发结合收集的一些有价值的资料进行一个整合。
希望这篇文章对你有所帮助。
数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策和全局信息共享。
所谓主题:是指用户使用数据仓库进行决策时所关心的重点方面,如:收入、客户、销售渠道等;
所谓面向主题,是指数据仓库内的信息是按主题进行组织的,而不是像业务支撑系统那样是按照业务功能进行组织的。
所谓集成:是指数据仓库中的信息不是从各个业务系统中简单抽取出来的,而是经过一系列加工、整理和汇总的过程,因此数据仓库中的信息是关于整个企业的一致的全局信息。
所谓随时间变化:是指数据仓库内的信息并不只是反映企业当前的状态,而是记录了从过去某一时点到当前各个阶段的信息。通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。
数据仓库的主题建模思想是:
面向主题:采用范式模型理论中的主题划分方法对业务数据进行分类。
一致性保证:采用维度模型理论中的总线结构思想,建立统一的一致性维度表和一致性事实表来保证一致性。
数据质量保证:无论范式建模还是维度建模都非常重视数据质量问题,综合使用两个理论中的方法保证数据质量。
效率保证:合理采取维度退化、变化维、增加冗余等方法,保证数据的计算和查询效率
数据仓库技术架构:
数据仓库功能架构:
数据中台是什么?
数据中台是数据服务工厂。
数据中台对于业务的价值是“加速从数据到价值的过程,提高企业的响应能力。
数据中台对是聚合和治理跨域数据,将数据抽象封装成服务,提供给前台以业务价值的逻辑概念。
数据中台是一种将企业沉睡的数据变成数据资产,持续使用数据、产生智能、为业务服务,从而实现数据价值变现的系统和机制。通过数据中台提供的方法和运行机制,形成汇聚整合、提纯加工、建模处理、算法学习,并以共享服务的方式将数据提供给业务使用,从而与业务联动。
再者,结合业务中台的数据生产能力,最终构建数据生产—消费—再生的闭环。
数据中台的优点和价值是什么?
数据中台不等于大数据平台,数据中台的核心工作也并不是将企业的数据全部收集起来做汇总就够了。数据中台的使命是利用大数据技术、通过全局规划来治理好企业的数据资产,让数据使用者能随时随地获取到可靠的数据。
因此,数据中台一旦建成并得以持续运营,其价值将随着时间的推移将呈指数级增长。数据中台的价值众多,下面详述其中的三大价值:
1. 帮助企业建立数据标准
在有数据中台之前,企业基本不会有全局的数据标准,即使有相关的数据标准,由于没有数据中台这个实体形态,数据标准也无从执行。数据中台的建设天然会帮助企业建设数据标准,包括数据建设规范和数据消费规范。
数据建设规范有诸如数据接入规范、数据建模规范、数据存储规范和数据安全规范等,数据消费规范包含数据权限规范、数据调用规范以及数据销毁规范等。这些标准都是建设数据中台时必须建立起来并依托数据中台去执行和落地的。
2. 促进中台组织形成
再宏伟的企业战略规划,都离不开一套科学合理的组织去落地执行。数据中台建设将是企业宏观战略规划的一个重要部分,那么在践行数据中台建设的过程中,摆在企业第一位的问题就是如何搭建起一套能稳定护航数据中台建设及运营的数据中台班子。
数据中台这种体系化工程将横向拉通企业数据相关方,包括中台建设团队、中台运维团队、数据产品经理团队、数据资产管理团队、数据运营团队等,组成标准的企业数据委员会,从而形成企业真正的中台组织。
需要说明的是,中台组织可以是一个横跨各个业务部门的弱矩阵组织,也可以是一个完整的实体组织。这需要因地制宜,因企业不同而异。
3. 全面赋能业务,促使降本增效
数据中台的终极价值是降本增效,无论是建设数据标准还是形成中台组织,其核心目标都是帮助企业达成战略规划。
通过数据中台,可以更加合理地布局团队;数据从加工生产到使用的整个时间周期将大大缩短;以中台之力拉通整合企业营销、交易、服务、库存、物流等一方数据,结合二方及三方数据,以全局视角,形成强大的数据资产,滋养各业务板块。
同时有目的性地针对场景,设计出赋能场景的数据应用,帮助其从研、产、销等多个方面缩短产品研发周期,生产未来一段时间畅销的产品,精准找到愿意购买公司产品的群体,以至于增强用户对企业产品及服务的友好体验,提高用户对于企业品牌的忠诚度,降低企业运营过程中的损耗,压缩供应链端的周期等。
数据中台整体架构:
大数据平台是什么?企业级大数据平台实现结构化、半结构化和非结构化数据统一存储计算功能,通过数据封装提供服务功能,提供自助报表工具,面向市场、网络以及企业外部提供服务。
数据采集中心:负责采集多样化数据。
数据计算存储中心:负责对数据进行加工、转换和汇总等工作,并将数据加载到不同的存储系统中。
开放共享中心:统一数据服务接口。
数据管理中心:负责系统数据的元数据、数据质量、数据模型和数据安全管理。
运营管控中心:负责系统运行任务的编排、调度,以及设备、平台和应用的全景运维监控视图。
随着平台厂家和应用厂家的分离,应用的凸显,为了实现数据价值,以数据应用为中心构建企业数据模型,为实现内外部应用支撑,又建设了开放共享平台,提供数据服务和Open API服务,为了支持多应用厂家协作开发,又提供了多租户管理,安全管理、数据目录管理。
核心功能及架构:
大数据基础能力层:Hadoop、Spark、Hive、Hbase、Flume、Sqoop、Kafka、 Elasticsearch等。
在大数据组件上搭建的 ETL流水线,包括数据分析、机器学习程序。
数据治理系统。
数据仓库系统。
数据可视化系统。
数据湖是什么?数据湖(Data Lake)是一个存储企业的各种各样原始数据的大型仓库,其中的数据可供存取、处理、分析及传输。数据湖是以其自然格式存储的数据的系统或存储库,通常是对象blob或文件。数据湖通常是企业所有数据的单一存储,包括源系统数据的原始副本,以及用于报告、可视化、分析和机器学习等任务的转换数据。数据湖可以包括来自关系数据库(行和列)的结构化数据,半结构化数据(CSV,日志,XML,JSON),非结构化数据(电子邮件,文档,PDF)和二进制数据(图像,音频,视频)。
如果需要给数据湖下一个定义,可以定义为这样:数据湖是一个存储企业的各种各样原始数据的大型仓库,其中的数据可供存取、处理、分析及传输。
数据湖从企业的多个数据源获取原始数据,并且针对不同的目的,同一份原始数据还可能有多种满足特定内部模型格式的数据副本。因此,数据湖中被处理的数据可能是任意类型的信息,从结构化数据到完全非结构化数据。
企业对数据湖寄予厚望,希望它能帮助用户快速获取有用信息,并能将这些信息用于数据分析和机器学习算法,以获得与企业运行相关的洞察力。
数据湖的优点是什么?
企业会在其多个业务系统中产生海量数据,随着企业体量增大,企业也需要更智能地处理这些横跨多个系统的数据。
一种最基本的策略是采用一个单独的领域模型,它能精准地描述数据并能代表对总体业务最有价值的那部分数据。这些数据指的是前面提到的企业数据。
对企业数据进行了良好定义的企业当然也有一些管理数据的方法,因此企业数据定义的更改能保持一致性,企业内部也很清楚系统是如何共享这些信息的。
在这种案例中,系统被分为数据拥有者(data owner)及数据消费者(data consumer)。对于企业数据来说,需要有对应的拥有者,拥有者定义了数据如何被其他消费系统获取,消费系统扮演着消费者的角色。
一旦企业有了对数据和系统的明晰定义,就可以通过该机制利用大量的企业信息。该机制的一种常见实现策略是通过构建企业级数据湖来提供统一的企业数据模型,在该机制中,数据湖负责捕获数据、处理数据、分析数据,以及为消费者系统提供数据服务。
数据湖能帮助企业做什么?
实现数据治理(data governance)与数据世系。
通过应用机器学习与人工智能技术实现商业智能。
预测分析,如领域特定的推荐引擎。
信息追踪与一致性保障。
根据对历史的分析生成新的数据维度。
有一个集中式的能存储所有企业数据的数据中心,有利于实现一个针对数据传输优化的数据服务。
帮助组织或企业做出更多灵活的关于企业增长的决策。
数据集市是什么?数据集市将数据仓库中的数据按照不同角度进行组织和存储,主要面向地市分公司或者特定业务部门、特定需求的业务,建立相应的应用专题。
数据集市的特点是数据粒度较粗,数据采取星型或雪花型结构,较少保留历史数据,便于访问分析和快速查询。数据集市具有面向特定用户群、合理的查询响应时间、便于扩展的特点。
数据集市目前细分为地市数据集市和专业数据集市,其中专业数据集市又分为增值业务数据集市、集团客户数据集市和互联网数据集市。
数据集市通常是数据仓库的子集;它等数据通常来自数据仓库 – 尽管还可以来自其他来源。数据集市的数据专门针对特定的用户社区,以便他们能够快速找到所需的数据。通常,数据保存在那里用于特定用途,例如财务分析。、
BI是什么?较为严谨的定义:“商业智能是企业利用现代信息技术收集、管理和分析结构化和非结构化的商务数据和信息,创造和累计商务知识和见解,改善商务决策水平,采取有效的商务行动,完善各种商务流程,提升各方面商务绩效,增强综合竞争力的智慧和能力。”
较为简洁的定义:商业智能好比“数据炼油厂”,即把商业活动中累积的数据加工成可用于支持商业决策的信息。
BI就是商业智能,它是一套完整的解决方案,用来将企业中现有的数据进行有效的整合,快速准确地提供报表并提出决策依据,帮助企业做出明智的业务经营决策。
目前国内外BI厂商磅礴发展的原因与企业数据化转型有着密切的联系。
国外厂商:
tableau:自身定位是一款可视化工具,与Qlikview的定位差不多,可视化功能很强大,对计算机的硬件要求较高,部署较复杂。目前移动端只支持IOS系统。
sap bo: SAP公司收购的一款BI工具,产品运作模式是结合SAP的ERP系统,所以整合其他数据库或系统并不占优势,属于重型BI,使用要求较高,升级困难。
Cognos:传统BI工具中最被广泛使用的,已被IBM收购。拥有强大的数据库平台、在数据管理、数据整合以及中间件领域专业功底深厚。偏 *** 作型,手工建模,一旦需求变化需要 重新建模,学习要求较高。
国内厂商:
FineBI:帆软旗下的自助性BI产品,轻量化的BI工具,基础功能完善大数据场景支持一般。
亿信华辰:只支持数据库中取数,文件数据需导入服务器。发展时间不长,整体还比较粗糙,需要继续磨练和完善。
永洪bi:敏捷BI软件,产品稳定性较高,功能丰富大数据量场景支持较好,上手较快。
永洪Bi架构:
他们的区别是什么?
数据湖与数仓:很多时候,数据湖被认为与数据仓库是等同的。实际上数据湖与数据仓库代表着企业想达成的不同目标。
从上图来看,数据湖与数据仓库的差别很明显。然而,在企业中两者的作用是互补的,不应认为数据湖的出现是为了取代数据仓库,毕竟两者的作用是截然不同的。
数据中台与数仓:数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。因此,其重点在于数据的集合。数据仓库可使用维度建模方法论从业务过程中抽象出通用维度与度量,组成数据模型,为决策分析提供通用的数据分析能力。
数据中台与数据仓库相比,至少有四大优势。
第一:数据中台强调数据业务化,让数据用起来,满足企业数据分析和应用的需求。
第二:数据中台梳理的流程比数据仓库建设更加复杂和全面。数据中台增加了以企业的全局视角来梳理数据域的环节,这是数据中台建设中很重要的一环。数据域的梳理正好体现了中台化的能力。
举个例子,新零售场景下,企业的交易场景有很多,包括自建商城渠道、第三方电商渠道、外卖订单渠道、线下门店渠道等。建设数据中台时就需要规划出一个交易域,此交易域要抽象出各种渠道的业务流程,并能覆盖线上、线下运营部门在运营时需要考核的维度与度量。
因此数据中台建设过程要更多从企业全局出发,从人、货、场多维度打通数据,真正做到无论消费者从哪个渠道进来,都能洞察其与本企业的接触轨迹。
而数据仓库的建设则相对单一,专注于维度模型如何设计,如何拆解指标和维度,却很少关注基于人、货、场这些主体进行实体拉通,然后做出全局的画像数据供前端业务调用。
第三:数据中台建设的范畴远远大于数据仓库的建设,除了完成数据仓库的建模,还需要制定完善的数据治理方案,甚至在建设的过程中需要成立专门的数据治理委员会来促成复杂的数据治理工作。
最重要的一点是,在数据中台的规划阶段就需要去主动迎合业务,需要全面梳理哪些业务场景需要利用数据的赋能才能形成业务闭环,因此,在建设数据中台的同时就必须着眼于业务场景的赋能。
第四:对于企业来讲,建设数据中台并不只是搭建一个能力平台。正如我们在《中台战略》一书中提到的,建设中台需要中台文化及相匹配的中台组织。
因此,从宏观上来讲,数据中台承担着企业重新搭建数据组织的职能,倒逼企业为了运营好数据中台而建设一套能与之匹配的数据中台组织。数据仓库则纯粹注重于系统解决方案,并不涉及组织形态。
因此,简单来说,数据仓库重在建数据,而数据中台则将建、治、管、服放到同样的高度,数据仓库只是数据中台的一个子集。
那我们为什么会从数据仓库发展到数据中台呢?因为传统的数据仓库已不能完全满足企业数据分析的需求。企业已从原来的统计分析转变为预测分析并提供标签、推荐等算法,从被动分析转变为主动分析,从非实时分析转变为实时分析,并且从结构化数据转变为结构化、半结构化和非结构化的多元化数据。
数据中台与数据湖:
数据湖是一种数据存储理念,作为一个集中的存储库,它可以以自然格式存储任意规模的数据,包括来自关系数据库行和列的结构化数据,XML、JSON、日志等半结构化数据,电子邮件、文档等非结构化数据,以及图像、音视频等的二进制数据,从而实现数据的集中式管理。
目前Hadoop是最常见的实现数据湖概念的技术。比如Hbase可让数据湖保存海量数据,Spark可以使得数据湖批量分析数据,而Flink等可让数据湖实时接入和处理IoT数据等。
数据中台作为企业数据的集结地,其底层承载着数据湖的职能。
数据中台与大数据平台:数据中台应该是大数据平台的一个超集。我们认为,在大数据平台的基础之上,数据中台还应该提供下面的系统功能。
1.全局的数据应用资产管理
这里所说的数据应用资产管理包括整个生态系统中的数据和应用。传统的数据资产管理绝大部分只包括关系型数据库中的资产(包括Hive),而一个数据中台应该管理所有结构化、非结构化的数据资产,以及使用这些数据资产的应用。
如果传统的数据资产管理提供的是数据目录,那么数据中台提供的应该是扩展的数据及应用目录。要避免重复造轮子,首先要知道系统中有哪些轮子,因此维护一个系统中数据及数据应用的列表是很关键的。
2. 全局的数据治理机制
与传统的数据治理不一样,数据中台必须提供针对全局的数据治理工具和机制。传统数据仓库中的数据建模和数据治理大多针对一个特定部门的业务,部分原因是全局数据建模和治理周期太长,由于存在部门之间的协调问题,往往难度很大。
数据中台提供的数据治理机制必须允许各个业务部门自主迭代,但前提是要有全局一致的标准。阿里提出的OneID强调全局统一的对象ID(例如用户ID),就属于这个机制。
3. 自助的、多租户的数据应用开发及发布
现有的绝大部分大数据平台要求使用者具备一定的编程能力。数据中台强调的是为业务部门赋能,而业务人员需要有一个自助的、可适应不同水平和能力要求的开发平台。这个开发平台要能够保证数据隔离和资源隔离,这样任何一个使用系统的人都不用担心自己会对系统造成损害。
4. 数据应用运维
用户应该可以很方便地将自己开发的数据应用自助发布到生产系统中,而无须经过专门的数据团队。因为我们需要共享这些应用及其产生的数据,所以需要有类似于CI/CD的专门系统来管理应用的代码质量和进行版本控制。
在数据应用运行过程中产生的数据也需要全程监控,以保证数据的完整性、正确性和实时性。
5. 数据应用集成
应该可以随时集成新的数据应用。新的大数据应用、人工智能工具不断涌现,我们的系统应该能够随时支持这些新应用。如果数据中台不能支持这些应用,各个业务部门可能又会打造自己的小集群,造成新的数据孤岛及应用孤岛。
6. 数据即服务,模型即服务
数据分析的结果,不管是统计分析的结果,还是机器学习生成的模型,应该能够很快地使用无代码的方式发布,并供全机构使用。
7. 数据能力共享管理
大部分数据能力应当具有完善的共享管理机制、方便安全的共享机制以及灵活的反馈机制。最后决定数据如何使用的是独立的个人,他们需要一套获取信息的机制,因此在机构内部必须要有这样的共享机制,才能真正让数据用起来。
8. 完善的运营指标
数据中台强调的是可衡量的数据价值,因此,对于数据在系统中的使用方式、被使用的频率、最后产生的效果,必须要有一定的运营指标,才能验证数据的价值和数据中台项目的效率。
总结数据仓库实现了企业数据模型的构建,大数据平台解决了海量、实时数据的计算和存储问题,数据中台要解决什么呢?数据如何安全的、快速的、最小权限的、且能够溯源的被探测和快速应用的问题。
数据中台不应该被过度的承载平台的计算、存储、加工任务,而是应该放在解决企业逻辑模型的搭建和存储、数据标准的建立、数据目录的梳理、数据安全的界定、数据资产的开放,知识图谱的构建,通过一系列工具、组织、流程、规范,实现数据前台和后台的连接,突破数据局限,为企业提供更灵活、高效、低成本的数据分析挖掘服务,避免企业为满足具体某部门某种数据分析需求而投放大量高成本、重复性的数据开发成本。
厚平台,大中台,小前台;没有基础厚实笨重的大数据平台,是不可能构建数据能力强大、功能强大的数据中台的;没有大数据中台,要迅速搭建小快灵的小前台也只是理想化的。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)