BI,数据仓库,ETL,大数据开发工程师有什么区别

BI,数据仓库,ETL,大数据开发工程师有什么区别,第1张

准确的来说,商业智能BI不仅仅包含前端可视化分析、报表展现的能力,更包含了底层数据仓库的建设过程。

Gartner 在上世纪九十年代就已经提到了商业智能 Business Intelligence,它更多的认为BI是一种数据类的技术解决方案,将许多来自不同企业业务系统的数据提取有分析价值的数据进行清洗、转换和加载,就是抽取Extraction、转换 Transformation、加载Loading 的ETL过程,最终合并到一个数据仓库中,按照一定的建模方式例如Inmon 的3NF 建模、Kimball 的维度建模或者两者都有的混合式架构模型,最终在这个基础上再利用合适的分析展现工具来形成各种可视化的分析报表为企业的管理决策层提供数据决策支撑。

所以,可以从这里能够看到数据仓库Data Warehouse 的位置是介于可视化报表和底层业务系统数据源之间的这一层,在整个BI项目解决方案中起到的是一个承上启下的作用。所以,BI在前端可视化分析层面要玩出各类精彩的动作,没有数据仓库这个核心力量的支撑是很难做到的。

那大家也会问到,市面上不是有很多直接链接数据源就可以拖拉拽分析的BI工具产品吗,不也一样可以做BI分析报表吗?这种独立的、单独的面向前端的BI分析工具,他们更多的定位是部门级和个人级的BI 分析工具,对于深层次的需要复杂数据处理、集成、建模等很多场景是无法解决的。最好的方式就是底层构建一套完整的数据仓库,把很多分析模型标准化,再利用这些前端BI分析工具结合起来,这样才能真正的把前端BI分析能力给释放出来。

很多企业认为只要买一个前端BI分析工具就可以解决企业级的BI所有问题,这个看法实际上也不可行的。可能在最开始分析场景相对简单,对接数据的复杂度不是很高的情况下这类BI分析工具没有问题。但是在企业的BI项目建设有一个特点,是一个螺旋式上升的建设过程。因为对接的业务系统可能会越来越多,分析的深度和广度会越来越多,数据的复杂度也会越来越有挑战性,这个时候没有一个很好的数据仓库架构支撑,光靠前端BI分析工具基本上是无法搞定的。

所以在企业中,我们需要明确我们的BI建设是面向企业级的还是个人和部门的分析工作。如果是个人数据分析师,使用这类前端BI分析工具就足够了。如果是需要构建一个企业级的BI项目,就不能只关注前端可视化分析能力这个层面,更应该关注到底层数据架构的构建,也就是数据仓库这个层面。

1.大数据架构东西与组件

企业大数据结构的搭建,多是挑选根据开源技能结构来实现的,这其中就包含Hadoop、Spark、Storm、Flink为主的一系列组件结构,及其生态圈组件。

2.深化了解SQL和其它数据库解决方案

大数据工程师需要了解数据库办理体系,深化了解SQL。相同其它数据库解决方案,例如Cassandra或MangoDB也须了解,由于不是每个数据库都是由可识别的标准来构建。

3.数据仓库和ETL东西

数据仓库和ETL才能对于大数据工程师至关重要。像Redshift或Panoply这样的数据仓库解决方案,以及ETL东西,比方StitchData或Segment都十分有用。

4.根据Hadoop的剖析

对根据Apache Hadoop的数据处理结构,需要有深化的了解,至少HBase,Hive和MapReduce的知识存储是必需的。

5.编码

编码与开发才能是作为大数据工程师的重要要求,主要掌握Java、Scala、Python三门语言,这在大数据当中十分关键。

可以。不过看你的基础怎么样了,如果有过数据库 *** 纵基础,3个月是可以的,否则先学习数据库知识吧。

ETL工程师又叫数据库工程师。ETL工程师的主要工作内容有:从事系统编程、数据库编程与设计。

ETL原本是作为构建数据仓库的一个环节,负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。因为以前经常是将业务系统的数据取出来放到数仓中,按照星型或雪花型建模。


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/sjk/9962663.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-03
下一篇 2023-05-03

发表评论

登录后才能评论

评论列表(0条)

保存