数据分析训练营还有这些内容(Spark)_随笔

数据分析训练营还有这些内容(Spark)

在相关的大数据分析工具中，有一个好用的工具就是Spark。Spark是针对于大规模数据处理的统一分析引擎。

Spark是在Hadoop基础上的改进，是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架，Spark基于map reduce算法实现的分布式计算，拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是Job中间输出和结果可以保存在内存中，从而不再需要读写HDFS。因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的Map Reduce的算法。

Spark是基于内存计算框架，计算速度非常之快，但是它仅仅只是涉及到计算，并没有涉及到数据的存储，后期需要使用spark对接外部的数据源。在常规的Spark介绍中，一定会跟大家介绍的就是Spark的各种特性内容：

一.spark特性
①速度快

②易用性

③通用信

④兼容性

二.数仓(数据分层）及常见的OLAP开源引擎

大数据分析中，底层基础的架构内容如数仓相关基础知识内容。类似数仓模型建设中，内容有关于明细模型、汇总模型、以及应用模型，然后在此基础上生成报表，辅助分析，引导规则或策略的制定等相关内容，其实也是各位同学非常关注的内容。

数据从底层结构到业务系统，其实是经过了各种ETL转换：

而实现这一块需要解决相关的常见的OLAP开源引擎，如：
Hive、Presto、kylin、impala、SparkSql、Druid、Clickhouse等等

在相关的底层据仓库的建设中，还有几大基础模型如，这个内容之前也更大家介绍过：
①星型模型

•星型模型是数据集市维度建模中推荐的建模方法。星型模型是以事实表为中心，所有的维度表直接连接在事实表上，像星星一样。星型模型的特点是数据组织直观，执行效率高。因为在数据集市的建设过程中，数据经过了预处理，比如按照维度进行了汇总，排序等等，数据量减少，执行的效率就比较高。

②雪花模型
雪花模型也是维度建模中的一种选择。雪花模型的维度表可以拥有其他维度表的，虽然这种模型相比星型模型更规范一些，但是由于这种模型不太容易理解，维护成本比较高，而且性能方面需要关联多层维表，性能也比星型模型要低。所以一般不是很常用。

③星座模型
星座模型是星型模型延伸而来，星型模型是基于一张事实表的，而星座模型是基于多张事实表的，而且共享维度信息。通过构建一致性维度，来建设星座模型，也是很好的选择。比如同一主题的细节表和汇总表共享维度，不同主题的事实表，可以通过在维度上互相补充来生成可以共享的维度。

关于本次大数据相关的更系统性的内容，有兴趣的童鞋可关注：《第二期的数据分析训练营》

~原创文章
…
end

欢迎分享，转载请注明来源：内存溢出

原文地址: https://outofmemory.cn/zaji/5702115.html

数据分析训练营还有这些内容(Spark)

发表评论

评论列表（0条）