2019-03-05 SparkSQL集群性能调优 CheatSheet

2019-03-05 SparkSQL集群性能调优 CheatSheet,第1张

0买高性能机器,增加节点

1设置磁盘文件预读值大小为16384,使用linux命令:

echo 16384 > /sys/block/{磁盘名}/queue/read_ahead_kb

2 Spark 任务序列化只支持JavaSerializer,数据序列化支持JavaSerializer和 KryoSerializer 。KryoSerializer能达到JavaSerializer的十倍。

3在sparkdriverextraJavaOptions和sparkexecutorextraJavaOptions配置项中添加参数:" -verbose:gc -XX:+PrintGCDetails -XX:+PrintGCTimeStamps ",如果频繁出现Full GC,需要优化GC。把RDD做Cache *** 作,通过日志查看RDD在内存中的大小,如果数据太大,需要改变RDD的存储级别来优化。

4一般并行度设置为集群CPU总和的2-3倍

5大表和小表做join *** 作时可以把小表Broadcast到各个节点,从而就可以把join *** 作转变成普通的 *** 作,减少了shuffle *** 作。

6 合理设计DAG,减少shuffle  //TODO

7使用 mapPartitions 可以更灵活地 *** 作数据,例如对一个很大的数据求TopN,当N不是很大时,可以先使用mapPartitions对每个partition求TopN,collect结果到本地之后再做排序取TopN。这样相比直接对全量数据做排序取TopN效率要高很多。

8当之前的 *** 作有很多filter时,使用 coalesce 减少空运行的任务数量

9当任务数过大时候Shuffle压力太大导致程序挂住不动,或者出现linux资源受限的问题。此时需要对数据重新进行分区,使用 repartition 。

10配置多个磁盘给 localDir ,shuffle时写入数据速度增快

11 别collect大数据量,数据会回到driver端,容易OOM。非要collect,请配置 sparksqlbigdatathriftServeruseHdfsCollect 为true,会存在hdfs再读

12尽量用reduceByKey,会在Map端做本地聚合

13 broadcase set/map而不是Iterator, set/map 查询效率O(1) ,iteratorO(n)

14 数据发生倾斜,repartition大法 ,查出key,salt it

15使用Hash Shuffle时,通过设置 sparkshuffleconsolidateFiles 为true,来合并shuffle中间文件,减少shuffle文件的数量,减少文件IO *** 作以提升性能

16Spark SQL 小表join,把小表broadcast出去。配置 sparksqlautoBroadcastJoinThreshold 和 sparksqlbigdatauseExecutorBroadcast 。小表在join 右端。

17SparkSQL数据倾斜,配置 sparksqlplannerskewJoin 和 sparksqlplannerskewJointhreshold

18 SparkSQL 小文件,配置 sparksqlsmallfilecombine 和  sparksqlsmallfilesplitsize

我们在前文中给大家简单介绍了关于大数据运维师的一些基本技能需求的内容。下面我们就一起来了解一下,在学习大数据的时候不同学习阶段都需要了解哪些知识。

数据存储阶段:SQL,oracle,IBM等等都有相关的课程,昌平java课程培训机构建议根据公司的不同,学习好这些企业的开发工具,基本可以胜任此阶段的职位。

数据挖掘清洗筛选:大数据工程师,要学习JAVA,Linux,SQL,Hadoop,数据序列化系统Avro,数据仓库Hive,分布式数据库HBase,数据仓库Hive,Flume分布式日志框架,Kafka分布式队列系统课程,Sqoop数据迁移,pig开发,Storm实时数据处理。学会以上基本可以入门大数据工程师,如果想有一个更好的起点,建议前期学习scala编程,Spark,R语言等基本现在企业里面更专业的技能。

数据分析:一方面是搭建数据分析框架,比如确定分析思路需要营销、管理等理论知识;还有针对数据分析结论提出有指导意义的分析建议。

产品调整:经过分析后的数据交由老板和PM经过协商后进行产品的更新,然后交由程序员进行修改(快消类进行商品的上下架调整)。

接着再来了解大数据需要掌握那些技术

Hadoop核心

(1)分布式存储基石:HDFS

HDFS简介入门演示构成及工作原理解析:数据块,NameNode,DataNode、数据写入与读取过程、数据复制、HA方案、文件类型、HDFS常用设置JavaAPI代码演示

(2)分布式计算基础:MapReduce

MapReduce简介、编程模型、JavaAPI介绍、编程案例介绍、MapReduce调优

(3)Hadoop集群资源管家:YARN

YARN基本架构资源调度过程调度算法YARN上的计算框架

离线计算

(1)离线日志收集利器:Flume

Flume简介核心组件介绍Flume实例:日志收集、适宜场景、常见问题。

(2)离线批处理必备工具:Hive

Hive在大数据平台里的定位、总体架构、使用场景之AccessLog分析HiveDDL&DML介绍视图函数(内置,窗口,自定义函数)表的分区、分桶和抽样优化。

Spark对硬件的要求

估计所有的spark开发者都很关心spark的硬件要求。恰当的硬件配置需要具体情况具体分析,在这里给出以下建议。主要译自官网

一,存储系统

因为大多数Spark工作可能需要从外部存储系统(例如Hadoop文件系统或HBase)中读取输入数据,所以将spark尽可能部署到靠近存储系统很重要。所以,有如下建议:

1,如果可能,在与HDFS相同的节点上运行Spark。最简单的方式是将spark的Standalone集群和hadoop集群安装在相同的节点,同时配置好Spark和hadoop的内存使用,避免相互干扰(对于hadoop,每个task的内存配置参数是mapredchildjavaopts;mapreducetasktrackermaptasksmaximum 和mapreducetasktrackerreducetasksmaximum决定了task的数目)。也可以将hadoop和spark运行在共同的集群管理器上,如mesos和 yarn。

2,如果不可能,请在与HDFS相同的局域网中的不同节点上运行Spark。

3,对于低延迟数据存储(如HBase),可能优先在与存储系统不同的节点上运行计算任务以避免干扰。

二,本地磁盘

虽然Spark可以在内存中执行大量的计算,但它仍然使用本地磁盘来存储不适合RAM的数据,以及在stage之间,也即shuffle的中间结果。建议每个节点至少有4-8块磁盘,并且不需要RAID,仅仅是独立的磁盘挂在节点。在Linux中,使用noatime选项安装磁盘,以减少不必要的写入。在spark任务中,sparklocaldir配置可以十多个磁盘目录,以逗号分开。如果运行在hdfs上,与hdfs保持一致就很好。

使用noatime选项安装磁盘,要求当挂载文件系统时,可以指定标准Linux安装选项(noatime),这将禁用该文件系统上的atime更新。磁盘挂在命令:

mount -t gfs BlockDevice MountPoint -onoatime

BlockDevice 指定GFS文件系统驻留的块设备。

MountPoint 指定GFS文件系统应安装的目录。

例子:

mount -t gfs /dev/vg01/lvol0 /gfs1 -onoatime

三,内存

单台机器内存从8GB到数百GB,spark都能运行良好。在所有情况下,建议仅为Spark分配最多75%的内存;留下其余的 *** 作系统和缓冲区缓存。

需要多少内存取决于你的应用程序。要确定你的应用的特定数据集需要多大内存,请加载部分数据集到内存,然后在Spark UI的Storage界面去看它的内存占用量。

请注意,内存使用受到存储级别和序列化格式的极大影响 - 有关如何减少内存使用的技巧,请参阅另一篇调优的文章。

最后,请注意,对于超过200GB的内存的机器JAVA VM运行状态并不一直表现良好。如果买的机器内存超过了200GB,那么可以在一个节点上运行多个worker。Spark Standalone模式下,可以在配置文件 conf/spark-envsh中设置SPARK_WORKER_INSTANCES的值来设置单节点worker的数目。也可以设置SPARK_WORKER_CORES参数来设置每个Worker的cpu数目。

四,网络

根据以往的经验,假如数据是在内存中,那么spark的应用的瓶颈往往就在网络。用10 Gigabit或者更高的网络,是使spark应用跑的最更快的最佳方式。特别是针对“distributed reduce”应用,如group-bys,reduce-bys和sql joins,就表现的更加明显。在任何给定的应用程序中,可以通过spark ui查看spark shuffle过程夸网络传输了多少数据。

五, cpu

对于每台机器几十个cpu的机器,spark也可以很好的扩展,因为他在线程之间执行最小的共享cpu。应该每台机器至少配置8-16个内核。根据cpu负载,可能需要更多的cpu:一旦数据在内存中,大多数应用程序的瓶颈就在CPU和网络。

推荐阅读:

面试必备|spark 高层通用调优

Spark Adaptive Execution调研

Spark 的硬件配置

从MapReduce的兴起,就带来一种思路,就是希望通过大量廉价的机器来处理以前需要耗费昂贵资源的海量数据。这种方式事实上是一种架构的水平伸缩模式——真正的以量取胜。毕竟,以现在的硬件发展来看,CPU的核数、内存的容量以及海量存储硬盘,都慢慢变得低廉而高效。然而,对于商业应用的海量数据挖掘或分析来看,硬件成本依旧是开发商非常关注的。当然最好的结果是:既要马儿跑得快,还要马儿少吃草。

\\

Spark相对于Hadoop的MapReduce而言,确乎要跑得迅捷许多。然而,Spark这种In-Memory的计算模式,是否在硬件资源尤其是内存资源的消耗上,要求更高呢?我既找不到这么多机器,也无法租用多台虚拟instance,再没法测评的情况下,只要寻求Spark的官方网站,又或者通过Google搜索。从Spark官方网站,Databricks公司Patrick Wendell的演讲以及Matei Zaharia的Spark论文,找到了一些关于Spark硬件配置的支撑数据。

\\

Spark 与存储系统

\\

如果Spark使用HDFS作为存储系统,则可以有效地运用Spark的standalone mode cluster,让Spark与HDFS部署在同一台机器上。这种模式的部署非常简单,且读取文件的性能更高。当然,Spark对内存的使用是有要求的,需要合理分配它与HDFS的资源。因此,需要配置Spark和HDFS的环境变量,为各自的任务分配内存和CPU资源,避免相互之间的资源争用。

\\

若HDFS的机器足够好,这种部署可以优先考虑。若数据处理的执行效率要求非常高,那么还是需要采用分离的部署模式,例如部署在Hadoop YARN集群上。

\\

Spark 对磁盘的要求

\\

Spark是in memory的迭代式运算平台,因此它对磁盘的要求不高。Spark官方推荐为每个节点配置4-8块磁盘,且并不需要配置为RAID(即将磁盘作为单独的mount point)。然后,通过配置sparklocaldir来指定磁盘列表。

\\

Spark 对内存的要求

\\

Spark虽然是in memory的运算平台,但从官方资料看,似乎本身对内存的要求并不是特别苛刻。官方网站只是要求内存在8GB之上即可(Impala要求机器配置在128GB)。当然,真正要高效处理,仍然是内存越大越好。若内存超过200GB,则需要当心,因为JVM对超过200GB的内存管理存在问题,需要特别的配置。

\\

内存容量足够大,还得真正分给了Spark才行。Spark建议需要提供至少75%的内存空间分配给Spark,至于其余的内存空间,则分配给 *** 作系统与buffer cache。这就需要部署Spark的机器足够干净。

\\

考虑内存消耗问题,倘若我们要处理的数据仅仅是进行一次处理,用完即丢弃,就应该避免使用cache或persist,从而降低对内存的损耗。若确实需要将数据加载到内存中,而内存又不足以加载,则可以设置Storage Level。09版本的Spark提供了三种Storage Level:MEMORY_ONLY(这是默认值),MEMORY_AND_DISK,以及DISK_ONLY。

\\

关于数据的持久化,Spark默认是持久化到内存中。但它也提供了三种持久化RDD的存储方式:

\\

•       \\t

in-memory storage as deserialized Javaobjects

\\t\\t

•       \\t

in-memory storage as serialised data

\\t\\t

•       \\t

on-disk storage

\\t\

第一种存储方式性能最优,第二种方式则对RDD的展现方式(Representing)提供了扩展,第三种方式则用于内存不足时。

\\

然而,在最新版(V102)的Spark中,提供了更多的Storage Level选择。一个值得注意的选项是OFF_HEAP,它能够将RDD以序列化格式存储到Tachyon中。相比MEMORY_ONLY_SER,这一选项能够减少执行垃圾回收,使Spark的执行器(executor)更小,并能共享内存池。Tachyon是一个基于内存的分布式文件系统,性能远超HDFS。Tachyon与Spark同源同宗,都烙有伯克利AMPLab的印记。目前,Tachyon的版本为050,还处于实验阶段。

\\

注意,RDDs是Lazy的,在执行Transformation *** 作如map、filter时,并不会提交Job,只有在执行Action *** 作如count、first时,才会执行Job,此时才会进行数据的加载。当然,对于一些shuffle *** 作,例如reduceByKey,虽然仅是Transformation *** 作,但它在执行时会将一些中间数据进行持久化,而无需显式调用persist()函数。这是为了应对当节点出现故障时,能够避免针对大量数据进行重计算。要计算Spark加载的Dataset大小,可以通过Spark提供的Web UI Monitoring工具来帮助分析与判断。

\\

Spark的RDD是具有分区(partition)的,Spark并非是将整个RDD一次性加载到内存中。Spark针对partition提供了eviction

policy,这一Policy采用了LRU(Least Recently Used)机制。当一个新的RDD分区需要计算时,如果没有合适的空间存储,就会根据LRU策略,将最少访问的RDD分区d出,除非这个新分区与最少访问的分区属于同一个RDD。这也在一定程度上缓和了对内存的消耗。

\\

Spark对内存的消耗主要分为三部分:

\\

1     \\t

数据集中对象的大小;

\\t\\t

2     \\t

访问这些对象的内存消耗;

\\t\\t

3     \\t

垃圾回收GC的消耗。

\\t\

一个通常的内存消耗计算方法是:内存消耗大小= 对象字段中原生数据 (2~5)。这是因为Spark运行在JVM之上, *** 作的Java对象都有定义的“object header”,而数据结构(如Map,LinkedList)对象自身也需要占用内存空间。此外,对于存储在数据结构中的基本类型,还需要装箱(Boxing)。Spark也提供了一些内存调优机制,例如执行对象的序列化,可以释放一部分内存空间。还可以通过为JVM设置flag来标记存放的字节数(选择4个字节而非8个字节)。在JDK 7下,还可以做更多优化,例如对字符编码的设置。这些配置都可以在spark-envsh中设置。

\\

Spark 对网络的要求

\\

Spark属于网络绑定型系统,因而建议使用10G及以上的网络带宽。

\\

Spark 对 CPU 的要求

\\

Spark可以支持一台机器扩展至数十个CPU

core,它实现的是线程之间最小共享。若内存足够大,则制约运算性能的就是网络带宽与CPU数。

\\

Spark官方利用Amazon EC2的环境对Spark进行了基准测评。例如,在交互方式下进行数据挖掘(Interative Data Mining),租用Amazon EC2的100个实例,配置为8核、68GB的内存。对1TB的维基百科页面查阅日志(维基百科两年的数据)进行数据挖掘。在查询时,针对整个输入数据进行全扫描,只需要耗费5-7秒的时间。如下图所示:

在Matei Zaharia的Spark论文中还给出了一些使用Spark的真实案例。视频处理公司Conviva,使用Spark将数据子集加载到RDD中。报道说明,对于200GB压缩过的数据进行查询和聚合 *** 作,并运行在两台Spark机器上,占用内存为96GB,执行完全部 *** 作需要耗费30分钟左右的时间。同比情况下,Hadoop需要耗费20小时。注意:之所以200GB的压缩数据只占用96GB内存,是因为RDD的处理方式,使得我们可以只加载匹配客户过滤的行和列,而非所有压缩数据。`

Spark集群硬件配置推荐

计算与存储:

大多数Spark作业可能需要从外部存储系统(例如 :Cassandra、Hadoop文件系统或HBase)读取输入数据,所以要让Spark计算引擎尽可能靠近数据持久层。如果使用HDFS作为数据存储集群,可以在相同的集群上部署Spark集群,并配置Spark和Hadoop的内存和CPU使用率以避免干扰。我们的生产存储使用的是Cassandra集群,spark

master 服务单独部署,其它节点同时部署:Cassandra

+ spark worker,保证spark

worker 节点可以快速从本地读取数据进行计算汇总。

磁盘:

虽然Spark可以在内存中执行大量的计算,但它仍然可能会使用本地磁盘来存储不适用于RAM的数据,建议每个节点配置4-8个磁盘,不需要配置RAID(磁盘阵列),磁盘成本越来越低,可以考虑配置ssd硬盘,可以大幅提升性能。另外;在Linux中,使用noatime选项挂载磁盘,以减少不必要的写入 *** 作。 在Spark中,可以将sparklocaldir变量配置为多个本地磁盘的地址,多个地址之间以逗号分隔。

内存

建议为Spark分配的内存容量不大于机器总内存容量的75%;确保为 *** 作系统和缓冲区留下足够的内存。根据业务特点评估需要多少内存。请注意,当内存容量超过200GB时Java 虚拟机的性能表现会不稳定。如果您购买的RAM大于200G,则可以为每个节点运行多个worker

JVM。在Spark的standalone模式下,您可以通过conf/spark-envsh中的SPARK_WORKER_INSTANCES变量设置每个节点运行的worker进程数,以及通过SPARK_WORKER_CORES变量设置每个worker可用的cpu核心数。

网络

当数据已经存储在内存中时,很多Spark应用程序的性能瓶颈在于网络的传输速率。推荐最低使用10G的网络。

CPU

Spark运行汇总计算任务比较多,推荐配置更多的cpu核数,性能提升还是比较明显,推荐:每台机器至少配置8-16个核。可以根据Spark作业的CPU负载情况,进行配置调整。一旦数据已经在内存中,大多数应用程序的性能瓶颈在于CPU和网络。

参考文档

>

1 环境准备

Eclipse 请不要使用最新的 Neon(46) ,太多Bug了。 还是使用最新的 Mars(45) 系列吧

JDK 版本8x (Linux推荐Oracle, 没有测试过OpenJDK)

因为只是用Java,因此无需安装Scala及其相应的插件

2 创建一个新的maven项目

3 pomxml

<dependency>

<groupId>orgapachehadoop</groupId>

<artifactId>hadoop-client</artifactId>

<version>260</version>

<exclusions>

<exclusion>

<groupId>javaxservlet</groupId>

<artifactId></artifactId>

</exclusion>

</exclusions>

</dependency>

<dependency>

<groupId>orgapachespark</groupId>

<artifactId>spark-core_210</artifactId>

<version>161</version>

</dependency>

<dependency>

<groupId>orgapachespark</groupId>

<artifactId>spark-streaming_210</artifactId>

<version>161</version>

</dependency>

<dependency>

<groupId>orgapachespark</groupId>

<artifactId>spark-mllib_210</artifactId>

<version>161</version>

</dependency>

<dependency>

<groupId>orgscala-lang</groupId>

<artifactId>scala-library</artifactId>

<version>2105</version>

</dependency>

这里只列出了必要的几个依赖。 其他的请根据你自己的项目需求添加

4 使用maven打包

之后在Goal 之中填写clean package 即可

如果在修改了与Spark相关的代码之后,需要重新编译打包才行。 否则会有异常提示。

5 代码编写注意事项:

在创建JavaSparkContext的时候,需要把自己加进去。

public static JavaSparkContextgetContext(String taskName) {

JavaSparkContextsc = new JavaSparkContext(SparkConnUtilsgetSparkConf(taskName));

scaddJar("target/sparkstat-001-SNAPSHOTjar");

return sc;

}

其中target/sparkstat-001-SNAPSHOTjar是maven 运行之后生成的完整的jar包

以下介绍的课程主要针对零基础大数据工程师每个阶段进行通俗易懂简易介绍,方面大家更好的了解大数据学习课程。课程框架是科多大数据的零基础大数据工程师课程。

一、第一阶段:静态网页基础(HTMLCSS)

1难易程度:一颗星

2课时量(技术知识点阶段项目任务综合能力)

3主要技术包括:html常用标签、CSS常见布局、样式、定位等、静态页面的设计制作方式等

4描述如下:

从技术层面来说,该阶段使用的技术代码很简单、易于学习、方便理解。从后期课程层来说,因为我们重点是大数据,但前期需要锻炼编程技术与思维。经过我们多年开发和授课的项目经理分析,满足这两点,目前市场上最好理解和掌握的技术是J2EE,但J2EE又离不开页面技术。所以第一阶段我们的重点是页面技术。采用市场上主流的HTMlCSS。

二、第二阶段:JavaSEJavaWeb

1难易程度:两颗星

2课时量(技术知识点阶段项目任务综合能力)

3主要技术包括:java基础语法、java面向对象(类、对象、封装、继承、多态、抽象类、接口、常见类、内部类、常见修饰符等)、异常、集合、文件、IO、MYSQL(基本SQL语句 *** 作、多表查询、子查询、存储过程、事务、分布式事务)JDBC、线程、反射、Socket编程、枚举、泛型、设计模式

4描述如下:

称为Java基础,由浅入深的技术点、真实商业项目模块分析、多种存储方式的设计

与实现。该阶段是前四个阶段最最重要的阶段,因为后面所有阶段的都要基于此阶段,也是学习大数据紧密度最高的阶段。本阶段将第一次接触团队开发、产出具有前后台(第一阶段技术第二阶段的技术综合应用)的真实项目。

三、第三阶段:前端框架

1难易程序:两星

2课时量(技术知识点阶段项目任务综合能力):64课时

3主要技术包括:Java、Jquery、注解反射一起使用,XML以及XML解析、解析dom4j、jxab、jdk80新特性、SVN、Maven、easyui

4描述如下:

前两个阶段的基础上化静为动,可以实现让我们网页内容更加的丰富,当然如果从市场人员层面来说,有专业的前端设计人员,我们设计本阶段的目标在于前端的技术可以更直观的锻炼人的思维和设计能力。同时我们也将第二阶段的高级特性融入到本阶段。使学习者更上一层楼。

四、第四阶段:企业级开发框架

1难易程序:三颗星

2课时量(技术知识点阶段项目任务综合能力)

3主要技术包括:Hibernate、Spring、SpringMVC、log4jslf4j整合、myBatis、struts2、Shiro、redis、流程引擎activity,爬虫技术nutch,lucene,、Tomcat集群和热备、MySQL读写分离

4描述如下:

如果将整个JAVA课程比作一个糕点店,那前面三个阶段可以做出一个武大郎烧饼(因为是纯手工-太麻烦),而学习框架是可以开一个星巴克(高科技设备-省时省力)。从J2EE开发工程师的任职要求来说,该阶段所用到的技术是必须掌握,而我们所授的课程是高于市场(市场上主流三大框架,我们进行七大框架技术传授)、而且有真实的商业项目驱动。需求文档、概要设计、详细设计、源码测试、部署、安装手册等都会进行讲解。

五、第五阶段:初识大数据

1难易程度:三颗星

2课时量(技术知识点阶段项目任务综合能力)

3主要技术包括:大数据前篇(什么是大数据,应用场景,如何学习大数据库,虚拟机概念和安装等)、Linux常见命令(文件管理、系统管理、磁盘管理)、LinuxShell编程(SHELL变量、循环控制、应用)、Hadoop入门(Hadoop组成、单机版环境、目录结构、HDFS界面、MR界面、简单的SHELL、java访问hadoop)、HDFS(简介、SHELL、IDEA开发工具使用、全分布式集群搭建)、MapRece应用(中间计算过程、Java *** 作MapRece、程序运行、日志监控)、Hadoop高级应用(YARN框架介绍、配置项与优化、CDH简介、环境搭建)、扩展(MAP端优化,COMBINER使用方法见,TOPK,SQOOP导出,其它虚拟机VM的快照,权限管理命令,AWK与SED命令)

4描述如下:

该阶段设计是为了让新人能够对大数据有一个相对的大概念怎么相对呢在前置课程JAVA的学习过后能够理解程序在单机的电脑上是如何运行的。现在,大数据呢大数据是将程序运行在大规模机器的集群中处理。大数据当然是要处理数据,所以同样,数据的存储从单机存储变为多机器大规模的集群存储。

(你问我什么是集群好,我有一大锅饭,我一个人可以吃完,但是要很久,现在我叫大家一起吃。一个人的时候叫人,人多了呢是不是叫人群啊!)

那么大数据可以初略的分为:大数据存储和大数据处理所以在这个阶段中呢,我们课程设计了大数据的标准:HADOOP大数据的运行呢并不是在咋们经常使用的WINDOWS7或者W10上面,而是现在使用最广泛的系统:LINUX。

六、第六阶段:大数据数据库

1难易程度:四颗星

2课时量(技术知识点阶段项目任务综合能力)

3主要技术包括:Hive入门(Hive简介、Hive使用场景、环境搭建、架构说明、工作机制)、HiveShell编程(建表、查询语句、分区与分桶、索引管理和视图)、Hive高级应用(DISTINCT实现、groupby、join、sql转化原理、java编程、配置和优化)、hbase入门、HbaseSHELL编程(DDL、DML、Java *** 作建表、查询、压缩、过滤器)、细说Hbase模块(REGION、HREGIONSERVER、HMASTER、ZOOKEEPER简介、ZOOKEEPER配置、Hbase与Zookeeper集成)、HBASE高级特性(读写流程、数据模型、模式设计读写热点、优化与配置)

4描述如下:

该阶段设计是为了让大家在理解大数据如何处理大规模的数据的同时。简化咋们的编写程序时间,同时提高读取速度。

怎么简化呢在第一阶段中,如果需要进行复杂的业务关联与数据挖掘,自行编写MR程序是非常繁杂的。所以在这一阶段中我们引入了HIVE,大数据中的数据仓库。这里有一个关键字,数据仓库。我知道你要问我,所以我先说,数据仓库呢用来做数据挖掘分析的,通常是一个超大的数据中心,存储这些数据的呢,一般为ORACLE,DB2,等大型数据库,这些数据库通常用作实时的在线业务。

总之,要基于数据仓库分析数据呢速度是相对较慢的。但是方便在于只要熟悉SQL,学习起来相对简单,而HIVE呢就是这样一种工具,基于大数据的SQL查询工具,这一阶段呢还包括HBASE,它为大数据里面的数据库。纳闷了,不是学了一种叫做HIVE的数据“仓库”了么HIVE是基于MR的所以查询起来相当慢,HBASE呢基于大数据可以做到实时的数据查询。一个主分析,另一个主查询

七、第七阶段:实时数据采集

1难易程序:四颗星

2课时量(技术知识点阶段项目任务综合能力)

3主要技术包括:Flume日志采集,KAFKA入门(消息队列、应用场景、集群搭建)、KAFKA详解(分区、主题、接受者、发送者、与ZOOKEEPER集成、Shell开发、Shell调试)、KAFKA高级使用(java开发、主要配置、优化项目)、数据可视化(图形与图表介绍、CHARTS工具分类、柱状图与饼图、3D图与地图)、STORM入门(设计思想、应用场景、处理过程、集群安装)、STROM开发(STROMMVN开发、编写STORM本地程序)、STORM进阶(java开发、主要配置、优化项目)、KAFKA异步发送与批量发送时效,KAFKA全局消息有序,STORM多并发优化

4描述如下:

前面的阶段数据来源是基于已经存在的大规模数据集来做的,数据处理与分析过后的结果是存在一定延时的,通常处理的数据为前一天的数据。

举例场景:网站防盗链,客户账户异常,实时征信,遇到这些场景基于前一天的数据分析出来过后呢是否太晚了。所以在本阶段中我们引入了实时的数据采集与分析。主要包括了:FLUME实时数据采集,采集的来源支持非常广泛,KAFKA数据数据接收与发送,STORM实时数据处理,数据处理秒级别

八、第八阶段:SPARK数据分析

1难易程序:五颗星

2课时量(技术知识点阶段项目任务综合能力)

3主要技术包括:SCALA入门(数据类型、运算符、控制语句、基础函数)、SCALA进阶(数据结构、类、对象、特质、模式匹配、正则表达式)、SCALA高级使用(高阶函数、科里函数、偏函数、尾迭代、自带高阶函数等)、SPARK入门(环境搭建、基础结构、运行模式)、Spark数据集与编程模型、SPARKSQL、SPARK进阶(DATAFRAME、DATASET、SPARKSTREAMING原理、SPARKSTREAMING支持源、集成KAFKA与SOCKET、编程模型)、SPARK高级编程(Spark-GraphX、Spark-Mllib机器学习)、SPARK高级应用(系统架构、主要配置和性能优化、故障与阶段恢复)、SPARKMLKMEANS算法,SCALA隐式转化高级特性

4描述如下:

同样先说前面的阶段,主要是第一阶段。HADOOP呢在分析速度上基于MR的大规模数据集相对来说还是挺慢的,包括机器学习,人工智能等。而且不适合做迭代计算。SPARK呢在分析上是作为MR的替代产品,怎么替代呢先说他们的运行机制,HADOOP基于磁盘存储分析,而SPARK基于内存分析。我这么说你可能不懂,再形象一点,就像你要坐火车从北京到上海,MR就是绿皮火车,而SPARK是高铁或者磁悬浮。而SPARK呢是基于SCALA语言开发的,当然对SCALA支持最好,所以课程中先学习SCALA开发语言。

在科多大数据课程的设计方面,市面上的职位要求技术,基本全覆盖。而且并不是单纯的为了覆盖职位要求,而是本身课程从前到后就是一个完整的大数据项目流程,一环扣一环。

比如从历史数据的存储,分析(HADOOP,HIVE,HBASE),到实时的数据存储(FLUME,KAFKA),分析(STORM,SPARK),这些在真实的项目中都是相互依赖存在的。

以上就是关于2019-03-05 SparkSQL集群性能调优 CheatSheet全部的内容,包括:2019-03-05 SparkSQL集群性能调优 CheatSheet、昌平java课程培训机构分享大数据学习都需要掌握哪些知识、Spark对硬件的要求等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/web/9649826.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-04-30
下一篇 2023-04-30

发表评论

登录后才能评论

评论列表(0条)

保存