这几年大数据的飞速发展,出现了很多热门的开源社区,其中著名的有 Hadoop、 Storm,以及后来的 Spark,他们都有着各自专注的应用场景。Spark 掀开了内 存计算的先河,也以内存为赌注,赢得了内存计算的飞速发展。Spark 的火热或 多或少的掩盖了其他分布式计算的系统身影。就像 Flink,也就在这个时候默默 的发展着。
在国外一些社区,有很多人将大数据的计算引擎分成了 4 代,当然,也有很多 人不会认同。我们先姑且这么认为和讨论。
首先第一代的计算引擎,无疑就是 Hadoop 承载的 MapReduce。这里大家应该都 不会对 MapReduce 陌生,它将计算分为两个阶段,分别为 Map 和 Reduce。对 于上层应用来说,就不得不想方设法去拆分算法,甚至于不得不在上层应用实现 多个 Job 的串联,以完成一个完整的算法,例如迭代计算。
由于这样的弊端,催生了支持 DAG 框架的产生。因此,支持 DAG 的框架被划分 为第二代计算引擎。如 Tez 以及更上层的 Oozie。这里我们不去细究各种 DAG 实现之间的区别,不过对于当时的 Tez 和 Oozie 来说,大多还是批处理的任务。 接下来就是以 Spark 为代表的第三代的计算引擎。第三代计算引擎的特点主要 是 Job 内部的 DAG 支持(不跨越 Job),以及强调的实时计算。在这里,很多 人也会认为第三代计算引擎也能够很好的运行批处理的 Job。
随着第三代计算引擎的出现,促进了上层应用快速发展,例如各种迭代计算的性 能以及对流计算和 SQL 等的支持。Flink 的诞生就被归在了第四代。这应该主 要表现在 Flink 对流计算的支持,以及更一步的实时性上面。当然 Flink 也可 以支持 Batch 的任务,以及 DAG 的运算。
总结:
第 1 代: Hadoop MapReduc 批处理 Mapper、Reducer 2;
第 2 代: DAG 框架(Oozie 、Tez),Tez + MapReduce 批处理 1 个 Tez = MR(1) + MR(2) + … + MR(n) 相比 MR 效率有所提升;
第 3 代: Spark 批处理、流处理、SQL 高层 API 支持 自带 DAG 内存迭代计 算、性能较之前大幅提;
第 4 代: Flink 批处理、流处理、SQL 高层 API 支持 自带 DAG 流式计算性 能更高、可靠性更高。
Flink 起源于 Stratosphere 项目,Stratosphere 是在 2010~2014 年由 3 所 地处柏林的大学和欧洲的一些其他的大学共同进行的研究项目,2014 年 4 月 Stratosphere 的代码被复制并捐赠给了 Apache 软件基金会,参加这个孵化项 目的初始成员是 Stratosphere 系统的核心开发人员,2014 年 12 月,Flink 一 跃成为 Apache 软件基金会的顶级项目。
在德语中,Flink 一词表示快速和灵巧,项目采用一只松鼠的彩色图案作为 logo, 这不仅是因为松鼠具有快速和灵巧的特点,还因为柏林的松鼠有一种迷人的红棕 色,而 Flink 的松鼠 logo 拥有可爱的尾巴,尾巴的颜色与 Apache 软件基金 会的 logo 颜色相呼应,也就是说,这是一只 Apache 风格的松鼠。
Flink 主页在其顶部展示了该项目的理念:“Apache Flink 是为分布式、高性能、 随时可用以及准确的流处理应用程序打造的开源流处理框架”。 Apache Flink 是一个框架和分布式处理引擎,用于对无界和有界数据流进行有 状态计算。Flink 被设计在所有常见的集群环境中运行,以内存执行速度和任意 规模来执行计算。
1 支持高吞吐、低延迟、高性能的流处理
2. 支持带有事件时间的窗口(Window) *** 作
3. 支持有状态计算的 Exactly-once 语义
4. 支持高度灵活的窗口(Window) *** 作,支持基于 time、count、session, 以及 data-driven 的窗口 *** 作
5. 支持具有 Backpressure 功能的持续流模型
6. 支持基于轻量级分布式快照(Snapshot)实现的容错
7. 一个运行时同时支持 Batch on Streaming 处理和 Streaming 处理
8. Flink 在 JVM 内部实现了自己的内存管理
9. 支持迭代计算
10.支持程序自动优化:避免特定情况下 Shuffle、排序等昂贵 *** 作,中间结 果有必要进行缓存
Flink 之所以能这么流行,离不开它最重要的四个基石:Checkpoint、State、 Time、Window。
首先是 Checkpoint 机制,这是 Flink 最重要的一个特性。Flink 基于 Chandy-Lamport 算法实现了一个分布式的一致性的快照,从而提供了一致性的 语义。Chandy-Lamport 算法实际上在 1985 年的时候已经被提出来,但并没有 被很广泛的应用,而 Flink 则把这个算法发扬光大了。
Spark 最近在实现 Continue streaming,Continue streaming 的目的是为了降低它处理的延时,其也需要提供这种一致性的语义,最终采用 Chandy-Lamport 这个算法,说明 Chandy-Lamport 算法在业界得到了一定的肯定。
提供了一致性的语义之后,Flink 为了让用户在编程时能够更轻松、更容易地去 管理状态,还提供了一套非常简单明了的 State API,包括里面的有 ValueState、 ListState、MapState,近期添加了 BroadcastState,使用 State API 能够自 动享受到这种一致性的语义。
除此之外,Flink 还实现了 Watermark 的机制,能够支持基于事件的时间的处理,或者说基于系统时间的处理,能够容忍数据的延时、容忍数据的迟到、容忍乱序的数据。
另外流计算中一般在对流数据进行 *** 作之前都会先进行开窗,即基于一个什么样 的窗口上做这个计算。Flink 提供了开箱即用的各种窗口,比如滑动窗口、滚动窗口、会话窗口以及非常灵活的自定义的窗口。
批处理的特点是有界、持久、大量,批处理非常适合需要访问全套记录才能完成的计算工作,一般用于离线统计。流处理的特点是无界、实时,流处理方式无需针对整个数据集执行 *** 作,而是对通过系统传输的每个数据项执行 *** 作,一般用于实时统计。 在 Spark 生态体系中,对于批处理和流处理采用了不同的技术框架,批处理由 SparkSQL 实现,流处理由 Spark Streaming 实现,这也是大部分框架采用的策略,使用独立的处理器实现批处理和流处理,而 Flink 可以同时实现批处理和流处理。 Flink 是如何同时实现批处理与流处理的呢?答案是,Flink 将批处理(即处理 有限的静态数据)视作一种特殊的流处理。 Flink 的核心计算架构是下图中的 Flink Runtime 执行引擎,它是一个分布式 系统,能够接受数据流程序并在一台或多台机器上以容错方式执行。 Flink Runtime 执行引擎可以作为 YARN(Yet Another Resource Negotiator) 的应用程序在集群上运行,也可以在 Mesos 集群上运行,还可以在单机上运行 (这对于调试 Flink 应用程序来说非常有用)。
上图为 Flink 技术栈的核心组成部分,值得一提的是,Flink 分别提供了面向 流式处理的接口(DataStream API)和面向批处理的接口(DataSet API)。因此, Flink 既可以完成流处理,也可以完成批处理。Flink 支持的拓展库涉及机器学 习(FlinkML)、复杂事件处理(CEP)、以及图计算(Gelly),还有分别针对 流处理和批处理的 Table API
能被 Flink Runtime 执行引擎接受的程序很强大,但是这样的程序有着冗长的 代码,编写起来也很费力,基于这个原因,Flink 提供了封装在 Runtime 执行引擎之上的 API,以帮助用户方便地生成流式计算程序。Flink 提供了用于流处 理的 DataStream API 和用于批处理的 DataSet API。值得注意的是,尽管 Flink Runtime 执行引擎是基于流处理的,但是 DataSet API 先于 DataStream API 被 开发出来,这是因为工业界对无限流处理的需求在 Flink 诞生之初并不大。 DataStream API 可以流畅地分析无限数据流,并且可以用 Java 或者 Scala 等来 实现。开发人员需要基于一个叫 DataStream 的数据结构来开发,这个数据结构 用于表示永不停止的分布式数据流。
Flink 的分布式特点体现在它能够在成百上千台机器上运行,它将大型的计算任 务分成许多小的部分,每个机器执行一部分。Flink 能够自动地确保发生机器故障或者其他错误时计算能够持续进行,或者在修复bug 或进行版本升级后有计划地再执行一次。这种能力使得开发人员不需要担心运行失败。Flink本质上使用容错性数据流,这使得开发人员可以分析持续生成且永远不结束的数据(即流 处理)。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)