【简单的记录】【Flink旅途 01】Flink简介_随笔

【简单的记录】【Flink旅途 01】Flink简介

warning:

博文包含大量个人的吐槽和心理描述，已用区域进行标识，不喜可直接忽略这部分，直接查找答案

Flink的一章，主要用途如下：

问题1：Flink是什么？

os: 经典问题哈，经常我们学了flink之后，可能某个下午，你同事问你用的什么技术，你说flink，这个时候同事就会问你，什么是flink 呀，到了你吹牛的时候，这时候说什么可以显得我们专业呢。嘿嘿

解：

Flink 是一个框架和分布式处理引擎，用于对无界和有界数
据流进行状态计算

os: 这里的加粗先不再进行深入解释，我想如果你学完了flink，这些词的拓展知识应该大家都懂的,#TODO 后续拓展。

问题2：为什么选择Flink？

os: 技术选择时，大家会问这个问题，面试的时候，面试官有时候也会问这个问题吧。

解：

os: 这种没有数字和深入解释，很空洞，一般不能说服别人，除非别人不再深究，#TODO 后续添加具体的数据对比和特点的深入。

那些场景下适合使用flink：

os: 这个问题也是我经常会考虑的，当前的业务需求，是否满足flink的使用呢。

os:这其中电商与银行两者属于纯软件，flink的接入比较好 *** 作，物联网与电信需要更细节的了解 #TODO

问题3：Flink 对当前架构的影响

旧架构：
lambda 架构

os : 旧架构两条线路： 1.批处理使用技术（hive） 2.流处理使用技术（spark）

新架构：
因为flink实现了流批一体，新架构大概率是去掉了离线批处理的部分
具体架构 #TODO

问题4：Fink的分层API

1.Flink 分层API 分为三层： SQL API ，DataStream API ， ProcessFunction
2.越上层使用越方便，越不灵活。
3.越下层使用越困难，越灵活

os: Flink SQL类似于hive SQL 使用比较简单，DataStream API 和ProcessFunction 未使用，后续需要深入了解#TODO

Flink 的其他特点：
1.精确一次( exactly-once ) 的状态一致性保证
2.低延迟，每秒处理数百万个事件，毫秒级延迟
3.高可用，动态扩展，实时
4.支持事件时间（event-time）和处理时间（processing-time）语义
5.支持各种常用存储系统

os:

精确一次的概念需要十分明确，了解 #TODO
低延迟相对于其它技术的对比 #TODO
3.支持的时间语义需要了解和书写模板（模板将新建博客进行专门记录）#TODO
4.与各种存储系统的对接模板总结，记录 #TODO

问题5：技术对比

Flink(流) 和 spark Streaming（微批）的区别

数据模型
– spark 采用 RDD 模型，spark streaming 的 DStream 实际上也就是一组组小批
数据 RDD 的集合
– flink 基本数据模型是数据流，以及事件（Event）序列

os : 这里也就是说明了 flink 和 spark Streaming 的流和微批的区别，流就是最小单位，是事件（Event）也指单条数据，微批就是一个小批的数据(spark 中称为 RDD)

• 运行时架构
– spark 是批计算，将 DAG 划分为不同的 stage，一个完成后才可以计算下一个
– flink 是标准的流执行模式，一个事件在一个节点处理完后可以直接发往下一个节
点进行处理

os :这里就是计算的区别和上一条区别就是上一条是概念，这里是数据计算的时机，
spark 是一个个stage 计算 Flink 是一个个event（也指单条数据）进行执行。

欢迎分享，转载请注明来源：内存溢出

【简单的记录】【Flink旅途 01】Flink简介