【简单的记录】【Flink旅途 01】Flink简介
warning:博文包含大量个人的吐槽和心理描述,已用区域进行标识,不喜可直接忽略这部分,直接查找答案
Flink的一章,主要用途如下:
- 调研新技术,对比技术之间的区别
- 此技术使用与你,你公司的益处
- 给不懂的人介绍时如何显得专业(doge)
解:os: 经典问题哈,经常我们学了flink之后,可能某个下午,你同事问你用的什么技术,你说flink,这个时候同事就会问你,什么是flink 呀,到了你吹牛的时候,这时候说什么可以显得我们专业呢。嘿嘿
Flink 是一个框架和分布式处理引擎,用于对无界和有界数
据流进行状态计算
问题2:为什么选择Flink?os: 这里的加粗先不再进行深入解释,我想如果你学完了flink,这些词的拓展知识应该大家都懂的,#TODO 后续拓展。
解:os: 技术选择时,大家会问这个问题,面试的时候,面试官有时候也会问这个问题吧。
- 低延迟
- 高吞吐
- 结果的准确性和良好的容错性
os: 这种没有数字和深入解释,很空洞,一般不能说服别人,除非别人不再深究,#TODO 后续添加具体的数据对比和特点的深入。
那些场景下适合使用flink:
os: 这个问题也是我经常会考虑的,当前的业务需求,是否满足flink的使用呢。
- 电商-市场营销 : 数据报表,广告投放
- 物联网 :传感器实时数据采集和显示,实时报警
- 电信:基站流量调配
- 银行-金融业 :实时结算和通知推送,实时监测异常行为
问题3:Flink 对当前架构的影响os:这其中 电商与银行 两者属于纯软件,flink的接入比较好 *** 作, 物联网与电信 需要更细节的了解 #TODO
旧架构:
lambda 架构
os : 旧架构两条线路: 1.批处理 使用技术(hive) 2.流处理 使用技术(spark)
新架构:
因为flink实现了流批一体,新架构大概率是去掉了离线批处理的部分
具体架构 #TODO
1.Flink 分层API 分为三层: SQL API ,DataStream API , ProcessFunction
2.越上层使用越方便,越不灵活。
3.越下层使用越困难,越灵活
os: Flink SQL类似于hive SQL 使用比较简单,DataStream API 和ProcessFunction 未使用,后续需要深入了解#TODO
Flink 的其他特点:
1.精确一次( exactly-once ) 的状态一致性保证
2.低延迟,每秒处理数百万个事件,毫秒级延迟
3.高可用,动态扩展,实时
4.支持事件时间(event-time)和处理时间(processing-time)语义
5.支持各种常用存储系统
问题5:技术对比os:
- 精确一次的概念需要十分明确,了解 #TODO
- 低延迟相对于其它技术的对比 #TODO
3.支持 的时间语义需要 了解和 书写模板(模板将新建博客进行专门记录)#TODO
4.与各种存储系统的对接模板 总结,记录 #TODO
Flink(流) 和 spark Streaming(微批)的区别
数据模型
– spark 采用 RDD 模型,spark streaming 的 DStream 实际上也就是一组 组小批
数据 RDD 的集合
– flink 基本数据模型是数据流,以及事件(Event)序列
os : 这里也就是说明了 flink 和 spark Streaming 的流和微批的区别,流就是最小单位,是事件(Event)也指单条数据,微批就是一个小批的数据(spark 中称为 RDD)
• 运行时架构
– spark 是批计算,将 DAG 划分为不同的 stage,一个完成后才可以计算下一个
– flink 是标准的流执行模式,一个事件在一个节点处理完后可以直接发往下一个节
点进行处理
os :这里就是计算的区别 和 上一条区别就是 上一条是 概念, 这里是数据计算的时机,
spark 是一个个stage 计算 Flink 是一个个event(也指单条数据) 进行执行。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)