【大数据面经系列】大数据开发(实时计算方向)面试题(一)

【大数据面经系列】大数据开发(实时计算方向)面试题(一),第1张

【大数据面经系列】大数据开发(实时计算方向)面试题(一) 得物

一面

    自我介绍实时数仓相关项目介绍flink集群规模与版本多流join有哪些?connect原理与实现flink状态后端有哪些?FSMemory和RocksDBstate有什么区别?flink反压机制如何检测和解决?多个算子的单一算子链如何检测反压?kafka ack机制 kafka rebalance

二面

    自我介绍实时模型特征值工程介绍?重点项目介绍频繁查询维表如何处理?频繁update 外存如何处理?端到端的一致性保证sink到kafka中的一致性保证?kafka二阶段提交机制?sink到hdfs如何保证一致性?checkpoint机制与过程实际中遇到的问题 flink kafka connector kafka什么情况下会丢失数据java 垃圾回收javatransient、 volatile关键字,java多线程?checkpoint恢复过程?修改并行度后如何恢复?
欢乐互娱

一面

    自我介绍如何实现漏斗分析模型(clickhouse)clickhouse视图cdh相关 presto+clickhouse
soul

一面

    自我介绍实时数仓项目相关特征值与指标计算相关

二面

    自我介绍数据量峰值,性能 最复杂场景的特征值计算场景:统计用户最近1天、最近7天、最近30天内的登录设备与ip数(需去重)大数据量场景下遇到什么问题(举例:个别用户短信数量过大,导致按用户keyby后某些state过大,解决办法:根据userid+某个其他随机key组合进行keyby)任务一直处于checkpoint中怎么处理?多流join时某个流无数据该如何处理?窗口机制与工作原理?state ttl设置?rocksdb为何可以实现增量checkpoint 出现反压时, 如何从network buffer
    input/output等来分析定位反压源? flinksql savepoint
永辉

一面

    自我介绍项目相关flink checkpoint机制flink端到端一致性如何保证

二面

    自我介绍项目相关实时场景如何处理实时数仓建设相关
数禾

一面

    自我介绍flink 场景 select count(distinct(*))项目相关

二面

    flink端到端一致性保证flink任务重启时state如何重新分布特征变量开发相关场景

三面

    自我介绍工作中的角色工作中遇到的困难

欢迎分享,转载请注明来源:内存溢出

原文地址: https://outofmemory.cn/zaji/5715898.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-12-17
下一篇 2022-12-17

发表评论

登录后才能评论

评论列表(0条)

保存