大家好,是瓜哥,最近几年,大数据处理组件Flink非常火,作为一个从事多年java的老程序员,也得跟上时代的技步伐,不然迟早就会被这个技术千变万化的时代抛弃。
Flink 是一个针对流数据和批数据的分布式处理引擎,代码主要是由 Java 实现,部分代码是 Scala。它可以处理有界的批量数据集、也可以处理无界的实时数据集。对 Flink 而言,其所要处理的主要场景就是流数据,批数据只是流数据的一个极限特例而已,所以 Flink 也是一款真正的流批统一的计算引擎。
要想获取最新的学习资料,就需要到官网里面进行学习。这里面汇集了Flink各个迭代版本。今天咋们按照官网的文档资料来进行Flink项目的部署和第一个Helloword程序运行。
首先登陆官网:Apache Flink: Stateful Computations over Data Streams
当前最新flink版本为Flink 1.14,点击进入如下目录:
然后进入如下文档页面:
为了运行Flink,只需提前安装好 Java 8 或者 Java 11。你可以通过以下命令来检查 Java 是否已经安装正确。
java -version
下载Flink相关安装包:Apache Downloads
进入linux安装目录:
执行wget命令下载安装包,如下图:
$ tar -xzf flink-1.14.0-bin-scala_2.12.tgz $ cd flink-1.14.0-bin-scala_2.12.tgz步骤 2:启动集群
Flink 附带了一个 bash 脚本,可以用于启动本地集群。
$ ./bin/start-cluster.sh Starting cluster. Starting standalonesession daemon on host. Starting taskexecutor daemon on host.
启动截图如下:
步骤 3: 访问WebUI
本人用的国产的深度系统Deppin,通过命令ifconfig查看IP地址如下:
Flink启动成以后在浏览器中登录如下地址:http://192.168.0.128:8081/#/overview
步骤 4:提交作业(Job)
Flink 的 Releases 附带了许多的示例作业。你可以任意选择一个,快速部署到已运行的集群上。
$ ./bin/flink run examples/streaming/WordCount.jar $ tail log/flink-*-taskexecutor-*.out
另外,你可以通过 Flink 的 Web UI 来监视集群的状态和正在运行的作业。
执行结果如下:
完成后,你可以快速停止集群和所有正在运行的组件。
$ ./bin/stop-cluster.sh
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)