通过安全监控作业案例了解实时计算Flink版作业开发流程。
实时安全监控案例介绍实时监控报警作为保障数据安全的重要环节,受到越来越多的关注。为了保证同时满足数据的正确性和实效性,实时计算Flink版将流式数据源表和存放白名单的维度表进行实时JOIN,识别源表中数据对应的地址是否存在于白名单中,采取过滤等措施。
安全监控业务架构图-
DataHub源表结构
字段名 类型 注释 namevarchar名称 placevarchar地址 -
RDS维表结构
字段名 类型 注释 placevarchar白名单地址 -
RDS结果表结构
字段名 类型 注释 namevarchar过滤后的名称 placevarchar地址
- 开通服务和创建项目
- 搭建上下游存储
- 按步骤开发作业。
- 登录DataHub控制台。
- 在项目管理页面的顶部,选择项目区域。
- 单击页面右上角的创建Project。
- 在创建DataHub的Project窗口中,输入项目(Project)参数。
- 在项目列表,目标项目的 *** 作列下,单击查看。
- 单击右上角的创建Topic。
- 填写Topic参数信息。
说明 DataHub中的Topic类似于数据库中的表。
- 单击确认。
-
单击左侧导航栏中的数据采集。
-
单击文件上传。
-
在DataHub Project列表中,选择目标Topic,本示例为datahub_ipplace。
-
单击选择文件区域中的选择要上传的文件,选择测试数据。
-
单击点击开始上传文件。
在您创建的数据库下,创建rds_ipplace结果表,表格信息如下:
在您创建的数据库下,创建rds_dim维表。
在SQL Console中输入INSERT INTO rds_dim(place) values ('beijing');。
数据开发 创建作业-
登录实时计算控制台。
-
在页面顶部,单击开发。
-
单击新建作业。
-
在新建作业页面,输入作业配置信息。
作业参数 说明 文件名称作业的名称。(在当前项目中需保持唯一) 作业类型独享模式:支持Flink_STREAM/DATASTREAM和Flink_STREAM/SQL作业类型。 存储位置指定该作业的代码文件所属的文件夹。您还可以在现有文件夹右侧,单击图标,新建子文件夹。 -
单击确定。
-
注册引用源表数据
- 在开发页面的数据存储页签,双击DataHub 数据存储。
- 双击目标数据库名称。
- 双击datahub_ipplace 。
- 在数据表详情区域,单击作为输入表引用。
-
注册引用维表数据
- 在开发页面的数据存储页签,双击RDS数据存储。
- 双击目标数据库名称。
- 双击rds_dim 。
- 在数据表详情区域,单击作为维表引用。
-
注册引用结果表数据
- 在开发页面的数据存储页签,双击RDS数据存储。
- 双击目标数据库名称。
- 双击rds_ipplace 。
- 在数据表详情区域,单击作为结果表引用。
完成数据存储引用后,在作业编辑页面输入如下SQL代码,完成作业的开发。
insert into rds_ipplace select t.`name`, w.place from datahub_ipplace as t join rds_dim for system_time as of proctime() as w on t.place = w.place;作业调试
完成作业开发后,可进行本地调试。
作业上线上线作业 *** 作将您的改动提交到数据运维中。作业上线步骤如下:
- 登录实时计算控制台。
- 单击页面顶部的开发。
- 在开发页面左侧的作业开发页签中,双击目标作业。
- 单击作业编辑页面顶部的上线。
- 在上线新版本向导中,完成上线 *** 作。
注意 选择对应的资源配置方式。第1次启动建议使用系统默认配置。
完成作业上线后,您可在生产环境中进行作业启动等生产运维工作。
生产运维 作业启动步骤-
登录实时计算控制台。
-
单击页面顶部的运维。
-
在运维,单击目标作业 *** 作列下的启动。
-
在启动作业页面,单击指定数据读取数据时间(即指定启动位点)文本框。
- 指定读取数据时间(启动位点),单击确定,完成作业启动。
说明 启动位点表示从数据源表中读取数据的时间点:
- 选择当前时间:表示从当前时间开始读取数据。
- 选择历史时间:表示从历史时间点开始读取数据,通常用于回追历史数据。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)