Flume快速入门

Flume快速入门,第1张

Flume是开源日志系统。是一个分布式、可靠性和高可用的海量日志聚合系统,支持在系统中定制各类数据发送方,用于收集数据;同时,FLume提供对数据进行简单处理,并写到各种数据接收方(可定制)的能力。

Flume是流式日志采集工具,FLume提供对数据进行简单处理并且写到各种数据接收方(可定制)的能力,Flume提供从本地文件(spooling directory source)、实时日志(taildir、exec)、REST消息、Thift、Avro、Syslog、Kafka等数据源上收集数据的能力。

Flume是收集、聚合事件流数据的分布式框架。

Flume分布式系统中最核心的角色是 agent ,Flume采集系统就是由一个个agent所连接起来形成

每一个agent相当于一个数据传递员 ,内部有三个组件:

Source 到Channel 到Sink之间传递数据的形式是Event事件; Event事件是一个数据流单元 。

Flume基础架构:Flume可以单节点直接采集数据,主要应用于集群内数据。

Flume多agent架构:Flume可以将多个节点连接起来,将最初的数据源经过收集,存储到最终的存储系统中。主要应用于集群外的数据导入到集群内。

各组件具体介绍如下:

Source负责接收events或通过特殊机制产生events,并将events批量放到一个或多个Channels。有驱动和轮询2中类型的Source。

Source必须至少和一个channel关联。

Source的类型如下:

Channel位于Source和Sink之间,Channel的作用类似队列,用于临时缓存进来的events,当Sink成功地将events发送到下一跳的channel或最终目的,events从Channel移除。

不同的Channel提供的持久化水平也是不一样的:

Channels支持事物,提供较弱的顺序保证,可以连接任何数量的Source和Sink。

Sink负责将events传输到下一跳或最终目的,成功完成后将events从channel移除。

必须作用于一个确切的channel。

Sink类型:

Flume支持将集群外的日志文件采集并归档到HDFS、HBase、Kafka上,供上层应用对数据分析、清洗数据使用。

Flume支持将多个Flume级联起来,同时级联节点内部支持数据复制。

这个场景主要应用于:收集FusionInsight集群外上的节点上的日志,并通过多个Flume节点,最终汇聚到集群当中。

Flume级联节点之间的数据传输支持压缩和加密,提升数据传输效率和安全性。

在同一个Flume内部进行传输时,不需要加密,为进程内部的数据交换。

Source接收的数据量,Channel缓存的数据量,Sink写入的数据量,这些都可以通过Manager图形化界面呈现出来。

Flume在传输数据过程中,采用事物管理方式,保证数据传输过程中数据不会丢失,增强了数据传输的可靠性,同时缓存在channel中的数据如果采用了file channel,进程或者节点重启数据不会丢失。

Flume在传输数据过程中,如果下一跳的Flume节点故障或者数据接收异常时,可以自动切换到另外一路上继续传输。

Flume在传输数据过程中,可以见到的对数据简单过滤、清洗,可以去掉不关心的数据,同时如果需要对复杂的数据过滤,需要用户根据自己的数据特殊性,开发过滤插件,Flume支持第三方过滤插件调用

归类到子程序包里。

“大数据”是指以多元形式,自许多来源搜集而来的庞大数据组,往往具有实时性。在企业对企业销售的情况下,这些数据可能得自社交网络、电子商务网站、顾客来访纪录,还有许多其他来源。这些数据,并非公司顾客关系管理数据库的常态数据组。

1、离线搜集:

工具:ETL

在数据仓库的语境下,ETL基本上便是数据搜集的代表,包括数据的提取(Extract)、转换(Transform)和加载(Load)。在转换的过程中,需求针对具体的事务场景对数据进行治理,例如进行不合法数据监测与过滤、格式转换与数据规范化、数据替换、确保数据完整性等。

2、实时搜集:

工具:Flume/Kafka

实时搜集首要用在考虑流处理的事务场景,比方,用于记录数据源的履行的各种 *** 作活动,比方网络监控的流量办理、金融运用的股票记账和 web 服务器记录的用户访问行为。在流处理场景,数据搜集会成为Kafka的顾客,就像一个水坝一般将上游源源不断的数据拦截住,然后依据事务场景做对应的处理(例如去重、去噪、中心核算等),之后再写入到对应的数据存储中。

3、互联网搜集:

工具:Crawler, DPI等

Scribe是Facebook开发的数据(日志)搜集体系。又被称为网页蜘蛛,网络机器人,是一种按照一定的规矩,自动地抓取万维网信息的程序或者脚本,它支持图片、音频、视频等文件或附件的搜集。

除了网络中包含的内容之外,关于网络流量的搜集能够运用DPI或DFI等带宽办理技术进行处理。

4、其他数据搜集方法

关于企业生产经营数据上的客户数据,财务数据等保密性要求较高的数据,能够通过与数据技术服务商合作,运用特定体系接口等相关方式搜集数据。比方八度云核算的数企BDSaaS,无论是数据搜集技术、BI数据剖析,还是数据的安全性和保密性,都做得很好。


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/sjk/6671061.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-03-26
下一篇 2023-03-26

发表评论

登录后才能评论

评论列表(0条)

保存