在大数据系统的开发中,数据收集工作无疑是开发者首要解决的一个难题,但由于生产数据的源头丰富多样,其中包含网站日志数据、后台监控数据、用户浏览网页数据等,数据工程师要想将它们分门别类的采集到HDFS系统中,就可以使用Apache Flume(数据采集)系统。
Flume运行机制
Flume的核心是把数据从数据源(例如Web服务器)通过数据采集器(Source)收集过来,再将收集的数据通过缓冲通道(Channel)汇集到指定的接收器(Sink)。
Flume基本架构中有一个Agent(代理),它是Flume的核心角色,Flume Agent是一个JVM进程,它承载着数据从外部源流向下一个目标的三个核心组件: Source、Channel和Sink。
Flume 结构图
Flume Sources
Flume 安装配置
解压到wsevers下
tar -zxvf apache-flume-1.9.0-bin.tar.gz -C /export/servers/
配置全局
1 先conf同级目录创建一个logs目录,
2 进入conf 目录,修改log4j 文件log日志存位置
将netcat-logger.conf 上传到conf文件夹下
完成这个实验需要telnet
将 xinetd telnet telnet server 这三个安装包上传到software文件夹
安装这三个软件
rpm -ivh telnet-0.17-47.el6_3.1.x86_64.rpm telnet-server-0.17-47.el6_3.1.x86_64.rpm xinetd-2.3.14-39.el6_4.x86_64.rpm
cd 到 flume的根目录下执行这个命令
bin/flume-ng agent -c ./conf -f ./conf/netcat-logger.conf -n a1 -Dflume.root.logger=INFO,console
此时当前会话进入等待,复制一个会话。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)