hadoop作用_随笔_内存溢出

1.hadoop有三个主要的核心组件：HDFS（分布式文件存储）、MAPREDUCE（分布式的计算）、YARN（资源调度），现在云计算包括大数据和虚拟化进行支撑。在HADOOP（hdfs、MAPREDUCE、yarn）大数据处理技术框架，擅长离线数据分析.Zookeeper 分布式协调服务基础组件，Hbase 分布式海量数据库，离线分析和在线业务处理。Hive sql 数据仓库工具，使用方便，功能丰富，基于MR延迟大，可以方便对数据的分析，并且数据的处理可以自定义方法进行 *** 作，简单方便。Sqoop数据导入导出工具，将数据从数据导入Hive，将Hive导入数据库等 *** 作。Flume数据采集框架，可以从多种源读取数据。Azkaban对 *** 作进行管理，比如定时脚本执行，有图形化界面，上传job简单，只需要将脚本打成bao，可直接上传。2.hadoop的可以做离散日志分析，一般流程是:将web中的数据取过来【通过flume】，然后通过预处理【mapreduce,一般只是使用map就可以了】，就是将数据中没有用处的数据去除掉，将数据转换【比如说时间的格式，Agent的组合】，并将数据进行处理之后以固定格式输出，由Hive处理，Hive是作用是将数据转换出一个表，RTL就是写SQL的一个过程，将数据进行分析，然后将数据报表统计，这个时候使用的是pig数据分析【hive一般作为库，pig做分析，我没有使用pig，因为感觉还没有hive的HQL处理方便】，最后将含金量最大的数据放入到mysql中，然后将mysql中的数据变为可视图化的工具。推荐的使用：当我们浏览一各网页的时候，将数据的值值传递给后台保存到log中，后台将数据收集起来，hadoop中的fiume可以将数据拿到放入到HDFS中，原始的数据进行预处理，然后使用HIVE将数据变为表，进行数据的分析，将有价值的数据放入到mysql，作为推荐使用，这个一般是商城，数据的来源也是可以通过多种方式的，比如说隐形图片、js、日志等都可以作为采集数据的来源。3.hadoop中的HDFS有两个重要的角色：NameNode、datanode，Yarn有两个主要的主角：ResourceManager和nodeManager.4.分布式：使用多个节点协同完成一项或者多项业务功能的系统叫做分布式系统，分布式一般使用多个节点组成，包括主节点和从节点，进行分析5.mapreduce：是使用较少的代码，完成对海量数据的处理，比如wordCount，统计单词的个数。实现思想：将单词一个一个的遍历，然后将单词加1处理，但是这是集群，那么就每个节点计算自己节点的数据，然后最后交给一个统计的程序完成就可以了，最后将单词和结果输出。

一、flume配置

1、kafka.conf

#name

a1.sources = r1

a1.channels = c1

a1.sinks = k1

#source

a1.sources.r1.type = netcat

a1.sources.r1.bind = localhost

a1.sources.r1.port = 44444

#channel

a1.channels.c1.type = memory

a1.channels.c1.capacity = 1000

a1.channels.c1.transactionCapacity = 100

#sink

a1.sinks.k1.type = org.apache.flume.sink.kafka.KafkaSink

a1.sinks.k1.kafka.topic = first

a1.sinks.k1.kafka.bootstrap.servers = hadoop102:9092,hadoop103:9092,hadoop104:9092

a1.sinks.k1.kafka.flumeBatchSize = 20

a1.sinks.k1.kafka.producer.acks = 1

a1.sinks.k1.kafka.producer.linger.ms = 1

#a1.sinks.k1.kafka.producer.compression.type = snappy

#bing

a1.sources.r1.channels = c1

a1.sinks.k1.channel = c1

二、日志采集范例

1、日志目录->kafka集群

#每个组件命名

a1.sources = r1

a1.channels = c1

#配置source

a1.sources.r1.type = TAILDIR

a1.sources.r1.filegroups = f1

a1.sources.r1.filegroups.f1 = /opt/module/applog/log/app.*

a1.sources.r1.positionFile = /opt/module/flume-1.9.0/taildir_position.json

#source拦截器

a1.sources.r1.interceptors = i1

a1.sources.r1.interceptors.i1.type = com.ln.gmall.flume.interceptor.LogInterceptor$Builder

#配置channel

a1.channels.c1.type = org.apache.flume.channel.kafka.KafkaChannel

a1.channels.c1.kafka.bootstrap.servers = hadoop102:9092,hadoop103:9092

a1.channels.c1.kafka.topic = topic_log

a1.channels.c1.parseAsFlumeEvent = false

#绑定sink与channel和source与channel关系

a1.sources.r1.channels = c1

2、kafka集群到hdfs

kafka source ->file channel ->hdfs sink

a1.sources = r1

a1.channels = c1

a1.sinks = k1

#source

a1.sources.r1.type = org.apache.flume.source.kafka.KafkaSource

a1.sources.r1.kafka.bootstrap.servers = hadoop102:9092,hadoop103:9092,hadoop104:9092

a1.sources.r1.kafka.topics = topic_log

a1.sources.r1.batchSize = 5000

a1.sources.r1.batchDurationMillis = 2000

a1.sources.r1.interceptors = i1

a1.sources.r1.interceptors.i1.type = com.ln.gmall.flume.interceptor.TimestampInterceptor$Builder

#channel

a1.channels.c1.type = file

a1.channels.c1.checkpointDir = /opt/module/flume-1.9.0/checkpoint/behavior1

a1.channels.c1.dataDirs = /opt/module/flume-1.9.0/data/behavior1

a1.channels.c1.maxFileSize = 2146435071

a1.channels.c1.capacity = 1000000

a1.channels.c1.keep-alive = 6

#sink

a1.sinks.k1.type = hdfs

a1.sinks.k1.hdfs.path = /origin_data/gmall/log/topic_log/%Y-%m-%d

a1.sinks.k1.hdfs.filePrefix = log-

a1.sinks.k1.hdfs.round = false

a1.sinks.k1.hdfs.rollInterval = 10

a1.sinks.k1.hdfs.rollSize = 134217728

a1.sinks.k1.hdfs.rollCount = 0

a1.sinks.k1.hdfs.fileType = CompressedStream

a1.sinks.k1.hdfs.codeC = lzop

#绑定

a1.sources.r1.channels = c1

a1.sinks.k1.channel = c1

首先我们要了解Java语言和Linux *** 作系统，这两个是学习大数据的基础，学习的顺序不分前后。

大数据

Java ：只要了解一些基础即可，做大数据不需要很深的Java 技术，学java SE 就相当于有学习大数据基础。

Linux：因为大数据相关软件都是在Linux上运行的，所以Linux要学习的扎实一些，学好Linux对你快速掌握大数据相关技术会有很大的帮助，能让你更好的理解hadoop、hive、hbase、spark等大数据软件的运行环境和网络环境配置，能少踩很多坑，学会shell就能看懂脚本这样能更容易理解和配置大数据集群。还能让你对以后新出的大数据技术学习起来更快。

Hadoop：这是现在流行的大数据处理平台几乎已经成为大数据的代名词，所以这个是必学的。Hadoop里面包括几个组件HDFS、MapReduce和YARN，HDFS是存储数据的地方就像我们电脑的硬盘一样文件都存储在这个上面，MapReduce是对数据进行处理计算的，它有个特点就是不管多大的数据只要给它时间它就能把数据跑完，但是时间可能不是很快所以它叫数据的批处理。

Zookeeper：这是个万金油，安装Hadoop的HA的时候就会用到它，以后的Hbase也会用到它。它一般用来存放一些相互协作的信息，这些信息比较小一般不会超过1M，都是使用它的软件对它有依赖，对于我们个人来讲只需要把它安装正确，让它正常的run起来就可以了。

Mysql：我们学习完大数据的处理了，接下来学习学习小数据的处理工具mysql数据库，因为一会装hive的时候要用到，mysql需要掌握到什么层度那?你能在Linux上把它安装好，运行起来，会配置简单的权限，修改root的密码，创建数据库。这里主要的是学习SQL的语法，因为hive的语法和这个非常相似。

Sqoop：这个是用于把Mysql里的数据导入到Hadoop里的。当然你也可以不用这个，直接把Mysql数据表导出成文件再放到HDFS上也是一样的，当然生产环境中使用要注意Mysql的压力。

Hive：这个东西对于会SQL语法的来说就是神器，它能让你处理大数据变的很简单，不会再费劲的编写MapReduce程序。有的人说Pig那?它和Pig差不多掌握一个就可以了。

Oozie：既然学会Hive了，我相信你一定需要这个东西，它可以帮你管理你的Hive或者MapReduce、Spark脚本，还能检查你的程序是否执行正确，出错了给你发报警并能帮你重试程序，最重要的是还能帮你配置任务的依赖关系。我相信你一定会喜欢上它的，不然你看着那一大堆脚本，和密密麻麻的crond是不是有种想屎的感觉。

Hbase：这是Hadoop生态体系中的NOSQL数据库，他的数据是按照key和value的形式存储的并且key是唯一的，所以它能用来做数据的排重，它与MYSQL相比能存储的数据量大很多。所以他常被用于大数据处理完成之后的存储目的地。

Kafka：这是个比较好用的队列工具，队列是干吗的?排队买票你知道不?数据多了同样也需要排队处理，这样与你协作的其它同学不会叫起来，你干吗给我这么多的数据(比如好几百G的文件)我怎么处理得过来，你别怪他因为他不是搞大数据的，你可以跟他讲我把数据放在队列里你使用的时候一个个拿，这样他就不在抱怨了马上灰流流的去优化他的程序去了，因为处理不过来就是他的事情。而不是你给的问题。当然我们也可以利用这个工具来做线上实时数据的入库或入HDFS，这时你可以与一个叫Flume的工具配合使用，它是专门用来提供对数据进行简单处理，并写到各种数据接受方(比如Kafka)的。

Spark：它是用来弥补基于MapReduce处理数据速度上的缺点，它的特点是把数据装载到内存中计算而不是去读慢的要死进化还特别慢的硬盘。特别适合做迭代运算，所以算法流们特别稀饭它。它是用scala编写的。Java语言或者Scala都可以 *** 作它，因为它们都是用JVM的。

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/zaji/8507871.html

hadoop作用

发表评论

评论列表（0条）