hadoop是数据库技术吗_工具

Hadoop不是数据库技术。Hadoop是一个由Apache基金会所开发的分布式系统基础架构。

用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高速运算和存储。

Hadoop实现了一个分布式文件系统（Hadoop Distributed File System），简称HDFS。HDFS有高容错性的特点，并且设计用来部署在低廉的（low-cost）硬件上；而且它提供高吞吐量（high throughput）来访问应用程序的数据，适合那些有着超大数据集（large data set）的应用程序。HDFS放宽了（relax）POSIX的要求，可以以流的形式访问（streaming access）文件系统中的数据。

Hadoop的框架最核心的设计就是：HDFS和MapReduce。HDFS为海量的数据提供了存储，则MapReduce为海量的数据提供了计算。

hadoop计算需要在hdfs文件系统上进行，文件上传到hdfs上通常有三种方法：a hadoop自带的dfs服务，put；b hadoop的API，Writer对象可以实现这一功能；c 调用OTL可执行程序，数据从数据库直接进入hadoop

hadoop计算需要在hdfs文件系统上进行，因此每次计算之前必须把需要用到的文件(我们称为原始文件)都上传到hdfs上。文件上传到hdfs上通常有三种方法：

a hadoop自带的dfs服务，put；

b hadoop的API，Writer对象可以实现这一功能；

c 调用OTL可执行程序，数据从数据库直接进入hadoop

由于存在ETL层，因此第三种方案不予考虑

将a、b方案进行对比，如下：

1 空间：方案a在hdfs上占用空间同本地，因此假设只上传日志文件，则保存一个月日志文件将消耗掉约10T空间，如果加上这期间的各种维表、事实表，将占用大约25T空间

方案b经测试，压缩比大约为3~4:1，因此假设hdfs空间为100T，原来只能保存约4个月的数据，现在可以保存约1年

2 上传时间：方案a的上传时间经测试，200G数据上传约1小时

方案b的上传时间，程序不做任何优化，大约是以上的4~6倍，但存在一定程度提升速度的余地

3 运算时间：经过对200G数据，大约4亿条记录的测试，如果程序以IO *** 作为主，则压缩数据的计算可以提高大约50%的速度，但如果程序以内存 *** 作为主，则只能提高5%~10%的速度

4 其它：未压缩的数据还有一个好处是可以直接在hdfs上查看原始数据。压缩数据想看原始数据只能用程序把它导到本地，或者利用本地备份数据

压缩格式：按照hadoop api的介绍，压缩格式分两种：BLOCK和RECORD,其中RECORD是只对value进行压缩，一般采用BLOCK进行压缩。

对压缩文件进行计算，需要用SequenceFileInputFormat类来读入压缩文件，以下是计算程序的典型配置代码：

JobConf conf = new JobConf(getConf(), logclass);

confsetJobName(”log”);

confsetOutputKeyClass(Textclass);//set the map output key type

confsetOutputValueClass(Textclass);//set the map output value type

confsetMapperClass(MapClassclass);

//confsetCombinerClass(Reduceclass);//set the combiner class ,if havenot, use Recuce class for default

confsetReducerClass(Reduceclass);

confsetInputFormat(SequenceFileInputFormatclass);//necessary if use compress

接下来的处理与非压缩格式的处理一样

hadoop一般是应用于冷数据处理，对于实时数据，如果非要使用，可以变着方法使用。

方法一：在hadoop上使用hbase数据库，以为hbase是不走Map/Reduce的，所以 *** 作在毫秒级。

方法二：将业务数据用程序分成实时数据和冷数据，实时数据存于关系数据库，冷数据存到hadoop。比如：将最近一个月的数据存到关系数据库，用做实时响应业务处理。将一个月以前的数据存到hadoop，用作历史数据查询以及统计分析，数据挖掘等。

hadoop的hdfs支持海量数据量存储 mapreduce支持对海量数据的分布式处理\x0d\oracle虽然可以搭建集群但是当数据量达到一定限度之后查询处理速度会变得很慢且对机器性能要求很高\x0d\其实这两个东西不是同类 hadoop是一个分布式云处理架构，倾向于数据计算而oracle是一个关系型数据库，倾向于数据存储。要说比较可以比较hbase与oracle。\x0d\hbase是一种nosql数据库，列式数据库，支持海量数据存储，支持列的扩展，但是查询 *** 作较复杂，不如oracle这类关系型数据库简单，且只支持一个索引，但是Hbase在表结构设置合理情况下，查询速度跟数据量大小没有太大关系，即数据量的大小不会影响到查询速度，顺便说句Hbase查询速度可以达到ms级

框架本身提供一个DBInputFormat。支持MySql和PostgreSQL（需要自己提供驱动jar包）。

需要使用其他数据库可以自己实现相应的InputFormat；实现起来也不难参照DBInputFormat即可。只要将拼接的sql语句改成适用的语法即可。

以上就是关于hadoop是数据库技术吗全部的内容，包括:hadoop是数据库技术吗、如何实现让用户在网页中上传下载文件到HDFS中、hadoop可以用mysql作为数据库吗等相关内容解答，如果想了解更多相关内容，可以关注我们，你们的支持是我们更新的动力！

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/sjk/9507524.html

hadoop是数据库技术吗

发表评论

评论列表（0条）