hbase 的数据 怎么导出到 一个文件或者mysql里面

hbase 的数据 怎么导出到 一个文件或者mysql里面,第1张

数据导入HBase中有如下几种方式:

使用HBase的API中的Put方法

使用HBase 的bulk load 工具

使用定制的MapReduce Job方式

使用HBase的API中的Put是最直接的方法,用法也很容易学习。但针对大部分情况,它并非都是最高效的方式。当需要将海量数据在规定时间内载入HBase中时,效率问题体现得尤为明显。待处理的数据量一般都是巨大的,这也许是为何我们选择了HBase而不是其他数据库的原因。在项目开始之前,你就该思考如何将所有能够很好的将数据转移进HBase,否则之后可能面临严重的性能问题。

HBase有一个名为 bulk load的功能支持将海量数据高效地装载入HBase中。Bulk load是通过一个MapReduce Job来实现的,通过Job直接生成一个HBase的内部HFile格式文件来形成一个特殊的HBase数据表,然后直接将数据文件加载到运行的集群中。使用bulk load功能最简单的方式就是使用importtsv 工具。importtsv 是从TSV文件直接加载内容至HBase的一个内置工具。它通过运行一个MapReduce Job,将数据从TSV文件中直接写入HBase的表或者写入一个HBase的自有格式数据文件。

尽管importtsv 工具在需要将文本数据导入HBase的时候十分有用,但是有一些情况,比如导入其他格式的数据,你会希望使用编程来生成数据,而MapReduce是处理海量数据最有效的方式。这可能也是HBase中加载海量数据唯一最可行的方法了。当然我们可以使用MapReduce向HBase导入数据,但海量的数据集会使得MapReduce Job也变得很繁重。若处理不当,则可能使得MapReduce的job运行时的吞吐量很小。

在HBase中数据合并是一项频繁执行写 *** 作任务,除非我们能够生成HBase的内部数据文件,并且直接加载。这样尽管HBase的写入速度一直很快,但是若合并过程没有合适的配置,也有可能造成写 *** 作时常被阻塞。写 *** 作很重的任务可能引起的另一个问题就是将数据写入了相同的族群服务器(region server),这种情况常出现在将海量数据导入到一个新建的HBase中。一旦数据集中在相同的服务器,整个集群就变得不平衡,并且写速度会显著的降低。我们将会在本文中致力于解决这些问题。我们将从一个简单的任务开始,使用API中的Put方法将MySQL中的数据导入HBase。接着我们会描述如何使用 importtsv 和 bulk load将TSV数据文件导入HBase。我们也会有一个MapReduce样例展示如何使用其他数据文件格式来导入数据。上述方式都包括将数据直接写入HBase中,以及在HDFS中直接写入HFile类型文件。本文中最后一节解释在向HBase导入数据之前如何构建好集群。本文代码均是以Java编写,我们假设您具有基本Java知识,所以我们将略过如何编译与打包文中的Java示例代码,但我们会在示例源码中进行注释。

1、 在plsql的sql windows 用

select 'comment on column '||table_name||'.'||column_name||' is '''||comments||''''

from dba_col_comments t where t.owner = 'test1'

把查询的结果保存保存为tsv格式

2、 对应的用户以sqlplus连接到另外的数据库中,执行需要导入的tsv文件,

例: SQL>@C:/result.tsv

方法/步骤

1

首先我们使用sqlyogent工具,连接到mysql数据库。

2

连接成功后在左侧的目录位置,找到需要的表,右键打开表

3

也可以直接在sql执行器中输入:

select

*

from

datetable

name

打开这个表

4

在sql执行器的下方,结果下方,最左侧的位置,如下图,有一个小图标,鼠标移动上面会浮出文字“导出为....”点击这个图标

5

点击后会d出一个名为“导出为”的d出窗口,选择需要导出的文件格式:如csv、html、xnl等,在右侧选择导出的字段

6

在界面的最下方有一个输入框,框中是程序默认的一个导出的路径,也可以点击路径旁的按钮,进行自定义导出文件路径。

7

最后点击【导出】按钮,点击后会有一个小的提示窗,提示信息为“date

exporet

successfully”点击【确定】按钮,完成导出 *** 作

8

最后就是在导出目录中找到导出的文件,查看导出是否成功。

9

这里需要注意一下,csv格式的文件,如果用excel打开会出现乱码,因为编码不同,如果使用txt打开则不会有这样的问题。

end

方法/步骤2

1

在方法步骤1中第二个步骤也可以选择,备份导出,这样也能够导出数据,但是这种数据由于没有进行sql的筛选,导出的是整张表的数据,读者需要注意一下。


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/sjk/10029917.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-04
下一篇 2023-05-04

发表评论

登录后才能评论

评论列表(0条)

保存