sqoop：导出MySQL数据至Hive时，数据中包含01或n等字符_工具_内存溢出

数据中包含hive指定的列分隔符，如\001 或\t，那么在Hive中就会导致数据错位；如果数据中包含换行符\n，那么就会导致原先的一行数据，在Hive中变成了两行。

解决办法

在sqoop执行时，使用如下参数：

如：

楼主说的是Hive，不是HBase。从Oracle里面头导出数据为平面文件后，导入HDFS里面。Hive里面的表结构是要自己手工定的。

建表可以自己写个小程序实现，根据oracle字典表和hive的建表规则，每个地方使用hive的情景不同，建表也不同。数据装载可以用sqoop来实现。

你可以安装下SQOOP，注意这个跟HADOOP的版本要对应的，不然会出现一些问题。以下是我项目用到的例子，不过我有个更高级的方法，只需配到表就行了，就是写个JAVA程序，然后自动生成对应的脚本，再执行就可以了。转载，仅供参考。从数据库

导入。根据查询大禹数据平台相关信息得知，大禹数据平台导出数据来源要从从数据库导出，在大数据技术风靡起来前，关系型数据库(RDMS)是主要的数据分析与处理的途径。发展至今数据库技术已经相当完善，当大数据出现的时候，行业就在考虑能否把数据库数据处理的方法应用到大数据中，于是 Hive、Spark SQL 等大数据 SQL 产品就这样诞生。

如何用sqoop将hive分区表信息导入到mysql命令

直接导入hive表

sqoop import --connect jdbc:postgresql://ip/db_name--username user_name --table table_name --hive-import -m 5

内部执行实际分三部，1将数据导入hdfs（可在hdfs上找到相应目录），2创建hive表名相同的表，3，将hdfs上数据传入hive表中

sqoop根据postgresql表创建hive表

sqoop create-hive-table --connect jdbc:postgresql://ip/db_name --username user_name --table table_name --hive-table hive_table_name( --hive-partition-key partition_name若需要分区则加入分区名称)

导入hive已经创建好的表中

sqoop import --connect jdbc:postgresql://ip/db_name --username user_name --table table_name --hive-import -m 5 --hive-table hive_table_name (--hive-partition-key partition_name --hive-partition-value partititon_value);

使用query导入hive表

sqoop import --connect jdbc:postgresql://ip/db_name --username user_name --query "select , from retail_tb_order where \$CONDITIONS" --hive-import -m 5 --hive-table hive_table_name (--hive-partition-key partition_name --hive-partition-value partititon_value);

注意：$CONDITIONS条件必须有，query子句若用双引号，则$CONDITIONS需要使用\转义，若使用单引号，则不需要转义。

说明：hive 的表存放位置模式是由 hive-sitexml 当中的一个属性指定的，默认是存放在该配置文件设置的路径下，也可在创建数据库时单独指定存储路径。

数据库有一些描述性的属性信息，可以在创建时添加：

查看数据库的键值对信息

修改数据库的键值对信息

与mysql查询语句是一样的语法

删除一个空数据库，如果数据库下面有数据表，那么就会报错

强制删除数据库，包含数据库下面的表一起删除(请谨慎 *** 作)

[]里的属性为可选属性，不是必须的，但是如果有可选属性，会使 sql 语句的易读性更好，更标准与规范。

例如：[comment '字段注释信息'][comment '表的描述信息']等，[external]属性除外

1 CREATE TABLE

创建一个指定名字的表，如果相同名字的表已存在，则抛出异常提示：表已存在，使用时可以使用IF NOT EXISTS语句来忽略这个异常。

如果创建的表名已存在，则不会再创建，也不会抛出异常提示：表已存在。否则则自动创建该表。

2 EXTERNAL

顾名思义是外部的意思，此关键字在建表语句中让使用者可以创建一个外部表，如果不加该关键字，则默认创建内部表。

外部表在创建时必须同时指定一个指向实际数据的路径（LOCATION），Hive在创建内部表时，会将数据移动到数据仓库指向的路径；

若创建外部表，仅记录数据所在的路径，不对数据的位置作任何改变。

内部表在删除后，其元数据和数据都会被一起删除。

外部表在删除后，只删除其元数据，数据不会被删除。

3 COMMENT

用于给表的各个字段或整张表的内容作解释说明的，便于他人理解其含义。

4 PARTITIONED BY

区分表是否是分区表的关键字段，依据具体字段名和类型来决定表的分区字段。

5 CLUSTERED BY

依据column_name对表进行分桶，在 Hive 中对于每一张表或分区，Hive 可以通过分桶的方式将数据以更细粒度进行数据范围划分。Hive采用对列值哈希，然后除以桶的个数求余的方式决定该条记录存放在哪个桶当中。

6 SORTED BY

指定表数据的排序字段和排序规则，是正序还是倒序排列。

7 ROW FORMAT DELIMITED FIELDS TERMINATED BY ' '

指定表存储中列的分隔符，这里指定的是' '，也可以是其他分隔符。

8 STORED AS SEQUENCEFILE|TEXTFILE|RCFILE

指定表的存储格式，如果文件数据是纯文本格式，可以使用STORED AS TEXTFILE，如果数据需要压缩，则可以使用STORED AS SEQUENCEFILE。

9 LOCATION

指定 Hive 表在 hdfs 里的存储路径，一般内部表（Managed Table）不需要自定义，使用配置文件中设置的路径即可。

如果创建的是一张外部表，则需要单独指定一个路径。

1 使用create table语句创建表

例子：

2 使用create table as select语句创建表

例子：

使用 create table as select 语句来创建新表sub_student，此时sub_student 表的结构及表数据与 t_student 表一模一样，相当于直接将 t_student 的表结构和表数据复制一份到 sub_student 表。

注意：

(1) select 中选取的列名（如果是则表示选取所有列名）会作为新表 sub_student 的列名。

(2) 该种创建表的方式会改变表的属性以及结构，例如不能是外部表，只能是内部表，也不支持分区、分桶。

如果as select后的表是分区表，并且使用select ，则分区字段在新表里只是作为字段存在，而不是作为分区字段存在。

在使用该种方式创建时，create 与 table 之间不能加 external 关键字，即不能通过该种方式创建外部目标表，默认只支持创建内部目标表。

(3) 该种创建表的方式所创建的目标表存储格式会变成默认的格式textfile。

3使用like语句创建表

例子：

注意：

(1) 只是将 t_student 的表结构复制给 sub1_student 表。

(2) 并不复制 t_student 表的数据给 sub1_student 表。

(3) 目标表可以创建为外部表，即:

以上就是关于sqoop：导出MySQL数据至Hive时，数据中包含\001或\n等字符全部的内容，包括:sqoop：导出MySQL数据至Hive时，数据中包含\001或\n等字符、Hive如何建表，数据装载、大禹数据平台如何导出数据来源等相关内容解答，如果想了解更多相关内容，可以关注我们，你们的支持是我们更新的动力！

欢迎分享，转载请注明来源：

内存溢出

原文地址:

http://outofmemory.cn/sjk/9619565.html