sqoop将db2数据导入到hive中_java

sqoop import \ --connect jdbc:db2://5.19.6.xx:50000/tkdb \ --username dbname\ --password dbpwd \ --outdir '/tmp/' \ --delete-target-dir \ --table EPLAT.contract_csc \ --hive-import \ --hive-table tklaissdb.contract_csc \ --num-mappers 1 \ --target-dir '/user/hive/csv/hdfs/contract_csc' \ --fields-terminated-by '&&&' \ --hive-drop-import-delims \ --null-string '\N' --null-non-string '\N'

sqoop import \ --connect jdbc:db2://10.129.4.xxx:50000/tklodsdb \ --username dbname\ --password dbpwd \ --outdir '/tmp/test/' \ --query "select * from EPLAT.contract_csc where \$CONDITIONS limit 10 " \ --hive-import \ --hive-table tklaissdb.contract_csc \ --num-mappers 1 \ --map-column-java CONTENT=String \ --target-dir '/user/hive/csv/CSV_CONTRACT_CSC1' \ --delete-target-dir \ --fields-terminated-by '$' \ --lines-terminated-by '\n' \ --hive-drop-import-delims \ --null-string '\N' \ --null-non-string '\N'

sqoop import \ --connect jdbc:db2://10.129.4.xxx:50000/tklodsdb \ --username lifeuser --password T@ikanglifeuser \ --outdir '/tmp/sqoop/' \ --query "select * from CSC.rtrnpf_table where \$CONDITIONS and trim(glcode) = 'A212101' and trim(glsign) = '-' and trim(batctrcde) in ('T24','B54','TC2','T67') and trim(sacscode) = 'LP' and trim(sacstyp) = 'AS' and trim(batccoy) || substr(batccoy,1,8) <> '23232'" \ --hive-import \ --hive-table rs_tklaissdb.rtrnpf_csv \ --num-mappers 1 \ --target-dir '/user/hive/csv/RTRNPF_CSV' \ --delete-target-dir \ --fields-terminated-by '--1' \ '\n'lines-terminated-by -- \ import-delimshive-drop-[+++]

示例1(通过–table、 --hive-table)：

sqoop import \
--connect jdbc:db2://5.19.6.xx:50000/tkdb  \
--username dbname\
--password dbpwd \
--outdir '/tmp/' \
--delete-target-dir \
--table EPLAT.contract_csc \
--hive-import \
--hive-table tklaissdb.contract_csc \
--num-mappers 1 \
--target-dir '/user/hive/csv/hdfs/contract_csc' \
--fields-terminated-by '&&&' \
--hive-drop-import-delims \
--null-string '\N' 
--null-non-string '\N'

示例2（通过 --query）

sqoop import \
--connect jdbc:db2://10.129.4.xxx:50000/tklodsdb  \
--username dbname\
--password dbpwd \
--outdir '/tmp/test/' \
--query "select *  from EPLAT.contract_csc where \$CONDITIONS  limit 10 " \
--hive-import \
--hive-table tklaissdb.contract_csc \
--num-mappers 1 \
--map-column-java CONTENT=String \
--target-dir '/user/hive/csv/CSV_CONTRACT_CSC1' \
--delete-target-dir \
--fields-terminated-by '$' \
--lines-terminated-by '\n' \
--hive-drop-import-delims \
--null-string '\N' \
--null-non-string '\N'

示例3（通过 --query）:

sqoop import \
--connect jdbc:db2://10.129.4.xxx:50000/tklodsdb  \
--username lifeuser --password T@ikanglifeuser \
--outdir '/tmp/sqoop/' \
--query "select * from CSC.rtrnpf_table where \$CONDITIONS  and trim(glcode) = 'A212101' and trim(glsign) = '-' and trim(batctrcde) in ('T24','B54','TC2','T67') and trim(sacscode) = 'LP' and trim(sacstyp) = 'AS' and trim(batccoy) || substr(batccoy,1,8) <> '23232'"  \
--hive-import \
--hive-table rs_tklaissdb.rtrnpf_csv \
--num-mappers 1 \
--target-dir '/user/hive/csv/RTRNPF_CSV' \
--delete-target-dir \
--fields-terminated-by '--1' \
'\n'lines-terminated-by -- \
import-delimshive-drop-

sqoop参数解释：

–connect ：数据库连接串 jdbc:db2://5.19.6.108:50000/tklodsdb
–username：数据库用户名
–password：数据库用户密码
–query：SQL语句
–map-column-java:数据库字段在生成的java文件中会映射为各种属性，且默认的数据类型与数据库类型保持对应，比如数据库中某字段的类型为bigint，则在Java文件中的数据类型为long型，通过这个属性，可以改变数据库字段在java中映射的数据类型，格式如：–map-column-java
content=String,sid=Integer
–class-name:设定生成的Java文件指定的名称
-outdir:生成的java文件存放路径
–target-dir:指定hdfs路径
–delete-target-dir:如果hdfs目录存在会把目录删除
–fields-terminated-by:设定每个字段是以什么符号作为结束的，默认是逗号，也可以改为其它符号，如’|'，示例如：–fields-terminated-by ‘|’
–hive-drop-import-delims:在导入数据到hive中时，去掉数据中\n,\r和\01这样的字符
–input-null-string :可选参数，如果没有指定，则字符串null将被使用
–null-string:为字符串列的null指定值，例如:–null-string ‘\\N’,null表示为 ‘\\N’，否则为null
–null-non-string:为非字符串列的null指定值，例如:–null-string ‘\\N’,null表示为 ‘\\N’，否则为null
-m:表明需要使用几个map任务并发执行，默认4个，最好不要将数字设置为高于集群的节点数
–as-parquetfile：保存为parquet格式文件
-split-by : 表的列名，一般后面跟主键id
-columns ‘name’ #指定导入的列

使用过程中也碰到一些问题：
例如：
–query “select trim(glsign) as name，substr(batccoy,1,8) as batccoy from EPLAT.contract_csc where $CONDITIONS limit 10”
hive表字段 name string，batccoy string
本人测试了下是报错，不能导入hive的。有知道的大佬，还望告知，拜谢。

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/langs/728754.html

sqoop将db2数据导入到hive中

发表评论

评论列表（0条）